Hive 与 Spark的爱恨情仇恩怨交织

最近在面试一些应聘大数据岗位的技术小伙伴时,发现不少朋友对业界 所谓的hive on spark和spark on hive分不太清楚;同时在日常工作中,也因为对这两个技术术语的理解不太一致,影响了进一步的技术交流。所以在这里,明哥想跟大家聊聊 hive 和 spark的爱恨情

Spark SQL性能提升17.7倍是怎样实现的?

Spark在该公司的大数据平台中主要用于海量用户数据分析,每天支撑稳定运行的Spark SQL统计分析指标和SQL脚本有几千个。但是在将Spark SQL用于海量用户数据分析的过程中,仍然面临着一些痛点,这些都限制了该公司语音云的数据分析能力。 l Spark的性能不仅

30分钟,将你的Spark SQL模型变为在线办事

SparkSQL在机器学习场景中应用 第四范式已经在很多行业落地了上万个AI应用,比如在金融行业的反欺诈,媒体行业的新闻推荐,能源行业管道检测,而SparkSQL在这些AI应用中快速实现特征变换发挥着重要的作用 半小时,将你的Spark SQL模型变为在线服务 SparkSQ

粉碎二八法则!每个数据科学家都得会一点SparkMagic

著名的帕累托法则,即80/20定律,告诉我们:原因和结果、投入和产出、努力和报酬之间存在着无法解释的不平衡。即使是21世纪最具吸引力的工作,数据科学依然逃不脱这一定律。 商业数据科学家80%的时间都花在查找、清洗和准备数据上,这是数据科学家工作中效

Spark日臻完善之小文件是否需要合并?

我们知道,大部分Spark计算都是在内存中完成的,所以Spark的瓶颈一般来自于集群(standalone, yarn, mesos, k8s)的资源紧张,CPU,网络带宽,内存。Spark的性能,想要它快,就得充分利用好系统资源,尤其是内存和CPU。有时候我们也需要做一些优化调整来减少

全面分析Apache Spark窗口功能

在此博客文章中,我们将深入探讨Apache Spark窗口函数。 您可能也对我之前有关Apache Spark的帖子感兴趣。 使用Apache Spark开始您的旅程-第1部分 使用Apache Spark开始您的旅程-第2部分 Apache Spark开始您的旅程-第3部分 深入研究Apache Spark DateTime

基于Kubernetes的Spark部署完全指南

副标题#e# 【金融特辑】光大****科技部DBA女神带你从0到1揭秘MGR 【编者的话】本文是在Kubernets上搭建Spark集群的操作指南,同时提供了Spark测试任务及相关的测试数据,通过阅读本文,你可以实践从制作Spark镜像、搭建Spark容器集群,到在集群上运行测试任

联系我们

联系我们

0577-28828765

在线咨询: QQ交谈

邮箱: xwei067@foxmail.com

工作时间:周一至周五,9:00-17:30,节假日休息

返回顶部