Skip to main content

moregeek program

spark常见数据倾斜情况及调优方案_蓦然的博客-多极客编程

1、数据倾斜Spark中的数据倾斜问题主要指shuffle过程中出现的数据倾斜问题,是由于不同的key对应的数据量不同导致的不同task所处理的数据量不同的问题例如,reduce点一共要处理100万条数据,第一个和第二个task分别被分配到了1万条数据,计算5分钟内完成,第三个task分配到了98万数据,此时第三个task可能需要10个小时完成,这使得整个Spark作业需要10个小时才能运行完成,

Read More

redis数据倾斜与jd开源hotkey源码分析揭秘_京东云官方的博客-多极客编程

1 前言之前旁边的小伙伴问我热点数据相关问题,在给他粗略地讲解一波redis数据倾斜的案例之后,自己也顺道回顾了一些关于热点数据处理的方法论,同时也想起去年所学习JD开源项目hotkey——专门用来解决热点数据问题的框架。在这里结合两者所关联到的知识点,通过几个小图和部分粗略的讲解,来让大家了解相关方法论以及hotkey的源码解析。2 Redis数据倾斜2.1 定义与危害先说说数据倾斜的定义,借用

Read More

Hive参数与性能企业级调优-多极客编程

Hive作为大数据平台举足轻重的框架,以其稳定性和简单易用性也成为当前构建企业级数据仓库时使用最多的框架之一。 但是如果我们只局限于会使用Hive,而不考虑性能问题,就难搭建出一个完美的数仓,所以Hive性能调优是我们大数据从业者必须掌握的技能。本文将给大家讲解Hive性能调优的一些方法及技巧。 Hive性能调优的方式 为什么都说性能优化这项工作是比较难的,因为一项技术的优化,必然是一项综合性的工

Read More

Spark SQL三种join和数据倾斜的产生和解决办法?#yyds干货盘点#-多极客编程

Spark SQL三种join Mysql 的 join怎么实现的?对于Spark来说有3中Join的实现,每种 Join对应着不同的应用场景: Broadcast Hash Join:适合一张较小的表和一张大表进行join Shuffle Hash Join :适合一张小表和一张大表进行join,或者是两张小表之间的join Sort Merge Join:适合两张较大的表之间进行 join

Read More

Hive SQL优化思路-多极客编程

Hive的优化主要分为:配置优化、SQL语句优化、任务优化等方案。其中在开发过程中主要涉及到的可能是SQL优化这块。 优化的核心思想是: 减少数据量(例如分区、列剪裁) 避免数据倾斜(例如加参数、Key打散) 避免全表扫描(例如on添加加上分区等) 减少job数(例如相同的on条件的join放在一起作为一个任务) 本文首发在公众号【五分钟学大数据】 HQL语句优化 1. 使用分区剪

Read More

万字详解 Spark 数据倾斜及解决方案-多极客编程

本文目录: 一、调优概述\二、数据倾斜发生时的现象\三、数据倾斜发生的原理\四、如何定位导致数据倾斜的代码\五、某个task执行特别慢的情况\六、某个task莫名其妙内存溢出的情况\七、查看导致数据倾斜的key的数据分布情况\八、数据倾斜的解决方案: 解决方案一:使用 Hive ETL 预处理数据 解决方案二:过滤少数导致倾斜的key 解决方案三:提高shuffle操作的并行度 解决方案四:两阶段

Read More

「Spark 从精通到重新入门(一)」Spark 中不可不知的动态优化-多极客编程

前言 Apache Spark 自 2010 年面世,到现在已经发展为大数据批计算的首选引擎。而在 2020 年 6 月份发布的Spark 3.0 版本也是 Spark 有史以来最大的 Release,其中将近一半的 issue 都属于 SparkSQL。这也迎合我们现在的主要场景(90% 是 SQL),同时也是优化痛点和主要功能点。我们 Erda 的 FDP 平台(Fast Data Pl

Read More

Spark面试题(五)——数据倾斜调优-多极客编程

Spark系列面试题 Spark面试题(一) Spark面试题(二) Spark面试题(三) Spark面试题(四) Spark面试题(五)——数据倾斜调优 Spark面试题(六)——Spark资源调优 Spark面试题(七)——Spark程序开发调优 Spark面试题(八)——Spark的Shuffle配置调优 1、数据倾斜 数据倾斜指的是,并行处理的数据集中,某一部分(如Spark或Kafka

Read More

第四范式OpenMLDB在金融风控数据库重计算优化实践-多极客编程

近日,在DataFunSummit:智能金融在线峰会上,第四范式平台架构师陈迪豪以《OpenMLDB风控数据库计算优化》为主题,重点介绍了第四范式开源机器学习数据库OpenMLDB在金融领域的应用,以及底层时序特征的处理、窗口的计算优化细节等,让用户可以理解风控数据库的技术架构,了解底层基于窗口的计算性能优化点,以及性能优化的实现细节。一.风控场景特征设计基于机器学习的智能风控数据库,逐渐取代了人

Read More