标签(空格分隔): 大数据运维专栏
一:datasophon 的介绍
1.1 datasophon 的介绍
DataSophon是近日开源的一款国产自研大数据管理平台,致力于快速实现部署、管理、监控以及自动化运维大数据服务组件和节点的能力,帮助你快速构建起稳定、高效的大数据集群服务。
主要有以下特性:
极易部署,1小时可完成300节点的大数据集群部署
国产化兼容,兼容ARM服务器和常用国产
Read More
moregeek program
问题解决系列:spark.debug.maxtostringfields-多极客编程
问题场景使用spark 2.4.0进行统计数据,报错误,错误提示为:WARN Utils:66 - Truncated the string representation of a plan since it was too large. This behavior can be adjusted by setting 'spark.debug.maxToStringFields' in
Read More
Read More
算法环境jupyter安装及启动_江南独孤客的博客-多极客编程
设置密码jupyter notebook password设置配置文件jupyter notebook --generate-configc.NotebookApp.allow_root =Truec.NotebookApp.ip = '*'c.NotebookApp.open_browser = Falsec.NotebookApp.password='sha1:31aa1f72a166:6e5
Read More
Read More
centos7 搭建单机spark分布式集群_wx636d0c5e64939的博客-多极客编程
(目录)
1. JDK Hadoop Spark安装与配置
1.1 解压包
官网下载jdk、hadoop、sprak对应的包,注意版本
tar -zxvf jdk-8u241-linux-x64.tar.gz
tar -zxvf hadoop-3.2.2.tar.gz
tar -zxvf spark-3.2.0-bin-hadoop3.2.taz
1.2 配置环境变量
添加配置,注意文
Read More
Read More
spark on k8s 在阿里云 emr 的优化实践_阿里云计算平台团队的博客-多极客编程
导读: 随着大数据技术的发展,Spark 成为当今大数据领域最受关注的计算引擎之一。在传统的生产环境中,Spark on YARN 成为主流的任务执行方式,而随着容器化概念以及存算分离思想的普及,尤其是 Spark3.1 版本下该模式的正式可用(GA),Spark on K8s 已成燎原之势。今天的介绍会围绕下面两点展开:Spark on K8s 的基础概念和特性Spark on K8s 在阿里云
Read More
Read More
阿里云大数据开发三面面经,已过,面试题已配答案_蓦然的博客-多极客编程
1、SQL题自由发挥2、实习经历根据自己的来就行,一面面试题也有说3、Hadoop和Spark的相同点和不同点相同点:Hadoop和Spark都是并行计算,两者都是用MR模型进行计算。都提供了灾难恢复Hadoop将每次处理后的数据写入磁盘中,对应对系统错误具有天生优势。Spark的数据对象存储在弹性分布式数据集(RDD)中。这些数据对象既可放在内存,也可以放在磁盘,所以RDD也提供完整的灾难恢复功
Read More
Read More
阿里云大数据开发一面面经,已过,面试题已配答案_蓦然的博客-多极客编程
这份面试题时群里一位小伙伴分享的,我给这份面试题找了一些参考答案参考答案来源:大数据面试题V3.0,523道题,779页,46w字1、实习经历这一点就不多说了,每个人都不一样,根据自己的介绍就行。2、简单介绍wordcount先来看一张图具体各个阶段做了什么spliting :Documents会根据切割规则被切成若干块,map阶段:然后进行Map过程,Map会并行读取文本,对读取的单词进
Read More
Read More
一文读懂:开源大数据调度系统taier1.2版本新增的「工作流」到底是什么?_mb605311eb9631f的博客-多极客编程
一、什么是工作流?在阐述什么是工作流之前,先说一下工作流和普通任务的区别,在于依赖视图。普通任务本身他只会有自己的 dag 图,依赖视图是无边界的,不可控的,而工作流则是把整个工作流都展示出来,是有边界的,可控的,这是工作流的优势。下面为大家介绍工作流的相关功能:01 工作流 — 功能介绍● 虚拟节点虚拟节点,它是不产生任何数据的空跑节点(即调度到该节点时,系统直接返回成功,不会真正执行、不会占用
Read More
Read More
spark常规性能调优(二)_蓦然的博客-多极客编程
2、常规性能调优二:RDD优化1)RDD复用在对RDD进行算子时,要避免相同的算子和计算逻辑之下对RDD进行重复的计算,如下图所示对上图中的RDD计算架构进行修改,得到下图所示的优化结果2)RDD持久化在Spark中,当多次对同一个RDD执行算子操作时,每一次都会对这个RDD以之前的父RDD重新计算一次,这种情况是必须要避免的,对同一个RDD的重复计算是对资源的极大浪费,因此,必须对多次使用的R
Read More
Read More
spark常见数据倾斜情况及调优方案_蓦然的博客-多极客编程
1、数据倾斜Spark中的数据倾斜问题主要指shuffle过程中出现的数据倾斜问题,是由于不同的key对应的数据量不同导致的不同task所处理的数据量不同的问题例如,reduce点一共要处理100万条数据,第一个和第二个task分别被分配到了1万条数据,计算5分钟内完成,第三个task分配到了98万数据,此时第三个task可能需要10个小时完成,这使得整个Spark作业需要10个小时才能运行完成,
Read More
Read More
spark troubleshooting_蓦然的博客-多极客编程
1、故障排除一:控制reduce端缓冲大小以避免OOM在Shuffle过程,reduce端task并不是等到map端task将其数据全部写入磁盘后再去拉取,而是map端写一点数据,reduce端task就会拉取一小部分数据,然后立即进行后面的聚合、算子函数的使用等操作reduce端task能够拉取多少数据,由reduce拉取数据的缓冲区buffer来决定,因为拉取过来的数据都是先放在buffer中
Read More
Read More
(4)sparksql中如何定义udf和使用udf_nbi大数据的博客-多极客编程
Spark SQL中用户自定义函数,用法和Spark SQL中的内置函数类似;是saprk SQL中内置函数无法满足要求,用户根据业务需求自定义的函数。首先定义一个UDF函数:package com.udf;import org.apache.spark.sql.api.java.UDF1;import org.apache.spark.sql.api.java.UDF2;import org.a
Read More
Read More
【9.3-9.9】博客精彩回顾-多极客编程官方账号的博客-多极客编程
一、优秀文章推荐1.Linux进程控制2.java之递归算法精选3.Spark面试题——Spark容错机制4.[ Linux长征路第三篇 ] 权限理解5.python爬虫等获取实时数据+Flume+Kafka+Spark Streaming+mysql+Echarts实现数据动态实时采集、分析、展示6.超简单的Python教程系列7.Java
Read More
Read More
(2)sparkstreaming滚动窗口和滑动窗口演示_nbi大数据的博客-多极客编程
一、滚动窗口(Tumbling Windows) 滚动窗口有固定的大小,是一种对数据进行均匀切片的划分方式。窗口之间没有重叠,也不会有间隔,是“首尾相接”的状态。滚动窗口可以基于时间定义,也可以基于数据个数定义;需要的参数只有一个,就是窗口的大小(window size)。在sparkstreaming中,滚动窗口需要设置窗口大小和滑动间隔,窗口大小和滑动间隔都是StreamingContext的
Read More
Read More
spark面试题——spark容错机制_蓦然的博客-多极客编程
问过的一些公司:头条, 字节,阿里 x 3,腾讯,竞技世界参考答案:1、容错方式容错指的是一个系统在部分模块出现故障时还能否持续的对外提供服务,一个高可用的系统应该具有很高的容错性;对于一个大的集群系统来说,机器故障、网络异常等都是很常见的,Spark这样的大型分布式计算集群提供了很多的容错机制来提高整个系统的可用性。一般来说,分布式数据集的容错性有两种方式:数据检查点和记录数据的更新。面向大规模
Read More
Read More
spark面试题——spark的内存管理机制_蓦然的博客-多极客编程
在执行Spark 的应用程序时,Spark 集群会启动 Driver 和 Executor 两种 JVM 进程,前者为主控进程,负责创建 Spark 上下文,提交 Spark 作业(Job),并将作业转化为计算任务(Task),在各个 Executor 进程间协调任务的调度,后者负责在工作节点上执行具体的计算任务,并将结果返回给 Driver,同时为需要持久化的 RDD 提供存储功能。下方内容中的
Read More
Read More
提速 10 倍!深度解读字节跳动新型云原生 spark history server_字节跳动数据平台的博客-多极客编程
更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群前不久,在 6月29日 Databricks 举办的 Data + AI Summit 上,火山引擎向大家首次介绍了 UIMeta,一款致力于监控、分析和优化的新型云原生 Spark History Server,相比于传统的事件日志文件,它在缩小了近乎 10倍体积的基础上,居然还实现了提速 10倍!!!目前,UI
Read More
Read More
(1)sparkstreaming结合sparksql读取socket实时数据流_nbi大数据的博客-多极客编程
Spark Streaming是构建在Spark Core的RDD基础之上的,与此同时Spark Streaming引入了一个新的概念:DStream(Discretized Stream,离散化数据流),表示连续不断的数据流。DStream抽象是Spark Streaming的流处理模型,在内部实现上,Spark Streaming会对输入数据按照时间间隔(如1秒)分段,每一段数据转换为Spar
Read More
Read More
spark面试题——spark小文件问题_蓦然的博客-多极客编程
1、相关问题描述当我们使用spark sql执行etl时候出现了,可能最终结果大小只有几百k,但是小文件一个分区有上千的情况。这样就会导致以下的一些危害:hdfs有最大文件数限制;浪费磁盘资源(可能存在空文件);hive中进行统计,计算的时候,会产生很多个map,影响计算的速度。2、解决方案1) 方法一:通过spark的coalesce()方法和repartition()方法val rdd2 =
Read More
Read More
spark面试题——说下对rdd的理解?rdd特点、算子?_蓦然的博客-多极客编程
RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是 Spark 中最基本的数据处理模型。代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。RDD特点RDD表示只读的分区的数据集,对RDD进行改动,只能通过RDD的转换操作,由一个RDD得到一个新的RDD,新的RDD包含了从其他RDD衍生所必需的信息。RDDs之间存在依赖,RD
Read More
Read More