标签(空格分隔): 大数据运维专栏
一:datasophon 的介绍
1.1 datasophon 的介绍
DataSophon是近日开源的一款国产自研大数据管理平台,致力于快速实现部署、管理、监控以及自动化运维大数据服务组件和节点的能力,帮助你快速构建起稳定、高效的大数据集群服务。
主要有以下特性:
极易部署,1小时可完成300节点的大数据集群部署
国产化兼容,兼容ARM服务器和常用国产
Read More
moregeek program
hadoop中namenode职责和hdfs读写-多极客编程
1、namenode职责:1.1、管理各个datanode节点1.2、管理分布式文件系统的元数据信息比如 一个文件多大,文件名,文件被切成几块,每个文件块存到哪台datanode服务上1.3、通过RPC心跳机制来监控datanode的状态。对于网络通信,http主外,rpc主内1.4、为了确保数据存储的可靠性,采用冗余机制来实现,注意:副本数量不宜过多,因为会降低整个集群的磁盘利用率,一般采用3副
Read More
Read More
hdfs,mapreduce,yarn的架构思想和设计原理-多极客编程
Hadoop 三大组件:HDFS,MapReduce,Yarn 的架构分析和原理1引子 大数据就是将各种数据统一收集起来进行计算,发掘其中的价值。这些数据,既包括数据库的数据,也包括日志数据,还包括专门采集的用户行为数据;既包括企业内部自己产生的数据,也包括从第三方采购的数据,还包括使用网络爬虫获取的各种互联网公开数据 ... 面对如此庞大的数据,如何存储、如何有效利用
Read More
Read More
hadoop概述-多极客编程
官方网址:http://hadoop.apache.org/Welcome to Apache™ Hadoop®!What Is Apache Hadoop?The Apache™ Hadoop® project develops open-source software for reliable, scalable, distributed computing.The Apache Ha
Read More
Read More
hadoop中的mapreduce框架-多极客编程
一个MapReduce作业通常会把输入的数据集切分为若干独立的数据块,由Map任务以完全并行的方式去处理它们。 框架会对Map的输出先进行排序,然后把结果输入给Reduce任务。通常作业的输入和输出都会被存储在文件系统中,整个框架负责任务的调度和监控,以及重新执行已经关闭的任务。 通常,MapReduce框架
Read More
Read More
hadoop中mapreduce配置-多极客编程
一,配置mapred-site.xml进入以入目录[root@hadoop01 hadoop]# cd /home/software/hadoop-2.7.1/etc/hadoop复制mapred-site.xml示例文件[root@hadoop01 hadoop]# cp mapred-site.xml.template mapred-site.xml修改mapred-site.xml,增加如下
Read More
Read More
hdfs的常用指令-多极客编程
指令说明hadoop fs -mkdir /park01在hdfs根目录下创建文件夹park01hadoop fs -ls /查看hdfs根目录下有哪些目录或文件hadoop fs -put /root/1.txt /park01将linux操作系统root目录下的1.txt放在hdfs的park01目录下hadoop fs -get /park01/jdk /home把hdfs文件系统下par
Read More
Read More
hdfs特点:-多极客编程
1,分布式存储团叶槲蕨,支持海量数据存储。(GB、TB、PB级别数据)2,高容错性,数据拥有多个副本(副本冗余机制)。副本丢失后,自动恢复。3,低成本部署,hadoop可在廉价的服务器上4,能够检测和快速应对硬件故障,通过RPC心跳机制来实现5,简化的一致性模型,这里指的是用户在使用HDFS时,所有关于文件相关的操作,如文件切块、块的复制、块的存储等细节并不需要去关注,所有的工作都已被框架封装完毕
Read More
Read More
hdfs细节-多极客编程
DFS架构图 知识点1.HDFS Hadoop Distributed File System Hadoop的分布式文件系统,可以存储海量数据(文件,图片,影音等),实际工作中,一般存储的都是用户的访问日志(.txt)2.HDFS之所以能够存储海量数据,原因是一个可扩展的分布式架构,硬盘存储空间不够,加服务器即可。3.HDFS是基于Google的一篇论文《Google File Syste
Read More
Read More
hadoop--hdfs特点-多极客编程
1,分布式存储团叶槲蕨,支持海量数据存储。(GB、TB、PB级别数据)2,高容错性,数据拥有多个副本(副本冗余机制)。副本丢失后,自动恢复。3,低成本部署,hadoop可在廉价的服务器上4,能够检测和快速应对硬件故障,通过RPC心跳机制来实现5,简化的一致性模型,这里指的是用户在使用HDFS时,所有关于文件相关的操作,如文件切块、块的复制、块的存储等细节并不需要去关注,所有的工作都已被框架封装完毕
Read More
Read More
工业数据分析为什么要用fusioninsight mrs iotdb?-多极客编程
摘要:MRS IoTDB,它是华为FusionInsight MRS大数据套件中的时序数据库产品,在深度参与Apache IoTDB社区开源版的基础上推出的高性能企业级时序数据库产品。本文分享自华为云社区《工业数据分析为什么要用FusionInsight MRS IoTDB?》,作者:高深广 。随着工业互联网逐步兴起,在加速工业自动化、智能化的同时,也进一步加速工业生产时间序列数据的产生速
Read More
Read More
海量监控数据处理如何做,看华为云sre案例分享-多极客编程
摘要:openGemini的设计和优化都是根据时序数据特点而来,在面对海量运维监控数据处理需求时,openGemini显然更加有针对性。IT运维诞生于最早的信息化时代。在信息化时代,企业的信息化系统,主要为了满足企业内部管理的需求。通常是集中、可控和固化的烟囱式架构。传统IT运维,以人力运维为主,在单点式和烟囱式的架构中,的确起到了非常重要的作用。我们知道,传统运维模式关注的是单台IT设备的故障率
Read More
Read More
cdh+kylin三部曲之三:kylin官方demo_github.com/zq2599的博客-多极客编程
欢迎访问我的GitHub
这里分类和汇总了欣宸的全部原创(含配套源码):https://github.com/zq2599/blog_demos
本文是《CDH+Kylin三部曲》系列的终篇,先简单回顾前面的内容:
《CDH+Kylin三部曲之一:准备工作》:准备好机器、脚本、安装包;
《CDH+Kylin三部曲之二:部署和设置》:完成CDH和Kylin部署,并在管理页面做好相关的设置;
Read More
Read More
flink同步kafka数据到clickhouse分布式表_大数据技术派的博客-多极客编程
我的gitee地址:https://gitee.com/ddxygq/bigdata-technical-pai
业务需要一种OLAP引擎,可以做到实时写入存储和查询计算功能,提供高效、稳健的实时数据服务,最终决定ClickHouse。
什么是ClickHouse?
ClickHouse是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。
列式数据库更适合于OLAP场景(对于大多数
Read More
Read More
flink sql管理平台flink-streaming-platform-web安装搭建_大数据技术派的博客-多极客编程
我的gitee地址:https://gitee.com/ddxygq/bigdata-technical-pai
最近看到有人在用flink sql的页面管理平台,大致看了下,尝试安装使用,比原生的flink sql界面确实好用多了,我们看下原生的,通过bin/sql-client.sh命令进入那个黑框,一只松鼠,对,就是那个界面。。。。
这个工具不是Flink官方出的,是一个国内的小伙伴写的
Read More
Read More
三大实例带你搞定 prometheus api 使用_linksla智能运维管家的博客-多极客编程
作为一位优秀的技术人员,往往能通过对数据的最大化利用来产生更多价值。而 Prometheus 的监控数据则是可以为我们所用的重要数据,它并不只能用于日常的监控和告警使用,也可以用于数据分析、成本管理等企业需求。在这种场景下,需要我们从 Prometheus 去获取相关的数据,并对其进行处理加工。关于数据的获取方法,通常会使用 Prometheus 提供的 API 来操作,本文将会对此进行讲解介绍。
Read More
Read More
算法环境jupyter安装及启动_江南独孤客的博客-多极客编程
设置密码jupyter notebook password设置配置文件jupyter notebook --generate-configc.NotebookApp.allow_root =Truec.NotebookApp.ip = '*'c.NotebookApp.open_browser = Falsec.NotebookApp.password='sha1:31aa1f72a166:6e5
Read More
Read More
cdh5部署三部曲之二:部署和设置_github.com/zq2599的博客-多极客编程
欢迎访问我的GitHub
这里分类和汇总了欣宸的全部原创(含配套源码):https://github.com/zq2599/blog_demos
本文是《CDH5部署三部曲》的第二篇,上一篇《CDH5部署三部曲之一:准备工作》将集群所有机器做了必要的设置,今天一起来完成CDH的部署、启动、设置等操作;
master机器上的设置
SSH登录master机器,执行以下操作:
安装mariad
Read More
Read More
cdh5部署三部曲之一:准备工作_github.com/zq2599的博客-多极客编程
欢迎访问我的GitHub
这里分类和汇总了欣宸的全部原创(含配套源码):https://github.com/zq2599/blog_demos
系列介绍
《CDH5部署三部曲》共三篇文章,对CDH5.7.2版本的准备、部署、启动、设置等环节进行实战,内容如下:
第一篇:《准备工作》,即CDH集群中每一台机器都要做的操作;
第二篇:《部署和设置》,本章完成CDH集群部署和启动;
Read More
Read More
一文详解gaussdb(dws) 的并发管控和内存管控_华为云开发者社区的博客-多极客编程
摘要:DWS的负载管理分为两层,第一层为cn的全局并发控制,第二层为资源池级别的并发控制。本文分享自华为云社区《GaussDB(DWS) 并发管控&内存管控》,作者: fighttingman。1背景这里将并发管控和内存管控写在一起,是因为内存管控实际是通过限制语句的并发达到内存管控的目的的。内存管控是基于语句的估算内存的前提下进行管控的,通俗的说就是语句有个估算内存,当资源池的剩
Read More
Read More