Skip to main content

moregeek program

​​​hdfs管理工具hdfs explorer ​​​_wx6369307062d07的博客-多极客编程

HDFS eXplorer安装:下载安装包:HDFS Explorer Installer.msi双机默认安装即可简单操作:1、配置链接:选择第一个 2、链接配置 注意这里链接的集群节点Namenode必须是active状态 如果配置错误就会报如下异常 链接配置的服务器必须是启动namenode服务,没有namenode服务配置链接报如下异常 2、功能清单2.

Read More

cdh重启换了namenode节点后,提示encountered exception loading fsimage_江南独孤客的博客-多极客编程

报错代码如下:Encountered exception loading fsimagejava.io.IOException: NameNode is not formatted. at org.apache.hadoop.hdfs.server.namenode.FSImage.recoverTransitionRead(FSImage.java:237) at org.apache.

Read More

hbase常用命令_雍州无名的博客-多极客编程

1.基本命令hbase shell #进入habasehelp #进入到hbase后,查看帮助status #查看数据库集群状态version #查看数据库版本list #查看数据库中所有的表describe 'tablename' #查看

Read More

一文读懂hbase_程序员路遥的博客-多极客编程

HBase是一个分布式、可扩展、支持海量数据存储的NoSQL数据库。底层物理存储是以Key-Value的数据格式存储的,HBase中的所有数据文件都存储在Hadoop HDFS文件系统上。一、主要组件HBase详细架构图解注意:HBase是依赖ZooKeeper和HDFS的,需要启动ZooKeeper和HDFS。1. Client提供了访问HBase的一系列API接口,如Java Native A

Read More

使用hadoop patch包修复的一次经历_江南独孤客的博客-多极客编程

原因:因为公司的平台的数据量在30P左右,使用了Hadoop3.1.2的版本,而且使用的纠删码功能,报错信息如下:java.io.IOException: Unexpected EOS from the readerat org.apache.hadoop.hdfs.StripeReader.readToBuffer(StripeReader.java:241)at org.apache.hado

Read More

基于emr的新一代数据湖存储加速技术详解_阿里云计算平台团队的博客-多极客编程

摘要:本文整理自阿里云开源大数据平台数据湖存储团队孙大鹏在7月17日阿里云数据湖技术专场交流会的分享。本篇内容主要分为两个部分:背景介绍JindoData 数据湖存储解决方案​​点击查看直播回放​​背景介绍大数据行业蓬勃发展,主要源自于通讯技术的发展,全球数据规模,预计2025年将增长到163ZB,相当于全球60亿人,平均每人27TB数据。数据量爆发式增长,使得企业拥有了更多数据资源。更多数据意味

Read More

presto安装集成kerberos_江南独孤客的博客-多极客编程

解压presto-server包tar -zxvf presto-server-0.276.tar.gz件目录结构如下drwxr-xr-x 3 rong rong 4096 Mar 29 10:29 bindrwxrwxr-x 2 rong rong 12288 Mar 29 09:54 lib-rw-r--r-- 1 rong rong 191539 Mar 5 02:48 NOT

Read More

一文读懂,硬核 apache dolphinscheduler3.0 源码解析_mb61caba276363e的博客-多极客编程

点亮 ⭐️ Star · 照亮开源之路​​https://github.com/apache/dolphinscheduler​​本文目录1 DolphinScheduler的设计与策略1.1 分布式设计1.1.1 中心化1.1.2 去中心化1.2 DophinScheduler架构设计1.3 容错问题1.3.1 宕机容错1.3.2 失败重试1.4 远程日志访问2 DolphinScheduler

Read More

从 hadoop 到云原生, 大数据平台如何做存算分离_wx630f055ce23fc的博客-多极客编程

Hadoop 的诞生改变了企业对数据的存储、处理和分析的过程,加速了大数据的发展,受到广泛的应用,给整个行业带来了变革意义的改变;随着云计算时代的到来, 存算分离的架构受到青睐,企业开开始对 Hadoop 的架构进行改造。今天与大家一起简单回顾 Hadoop 架构以及目前市面上不同的存算分离的架构方案,他们的利弊各有哪些,希望可以给正在存算分离架构改造的企业一些参考和启发。01 - Hadoop

Read More

数据湖架构及概念简介_阿里云计算平台团队的博客-多极客编程

摘要:本文整理自阿里云开源大数据技术专家陈鑫伟在7月17日阿里云数据湖技术专场交流会的分享。本篇内容主要分为两个部分:数据湖演进历程云原生数据湖架构一、数据湖演进历程什么是数据湖?数据湖概念于 2010 年提出,其目的是解决传统数据仓库和数据集市所面临的两个问题:其一,希望通过统一的元数据存储解决数据集市之间的数据孤岛问题;其二,希望存储原始数据,而非存储数据集市建设过程中经过裁剪后的数据,以避免

Read More

docker下,极速搭建spark集群(含hdfs集群)_github.com/zq2599的博客-多极客编程

欢迎访问我的GitHub 这里分类和汇总了欣宸的全部原创(含配套源码):https://github.com/zq2599/blog_demos 搭建spark和hdfs的集群环境会消耗一些时间和精力,处于学习和开发阶段的同学关注的是spark应用的开发,他们希望整个环境能快速搭建好,从而尽快投入编码和调试,今天咱们就借助docker,极速搭建和体验spark和hdfs的集群环境; 实战环

Read More

部署spark2.2集群(on yarn模式)_github.com/zq2599的博客-多极客编程

欢迎访问我的GitHub 这里分类和汇总了欣宸的全部原创(含配套源码):https://github.com/zq2599/blog_demos 机器规划 本次实战用到了三台CentOS7的机器,身份信息如下所示: IP地址 hostname(主机名) 身份 192.168.119.163 node0 NameNode、ResourceManager、HistoryServe

Read More

linux部署hadoop2.7.7集群_github.com/zq2599的博客-多极客编程

欢迎访问我的GitHub 这里分类和汇总了欣宸的全部原创(含配套源码):https://github.com/zq2599/blog_demos 在CentOS7环境下,hadoop2.7.7集群部署的实战的步骤如下: 机器规划; Linux设置; 创建用户和用户组 SSH免密码设置; 文件下载; Java设置; 创建hadoop要用到的文件夹; hadoop设置; 格式化hdfs; 启

Read More

第一个spark应用开发详解(java版)_github.com/zq2599的博客-多极客编程

欢迎访问我的GitHub 这里分类和汇总了欣宸的全部原创(含配套源码):https://github.com/zq2599/blog_demos WordCount是大数据学习最好的入门demo,今天就一起开发java版本的WordCount,然后提交到Spark2.3.2环境运行; 版本信息 操作系统:CentOS7; JDK:1.8.0_191; Spark:2.3.3; Scala

Read More

mma安装及使用优化_选手一号位的博客-多极客编程

1.背景 公司自建的Hadoop集群,后期使用阿里的Maxcompute,就需要迁移数据到新环境中,阿里提供众多的迁移方案,在经过我们的实践后,最终选择了MMA,迁移数据Hive到Maxcompute。 2.MMA介绍 MMA(MaxCompute Migration Assist)是一款MaxCompute数据迁移工具。 在 Hive 迁移至 MaxCompute 的场景下,MMA 实现了 Hi

Read More

hdfs、yarn、hive…mrs中使用ranger实现权限管理全栈式实践_华为云开发者社区的博客-多极客编程

摘要:Ranger为组件提供基于PBAC的鉴权插件,供组件服务端运行,目前支持Ranger鉴权的组件有HDFS、Yarn、Hive、HBase、Kafka、Storm和Spark2x,后续会支持更多组件。本文分享自华为云社区《​​MRS中使用Ranger实现权限管理全栈式实践​​》,作者:啊喔YeYe 。前置工作开通MRS 普通集群。​​免费试用30天​​安装集群客户端,并了解如何使用Ranger

Read More

kudu表数据备份还原说明​-多极客编程

文档目的​ods层kudu大表数据迁移到hive迁移步骤​先将数据从kudu备份到hdfs上,再从hdfs将数据还原到hive数据备份脚本​#!/bin/bashdt=`date "+%Y%m%d %H:%M:%S"`echo "$dt 开始数据备份!" >> ./backup.logsudo -u hdfs spark-submit --master yarn \ --class o

Read More

Hive跨集群和版本迁移-多极客编程

公司重新搭建CDH6.3.0,并把旧集群Hive1.1迁移新集群Hive2.1,记录一下过程。一. 迁移Hive数据和MySQL中的matastore通过DistCp拷贝Hive数据到新集群,并从MySQL中导出Hive的元数据上传到新集群,最后在新集群MySQL中导入Hive元数据,并更新Hive版本,修改信息。1. 迁移Hive数据和MySQL中的matastore版本差异大,使用htfpha

Read More

大数据笔记(五):HDFS权限和Java的api使用-多极客编程

HDFS权限和 Java的api使用前言博主语录:一文精讲一个知识点,多了你记不住,一句废话都没有经典语录:别在生活里找你想要的,要去感受生活里发生的东西一、HDFS的权限1、启蒙案例Permission    Owner    Group        Size    Replication    Block Size    Name drwxr-xr-x      root    superg

Read More

都2022年了,HDFS为何还如此能战!-多极客编程

摘要:HDFS也许不是最好的大数据存储技术,但依然是最重要的大数据存储技术。本文分享自华为云社区《​​HDFS为何在大数据领域经久不衰?​​》,作者: JavaEdge。1、概述1.1 简介Hadoop实现的一个分布式文件系统(Hadoop Distributed File System),简称HDFS源自于Google的GFS论文,发表于2003年,HDFS是GFS的克隆版大数据中最宝贵、最难以

Read More