Skip to main content

moregeek program

flink-使用flink处理函数以及状态编程实现topn案例_枫糖的博客-多极客编程

7.5 应用案例-TopN 7.5.1 使用ProcessAllWindowFunction 场景 例如,需要统计最近10秒内最热门的两个url链接,并且每5秒 思路 使用全窗口函数ProcessAllWindowFunction开窗处理,使用HashMap来保存每个url的访问次数(通过遍历) 然后转成ArrayList,然后进行排序,取前两名输出即可 代码 数据源代码 pu

Read More

三大实例带你搞定 prometheus api 使用_linksla智能运维管家的博客-多极客编程

作为一位优秀的技术人员,往往能通过对数据的最大化利用来产生更多价值。而 Prometheus 的监控数据则是可以为我们所用的重要数据,它并不只能用于日常的监控和告警使用,也可以用于数据分析、成本管理等企业需求。在这种场景下,需要我们从 Prometheus 去获取相关的数据,并对其进行处理加工。关于数据的获取方法,通常会使用 Prometheus 提供的 API 来操作,本文将会对此进行讲解介绍。

Read More

算法环境jupyter安装及启动_江南独孤客的博客-多极客编程

设置密码jupyter notebook password设置配置文件jupyter notebook --generate-configc.NotebookApp.allow_root =Truec.NotebookApp.ip = '*'c.NotebookApp.open_browser = Falsec.NotebookApp.password='sha1:31aa1f72a166:6e5

Read More

zookeeper和chubby[分布式协调系统]_wx6369307062d07的博客-多极客编程

阅读目录前言ChubbyZookeeperZookeeper和Chubby的异同点前言大规模分布式系统需要解决各种类型的协调需求:当集群中有新的进程或服务器加入时,如何探测到它的加入?如何能够自动获取配置参数?当配置信息被某个进程或服务器改变时,如何实时通知整个集群中的其他机器?如何判断集群中的某台机器是否还存活 ?如何选举主服务器,主服务器宕机,如何从备选服务器中选出新的主服务器?以上问题的本质

Read More

cdh5部署三部曲之二:部署和设置_github.com/zq2599的博客-多极客编程

欢迎访问我的GitHub 这里分类和汇总了欣宸的全部原创(含配套源码):https://github.com/zq2599/blog_demos 本文是《CDH5部署三部曲》的第二篇,上一篇《CDH5部署三部曲之一:准备工作》将集群所有机器做了必要的设置,今天一起来完成CDH的部署、启动、设置等操作; master机器上的设置 SSH登录master机器,执行以下操作: 安装mariad

Read More

vivo大数据日志采集agent设计实践_vivo互联网技术的博客-多极客编程

作者:vivo 互联网存储技术团队- Qiu Sidi在企业大数据体系建设过程中,数据采集是其中的首要环节。然而,当前行业内的相关开源数据采集组件,并无法满足企业大规模数据采集的需求与有效的数据采集治理,所以大部分企业都采用自研开发采集组件的方式。本文通过在vivo的日志采集服务的设计实践经验,为大家提供日志采集Agent在设计开发过程中的关键设计思路。一、概述在企业大数据体系的建设过程中,数据的

Read More

cdh5部署三部曲之一:准备工作_github.com/zq2599的博客-多极客编程

欢迎访问我的GitHub 这里分类和汇总了欣宸的全部原创(含配套源码):https://github.com/zq2599/blog_demos 系列介绍 《CDH5部署三部曲》共三篇文章,对CDH5.7.2版本的准备、部署、启动、设置等环节进行实战,内容如下: 第一篇:《准备工作》,即CDH集群中每一台机器都要做的操作; 第二篇:《部署和设置》,本章完成CDH集群部署和启动;

Read More

cdh6.2.1的hive 2.1.1升级到2.3.9后的beeline报错处理_江南独孤客的博客-多极客编程

ERROR [main] org.apache.hadoop.hive.ql.exec.Utilities: Failed to load plan: hdfs://nameservice1/tmp/hive/hdfs/51655939-06db-4020-b7b8-122cc3af9c97/hive_2022-11-25_12-52-19_741_7496984142017234486-3/-m

Read More

一文详解gaussdb(dws) 的并发管控和内存管控_华为云开发者社区的博客-多极客编程

摘要:DWS的负载管理分为两层,第一层为cn的全局并发控制,第二层为资源池级别的并发控制。本文分享自华为云社区《​​GaussDB(DWS) 并发管控&内存管控​​》,作者: fighttingman。1背景这里将并发管控和内存管控写在一起,是因为内存管控实际是通过限制语句的并发达到内存管控的目的的。内存管控是基于语句的估算内存的前提下进行管控的,通俗的说就是语句有个估算内存,当资源池的剩

Read More

现代数据治理如何在网易数帆成功落地?_网易数帆技术社区的博客-多极客编程

导读:本文将分享网易数帆数据治理的发展过程,以及对现代数据治理的概念和理念的理解,提出现代数据治理应该与数据开发和消费很好地衔接,具备开发治理一体化、形成治理的闭环、仓内仓外统一治理和建立数据资产门户等核心特点。文章将从以下四个方面展开:网易数帆大数据简介统建中台:先设计后开发见招拆招:运动式治理治理体系:现代数据治理分享嘉宾|余利华 网易数帆 大数据产品线总经理编辑整理|许友昌 每日互动出品社区

Read More

​​​hdfs管理工具hdfs explorer ​​​_wx6369307062d07的博客-多极客编程

HDFS eXplorer安装:下载安装包:HDFS Explorer Installer.msi双机默认安装即可简单操作:1、配置链接:选择第一个 2、链接配置 注意这里链接的集群节点Namenode必须是active状态 如果配置错误就会报如下异常 链接配置的服务器必须是启动namenode服务,没有namenode服务配置链接报如下异常 2、功能清单2.

Read More

nifi+外部zookeeper集群部署 _qq604ad839511ed的博客-多极客编程

NIFI+外部zookeeper集群部署 1、配置jdk环境使用rpm -qa | grep jdk 指令查看服务器是否安装过jdk,这里一般用于卸载openjdk,[root@hadoop1 ~]# rpm -qa|grep java  1.1、openjdk卸载----卸载指令:[root@hadoop1 ~]# rpm -e --nodeps +安装包名 卸载使用这一行命令也可以卸载 

Read More

淘宝商品详情api接口,商品详情api接口接入说明_qq637b11931ef73的博客-多极客编程

为了进行此平台API的调用,首先我们需要做下面几件事情。1、 获取一个KEY。2、 参考API文档里的接入方式和示例。3、查看测试工具是否有需要的接口,响应实例的返回字段是否符合参数要求。4、利用平台的文档中心和API测试工具,对接口进行测试、程序获取。以下只是简单调用示例返回结果:{ "item": { "apiStack": [ { "name": "esi",

Read More

淘宝订单同步及解决方法_qq637b11931ef73的博客-多极客编程

背景订 单是卖家的核心数据,卖家的很多日常工作都是围绕着订单展开,应用的基本功能就是要保证订单实时、完整的展示在卖家面前。由于API请求依赖于网络,存在 着网络不稳定和同步时间长的问题,所以应用必须把淘宝的订单数据同步到本地。如何才能快速、完整的把订单同步到本地是本方案将要讨论的问题。名词解释在线订单:卖家三个月内已卖出的订单。增量订单:相对已经同步到本地的订单,凡是在淘宝上发生了变更的订单就是增

Read More

cdh6.3.1搭建教程_qq604ad839511ed的博客-多极客编程

⼀.准备⼯作1.离线部署主要分为三块:a.MySQL离线部署b.CM离线部署c.Parcel⽂件离线源部署2.规划:3.下载源:⽀持的版本 ⭐: requirements supported versionsCMcm6.3.1-redhat7.tar.gzParcelCDH-6.3.1-1.cdh6.3.1.p0.1470567-el7.parcelCDH-6.3.1-1.cdh6.3.1.p0.

Read More

一文了解 dataleap 中的 notebook_字节跳动数据平台的博客-多极客编程

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群概述Notebook 是一种支持 REPL 模式的开发环境。所谓「REPL」,即「读取-求值-输出」循环:输入一段代码,立刻得到相应的结果,并继续等待下一次输入。它通常使得探索性的开发和调试更加便捷。在 Notebook 环境,你可以交互式地在其中编写你的代码、运行代码、查看输出、可视化数据并查看结果,使用起来非常

Read More

hue添加水印功能_江南独孤客的博客-多极客编程

1.备份hue.makocp -rf /opt/cloudera/parcels/CDH/lib/hue/desktop/core/src/desktop/templates/hue.mako /opt/cloudera/parcels/CDH/lib/hue/desktop/core/src/desktop/templates/hue.mako.bak2.打开hue.mako文件vim /opt

Read More

为什么会产生yarn,解决了什么问题,优势?_蓦然的博客-多极客编程

简单来说,yarn是为了针对MRV1的各种缺陷提出来的资源管理框架详细介绍如下Hadoop 和 MRv1 简单介绍Hadoop 集群可从单一节点(其中所有 Hadoop 实体都在同一个节点上运行)扩展到数千个节点(其中的功能分散在各个节点之间,以增加并行处理活动)。图 1 演示了一个 Hadoop 集群的高级组件。一个 Hadoop 集群可分解为两个抽象实体:MapReduce 引擎和分布式文件系

Read More

字节跳动开源数据集成引擎 bitsail 的演进历程与能力解析_字节跳动数据平台的博客-多极客编程

导读BitSail 是字节跳动开源数据集成引擎,支持多种异构数据源间的数据同步,并提供离线、实时、全量、增量场景下全域数据集成解决方案,目前支撑了字节内部和火山引擎多个客户的数据集成需求。经过字节跳动各大业务线海量数据的考验,在性能、稳定性上得到较好验证。10 月 26 日,字节跳动宣布 BitSail 项目正式在 GitHub 开源,为更多的企业和开发者带来便利,降低数据建设的成本,让数据高效地

Read More

史上最全 jenkins pipeline流水线详解_mb6242cc9db1000的博客-多极客编程

原文链接:​​​https://zhangzhuo.ltd/articles/2022/06/04/1654333399919.html​​​一、什么是流水线jenkins 有 2 种流水线分为声明式流水线与脚本化流水线,脚本化流水线是 jenkins 旧版本使用的流水线脚本,新版本 Jenkins 推荐使用声明式流水线。文档只介绍声明流水线。1.1 声明式流水线在声明式流水线语法中,流水线过程定

Read More