Skip to main content

moregeek program

实用五步法教会你指标体系的设计与加工_mb605311eb9631f的博客-多极客编程

今天我们来和大家聊一聊一个新话题,一个对于企业业务发展十分关键的东西 —— 指标。指标建设是衡量企业业务效果的主要依据,本文结合自身实践经验和大家分享指标的设计与加工过程,讲述其基础概念和设计加工方法,以及设计加工过程中的注意点,希望对感兴趣的同学有所帮助。一、指标建设的必要性1、什么是指标指标是客观描述某个事物某个特征的可量化的数字度量,如用户最近 30 天购买次数,某商品最近 30 天销售额等

Read More

字节跳动数据血缘图谱升级方案设计与实现_字节跳动数据平台的博客-多极客编程

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群数据地图平台是字节跳动内部的大数据检索平台,每天近万的字节员工在此查找所需数据。数据地图通过提供便捷的找数,理解数服务,大大节省了内部数据的沟通和建设成本。血缘图谱由 xGraph 与数据地图平台团队合作研发。xGraph 从 Dataleap 业务中孵化,从底至上完全自研,提供设计成熟的内置节点、连线、分组样式,

Read More

presto安装集成kerberos_江南独孤客的博客-多极客编程

解压presto-server包tar -zxvf presto-server-0.276.tar.gz件目录结构如下drwxr-xr-x 3 rong rong 4096 Mar 29 10:29 bindrwxrwxr-x 2 rong rong 12288 Mar 29 09:54 lib-rw-r--r-- 1 rong rong 191539 Mar 5 02:48 NOT

Read More

【日积录】~~~不断更新_wx63311348dcab6的博客-多极客编程

学习Vue 还会有一段时间,但是自己的脑容量有限,总是忘掉一些东西。因此,找一个专门的地方,记录一些可小可大的小点。已被不时之需。古人云:“无三不成礼”,又云“兽三为群,人三为众,女三为粲”。以此为开始吧。时间:2022年5月5日1、在Css里面使用@@被定义为src的别名,在CSS中使用,需要在@前面加上一个~2、token(令牌)token是由服务器下发,是一个用户的唯一标识。很多网站都在用t

Read More

(4)sparksql中如何定义udf和使用udf_nbi大数据的博客-多极客编程

Spark SQL中用户自定义函数,用法和Spark SQL中的内置函数类似;是saprk SQL中内置函数无法满足要求,用户根据业务需求自定义的函数。首先定义一个UDF函数:package com.udf;import org.apache.spark.sql.api.java.UDF1;import org.apache.spark.sql.api.java.UDF2;import org.a

Read More

基于 apache hudi 极致查询优化的探索实践_华为云开发者社区的博客-多极客编程

摘要:本文主要介绍 Presto 如何更好的利用 Hudi 的数据布局、索引信息来加速点查性能。本文分享自华为云社区《​​华为云基于 Apache Hudi 极致查询优化的探索实践!​​》,作者:FI_mengtao。背景湖仓一体(LakeHouse)是一种新的开放式架构,它结合了数据湖和数据仓库的最佳元素,是当下大数据领域的重要发展方向。华为云早在2020年就开始着手相关技术的预研,并落地在华为

Read More

dataleap的catalog系统近实时消息同步能力优化_字节跳动数据平台的博客-多极客编程

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群摘要字节数据中台DataLeap的Data Catalog系统通过接收MQ中的近实时消息来同步部分元数据。Apache Atlas对于实时消息的消费处理不满足性能要求,内部使用Flink任务的处理方案在ToB场景中也存在诸多限制,所以团队自研了轻量级异步消息处理框架,很好的支持了字节内部和火山引擎上同步元数据的诉求

Read More

chunjun&oceanbase联合方案首次发布:构建一体化数据集成方案_mb605311eb9631f的博客-多极客编程

8 月 27 日,ChunJun 社区与 OceanBase 社区联合组织的开源线下 Meetup 成功举办,会上重磅发布了「OceanBase&ChunJun:构建一体化数据集成方案」。这是 OceanBase&ChunJun 联合解决方案的首次发布,将针对分库分表的实时数据集成、跨集群 / 租户的数据集成、不同数据源的实时数据集成、日志类型数据的全增量一体化处理等诸多场景,提供

Read More

一文读懂,硬核 apache dolphinscheduler3.0 源码解析_mb61caba276363e的博客-多极客编程

点亮 ⭐️ Star · 照亮开源之路​​https://github.com/apache/dolphinscheduler​​本文目录1 DolphinScheduler的设计与策略1.1 分布式设计1.1.1 中心化1.1.2 去中心化1.2 DophinScheduler架构设计1.3 容错问题1.3.1 宕机容错1.3.2 失败重试1.4 远程日志访问2 DolphinScheduler

Read More

emr重磅发布智能运维诊断系统(emr doctor)——开源大数据平台运维利器_阿里云计算平台团队的博客-多极客编程

大数据运维的挑战—如何保证集群稳定与运行效率企业级大数据集群通常拥有海量的数据存储、日常运算成干上万的计算任务,需要满足各类上层业务的计算需求。对于这类集群的运维往往充满着挑战:海量的数据、庞杂的组件以及组件之间复杂的依赖关系、对于时效要求的的运算任务,都会提升运维难度。作为支撑平台,大数据集群的稳定性和运行效率,会直接影响到公司业务的正常运作和发展。集群管理员往往对整体集群做好了监控运维体系,对

Read More

一文带你体验mrs hetuengine如何实现跨源跨域分析_华为云开发者社区的博客-多极客编程

摘要: HetuEngine作为MRS服务中交互式分析&多源统一SQL引擎,亲自全程体验其如何实现多数据源的跨源跨域分析能力。本文分享自华为云社区《​​MRS HetuEngine体验跨源跨域分析【玩转华为云】​​》,作者:龙哥手记。HetuEngine作为MRS服务中交互式分析&多源统一SQL引擎,亲自全程体验其如何实现多数据源的跨源跨域分析能力。一场景完整描述1.1 首先说明下

Read More

如何设计企业级数据埋点采集方案?_字节跳动数据平台的博客-多极客编程

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群1.前言 埋点设计文档面向开发的埋点需求说明书,目的是让开发理解需要在什么情况下做哪些埋点采集,以及具体需要的属性参数类型、取值,确保采集的准确性和完善性。为实现整体指标体系,数据产品落地、使用,需要对开发进行埋点方案设计,利于日后统一管理,修改,维护。保证口径统一,可追溯,易理解。 埋点设计作为数据建设的重要组成

Read More

部署presto报presto requires java 8u151+ (found 1.8.0_144)解决方案_江南独孤客的博客-多极客编程

安装presto的时候,报jdk版本不兼容的问题解决方案,提示最低需要java 8u151及以上版本vim /data/presto/bin/launcher export JAVA_HOME=/opt/jdk1.8.0_151export PATH=$JAVA_HOME/bin:$PATHjava -versionexec "$(dirname "$0")/launcher.py" "$@" #

Read More

elasticsearch聚合学习之一:基本操作_github.com/zq2599的博客-多极客编程

欢迎访问我的GitHub 这里分类和汇总了欣宸的全部原创(含配套源码):https://github.com/zq2599/blog_demos 本篇概览 聚合是我们在使用elasticsearch服务时常用的功能,从本篇起,一起通过实战来学习和掌握聚合的有关知识; 关于聚合 通过搜索,我们可找到匹配查询条件的文档集; 通过聚合,我们会得到一个数据的概念,以汽车销售信息为例,以下都是聚合

Read More

开源交流丨一站式大数据平台运维管家chengying安装原理剖析_mb605311eb9631f的博客-多极客编程

本期我们带大家回顾一下漫路同学的直播分享《ChengYing 安装原理剖析》。本期内容多为实战演示,欢迎有兴趣的同学去 B 站配合视频观看,便于理解。一、ChengYing 安装原理ChengYing 安装主要分为下面八个模块的内容,下面为大家介绍一下每个模块主要能做的事情:1、主机编排一个组件包里面有很多服务,指定服务安装到哪些主机。2、冲突校验根据组件包之间的依赖关系,校验编排结果是否符合部署

Read More

终于有人把不同标签的加工内容与落库讲明白了丨dtvision分析洞察篇_mb605311eb9631f的博客-多极客编程

上一篇文章详细给大家介绍了标签的设计与加工,在标签生命周期流程中,标签体系设计完成后,便进入标签加工与上线运行阶段,一般来说数据开发团队会主导此过程,但我们需要关心以下几个问题:・标签如何快速创建和实现标签逻辑的在线化管理・业务人员怎么参与到标签建设流程中・百万级别的标签如何落表一、加工方式:传统 VS 在线当企业无标签系统时,一般由数据开发在离线数仓中完成标签的加工和运行,运营或市场同学需要某个

Read More

chunjun meetup演讲分享 | 基于袋鼠云开源框架的数仓一体化建设探索_mb605311eb9631f的博客-多极客编程

8 月 27 日,ChunJun 社区联合 OceanBase 社区举办开源线下 Meetup,围绕「构建新型的企业级数仓解决方案」主题,多位技术大牛和现场爱好者汇聚一堂,畅所欲言。会上,袋鼠云大数据引擎开发专家莫问精心准备了一场主题为「袋鼠云开源框架基于数仓的一体化建设探索」的分享,通过 “如何围绕数仓一体化建设进行探索”,“引进开源框架后如何解决建设难题”、“开源框架能够带来的收益” 三个开发

Read More

字节跳动a/b实验背后的秘密:样本量计算_字节跳动数据平台的博客-多极客编程

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群一、前言背景:AB实验具有一定前瞻性,统计性,科学性的特性。用好了就实现了在大数据时代的充分利用数据分析问题,解决问题,为决策提供强有力的依据,但是有时候用户在使用AB实验时候,会出现一些痛点和疑惑。痛点:每次实验需要多少流量实验时间开多长没有概念解决问题:为了验证某一个功能特性,一个实验需要开多少流量。一个实验需

Read More

实战elasticsearch6的join类型_github.com/zq2599的博客-多极客编程

欢迎访问我的GitHub 这里分类和汇总了欣宸的全部原创(含配套源码):https://github.com/zq2599/blog_demos 本篇概览 《Elasticsearch实战》(英文名Elasticsearch IN ACTION)是经典es教程,对应demo源码地址为:https://github.com/dakrone/elasticsearch-in-action ,最新

Read More

elasticsearch的字符串动态映射_github.com/zq2599的博客-多极客编程

欢迎访问我的GitHub 这里分类和汇总了欣宸的全部原创(含配套源码):https://github.com/zq2599/blog_demos 映射用来定义文档及其字段如何被存储和索引,文档写入es时,es可根据写入内容的类型自动识别,这种机制就是动态映射(Dynamic field mapping),本文关注的是写入内容为字符串时,该内容被识别的字段类型; 环境信息 操作系统:Ubu

Read More