Skip to main content

moregeek program

sreworks v1.4 版本发布 | 离线安装 & 前端重构-多极客编程

在 v1.3 版本之后,SREWorks 团队收集了较多的用户反馈,大家普遍对于 SREWorks 的内网离线安装有较大的诉求。于是团队决定进一步增强这部分的安装能力。前端工程部分 (frontend),为了开发者更加敏捷高效的协作开发,以及便于社区开发者参与共建前端组件生态。我们对前端工程架构进行了重新梳理拆分,按照 Monorepo 模式架构演进;同时也对工程构建相关工具进行了优化升级。下面为

Read More

字节电商大数据开发一面,已过,面试题已配答案-多极客编程

面试题答案参考​​大数据面试题V3.0,523道题,679页,46w字​​1、实习经历这点不多说了,根据自己的来就行2、工作中最难的点一般都会提前回顾之前自己遇到的问题,根据自己的来3、如何保证数据质量这里主要是阿里对数仓的一些数据质量保证原则1、数据质量保障原则阿里对数据仓库主要从四个方面评估数据质量1)完整性确保数据不存在缺失2)准确性确保数据不存在异常或错误3)一致性体现在从业务仓库加工到数

Read More

基于云原生的集群自愈系统 flink cluster inspector-多极客编程

作者: 舟柒、楼台1. 业务背景与挑战1.1 实时计算集群现状关于热点机器处理一直是阿里云 Flink 集群运维的一大痛点,不管在日常还是大促都已经是比较严重的问题,同时这也是分布式系统的老大难问题。而在今年整个阿里云成本控制的背景下,随着集群水位的逐步抬升,热点问题愈发严重。日均有上千次的热点机器出现,并且在晚上业务高峰期,整个热点持续时间会超过 60min,对于业务以及对于平台影响是比较大的。

Read More

深聊性能测试,从入门到放弃之:我只做了这几点,公司的架构师也对我刮目相看-多极客编程

​​1、引言​​​​2、 执行步骤​​​​2.1 测试确认​​​​2.2 通过标准​​​​2.3 测试设计​​​​2.4 数据准备​​​​2.5 处理问题​​​​3、总结​​1、引言接着上一篇《​​深聊性能测试,从入门到放弃之:性能测试如何做​​》,这篇我们看看,到底做到那几点,架构师也对我刮目相看。 我的都知道,普通BS架构的系统,一般都采用测试工具(如LR)直接录制手工操作的方式进行测试。 这

Read More

cdh+kylin三部曲之二:部署和设置_github.com/zq2599的博客-多极客编程

欢迎访问我的GitHub 这里分类和汇总了欣宸的全部原创(含配套源码):https://github.com/zq2599/blog_demos 本文是《CDH+Kylin三部曲》系列的第二篇,上一篇《CDH+Kylin三部曲之一:准备工作》已将所需的机器和文件准备完毕,可以部署CDH和Kylin了; 执行ansible脚本部署CDH和Kylin(ansible电脑) 进入ansible

Read More

mongodb mapreduce(七)_雍州无名的博客-多极客编程

mapReduce随着大数据概念而流行,从功能上来说,相当于RDBMS的group操作,mapReduce真正的强项在于分布式1.用mapReduce计算每个栏目的库存总量 var map = function(){ emit(this.cat_id,this.goods_number); }var reduce = f

Read More

cdh5部署三部曲之二:部署和设置_github.com/zq2599的博客-多极客编程

欢迎访问我的GitHub 这里分类和汇总了欣宸的全部原创(含配套源码):https://github.com/zq2599/blog_demos 本文是《CDH5部署三部曲》的第二篇,上一篇《CDH5部署三部曲之一:准备工作》将集群所有机器做了必要的设置,今天一起来完成CDH的部署、启动、设置等操作; master机器上的设置 SSH登录master机器,执行以下操作: 安装mariad

Read More

vivo大数据日志采集agent设计实践_vivo互联网技术的博客-多极客编程

作者:vivo 互联网存储技术团队- Qiu Sidi在企业大数据体系建设过程中,数据采集是其中的首要环节。然而,当前行业内的相关开源数据采集组件,并无法满足企业大规模数据采集的需求与有效的数据采集治理,所以大部分企业都采用自研开发采集组件的方式。本文通过在vivo的日志采集服务的设计实践经验,为大家提供日志采集Agent在设计开发过程中的关键设计思路。一、概述在企业大数据体系的建设过程中,数据的

Read More

现代数据治理如何在网易数帆成功落地?_网易数帆技术社区的博客-多极客编程

导读:本文将分享网易数帆数据治理的发展过程,以及对现代数据治理的概念和理念的理解,提出现代数据治理应该与数据开发和消费很好地衔接,具备开发治理一体化、形成治理的闭环、仓内仓外统一治理和建立数据资产门户等核心特点。文章将从以下四个方面展开:网易数帆大数据简介统建中台:先设计后开发见招拆招:运动式治理治理体系:现代数据治理分享嘉宾|余利华 网易数帆 大数据产品线总经理编辑整理|许友昌 每日互动出品社区

Read More

hadoop之初识mapreduce_chad_chang的博客-多极客编程

(初识MapReduce) 1.MapReduce计算模型介绍 1.1.理解MapReduce思想 MapReduce的思想核心是<font color=red>“分而治之”</font>。 所谓“分而治之”就是把一个复杂的问题按一定的“分解”方法分为规模较小的若干部分,然后逐个解决,分别找出各部分的解,再把把各部分的解组成整个问题的解。 这种朴素的思想来源于人们生活与工

Read More

spark on k8s 在阿里云 emr 的优化实践_阿里云计算平台团队的博客-多极客编程

导读: 随着大数据技术的发展,Spark 成为当今大数据领域最受关注的计算引擎之一。在传统的生产环境中,Spark on YARN 成为主流的任务执行方式,而随着容器化概念以及存算分离思想的普及,尤其是 Spark3.1 版本下该模式的正式可用(GA),Spark on K8s 已成燎原之势。今天的介绍会围绕下面两点展开:Spark on K8s 的基础概念和特性Spark on K8s 在阿里云

Read More

特征平台在数禾的建设与应用_阿里云计算平台团队的博客-多极客编程

本篇文章为数禾科技数据开发专家杨涵冰的演讲内容整理。主要内容包括:特征平台概览特征存储服务流批一体方案模型策略调用方案​​点击查看更多技术内容​​一、特征平台概览首先是特征平台的概览,整个特征平台分成四层,分别是数据服务、存储服务、计算引擎、原始存储。数据服务层提供向外的服务,主要包括四种:一是传统的 API 点查;二是圈选查询;三是事件消息;四是同步调用计算。其中同步调用计算服务是即时计算的,相

Read More

教你如何解决t+0的问题_华为云开发者社区的博客-多极客编程

摘要:T+0查询是指实时数据查询,数据查询统计时将涉及到最新产生的数据。本文分享自华为云社区《​​大数据解决方案:解决T+0问题​​》,作者: 小虚竹 。T+0问题T+0查询是指实时数据查询,数据查询统计时将涉及到最新产生的数据。在数据量不大时,T+0很容易完成,直接基于生产数据库查询就可以了。但是,当数据量积累到一定程度时,在生产库中进行大数据量的查询会消耗过多的数据库资源,严重时会影响交易业务

Read More

rocketmq flink catalog 设计与实践_阿里云计算平台团队的博客-多极客编程

摘要:本文为 RocketMQ Flink Catalog 使用指南。主要内容包括:Flink 和 Flink CatalogRocketMQ Flink ConnectorRocketMQ Flink Catalog作者:李晓双 ,Apache RocketMQ ContributorMentor:蒋晓峰,Apache RocketMQ Committer一、Flink 和 Flink Cata

Read More

一文读懂hbase_程序员路遥的博客-多极客编程

HBase是一个分布式、可扩展、支持海量数据存储的NoSQL数据库。底层物理存储是以Key-Value的数据格式存储的,HBase中的所有数据文件都存储在Hadoop HDFS文件系统上。一、主要组件HBase详细架构图解注意:HBase是依赖ZooKeeper和HDFS的,需要启动ZooKeeper和HDFS。1. Client提供了访问HBase的一系列API接口,如Java Native A

Read More

【gis开发】esri shapefile(.shp)矢量数据文件读取(c++、python)_爱看书的小沐的博客-多极客编程

1、简介 1.1 什么是Shapefile <font color=blue>ESRI Shapefile(shp),或简称shapefile,是美国环境系统研究所公司(ESRI)开发的一种空间数据开放格式。该文件格式已经成为了地理信息软件界的一个开放标准,这表明ESRI公司在全球的地理信息系统市场的重要性。 GIS 保留的数据大致分为栅格数据和矢量数据: 而矢量数据文件主要有如下

Read More

风控决策引擎——决策流构建实战_mb6225d2606028d的博客-多极客编程

引言 本篇主要聚焦介绍风控决策引擎中决策树编排能力的构建。决策引擎是风控的大脑,而决策树的编排能力和体验是构建大脑的手段,如何构建高效、丝滑、稳定可靠的决策树编排能力,是对风控决策引擎的一大挑战,本篇文章和大家分享一下过往构建心得。 背景 任何系统在初期构建肯定不是往“一步到位”的方向去构建的,只是架构设计者尽量向后期可扩展、可维护的方向去搭建。好的底层设计,不怕产品后期疯狂迭代,且改动调整方便。

Read More

【gis开发】openlayers入门学习(javascript库)_爱看书的小沐的博客-多极客编程

1、简介 官网地址: https://openlayers.org/ 源码地址: https://github.com/openlayers/openlayers OpenLayers是一个高性能、功能丰富的库,用于在 Web 上创建交互式地图。它可以在任何网页上显示从任何来源加载的地图瓦片、矢量数据和标记。OpenLayers 的开发旨在进一步使用各种地理信息。它是完全免费的开源 JavaS

Read More

爱番番企业查询结果优化实践_百度geek说的博客-多极客编程

作者 | summer导读:爱番番企业查询汇集了全网2亿+企业多维度全方位信息,使用开源全文搜索引擎Elasticsearch(下文简称ES)作为搜索平台,致力于让用户更快更准的找到所需企业,但怎样能让用户搜索到满意的符合预期的结果呢?本文将会讲述爱番番企业查询在检索结果优化方面的实践,期望与大家一同交流。全文3943字,预计阅读时间10分钟。01 初识数据同步,平台搭建省略,咱们直奔主题,本文中

Read More

(4)sparksql中如何定义udf和使用udf_nbi大数据的博客-多极客编程

Spark SQL中用户自定义函数,用法和Spark SQL中的内置函数类似;是saprk SQL中内置函数无法满足要求,用户根据业务需求自定义的函数。首先定义一个UDF函数:package com.udf;import org.apache.spark.sql.api.java.UDF1;import org.apache.spark.sql.api.java.UDF2;import org.a

Read More