自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

是故事啊~关注我~

获取更多大数据技术文章干货~

  • 博客(91)
  • 资源 (1)
  • 收藏
  • 关注

原创 K8S集群的详细安装步骤大数据教程

Kubernetes是一个可移植的,可扩展的开源平台,用于管理容器化的工作负载和服务,可促进声明式配置和自动化。它拥有一个庞大且快速增长的生态系统。Kubernetes的服务,支持和工具使用的非常广泛。Google在2014年开源Kubernetes项目。Kubernetes将超过15年的Google在大规模生产工作负载方面的经验与社区中最好的想法和实践相结合。1.安装环境注意:以下步骤均以root权限操作1.1 服务器准备三台系统是Centos7.5阿里服务器要求机器以下配置1.1.1 .

2021-03-03 13:35:29 4931 3

原创 全网史上最详细全面的CDH安装流程和环境配置(建议收藏+关注)

详细全面的CDH安装流程和环境配置

2021-01-22 10:54:25 2432 7

原创 kafka-manager之功能强大适合运维的的滴滴开源插件kafkamanager

滴滴的开源插件相比雅虎的CMAK(kafkamanager),功能更丰富,个人感觉更适合运维人员的使用。 首先管控平台主要有两种用户视角,分别为:普通用户:站在使用Kafka的角度使用kafka-manager; 管理员:站在使用与管理Kafka的角度在使用kafka-manager;下面我们将从这两个用户的维度说明平台的功能及使用。1. 普通用户篇1.1 帐...

2020-06-01 10:35:46 3590 4

原创 一站式Kafka监控管理平台KafkaCenter

最近在做kafka监控管理的插件调研,今天主要是写一下优秀的开源插件之KafkaCenter,git地址在文末。一张图总览一下kafkaCenterKafkaCenter是什么?KafkaCenter是Kafka 集群管理和维护,生产/消费监控,生态组件使用的统一一站式平台。KafkaCenter 解决了什么问题在给大家说我们解决什么问题之前,先说说在没有KafkaCe...

2020-06-01 10:35:25 3486

原创 Elasticsearch集群配置TLS加密通信及身份验证

官方宣布从6.8和7.1开始,免费提供多项安全功能。其中包括tls加密通信,基于角色访问控制等功能。可以使用企业CA证书来完成这一步骤,但是一般情况下,我们可以通过elasticsearch自带的elasticsearch-certutil的命令生成证书。然后各节点通过该证书可以进行安全通信。为节点创建证书TLS:TLS协议要求Trusted Certificate Authority(CA...

2020-04-11 09:47:57 2304

原创 Elasticsearch安装head插件史上最全最详细步骤

由于head插件本质上还是一个nodejs的工程,因此需要安装node,使用npm来安装依赖的包。前期工作准备环境1.安装xzyum install -y xz2.安装node1.使用wget https://nodejs.org/dist/v10.16.3/node-v10.16.3-linux-x64.tar.xz下载压缩包;2.使用tar -xJf node-v10.1...

2020-04-09 17:40:13 1532

原创 【项目经验】产研流程(超级详细的步骤)

项目立项-——定需求——Sprint需求宣讲会——技术方案——技术方案评审会——开发及单元测试——测试用例评审会——提测——测试——Sprint评审会——发版——Sprint复盘会。

2023-08-04 10:04:20 411

原创 [PM]敏捷开发之Scrum总结

在项目管理中,不少企业和项目团队也发现传统的项目管理模式已不能很好地适应今天的项目环境的要求。因此,敏捷项目管理应运而生,本文将为大家介绍Scrum敏捷项目管理以及应用方法。Scrum方法的特点是强调沟通,要求团队所有人坐在一起工作,通过高效沟通解决问题。其简单、持续集成、不断交付、价值优先、拥抱变化的原则,在面对时刻变化的市场经济和不断发展的技术时变得十分友好。(1)具有高适应性,鼓励变更拥抱变化市场在变化,用户的期望和要求也会随着这些因素的变化而变化。

2023-08-03 10:53:23 819 1

原创 【项目管理个人见解】

1. 我们必须清楚客户做这个项目的目标是什么。2. 然后针对客户的目标划分工作范围,以求达成一致。3. 范围说明书。它包括前言、项目概述、产品范围、双方职责、交付成果、验收标准和流程、项目的约束条件、项目的假设条件、变更流程。这玩意很好用,可以让项目经理能更加清楚自己的每一步工作,要达到什么样的效果,能够达到让客户用好,而不是客户用起来就好。

2023-08-02 10:25:53 229

原创 在python3中将集合写入输出文件在读进来遇到的问题

在python3中将集合写入输出文件在读进来遇到的问题

2023-07-04 18:38:28 212

原创 白嫖甲骨文服务器(Oracle Cloud)开启root用户登录

服务器默认使用秘钥方式登录,有些麻烦,所以切换成密码登录,具体方式如下。

2023-05-04 13:30:10 1508 1

原创 Hive sql 将多个字段组合成json格式

新的项目中,有一个需求,前端展示一个字段中要包含多个字段,讨论后决定将多个字段转成Json类型进行展示,新字段类型为。经历了多次试验,参考多个文章版本,终于改成了符合需求的SQL版本。

2022-12-19 16:26:38 2824

原创 Spark常见报错与解决方案【三】

原因:数据量太大,内存不够解决方案:(1)增大spark.executor.memory的值,减小spark.executor.cores(2)减少输入数据量,将原来的数据量分几次任务完成,每次读取其中一部分原因:(1)节点上运行的container多,每个任务shuffle write到磁盘的量大,导致磁盘满,节点重启(2)节点其他服务多,抢占内存资源,NodeManager处于假死状态解决方案:(1)确保节点没有过多其他服务进程(2)扩大磁盘容量(3)降低内存可分配量,比如为总内存的90%,

2022-12-07 16:19:43 3907

原创 Hive SQL中的lateral view explode 函数使用避坑指南

1.函数说明EXPLODE(col):将hive一列中复杂的array或者map结构拆分成多行。 [爆炸, 炸裂]LATERAL VIEW :一入多出用法:from 表 lateral view explode(集合字段) 炸裂表名(随便写) as 别名;解释:用于和split, explode等UDTF一起使用,它能够将一列数据拆成多行数据,在此基础上可以对拆分后的数据进行聚合。实例:moviecategory《疑犯追踪》悬疑,动作,科幻,剧情《Lie to me》悬疑,警匪,动作,心理,

2022-12-03 14:11:20 908

原创 Hive中split函数用法,切分多个分隔符分割字符串

在处理数据时,发现存入的字段数据分隔符多种多样,包含了英文逗号,中文逗号,中文顿号等奇葩符号混杂在数据中,可以使用split函数进行切分。

2022-11-22 14:27:39 3366

原创 Kafka_2.12-2.1.0+Zookeeper-3.4.13集群部署详细教程

安装kafka和zookeeper教程。

2022-11-10 10:04:27 1048

原创 [项目管理] IT软件交付项目流程阶段

客户经理主导销售,参与招投标或者与甲方谈判,签订合同,或者在需要的情况下提前内部立项,最终确定项目经理。上线后协调客户进行初验,并线上支持、解决遗留问题,完成项目验收,协调干系人进行项目总结。完成项目准备工作,内部立项,主要负责人转换为项目经理,实施项目组正式成立。完成并交付合同约定的产品或服务,确保经过测试、可运行、如期交付、成功上线。上线方案、评审报告,上线申请、上线验证测试报告、数据对比报告、上线完成报告。组建项目团队,明确项目组成员、组织架构、规章制度。项目总结,复盘会,兑现激励,评估绩效。

2022-11-03 11:19:24 4348

原创 hive将表中数据分组、然后将每行数据的两个字段拼接成json字符串,放到array里

2、collect_set 可以将分组后的数据一条一条收集成一个array,而且会去除重复数据。使用了hive中的3个函数,concat、collect_set、sort_array。3、sort_array 可以对一个array中的所有元素进行字典序排序。1、cancat 可以将多个字符串连接。

2022-10-28 17:30:18 1885

原创 Hive Left join on 与Where 优先级问题讨论2

1.对于a表 left join b表 ,过滤条件在on中:忽略a表的过滤条件,b表的过滤条件只会导致不满足条件的记录在b表的所有字段上都为空;过滤条件在where中:过滤掉所有不满足条件的记录。2.left join时on中条件无过滤记录作用,后做where条件过滤记录。on 优先级高于 where。SQL1:1543888条。SQL3:1543888条。SQL3 不做过滤空值。SQL2:85756条。

2022-10-28 16:25:59 793

原创 项目经理需要具备的自身修养

优秀的代码,我们通过观察代码的结构,代码的内容,注视就能很轻松的知道代码的用处和逻辑;所以也出现一些莫名其妙的问题,所以为了避免后期的高维护成本,我们在前期的开发过程中就要控制,进行代码的审核;分析项目的场景,项目是如何应用的,我们可以试着去想象这样的一个场景,并将这种应用的场景描绘出来,这其中我们要遵循合理的原则,即这样应用合不合理,有没有达到效果。Code Design:编写代码的时候一定要有设计,前面你做了方案的分析,但是到了具体的代码可能跟方案还是有些差别,所在在写代码之前,一定要做Design。

2022-10-10 15:25:33 343

原创 IT项目经理面试题分解

ps:这个主要是考察你的项目经验是否真实?是否对做过的项目有深层次的了解?并且验证一下你的沟通能力,对一个陌生人讲解这个项目并且让他能听懂,这种问题根据项目的情况实话实说就好。如果跟上家公司签了保密协议,这里跟面试官说明具体数据存在保密问题不能透露项目背景是什么?解决什么问题(项目目标)?这个项目的价值是什么(或利润点)?面向的用户都有谁?项目金额多大?有多少人一起完成?这些人怎么分工?项目周期是多久?具体工作详细讲述,根据自己项目情况说明就好。

2022-10-10 15:22:34 4042

原创 超全的正则表达式速查手册,运维赶快收藏!

备注:这就是最终结果了,别忘了+可以用*替代如果你觉得空字符串也可以接受的话(奇怪,为什么?一个0或者一个不以0开头的数字.我们还可以允许开头有一个负号:^(0|-?[1-9][0-9]*)$) (可以用来删除行首行尾的空白字符(包括空格、制表符、换页符等等),非常有用的表达式)(网上流传的版本太糟糕,上面这个也仅仅能部分,对于复杂的嵌套标记依旧无能为力)/[\u4E00-\u9FA5]/ 汉字。/[\uFF00-\uFFFF]/ 全角符号。/[\u0000-\u00FF]/ 半角符号。

2022-09-26 15:28:30 142

原创 数据治理之数据质量管控流程(参考)

(1)数据质量管理人员发现数据差错应及时核对核实,根据核对核实情况填写数据问题处理单,描述数据质量问题的现状、原因和改正、预防措施。数据质量检查的范围等方面的内容。定期抽查的范围必须包括可信等级为一级的所有主题数据,可信等级为二级的二个主题的数据,可信等级为三级的一个主题的数据。数据校验确保每天加载的增量数据的完整性、准确性,在此基础上,数据质量管理小组必须每季度组织一次数据仓库的定期抽查。数据仓库每天都有很多ETL任务定时执行加载数据,确保ETL加载数据的完整性、准确性是数据质量管理的基本要求。...

2022-08-29 13:58:31 1609

原创 数据治理之数据质量评估办法(参考)

通过对数据质量问题频率的考评和等级划分,就可以从数据仓库众多的数据中解放出来,集中精力把有限的资源投入到需要重点关注的主题数据。通过这些方法方法,可以对单个数据点的数据准确性进行检查,及时发现数据质量问题。本表的字段与其它表中的字段具有相同的业务含义,从不同的维度统计,存在汇总关系,且两张表的数据不是经同一数据源加工得到。确定一定时期内指标数据合理的变动区间,对区间外的数据进行重点审核。对于数据表中按日期进行增量加载的数据,每个加载周期递增的记录数为常数值或可以确定的范围时,必须进行记录条数检验。...

2022-08-29 13:55:57 4908

原创 数据治理建设管理办法(参考)(粉丝福利)

数据治理管理小组根据业务管理部门的需求,及时制定(修改)数据采集的技术规范,包括数据采集格式、权限设定和方法步骤等,并按时向业务管理部门通报所采集数据的指标内容变化情况,以便业务部门根据采集到的指标提出数据加工需求。重要数据应异地存放。在数据应用环节发现的数据采集差错,应通过相关业务管理部门的数据管理员进行审核确认,然后反馈至原数据采集岗进行变更修正。第十一条信息技术部门应加强对数据的监控,定期检测数据的存储,分析数据的构成,提出数据清理优化的方案,经业务管理部门确认后,定期进行垃圾数据的清理。...

2022-08-29 13:52:57 2434

原创 数据治理建设管理方案(参考)(二)

数据治理章程类似于企业的公司条例,该章程用以明确数据治理相关战略规划、合规管理和控制、标准和规范,如《数据治理工作管理办法》,加强组织数据治理管理能力,满足组织数据治理的要求,统一数据标准,提高数据质量,深化数据应用,支撑业务发展,提升管理水平及合规监管要求。数据治理组织的构建旨在通过建立数据治理组织架构明确各级角色和职责,保障数据治理的各项管理办法、工作流程的实施,推送数据治理工作的有序开展,如建立数据治理委员会、数据管理委员会、数据管理团队、数据质量团队、数据安全团队、数据技术团队等。...

2022-08-29 13:49:24 1608 2

原创 数据治理建设管理方案(参考)(一)

1、多数企业内部系统建设多,数据分散,各系统数据共享困难,信息化建设“烟囱式”严重;2、企业各部门系统口径不一致,数据标准不统一,数据质量无法整体评估;3、数据不可知,数据挖掘不到位。数据使用者未知数据多,无法得知这些数据与业务的联系,不知如何管理数据;4、数据不可控,数据使用者对汇集数据、处理数据、数据服务过程模糊5、数据不可取,数据使用者知晓自己业务所需数据,但不知如何获取或者轻松获取;6、数据关联性差,无法对数据进行自主探索和挖掘,数据价值停留在表面,没有形成知识图谱。...

2022-08-29 13:45:01 6526

原创 《项目管理》高项十大管理知识点整理(二)

总体研发计划完成之后,配置管理的活动就可以展开了,如果不在项目开发之初制定配置管理计划,那么配置管理的许多关键活动就无法及时有序地进行,而它的直接后果就是造成项目开发状况的混乱,并注定使配置管理活动成为一种救火的行为。项目范围说明书描述了项目的可交付物和产生这些可交付物所必须进行的项目工作,项目范围说明书在所有项目干系人之间建立了一个对项目范围的共识,描述了项目的主要目标。项目的角色有可能是个人,也可能是团队。2,人的需求是分层次的。生理的需要,安全的需要,感情的需要,尊重的需要,自我实现的需要。...

2022-08-29 11:20:52 1508

原创 《项目管理》高项十大管理知识点整理(一)

输入: 项目章程 初步范围说明书 项目范围管理计划输出: 详细的范围说明书 项目管理计划(更新)工具:专家判断 样板 表格和标准项目范围说明书详细描述了项目的可交付物以及产生这些交付物所必须做的项目工作。详细的项目范围说明书包括:1)项目目标和项目范围质保2)项目产品范围说明书3)项目可交付成果的规定4)项目条件和项目假设条件5)项目配置关系及其管理要求6)项目批准的规定为得到工作分解结构中最底层的交付物执行的一系列活动,对这些活动的识别以及归档的过程叫做活动定义。......

2022-08-29 10:54:29 1877

原创 Hive进阶函数之【分割函数(split)、行转列函数(explode)、lateral view】

Hive进阶函数之【分割函数(split)、行转列函数(explode)、lateral view】1、split 函数—分割2、explode函数—行转列2.1 用于array类型的数据2.2 用于map类型的数据2.3 如何将其用入string类型的数据2.4 explode函数的局限性3、lateral view作用: split()函数是用于切分数据,也就是将一串字符串切割成了一个数组,语法:split(string str, string pat)string str :待分割字符

2022-06-20 15:32:31 3889

原创 Hive行转列 explode和 lateral view

任何一个数据库都会涉及到行转列的问题,也同时会有相应的方法,比如mysql中的pivot。hive中使用的则是 lateral view explode 或者 lateral view inlinea.lateral view explode:表示需要行转列的表:表示 source_table 中需要行转列的列:表示 lateral view explode 生成的新表名:表示 source_column 行转列后生成的新列名b.lateral view inline:表示需要行转列的表:表示

2022-06-20 15:22:37 224

原创 Hive进阶函数之explode 和 posexplode

tab_name 表名array_col 为数组类型的字段new_col array_col被explode之后对应的列1.2. 用于map类型的数据由于map是kay-value结构的,所以它在转换的时候会转换成两列,一列是kay转换而成的,一列是value转换而成的。tab_name 表名map_col 为map类型的字段may_key_col, may_value_col 分别对应map_col被拆分之后的map映射里的key 和 value二. explode函数的局限性不能关联原有

2022-06-20 14:53:14 1914 3

原创 几段白话文讲明白Spark工作原理(面试必会)

去面试大数据的时候,面试官一定会问你一些常见的大数据组件以及其工作流程是否熟悉,下面几次会分享大数据面试干货,赶快学起来吧。

2022-06-15 13:58:18 246

原创 SQL中某个字段大于等于且不等于某值该如何写

每天一个sql小技巧朋友求助在工作中遇到一个需求某个字段不等于空,大于某个值,不等于几个值

2022-05-05 10:51:43 2293

原创 最详细全面的Hbase安装流程和环境配置

1. Zookeeper正常部署首先保证Zookeeper集群的正常部署,并启动:[root@hadoop101 zookeeper-3.5.7]$ bin/zkServer.sh start[root@hadoop102 zookeeper-3.5.7]$ bin/zkServer.sh start[root@hadoop103 zookeeper-3.5.7]$ bin/zkServer.sh start2. Hadoop正常部署Hadoop集群的正常部署并启动:[root@hadoop1

2022-02-25 10:27:13 5257 2

原创 ES过滤掉某个字段为空值的结果

sql语句中过滤字段空值的写法是 select * from table where 字段 is not null在es中过滤字段空值可以这样子写:GET index/type/_search{ "query": { "bool": { "must": { "exists": { "field": "字段名" } } } }}反之 为{ "query": { "bool"

2022-02-17 10:51:37 4044

原创 Linux中招挖矿木马如何处置,附带解决方案

前段时间一位朋友在群里反应,公司的部署大数据集群的Linux服务器中了挖矿木马病毒,让我给他解决,分享一下解决方法。一. 什么是挖矿木马首先经过多年的演进,越来越多的挖矿木马利用多种方式入侵系统,意图感染更多的机器,提高挖矿的效率和收益,其中主要入侵方式如下: 1. 漏洞利用:利用系统漏洞快速获取相关服务器权限,植入挖矿木马是目前最为普遍的传播方式之一。常见的漏洞包括Windows系统漏洞、服务器组件插件漏洞、中间件漏洞、web漏洞等。部分攻击者选择直接利用永恒之蓝...

2022-01-25 14:10:57 6459

原创 SparkConf常见参数设置

val sparkConf: SparkConf = new SparkConf() .set("spark.driver.cores","20") //设置driver的CPU核数 .set("spark.driver.maxResultSize","20g") //设置driver端结果存放的最大容量,这里设置成为20G,超过20G的数据,job就直接放弃,不运行了 .set("spark.driver.memory","40g") //dri...

2022-01-24 13:59:37 4645

转载 滴滴基于 Flink 的实时数仓建设实践

从数据架构图来看,顺风车实时数仓和对应的离线数仓有很多类似的地方。例如分层结构;比如 ODS 层,明细层,汇总层,乃至应用层,他们命名的模式可能都是一样的。但仔细比较不难发现,两者有很多区别:与离线数仓相比,实时数仓的层次更少一些 从目前建设离线数仓的经验来看,数仓的数据明细层内容会非常丰富,处理明细数据外一般还会包含轻度汇总层的概念,另外离线数仓中应用层数据在数仓内部,但实时数仓中,app 应用层数据已经落入应用系统的存储介质中,可以把该层与数仓的表分离。 应用层少建设的好处:实时处理数据的时候,

2022-01-21 17:40:52 307

原创 看完本篇文章,下次遇到Spark报错就迎刃而解了,Spark调优再也不用求人解决了

今天和各位聊一聊Spark使用中遇到的问题之Spark调优小伙伴们一定在生产环境中遇到过Spark各种各样的问题,比如在Spark UI界面发现某个Task运行特别缓慢,还存在着内存溢出问题,又比如产生了数据倾斜,某个task处理的数据特别多,拖慢了整个任务的执行时间 等等,我们该如何下手解决这一系列棘手的问题呢?首先我们通过以下几个方面进行调优资源方面JVM方面算子方面Shuffle阶段数据倾斜方面1.资源方面1.1 给任务分配充足的资源在yarn提交任务的时候配置一下参数-.

2022-01-20 18:43:48 1974

hive企业级中的优化,大数据新人必须掌握的技能

全网最详细的hive企业级优化,大数据新人必备

2022-03-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除