erainm-CSDN博客

原创 python安装（windows、mac os、linux）

本文主要记录python各个平台系统（windows、mac os、linux）的安装

2024-01-21 18:48:19 1157

原创 Hive时间相关计算函数

最近在写sql，经常会使用到hive的这些时间计算函数，记录下来，方便以后大家使用

2022-12-01 14:24:34 1146 1

原创 StructedStreaming消费Kafka数据突然存储不到HDFS

问题描述：StructedStreaming消费Kafka数据存储到HDFS中，以前正常存储，突然就存储不进去了，可以新建文件夹，但是数据写入不进去了。分析：通过流写出到控制台，能消费数据，说明消费正常，但是就是写不进HDFS中，说明写时不能触发HDFS保存。/*** 消费数据，写到控制台*/val query = spark.sql(sql) .writeStream .format("console") .outputMode("append") .start

2022-03-14 09:16:21 2623

原创大数据面试宝典之JVM篇

哈喽，亲爱的小伙伴们，大家好，我是猿天歌，相信大家都是有一定研发经验，也都有一定调优经历，但是经常在面试时，会有一定的困扰：比如说面试前突击记忆一下JVM原理等理论，然后面试时问你在实际项目中如何进行JVM参数调优、如何解决OOM或者GC等问题，然后一脸茫然。或者说，因为工作职责的分配，很少去接触JVM调优等，然后面试时又经常会被问到。我为什么会出JVM面试题专栏呢？首先，肯定是面试的需要，大家都知道入职一线大厂不光关注技术的宽广度，还需要考察技术的深度，尤其是现在技术内卷的时代，大部分公司面试时这都是

2021-12-28 18:43:22 1582 1

原创 hive问题-return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask

执行hive sql时遇到问题：FAILED:Execution Error,return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask这个其实一般是个hive内部错误，处理这个问题就需要找日志了；找日志hive.log(比较简略)hive.log ===> 缺省情况下 /tmp/root/hive.log (不然就在你hive-site.conf配置的日志路径里)我这里在/tmp/root目录下去里面看了日志，没

2021-09-23 11:44:26 7050

原创 zookeeper全面总结

1. HBase 简介2. HBase原理3. HBase应用及优化

2021-09-04 14:21:42 1519

原创 HUE安装配置

1. HUE 编译安装2. HUE 集成Hadoop、Hive

2021-08-22 19:26:27 1791

原创 hadoop群起集群脚本

vim hadooponekey.sh#!/bin/bashif [ $# -lt 1 ]then echo "No Args Input..." exit ;ficase $1 in "start") echo " =================== 启动 hadoop集群 ===================" echo " --------------- 启动 hdfs ---------------" ssh had

2021-07-28 10:18:29 291

原创海量实时广告流平台（DSP广告系统）架构设计与实践

1. 项目背景在互联网上，流量=变现流量变现的⽅式有很多种，不同的产品/平台，变现模式不一样。按大类分，无外乎三类:卖广告、卖产品/服务、增值服务。今天重点说说广告的变现模式，并主要解决两个问题:⼴告从何来？怎样的广告策略才能让流量变现最大化？广告来源可以有很多渠道，分两个大类:直投客户:来⾃自己销售，或代理公司。这⾥的直投是指直接在流量⽅广告系统投放，可以自建也可以使用第三方⼴告系统。在变现上，DAU千万级以上的产品就不用过于发愁了，不管是自建销售队伍还是走代理公司，一般

2021-07-25 12:00:31 6162

原创数据中台建设-学习笔记

数据中台建设-学习笔记

2021-07-14 17:49:09 161

原创中台建设-学习笔记3

中台建设-学习笔记3

2021-07-14 17:48:16 109

原创数据中台笔记

数据中台

2021-07-14 17:47:17 120

原创企业数据中台-数据治理

企业数据中台数据治理

2021-07-14 17:45:41 225

原创 2021大数据十大关键词解读

2021大数据十大关键词解读

2021-07-14 17:43:56 128

原创 NIO原理

网络体系：OSI IEEEIO体系本地（local）IO字节流：InputStream、OutputStream字符流：Reader、Writer网络（远程）IONIO与IO区别：NIO通道和缓冲区：通道（Channel）：表示打开IO设备（例如：文件、套接字Socket）的连接。若需要NIO系统，需要获取用于连接IO设备的通道以及用于容纳数据的缓冲区（Buffer）。然后操作缓冲区，对数据进行处理。缓冲区（Buffer）：一个用于特定基本数据类型的容器。由java.nio包定义的，所

2021-04-26 20:11:37 163

原创数据湖 - 学习笔记（一）

1. 企业的数据困扰互联网的兴起和数据孤岛非结构化数据保留原始数据集中存储、成本可控、使用简单，能够支持任意格式输入并拥有分析处理能力2. 数据湖理论2.1写时模式VS读时模式写时模式：数据在写入之前，就需要定义好数据的schema，数据按照schema的定义写入数据库-表：预先定义好表结构，创建好库数据库、数据仓库、数据集市或者具体的一些框架如：Mysql，Redis， HBase等均是写时模式，即数据在写入之前就需要预先有Schema定义好才可以。读时模式：数据在写

2021-04-22 17:43:51 480 2

原创数据中台 -- 学习笔记（一）

数据中台：是指通过数据技术，对海量数据进行采集、计算、存储、加工，同时统一标准和口径，中台还可以根据ThoughtWork首席咨询师给出的定义来解释。“企业级的能力复用平台”；“企业级”划定了中台的范围，区分了单系统的服务化和微服务；“能力”指定了中台的主要承载对象，能力的抽象解释了各种各样的中台的存在；“复用”定义了中台的核心价值，过去的平台化对于易复用性并没有给予足够的关注。中台的兴起，使得人们的目光更多的从平台内部，转到平台对于前台业务的支撑上；“平台”说明了中台的主要形式，区别于应用系统拼凑的方

2021-04-22 17:36:51 2607 2

原创 zookeeper分布式协调组件详解 -- 学习笔记

思考：1、在分布式场景中，怎么确保一定拿到最新的准确值2、在分布式场景中存储一个值，为了保证安全，存储了多份NWR理论： — 抽屉原理N：总节点数W：写入副本数R：读取的副本数保证拿到最新的数据：R+W>N至少读取N-W+1个副本才行Zookeeper每个节点都存储了所有数据的副本，但是zk要求写入成功的节点数达到一半，就认为写入数据成功。如果W大，这次写入成功的概率就越小，读取数据的压力就越小如果W小，R读取的额节点就要多，读取的性能就差所以Zookeeper查询效率高，写

2021-04-22 17:21:34 369

原创 Kafka -- 从基础到高级

1、为什么有消息系统1、解耦合2、异步处理例如电商平台，秒杀活动。一般流程会分为：1：风险控制、2：库存锁定、3：生成订单、4：短信通知、5：更新数据通过消息系统将秒杀活动业务拆分开，将不急需处理的业务放在后面慢慢处理；流程改为：1：风险控制、2：库存锁定、3:消息系统、4:生成订单、5：短信通知、6：更新数据3、流量的控制3.1 网关在接受到请求后，就把请求放入到消息队列里面3.2 后端的服务从消息队列里面获取到请求，完成后续的秒杀处理流程。然后再给用户返回结果。优点：控制了流量

2021-04-19 11:27:24 4848 11

原创 Flink1.12 -- 高级API

1. Flink四大基石Flink之所以能这么流行，离不开它最重要的四个基石：Checkpoint、State、Time、Window。Checkpoint这是Flink最重要的一个特性。 Flink基于Chandy-Lamport算法实现了一个分布式的一致性的快照，从而提供了一致性的语义。 Chandy-Lamport算法实际上在1985年的时候已经被提出来，但并没有被很广泛的应用，而Flink则把这个算法发扬光大了。 Spark最近在实现Continue streaming，Conti

2021-03-05 17:39:52 796

原创 Flink1.12 -- 流批一体API

1. 流处理相关概念1.1 数据的时效性日常工作中，我们一般会先把数据存储在表，然后对表的数据进行加工、分析。既然先存储在表中，那就会涉及到时效性概念。如果我们处理以年，月为单位的级别的数据处理，进行统计分析，个性化推荐，那么数据的的最新日期离当前有几个甚至上月都没有问题。但是如果我们处理的是以天为级别，或者一小时甚至更小粒度的数据处理，那么就要求数据的时效性更高了。比如：对网站的实时监控、对异常日志的监控，这些场景需要工作人员立即响应，这样的场景下，传统的统一收集数据，再存到数据库中，再取出

2021-03-05 15:29:16 1252 3

原创 Flink1.12 - 概述、安装部署及快速入门

1. Flink概述1.1 Flink官方介绍flink官网地址1.2 Flink组件栈一个计算框架要有长远的发展，必须打造一个完整的 Stack。只有上层有了具体的应用，并能很好的发挥计算框架本身的优势，那么这个计算框架才能吸引更多的资源，才会更快的进步。所以 Flink 也在努力构建自己的 Stack。Flink分层的组件栈如下图所示：每一层所包含的组件都提供了特定的抽象，用来服务于上层组件。各层详细介绍：物理部署层：Flink 支持本地运行、能在独立集群或者在被 YARN 管理

2021-03-05 14:00:31 2790 4

原创 CDH及软件安装部署

1. Linux配置优化1.1 Swappiness虚拟内存swappiness是Linux的一个内核参数，控制系统在使用swap虚拟内存时，内存使用的相对权重。swappiness参数值可设置范围在0到100之间。此参数值越低，就会让Linux系统尽量少用swap虚拟内存分区，多用内存；参数值越高就是反过来，使内核更多的去使用swap空间。推荐设置为10。根据服务器硬件配置会有变化。临时生效：sysctl -w vm.swappiness=10永久生效：echo “vm.swappines

2020-12-18 13:40:37 688

原创 impala

1. impala基本介绍2. Impala与hive的关系3. Impala与hive的异同4. Impala的优缺点5. Impala支持的文件格式6. Impala的架构7. Impapla如何执行查询8. 浏览器页面访问

2020-12-02 12:34:54 396

原创数仓建模及ETL基本过程笔记（2020.11.26更新）

一、数仓建设步骤及宏观逻辑1.1 范式1.2 常见的数仓建模方法1.3 维度建模的步骤二、事实表技术概念2.1 事实表结构2.2 可加、半可加、不可加事实2.3 常见的事实表三、维度表技术概念3.1 常见的维度键3.2 常见的维度类型四、ETL基本过程4.1 ETL前期的需求整合4.2 将数据插入数仓的3个子系统4.3 数据清洗的5个子系统4.4 发布数据的13个子系统4.5 ETL管理相关的13个子系统4.6 ETL系统设计和开发的十个步骤五、企业数据仓库总线架构

2020-11-25 08:28:25 1841

原创 ClickHouse

1. ClickHouse概述2. ClickHouse的应用场景3. ClickHouse的使用案例4. ClickHouse快速入门5. ClickHouse的数据类型支持6. ClickHouse的引擎7. ClickHouse的SQL语法8. ClickHouse的SQL函数9. Clickhouse中update/delete的使用10. ClickHouse的使用

2020-11-10 09:52:15 2499

原创工作流调度之 -- Azkaban

1. 工作流调度2. Azkaban调度器3. 项目实战

2020-11-07 09:45:24 687 1

原创 Kudu（2） -- 数据模型、原理与优化

1. 表与schema2. kudu的底层数据模型3. Tablet的发现过程4. Kudu读写更新原理5. Kudu的优化

2020-11-04 17:47:14 937 2

原创数仓简介及hive全面总结

1. 数据仓库主要特征2. 数据仓库(OLAP)与数据库(OLTP)区别3. 数据仓库的分层4. 数据仓库之ETL5. Hive的特点6. Hive架构7. Hive的安装模式8. Hive的交互方式9. Hive各种表10. ORDER BY、Sort By、Distribute By、Cluster By区别：11. Hive函数：13. Hive的数据存储格式：14. Hive调优：15. hive小文件过多问题

2020-11-02 17:57:31 1234

原创 Kudu

1. 为什么使用Kudu作为存储介质2. Kudu入门2.1 Kudu介绍2.2 Java代码操作Kudu2.3 Spark操作Kudu

2020-10-31 21:54:42 1605 4

原创 Canal

1. Canal简介2. Mysql的主备复制原理3. Canal的工作原理4. Canal的架构5. Canal安装部署6. Canal采集业务数据到Kafka7. 初始化业务数据

2020-10-30 12:55:01 498 1

原创 Oracle GoldenGate（OGG）- 超级详细

1. OGG简介2. 应用场景3. 基本原理4. 基本架构5. 常用的拓扑结构6. 支持的环境7. OGG安装部署7.1 配置Oracle11gR2数据库7.2 安装OGG源端7.3 配置OGG源端7.4 配置OGG目标端7.5 OGG测试8. 初始化业务数据8.1 安装OGG源端8.2 配置OGG源端8.3 配置OGG目标端8.4 OGG测试

2020-10-30 10:17:32 29625 11

转载 Spark调优之 -- Spark资源调优

1. 调优概述2. Spark作业基本运行原理3. 资源参数调优4. 资源参数参考示例

2020-10-29 16:41:11 277

原创 Spark调优之 -- Spark的并行度深入理解（别再让资源浪费了）

1. 并行度理解2. 设置Application并行度

2020-10-29 11:23:53 5573

原创各种技术中间件对比（2020.11.9第二次更新）

1. Kafka比对其它MQ中间件2. 分布式计算比对3. 海量数据存储比对4. ClickHouse与其他的OLAP框架的比较5. 任务调度比对6. 数据分析比对7. 数据存储比对8. 数据采集比对9. 工作流调度工具之间对比开源OLAP引擎

2020-10-29 10:13:59 1288

原创 Docker -- 全都在这里(一篇让你熟知Docker)

1. Docker介绍2. Docker组件3. Docker的安装和启动4. Docker常用命令5. Docker应用部署6. Docker的迁移与备份7. Docker镜像8. Dockerfile9. Docker私有仓库

2020-10-29 09:45:19 711 1

原创 Spark调优之 -- 对于 Spark 中的数据倾斜问题(已更新)

1. 什么是数据倾斜2. 数据倾斜是如何造成的？3. 发生数据倾斜以后的现象4. 定位数据倾斜出现的原因与出现问题的位置5. 解决方案总体原理说明6. 具体解决方案 6.1 聚合源数据以及过滤导致倾斜的key 6.2 提高shuffle操作reduce并行度 6.3 使用随机key实现双重聚合 6.4 将reduce join转换为map join 6.5 sample采样倾斜key单独进行join 6.6 使用随机数以及扩容表进行join

2020-10-20 19:30:06 342

原创 Spark的内存模型及Executor的Execution内存解析

1. Spark的内存模型1.1 Execution 内存和 Storage 内存动态调整1.2 Task 之间内存分布2. Execution内存解析

2020-10-20 19:15:17 1523

原创任务调度之Oozie详解

1. Oozie的特点2. 为什么选择Oozie3. Oozie-Azkaban详细对比4. 主要概念5. Job组成6. Workflow介绍7. Coordinator介绍8. Bundle介绍9. 案例演示10. Oozie工具类代码开发11. Oozie整合SpringBoot编写任务调度【测试】

2020-10-20 12:33:42 13155 1

DirectX-Repair

SecureFX_9.0.1_(2451.141440)__macwk.dmg

Mac版 - SecureCRT_9.0.1_(2451.141440)__macw.dmg

ArcGIS+Engine+C#实例开发教程

空空如也