自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(118)
  • 资源 (16)
  • 收藏
  • 关注

原创 帆软模块清单 功能说明

2021-08-02 17:35:52 608

原创 Spark RPC 通讯

Spark 在 1.6 以前组件间使用 akka 通讯, 数据通过 netty 通讯1.6 以后使用 Netty 通讯,但代码实现仍按照 Akka 模式。示意图如下:

2021-08-02 16:56:34 177

原创 大数据实时广告系统架构

大数据实时广告系统架构文章目录大数据实时广告系统架构1 日志采集2 kafka 削峰填谷3 实时计算部分3.1 实时日志拼接、热点数据计算3.2 Flink 关联日志3.3 Flink 实时计算3.4 吐出数据到 MPP4 离线验证部分4.1 Flink 吐出到 Hive4.2 Hive 合并计算日志4.3 T+1 计算指标4.4 吐出指标到 MPP 修复昨日数据5 BI 展现实时计算 / 离线修复系统架构图1 日志采集通过日志订阅、用户系统接口返回等采集/接受数据2 kafka 削峰填谷尽量通过

2021-08-02 16:50:46 339

原创 记录一些值得一读的好书

5 年前读的技术书,很庆幸第一本读的 Hadoop 权威指南技术篇Hadoop 权威指南 1,2,3,4一本步入 Hadoop 由浅入深的神书HBase 权威指南学 HBase 推荐读他、其余挺坑。数据密集型应用又一本神书,里面思想带入工作中能解决很多问题最近 3 年读的书软技能篇精力管理一本特别适合程序员的书,当我用了精力管理的方法后,精力充足效率更高。哈佛家训粗缯大布裹生涯,腹中有书气自华终身成长用正确的思维模式看待问题,才能更好地达成人生和职业目标习惯的力量习惯是简化

2021-07-08 11:22:34 125

原创 集群搭建系列(十七)dolphinscheduler 小海豚调度

国产牛逼系列 dolphinscheduler文章目录国产牛逼系列 dolphinscheduler1 调度工具对比话不多说 直接开干安装包部分 TODO基础搭建解压缩,重命名mysql 依赖 ip 改一下,注释源 postgresql运行 MySQL 初始化脚本运行环境修改一键部署配置文件 conf/config/install_config.conf启动一键部署登录系统1 调度工具对比以往使用 azkaban 虽然并发够,但是面临运维问题也很大。1 大半夜 调度任务挂了,酸爽了,半夜调

2021-06-17 14:55:47 4092 1

原创 超级聊天术 - 人 - 社会 - 关系

超级聊天术万能聊天技巧管理层 沟通、聊天> 对闲聊常规观念改变 1)不是无意义行为,很重要,成为关系润滑剂 2)人并不是天生很会聊天,可以通过后期训练> 技巧 打招呼 + A 模式 > 不要说总结性的话不要说出总结性的话、...

2021-05-27 14:22:48 127

原创 Kafka 源码学习

文章目录 Kafka 源码剖析一 Kafka客户端发送消息的核心流程sender 流程遍历所有分区,得到所有批次,判断批次是否需要发送二 Kafka 内存池个性化内存池三 Kafka 拉取元数据流程四 Kafka 核心五 Kafka 一些调优参数1. kafka 消息缓存大于 1M 会报错 超 32M 报错2. kafka 回收空闲链接3. producer 发送给 reduce 多少个无响应情况kafka 不是完全同步,也不是完全异步,是一种ISR机制:写消息流程% Kafka 为避免 full GC

2021-05-25 17:53:55 334 1

原创 集群搭建系列(十六) HUE 4.1 安装

文章目录hue 4.1 安装1 安装环境2 下载地址3 安装各种包4 配置 HDFS Hivehue 4.1 安装前言:试了很多个版本,各种奇葩问题。 4.1 总算成功了。 记录一下备份1 安装环境CentOS 7.7JDK 1.8Maven 3.5.4Python 2.7.52 下载地址wget https://cdn.gethue.com/downloads/releases/4.1.0/hue-4.1.0.tgz3 安装各种包可搜索 3.9 等其他所有安装依赖。

2021-01-11 11:20:21 544 1

原创 Flink 学习 (三)

文章目录1 两阶段提交核心设计2 大数据去重普适架构3 Flink 整合 Redis HBase exactly once4 Kafka exactly once5 SQL on Stream 平台架构精选面试题Flink 相比 SparkStreaming 有什么区别? 多角度问答架构模型Spark Streaming 在运行时的主要角色包括:Master、Worker、Driver、ExecutorFlink 在运行时主要包含:Jobmanager、Taskmanager、 Clien

2020-12-31 14:44:05 201 3

原创 集群搭建系列(十五) 集群调试常用命令

文章目录1 mysql 内存1.1 查看 linux mysql 内存使用率 %1 mysql 内存1.1 查看 linux mysql 内存使用率 %free -m | sed -n '2p' | awk '{print "used mem is "$3"M,total mem is "$2"M,used percent is "$3/$2*100"%"}' 1.2 Top 方式查看执行 top 命令,1 监控每个逻辑CPU的状况:2 shift + p :进程 CPU 排序3

2020-12-25 10:59:43 112

原创 集群搭建系列(十三) azkaban 3.73.1

文章目录1 不建议使用 3.73.1 其他生产环境换个正式版的 如图:2 下载、解压缩3 编译、 跳过测试.4 创建 azkaban 目录、将编译后的 exec web 复制到目录下。5 azkaban 数据库初始化6 配置文件修改7 启动命令:7 地址、异常1 不建议使用 3.73.1 其他生产环境换个正式版的 如图:因为我这个是测试环境必须跟生产一致,所以必须搭建这个版本。2 下载、解压缩wget https://github.com/azkaban/azkaban/archive/3

2020-12-24 17:39:54 309

原创 集群搭建系列(十四)mysql Client 端安装 5.7

文章目录安装 azkaban 需要初始化脚本,刚好这个 edge 节点没有 mysql 客户端 安装下一 下载二 移除旧环境安装 azkaban 需要初始化脚本,刚好这个 edge 节点没有 mysql 客户端 安装下一 下载wget http://mirrors.sohu.com/mysql/MySQL-5.7/mysql-community-client-5.7.23-1.el6.x86_64.rpmwget http://mirrors.sohu.com/mysql/MySQL-5.7/mys

2020-12-24 16:56:44 233 1

原创 集群搭建系列(八)Kafka

文章目录一 kafka 版本选择二 下载、安装三 复制各节点启动即可一 kafka 版本选择kafka 的版本选择与 zookeeper、 scala 对应scala 与 spark 版本也需要对应二 下载、安装tar -zxvf kafka_2.12-2.3.0.tgz修改配置文件中brock.idzklogdir( 数据存放位置 )三 复制各节点启动即可...

2020-12-24 15:17:26 63

原创 集群搭建系列(七) spark on yarn 3.0.1 待完善

文章目录1 下载、解压、软链2 环境变量配置31 下载、解压、软链wget https://archive.apache.org/dist/spark/spark-3.0.1/spark-3.0.1-bin-hadoop2.7.tgztar -zxvf spark-3.0.1-bin-hadoop2.7.tgzln -s spark-3.0.1-bin-hadoop2.7 spark如果还不行可以在清华大学镜像站 或我留的备份下载2 环境变量配置2.1 vim /etc/profi

2020-12-24 13:57:00 102

原创 集群搭建系列(六) hive 2.3.7

文章目录1 下载、解压、上传 mysql connector2 Hive-site.xml ( beeline、Hive 路径指定、)3 环境变量4 授权1 下载、解压、上传 mysql connectorwget https://mirrors.tuna.tsinghua.edu.cn/apache/hive/hive-2.3.7/apache-hive-2.3.7-bin.tar.gztar -zxvf apache-hive-2.3.7-bin.tar.gzcp mysql-connect

2020-12-21 14:13:58 303 1

原创 集群搭建系列(五)CentOS下 RPM 安装mysql 5.7.13

文章目录1、查看已有 mysql2、卸载已存在的3、安装依赖包4、 rpm 安装包下载、解压5 安装6 配置 mysql 的初始化文件/etc/my.cnf (免密启动用)7.启动mysql8.验证mysql是否启动9.首次登录(第6步[mysqld]代码下方添加skip-grant-tables,目的是为了首次登录时不用输入密码)10.显示以上,安装完成,远程 Windows 使用。如果测试使用至此可以结束。 作为大数据使用还有很多事要做。继续11.安装后续工作,设置root密码重启服务1、查看已有

2020-12-18 14:31:05 158

原创 集群搭建系列(四)Hadoop HA 2.7.3 安装

文章目录1 切 Hadoop 权限用户2 解压缩、修改 etc/profile 配置文件3 设置 slaves4 环境变量5 ZKFC6 JournalNode7 启动 HA8 HADOOP_HOME 不存在异常9 JobHistory1 切 Hadoop 权限用户ZK 检测:zkServer statusJDK 检测:java -versionScala 检测:scala -version2 解压缩、修改 etc/profile 配置文件cd /hadoop/hadoo

2020-12-17 17:28:37 184

原创 集群搭建系列(三)zookeeper-3.4.1

文章目录下载安装解压安装:配置文件修改创建 myid:添加环境变量启动 zk,3个节点都要执行:下载安装wget http://archive.apache.org/dist/zookeeper/zookeeper-3.4.14/zookeeper-3.4.14.tar.gz解压安装:tar -zxvf zookeeper-3.4.14.tar.gz -C /opt/hadoop/创建软连接ln -s zookeeper-3.4.14 zookeeper配置文件修改cd /opt/hadoo

2020-12-16 18:18:39 122

原创 集群搭建系列(一) 大数据集群搭建设计

文章目录1 配套版本2 穷人版节点部署与编排 123 Yarn 资源预估4 硬件配置5 穷人版节点部署与编排 10节点6 乞丐版混搭7 土豪金版本设计1 配套版本版本考虑: 生产环节已有一套 但 kafka 的 scala 不配套、本次测试/开发环境与生产同步,可以测试调研升级版本等问题2 穷人版节点部署与编排 123 Yarn 资源预估4 硬件配置5 穷人版节点部署与编排 10节点6 乞丐版混搭7 土豪金版本设计辅助节点跳板机节点主节点调度节点计算节点Kafka 吞吐

2020-12-16 14:12:48 296

原创 集群搭建系列(二) CentOS 7.7 节点初始化( 同 CentOS 6X 不同点)

大数据集群 CentOS 7.7 节点初始化( 同 CentOS 6X 不同点)文章目录大数据集群 CentOS 7.7 节点初始化( 同 CentOS 6X 不同点)1 CentOS 7关闭transparent_hugepage(透明大页)检查当前的transparent_hugepage状态(以下为开启状态)1)临时关闭2)永久关闭2 修改swap大小2.1 切换 root 用户 或 sudo2.2 查看当前 swap 命令2.3 转 swap 格式文件:2.4 挂载 swap 分区2.5 分支

2020-12-15 15:46:30 145

原创 Flink 学习(二) State Backend Flink 与 Spark 对比面试题答案。 keyBy

文章目录1 实时热门页面统计:top N2 实时统计黑名单3 State BackendMemoryStateBackendFSStateBackend 可以用于生产RocksDBStateBackend 可用于生产 存储量超大StateBackend 配置方式CheckPoint 原理Flink 使用 chandy-lamport 算法做 statecheckpoint配置Flink 重启策略超牛逼的 SavePoint4 Flink 与 Spark 对比面试题答案SQL on Stream5

2020-12-10 21:02:37 193 1

原创 Flink 学习(一)架构、执行图、Flink State

一 Flink StateFlink 1.10FlinkML 机器学习Gelly 图计算Flink 架构主节点 JobManager从节点 TaskManagerSpark 使用 netty 通讯Hadoop 使用 RPC 通讯Flink 使用 Akka 通讯 Actor System四种传输策略1 forward strategy一个 task 的输出值发送给一个 task 作为输入如果两个 task 都在一个 JVM 的话就会米面网络开销2 key based

2020-12-10 17:41:10 261

原创 读书 数据密集型应用 二

数据密集型应用 第二部分 分布式数据复制1 同步复制优点: 从库与主库保持高度一致。 主库失效可以立即切换从库缺点: 从库出现异常时 主库跟着嗝屁2 异步复制优点:不影响主库写入,缺点:有时可能落后主库几分钟之久。例如:从库正在从故障中恢复、系统在性能瓶颈运行,或者节点间网络问题。半同步将所有从库都设置为同步的事不切实际的,任何一个节点的中断都会导致整个系统停止服务。如果启用同步复制,通常一个slave 是同步,其余异步方式。如果同步从库变得不可用或缓慢,则使一个异步从库同步。保证至少

2020-12-10 09:54:31 106

原创 读书 数据密集型应用 一

数据系统的思考1 记住开销昂贵操作的结果,加快读取速度(缓存 cache),允许用户按关键字搜索数据,或以各种方式对数据进行过滤(搜索索引(search indexes)) 向其他进程发送消息,进行异步处理(流处理)定期处理累计的大批量数据(批处理 batch processing)过早优化:为了不必要的扩展性而设计程序,不仅会浪费不必要的精力,并且会可能吧你锁死在一个不灵活的设计中。可靠性 系统存在困境(硬件故障、软件故障、人为错误) 中仍可以正常工作 正确完成功能,并能达到期望水

2020-12-04 18:17:05 190

原创 To Kafka

接 CDC 功能发送 kafka Demopackage swiftpass.ganfan.com.kafka;import org.apache.kafka.clients.producer.KafkaProducer;import org.apache.kafka.clients.producer.Producer;import org.apache.kafka.clients.producer.ProducerRecord;import org.apache.kafka.common.u

2020-11-26 16:56:22 103

原创 MongoDB CDC 方案 Change Stream

说明:​ 1 前提条件 MongoDB 3.6 + 才可以使用 Change Stream​ 2 必须集群模式 MongoDB​ 3 复制协议 pv1 、存储引擎 WiredTiger本次环境:MongoDB : 三节点 4.4.2 集群JDK: 1.8​ 复制协议 PV1​ 资料:​ https://mongoing.com/archives/1484​ 存储引擎​ Mongodb-3.2 以后 WiredTiger 设置为了默认的存储引擎​ 资料:​.

2020-11-24 18:44:43 2496

原创 Oracle 触发器 CDC 方案

Oracle 触发器 CDC 方案一 创建 Demo表源表create table TEST_STR( id VARCHAR2(200) not null)捕获数据存取表create table CDC_TEST_STR( id VARCHAR2(200) not null, operation VARCHAR2(200) not null, operation_time DATE default sysdate)二 触发

2020-11-19 17:38:15 943

原创 Kettle + SQLServer 触发器实现 CDC 方案

一 说明1.1 文档说明​ 本文档提供一种变化数据的捕获机制,也即是说这种机制能 够保证在数据源数据有变化的时候能够区分出这些变化的新数据和旧数据,增量的抽取这 些变化了的数据,而无需为了保证数据的同步每次都做全量的抽取。​ 变更数据捕获(Change Data Capture,即CDC)1.2 方案适用性​ 方案对所有有触发器机制的数据库都适用,除了创建触发器及中间表的逻辑因 数据库的不同而不同以外,主干抽取逻辑都一致,代码的可复用程度高,数据抽取的性能较高1.3 实

2020-11-19 11:13:50 1481

原创 CSDN-markdown 编辑器

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Mar

2020-11-19 10:39:09 53 1

原创 CSDN MarkDown 功能在哪里

gdfsgsdfg

2020-11-19 10:37:23 463

原创 将博客搬至CSDN

1111111111

2020-11-11 11:58:00 40

原创 二叉树、B树、B+树、B*树、LSM树 HBase 对于数据产品,底层存储架构直接决定了数据库的特性和使用场景。RDBMS(关系型数据库)使用 B树 及 B+树 作为数据存储结构。 HBase 使

二叉树、B树、B+树、B*树、LSM树HBase 对于数据产品,底层存储架构直接决定了数据库的特性和使用场景。RDBMS(关系型数据库)使用 B树 及 B+树 作为数据存储结构。 HBase 使用 LSM树。 。二叉树 所有节点至多拥有两个子节点。节点左指针指向小于其关键字的子树,右指针指向大于其关键字的子树;B树搜索,从根结点

2020-11-11 11:51:13 108

原创 OpenLDAP 2.4.44 安装 + phpLDAPadmin 安装

网上太多的例子搞 OpenLDAP + phpLDAPadmin 但是没有一个能让你成功配置起来。蛋疼得很。记录一下过程系统版本:centos7.4软件版本:2.4.44 超级重要,版本不对基本都会错,注意一 Yum 配置wget http://mirrors.aliyun.com/repo/Centos-7.repo cp Centos-7.repo /etc/...

2019-06-25 14:57:00 238

原创 最全的实用算法及其讲解

算法一:快速排序算法快速排序是由东尼·霍尔所发展的一种排序算法。在平均状况下,排序n个项目要Ο(nlogn)次比较。在最坏状况下则需要Ο(n2)次比较,但这种状况并不常见。事实上,快速排序通常明显比其他Ο(nlogn)算法更快,因为它的内部循环(innerloop)可以在大部分的架构上很有效率地被实现出来。快速排序使用分治法(Divideandconquer)策略...

2016-08-31 11:30:00 78

原创 Apache Mahout 0.9、10.1、11. CardinalityException: Required cardinality 60 but got 29

我们可以使用Apache Mahout来快速创建高效扩展性又好的机器学习应用。Mahout结合了诸如H2O算法、Scala、Spark和Hadoop MapReduce等模块,为开发人员提供了一个构建可扩展算法的环境。现在最新的版本是去年11月6日发布的0.11.1版本。Apache Mahout支持一个叫做Samsara的数学环境,用户可以在Samsara中使用它提供的常见算法来开发自己的...

2016-08-29 11:16:00 91

原创 Apache Tez on hive

———————————————————— 调配 Hadoop ————————————————————1 将 编译好的 TEZ .tar.gz 文件上传到 HDFS 中。hdfs fs -put complete-tez-0.7.0.tar.gz /tez2 创建 tez-site.xml需要在 hadoop 的 master 节点上面的 ${HADOOP_HOME}/etc...

2016-08-25 09:37:00 52

原创 用户画像 摘录

用户画像的焦点工作就是为用户打“标签”,而一个标签通常是人为规定的高度精炼的特征标识,如年龄、性别、地域、用户偏好等,最后将用户的所有标签综合来看,就可以勾勒出该用户的立体“画像”了。具体来讲,当为用户画像时,需要以下四个阶段:  1.战略解读:企业选择构建用户画像平台,可以实现不同的战略目的,如提升产品服务质量、精准营销等。根据战略目的的不同,用户画像的构建也有所区别。因此首...

2016-08-10 14:26:00 75

原创 Linux 网络搭建

如果系统环境崩溃。 调用/usr/bin/vim /etc/profileWindows1 本地连接使用固定IPvmware 82 修改Windows的hosts地址C:\Windows\System32\drivers\etc把虚拟机的东东加进去10.40.1.248 rocky_2410.40.1.110 master10.40.1.111 sl...

2016-07-19 15:38:00 286

原创 Apache Tez 0.7、0.83、 0.82 安装、调试笔记

————————————————————准备Tez 编译环境 ————————————————————1 需要的支持tez0.7 需要 Hadoop 2.60 以上2 需要的 linux 相关工具// apt-get install g++// apt-get install vim// apt-get install make// yum -y install gcc ma...

2016-06-21 09:21:00 55

原创 MRv2 工作机制 、 公平调度器、MR压缩、边数据

对于节点数超过 4000 的大型集群,前一节描述的 MapReduce 系统开始面临着扩展的瓶颈。 2010 年 Yahoo 的团队开始设计下一代的 MapReduce。 (Yet Another Resource Negotiator、YARN Application Resource Nefotiator)。 YARN 将 JobTracker 的只能划分为多个独立的实体,从...

2016-05-26 17:42:00 86

dolphinScheduler调度.rar

CSDN 同款 1.3.4 https://blog.csdn.net/cs261244787/article/details/117987373

2021-06-17

mysql-connector-java.rar

CSDN 博客同款 https://blog.csdn.net/cs261244787/article/details/117987373

2021-06-17

博客同款 hue-4.1.0.tgz

4.1 版本编译过的。 CentOS 7.7 JDK 1.8 Maven 3.5.4 Python 2.7.5 https://blog.csdn.net/cs261244787/article/details/112463374

2021-01-11

博客同款 hue 4.1 备份

博客同款 HUE 4.1 备份 https://blog.csdn.net/cs261244787/article/details/112463374

2021-01-11

博客同款mysql 驱动.zip

mysql 5.7 驱动 大数据集群搭建系列 hive . https://blog.csdn.net/cs261244787/article/details/111374964

2020-12-18

apache-hive-2.3.7-bin 博客同款

apache-hive-2.3.7-bin 博客同款 防止下载不下来或者慢。https://blog.csdn.net/cs261244787/article/details/111374964

2020-12-18

mysql 5.7 博客同款

mysql 博客同款提供下载,方便网络不好或者资源以后变动导致无法下载

2020-12-18

同款包包_jdk.zip

博客同款 JDK 提供下载,方便网络不好或者资源以后变动导致无法下载

2020-12-18

同款包包_scala.zip

博客同款 scala 博客同款提供下载,方便网络不好或者资源以后变动导致无法下载

2020-12-18

MongoDB_CDC 方案代码.zip

一个 pom 文件 一个 java 代码。代码检测实现 update insert delete 监听 欢迎下载

2020-11-25

ZELOTES F-15 Setup.exe

鼠标驱动,个人用 ,ZELOTES F-15 Setup.exe ZELOTES F-15 Setup.exeZELOTES F-15 Setup.exe

2020-11-19

MD神器 typora-setup-x64

markdown 工具。 可以生成 PDF 等。 原名 typora-setup-x64。非常之哇塞的一个软件。备份安装文件

2020-11-19

Kettle 连接 SQLServer JDBC

Kettle 连接 SQLServer 需要 JDBC jar 包 。 包含 JDK7 JDK8。 资源需要5分。 如果没分可以去官网自行下载。

2020-11-19

Storm入门、Storm初学

非常适合初学者的 Storm入门书籍。 欢迎下载。

2015-10-14

API中文已编译

已编译的API文档. 内涵JAVA API中文功能介绍

2013-04-23

整合面试题(近3年来)

整合了 近3年来常用的面试题 文档是PDF格式 可以去百度下载一个PDF的阅读器 这里有很对细致的问题。一共1000多道并且有解答 很适合JAVA程序员

2011-05-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除