自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 资源 (2)
  • 收藏
  • 关注

原创 DataX和dataX-web 集群部署及使用

DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。datax-web集群部署 一个datax-web和多个datax-executor。在jdbc url增加配置 在没有服务器身份验证的情况下建立SSL连接\设置useSSL=false来显式禁用SSL。的任务构建是负责自动生成dataX用的json文件,如果已经有json文件 就不需要使用。下的日志能查到日志文件。

2023-10-06 14:30:09 1529

原创 Flink IntervalJoin 笔记

之后就是计算cleanupTime,调用internalTimerService.registerEventTimeTimer注册清理该element的timer,定时的清理时间,就是当下流入的数据的时间+relativeUpperBound,当watermark大于该时间就需要清理。)将数据输出给ProcessJoinFunction调用,ourTimestamp表示流入的数据时间,timestamp表示对应join的数据时间,不满足要求的直接跳过,满足要求的就调用collect方法(

2023-04-24 10:03:38 429

原创 Flink主要有两种基础类型的状态:operator state。

对应的initializeState()在每次初始化用户定义的函数时调用,可以是在函数第一次初始化时调用,也可以是在函数实际从较早的checkpoint恢复时调用。推荐使用managed state(而不是raw state),因为使用managed state,当并行度变化时,Flink可以自动的重新分布状态,也可以做更好的内存管理。ListCheckpointed接口是CheckpointedFunction的一个有限制的变体,它只支持列表样式的状态,在恢复时使用均分重分区方案。

2023-04-22 19:05:23 439

原创 Flink主要有两种基础类型的状态:keyed state

它维护了状态的名称(稍后将看到,你可以创建多个状态,因此他们必须有唯一的名称,以便你可以引用它们),状态维护的值的类型,和可用户定义function,例如ReduceFunction。推荐使用managed state(而不是raw state),因为使用managed state,当并行度变化时,Flink可以自动的重新分布状态,也可以做更好的内存管理。ValueState:它会保存一个可以被更新和查询的值(受限于上面提到的输入元素的key,算子看到的每个key可能仅一个值)。

2023-04-22 19:04:16 498

原创 HBase的表设计笔记

一个常见的数据处理问题是快速获取数据的最近版本,使用反转的时间戳作为rowkey的一部分对这个问题十分有用,可以用 Long.Max_Value - timestamp 追加到key的末尾,例如 [key][reverse_timestamp] , [key] 的最新值可以通过scan [key]获得[key]的第一条记录,因为HBase中rowkey是有序的,第一条记录是最后录入的数据。如果知道hbase数据表的key的分布情况,就可以在建表的时候对hbase进行region的预分区。

2023-04-22 18:44:17 454

原创 推荐系统搭建全程图文攻略

推荐整体从数据处理开始,默认数据从关系型数据到每天增量导入到hive,在hive中通过中间表和调用python文件等一系列操作,将数据处理为算法数学建模的入口数据,这里只是模拟一下,所以用一个scala文件产生所有准备数据,并直接load到hive中去做数据处理。将导出的数据作为输入放在recommend类中执行,参见附件recommond.scala文件,参数为四个,分别是spark执行的模式,输入数据文件路径,分隔符和输出数据路径,注意这里分割是tab键或者是逗号,因为源数据中的分隔符号不统一。

2023-04-22 18:31:38 1984

原创 大数据常用的面试问题笔记

1.Reducer通过Http方式得到输出文件的特定分区的数据。2.排序阶段合并map输出。然后走Reduce阶段。3.reduce执行完之后,写入到HDFS中。3.Yarn的组件1. ResourceManager主要功能是:(1)接收用户请求(2)管理调度资源(3)启动管理am(4)管理所有nm,处理nm的状态汇报,向nm下达命令。2.Container:yarn的应用都是运行在容器上的,容器包含cpu,内存等信息。

2023-04-22 18:12:41 461

原创 Flume 实时日志收集系统

案例一: NetCat Source:监听一个指定的网络端口,即只要应用程序向这个端口里面写数据,这个source组件就可以获取到信息。然后用telnet协议来通过端口传递信息flume官网中NetCat Source描述:type – 组件的类型bind – 日志需要发送到的主机名或者Ip地址,该主机运行着netcat类型的source在监听。

2023-04-22 18:10:03 774

原创 学习spark笔记

返回的是一个含前k个元素的数组。join:对两个需要连接的 RDD 进行 cogroup函数操作,将相同 key 的数据能够放到一个分区,在 cogroup 操作之后形成的新 RDD 对每个key 下的元素进行笛卡尔积的操作,返回的结果再展平,对应 key 下的所有元组形成一个集合。saveAsObjectFile 算子:将分区中的每10个元素组成一个Array,然后将这个Array序列化,映射为(Null,BytesWritable(Y))的元素,写入HDFS为SequenceFile的格式。

2023-04-22 17:39:10 448

原创 Data X

当 JobContainer和TaskGroupContainer 运行在同一个进程内时,就是单机模式(Standalone和local);当他们分布在不同的进程中执行就是分布式(distributed)DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。框架为插件提供物理上的执行能力(线程)。datax-web 集群部署时单独起某一个功能。(需要python环境)

2023-04-22 17:29:00 503

原创 Ambari 搭建

基于华为云服务器 CentOS 7.x 搭建Ambari集群

2023-01-11 18:31:19 373

原创 搭建LVS负载均衡

华为云服务器 安装LVS 需要 VPC产品(做虚拟IP)。需要提前联系IT部门在控制台页面做虚拟ip绑定。规划两台 LVS服务器,两台NGinx服务器,两台部署Netty程序服务器。LVS 模块内嵌lvs模块,只需要ipvsadm和keepalived安装。

2022-10-17 17:20:11 1051

原创 MLSQL 的小记

???? MLSQL 的小记MLSQL 解决了哪些问题一. 配置 MLSQL源码地址 engine和cluster源码地址 console1. mlsql-engine 模块下图 mlsql_18.png 为 节点启动mlslq-engine 命令打印出的 为命令谁需要的变量windows环境下调试代码:idea 打包在下载代码,修改package.cmd 。执行package.cmd 即可打包。set MLSQL_SPARK_VERSIOIN=2.4set DRY_RUN=false

2021-01-12 10:58:42 617

原创 Kerberos 使用小记

Kerberos 使用小记背景:使用一个spark集群(集群上有hbase 等大数据组件),去连接另一个集群上的 Kerberos 认证的 hbase 集群。基于mlsql 去连接。使用 yarn-client 模式。将 krb5.conf 和 wc1-ods.keytab 文件分发到所有集群节点的同一路径下。 使用spark newAPIHadoopRDD的方式去读 最好重写 TableInputFormat 的方法 在里面加入Kerberos认证报错20/10/19 16:08:24 ERROR

2020-11-06 17:20:05 3392

原创 关于RDD、DataFrame和Dstream的几个常识(补充 DataSet)的笔记

RDDSpark 编程每一个 spark 应用程序都包含一个驱动程序(driver program),会运行用户的 main 函数,并在集群上执行各种并行操作(parallel operations)spark导图.xmindRDD的基础知识五个特征a list of partiotioner有很多个partiotioner(这里有3个partiotioner)。可以明确的说,一个分区在一台机器上,一个分区其实就是放在一台机器的内存上,一台机器上可以有多个分区。a function for

2020-07-30 10:04:33 1158

原创 Maxwell 使用小记

一 Maxwell简介Maxwell 能实时读取 Mysql 的二进制日志 binlog,并生成 JSon 格式消息,作为生产者发送给 Kafka,Kinesis、RabbitMQ、Redis、Google Cloud Pub/Sub、文件或其它平台的应用程序。它的常见应用场景有ETL、维护缓存、收集表级别的dml指标、增量到搜索引擎、数据分区迁移、切库binlog回滚方案等。链接Maxwe...

2020-01-16 16:58:21 1008

原创 canal 1.1.4 小记

Canal 1.1.4 小记一 安装前准备链接 CSDN canal同步mysql数据到es、oracle、mq、redis和mysql中链接 博客园 canal的使用记录 (工作方式及链接方式)Canal github链接 Canal 的参数链接 阿里 canal 的理解链接 Canal数据库同步组件 链接 canal 概述deployer : 相当于服务端adapater...

2020-01-10 16:43:06 3453 7

原创 安装 cachecloud 并搭建redis cluster集群

安装 cachecloud 并搭建redis cluster集群下载 Cachecloud 安装包链接官方文档链接下载地址(下载好的百度网盘链接:https://pan.baidu.com/s/1hpPvoCeoo2aYVKEsfCR_Gw 提取码:g30h )将安装包上传到节点,并进行解压unzip -d /usr/local cachecloud-master.zip在 M...

2019-11-20 22:21:58 694

原创 redis 常识

Redis 管道技术Redis 基于客户端-服务端模型以及请求/响应协议的TCP服务。客户端 发送查询请求 服务端,并监听Socket返回,通常以阻塞模式,等待服务端响应;管道技术 在服务端未响应时,客户端可以继续向服务端发送请求,并最终一次性读取所有服务端的响应。(原理 java 处理并发请求的是排队队列)优势,显著提高了redis服务的性能Jedis jiedis = new Jedi...

2019-11-05 15:25:15 227

原创 springboot对HDFS文件进行操作

springboot对HDFS文件进行操作1 本地开发环境配置需要在本地环境有安装hadoop,(有bin即可) ,配置本地环境变量[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-eXvR07xm-1572397634569)(.\images\1568621382014.png)]将下载好的hadooponwindows-master.zip(笔记第一步...

2019-10-30 09:18:28 1856

原创 es安装

安装 Elasticsearch1.下载安装包并解压elasticsearch-6.8.2安装包执行 tar -zxvf elasticsearch-6.8.2.tar.gz -C /opt/modules2.为es新建用户elasticsearch有远程执行脚本的功能,root用户启动会报错,由一般的用户启动(1)新建用户并设定密码adduser elasticpasswd el...

2019-10-09 10:40:58 89

原创 centos6.4下载

centos6.4下载链接:https://pan.baidu.com/s/1JHznDjlziULnb15BdRZN-A提取码:u40g永久有效

2019-09-04 11:10:01 3536

基于32960协议的解析报文

基于32960协议的解析报文,如果后续有使用方面的问题 欢迎私聊我解决

2023-11-08

关于机器学习的个人学习笔记

有文档和ppt,欢迎大家一起学习

2023-04-22

wangyi.zip

里面有pdf详解一共三步,下载node 解压代码 配置网易云音乐 快捷大概10分钟左右就可以搞好 长期永久有效,遇到问题不懂可以欢迎咨询我

2020-03-20

mongodb-linux-x86_64-ubuntu1604-4.2.0 (5).tgz

官网太慢,存这了MongoDB 4.2 20190926这个就是这样的神色

2019-09-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除