zhanglei_16-CSDN博客

原创大数据技术之 Apache Doris（一）

Apache Doris 由百度大数据部研发（之前叫百度 Palo，2018 年贡献到 Apache 社区后，更名为 Doris ），在百度内部，有超过 200 个产品线在使用，部署机器超过 1000 台，单一业务最大可达到上百 TB。Apache Doris 是一个现代化的 MPP（Massively Parallel Processing，即大规模并行处理）分析型数据库产品。仅需亚秒级响应时间即可获得查询结果，有效地支持实时数据分析。

2024-03-27 15:25:21 1426

原创大数据技术之Hudi

Apache Hudi（Hadoop Upserts Delete and Incremental）是下一代流数据湖平台。Apache Hudi将核心仓库和数据库功能直接引入数据湖。Hudi提供了表、事务、高效的upserts/delete、高级索引、流摄取服务、数据集群/压缩优化和并发，同时保持数据的开源文件格式。Apache Hudi不仅非常适合于流工作负载，而且还允许创建高效的增量批处理管道。Apache Hudi可以轻松地在任何云存储平台上使用。

2024-01-13 14:54:40 946

原创达梦数据库主备集群

DM 数据库安装在 Linux 操作系统所需条件：glibc 2.3 以上，内核 2.6，预先安装 UnixODBC，系统性能监控等组件。重新打开一个连接，执行：./dmmonitor /data/dmdata/dmrw/dmmonitor.ini。上述服务启动都是前台启动，关闭窗口服务就会退出，可以将启动命令注册为系统服务，便于操作。当修改了 dm_svc.conf 内容后，需要重启客户端程序，修改的配置才能生效。使用 root 用户，到数据库安装目录的 script/root 下，执行。

2024-01-12 20:12:16 1016

原创达梦数据库文档

达梦数据库管理系统是武汉达梦公司推出的具有完全自主知识产权的高性能数据库管理系统，简称DM。达梦数据库管理系统目前最新的版本是8.0版本，简称DM8。DM8是达梦公司在总结DM系列产品研发与应用经验的基础上，坚持开放创新、简洁实用的理念，推出的新一代自研数据库。

2023-12-29 16:10:27 853

原创 K8S（一）

容器占用资源少、部署快，每个应用可以被打包成一个容器镜像，每个应用与容器间成一对一关系也使容器有更大优势，使用容器可以在 build 或 release 的阶段，为应用创建容器镜像，因为每个应用不需要与其余的应用堆栈组合，也不依赖于生产环境基础结构，这使得从研发到测试、生产能提供一致环境。是一个开源的，用于管理云平台中多个主机上的容器化的应用，Kubernetes 的目标是让部署容器化的应用简单并且高效（powerful）,Kubernetes 提供了应用部署，规划，更新，维护的一种机制。

2023-11-20 15:23:05 593

原创 docker 部署Redis集群（三主三从，以及扩容、缩容）

6.6：恢复成原来的 6381位master，6386为slave，只需要重启redis06。7：主从扩容，增加一个节点6387为master，一个节点6388为slave。8：主从缩容，将6387、6388踢出集群，恢复3主3从。5：存储数据，必须连接redis集群，不能连接单节点。6.2：停止6381，redis01。3：创建redis 3主3从集群。6.5：查看redis 集群状况。1：创建6个redis容器。2：查看容器运行状态。6.1：查看集群信息。6.3：查看集群状态。6.7：检查集群状况。

2023-11-16 21:45:25 423

原创 docker 部署mysql主从复制

当Slave_IO_Running: No 时，在再看往下查看异常Error信息，也可重复以上的步骤：重置主从配置->获取Master日志名与偏移量-> 重新建立主从配置。MASTER_LOG_FILE=’mysql-bin.具体数字’,MASTER_LOG_POS=具体值(之前的Position);其中：Slave_IO_Running 与 Slave_SQL_Running都是Yes则说明主从配置成功！2：在/opt/mysql-m/conf 创建文件 my.cnf,并做如下配置。

2023-11-16 15:37:14 630

原创 docker部署mysql

9：删除mysql容器，重建，并检验上面创建的表的数据是否还在。8：连进mysql容器，并建库建表。3：配置docker镜像加速器。4：拉取mysql 5.7镜像。7：重新启动mysql容器实例。5：创建并运行mysql容器。2：查看docker版本。1：安装docker。6：新建my.cnf。可以看到数据都完好。

2023-11-12 15:38:06 137

原创 Oracle RAC ASM磁盘组删除、添加磁盘

4、创建临时磁盘组，主要是用ASM 实例来检验下所有要加的盘没有问题，即使出问题，也不会影响原来的生产系统。7、如果step6 查询lixora成功mount（如果rac ，则确保每个ASM实例都成功mount）则说明我们需要添加的asm 盘都正常的，可以正常使用。2、在操作系统层面检查磁盘是否可以读写（每个节点）（oracle 用户或者grid用户）----删除测试用临时dg （在ASM instance 中执行这个命令）-----卸载dg（在ASM instance中执行这个命令）

2022-11-06 08:52:28 1203 1

原创【Oracle 19C RAC安装、补丁升级到19.16】

Oracle 19C RAC安装、补丁升级到19.16

2022-02-05 11:30:43 1765

原创 Oracle 19.3 单机数据库静默安装、补丁升级、DG

Oracle 19c(19.3) 单机数据库静默安装一、环境介绍操作系统：CentOS 7.4数据库版本：Oracle database 19.3主机名：oradb31IP地址：192.168.1.31安装目录：/opt/oracle/product/19.3/db_1数据库名称：orcl字符集：AL32UTF8二、环境准备2.1：关闭防火墙systemctl stop firewalldsystemctl disable firewalld2.2：禁用NetworkMan

2021-11-06 14:32:34 1527

原创 Oracle 19C 静默安装、补丁升级

https://www.cnblogs.com/zhangrui153169/p/12710490.htmlOracle 19c(19.3) 单机数据库静默安装一、环境介绍操作系统：CentOS 7.4数据库版本：Oracle database 19.3主机名：oradb31IP地址：192.168.1.31安装目录：/opt/oracle/product/19.3/db_1数据库名称：orcl字符集：AL32UTF8二、环境准备2.1：关闭防火墙systemctl stop

2021-10-30 19:36:12 2725

原创大数据技术之Hbase

一、HBaes介绍1.1、HBase简介HBase是一个分布式的、面向列的开源数据库，它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。大：上亿行、百万列面向列：面向列（族）的存储和权限控制，列（簇）独立检索稀疏：对于为空(null)的列，并不占用存储空间，因此，表的设计的非常的稀疏1.2、HBase的角色1.2.1、HMast...

2019-07-20 11:31:11 423

原创大数据技术之Azkaban

一概述1.1 为什么需要工作流调度系统1）一个完整的数据分析系统通常都是由大量任务单元组成：shell脚本程序，java程序，mapreduce程序、hive脚本等2）各任务单元之间存在时间先后及前后依赖关系3）为了很好地组织起这样的复杂执行计划，需要一个工作流调度系统来调度执行；例如，我们可能有这样一个需求，某个业务系统每天产生20G原始数据，我们每天都要对其进行处理，...

2019-07-19 20:10:05 1386

原创大数据技术之Sqoop

一、Sqoop简介Apache Sqoop(TM)是一种旨在有效地在Apache Hadoop和诸如关系数据库等结构化数据存储之间传输大量数据的工具。Sqoop于2012年3月孵化出来，现在是一个顶级的Apache项目。请注意，1.99.7与1.4.6不兼容，且没有特征不完整，它并不打算用于生产部署。二、Sqoop原理将导入或导出命令翻译成mapreduce程序来实现。在翻...

2019-07-16 19:38:11 280

原创大数据技术Hive之六

九企业级调优9.1 Fetch抓取Fetch抓取是指，Hive中对某些情况的查询可以不必使用MapReduce计算。例如：SELECT * FROM employees;在这种情况下，Hive可以简单地读取employee对应的存储目录下的文件，然后输出查询结果到控制台。在hive-default.xml.template文件中hive.fetch.task.conversion默认...

2019-07-13 18:43:22 283

原创大数据技术Hive之五

七函数7.1 系统自带的函数1：查看系统自带的函数hive> show functions;:2：显示自带的函数的用法hive> desc function upper;:3：详细显示自带的函数的用法hive> desc function extended upper;7.2 自定义函数1：Hive 自带了一些函数，比如：max/...

2019-07-13 14:30:10 202

原创大数据技术Hive之四

六查询https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Select[WITH CommonTableExpression (, CommonTableExpression)*] (Note: Only available starting with Hive 0.13.0)SELECT [ALL | D...

2019-07-12 10:42:15 585

原创大数据技术Hive之三

4.6 分区表分区表实际上就是对应一个HDFS文件系统上的独立的文件夹，该文件夹下是该分区所有的数据文件。Hive中的分区就是分目录，把一个大的数据集根据业务需要分割成小的数据集。在查询时通过WHERE子句中的表达式选择查询所需要的指定的分区，这样的查询效率会提高很多。4.6.1 分区表基本操作1：引入分区表（需要根据日期对日志进行管理） /user/hive/warehous...

2019-07-09 12:06:51 140

原创大数据技术Hive之二

三：Hive数据类型3.1 基本数据类型 Hive数据类型 Java数据类型长度例子 TINYINT byte 1byte有符号整数 20 SMALINT short ...

2019-07-08 15:23:33 169

原创大数据技术Hive之一

一 Hive基本概念1.1 什么是HiveHive：由Facebook开源用于解决海量结构化日志的数据统计。Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。本质是：将HQL/SQL转化成MapReduce程序1：Hive处理的数据存储在HDFS2：Hive分析数据底层的实现是MapReduce3：执行程序运行在Y...

2019-07-06 11:25:04 391

原创 Flume案例三

案例六：Flume拦截器一：时间戳拦截器vi /opt/mod/flume/jobconf/flume-timestamp.conf#1.定义agent名， source、channel、sink的名称a4.sources = r1a4.channels = c1a4.sinks = k1#2.具体定义sourcea4.sources.r1.type = spooldir...

2019-07-04 11:21:06 241

原创 Flume案例二

案例四：Flume与Flume之间数据传递：单Flume多Channel、Sink目标：使用flume1监控文件变动，flume1将变动内容传递给flume-2，flume-2负责存储到HDFS。同时flume1将变动内容传递给flume-3，flume-3负责输出到local分步实现：1：创建flume1.conf，用于监控某文件的变动，同时产生两个channel和两个sink分...

2019-07-02 18:18:13 209

原创大数据技术之Flume一

一、Flume简介1) Flume提供一个分布式的，可靠的，对大数据量的日志进行高效收集、聚集、移动的服务，Flume只能在Unix环境下运行。2) Flume基于流式架构，容错性强，也很灵活简单。3) Flume、Kafka用来实时进行数据收集，Spark、Flink用来实时处理数据，impala用来实时查询。二、Flume角色2.1、Source用于采集数据，Sou...

2019-07-01 16:22:43 146

原创 HDFS-HA集群配置

HDFS-HA集群配置环境：192.168.1.31 bigdata31192.168.1.32 bigdata32192.168.1.33 bigdata33一：环境准备 1）修改IP 2）修改主机名及主机名和IP地址的映射 vi /etc/hostname bigdata31 3）关闭防火墙 ...

2019-07-01 10:26:54 488

转载 Yarn中job提交后的过程

主要组件介绍：Yarn是个资源管理，任务调度的框架，主要包括三大模块：ResouceManager，NodeManager，ApplicationMasterResouceManager：资源管理器，整个集群资源的协调者，调度者，管理者,ResourceManager有一个Scheduler，负责各个集群中应用的资源分配。对于每种类型的每个应用，都会对应一个ApplicationMaste...

2019-06-28 10:55:02 703

原创学生成绩统计

需求：如下文件，需要统计出每门成绩的最高、最低、平均分package Student;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Mapper;import org.apache.hadoop.mapred...

2019-06-27 19:33:43 633

原创自定义output文件，并指定输出的文件路径以及文件名

需求：有如下文件，需要将itstar输出到一个文件，其他的输出到另一个文件，并自定义输出文件路径与文件名1：定义FilterMap类package OutputFormat;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.NullWritable;import org.apache.had...

2019-06-26 16:02:19 6484 1

原创自定义InputFormat，小文件合并

需求：在Map，Reduce中，有时需要将一些小文件合并有3个小文件，现在需要合并成一个文件1：定义SequenceFileMap类package inputFormat;import org.apache.hadoop.io.BytesWritable;import org.apache.hadoop.io.NullWritable;import org...

2019-06-26 11:37:21 262

原创共同好友查找

需求：有如下文件，A的好友有B,C,D,F,E,O，查找出A和B的共同好友有哪些A:B,C,D,F,E,OB:A,C,E,KC:F,A,D,ID:A,E,F,LE:B,C,D,M,LF:A,B,C,D,E,O,MG:A,C,D,E,FH:A,C,D,E,OI:A,OJ:B,OK:A,C,DL:D,E,FM:E,F,GO:A,H,I,J1：定义Friends1Map...

2019-06-24 17:15:58 533

原创统计word在文件中出现的次数

需求：有如下3个文件，统计出每个词在这三个文件中出现的次数文件1：a.txtmapreduceMapReduceindex Inverted indexInverted index倒排索引大数据hadoop MapReduce hdfsInverted index......文件2：b.txthadoop MapReduce hdfsInverted inde...

2019-06-22 20:18:23 617

原创 ReduceJoin多表连接

需求：将商品表与订单表关联order.txt201801 01 1201802 02 2201803 03 3201804 01 4201805 02 5201806 03 6......pd.txt01 小米02 华为03 格力......当数据量比较小的时候，可以...

2019-06-21 16:28:07 193

原创 MapJoin多表联合

需求：将商品数据和订单数据关联起来有如下两组数据：01 小米02 华为03 格力04 884805 Dell......-----------------------------201901 01 1201902 02 2201903 03 3201904 01 4201905 02 5201906 03 6201906 04 9201904 05 420...

2019-06-19 16:14:36 1717

原创按照订单将商品分组，并按照价格倒序排列，在reduce端压缩输出

需求：将下面数据，按照定单号分组，并按照价格倒序排列订单号商品价格0000001 Pdt_01 222.80000002 Pdt_06 722.40000001 Pdt_05 25.80000003 Pdt_01 222.80000003 Pdt_01 33.80000002 Pdt_...

2019-06-18 22:51:31 477

原创 hadoop gzip压缩/解压

package GroupingComparator;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IOUtils;import org.apache.hadoop.io.compress.CompressionCodec;...

2019-06-18 21:11:21 1047

原创将上次日志分析手机流量汇总的结果，将总流量降序排列

需求：上次是从日志中将手机流量汇总汇总，现在需要按照总流量降序排列下面是上次汇总的结果：1348025**** 180 180 3601350246**** 7335 110349 1176841356043**** 3597 25635 292321356043**** 2034 5892 792613602...

2019-06-17 15:24:52 221

原创按照不同的运营商将手机号分区

1：随机生成10万个手机号，并输入到文件package Phone_count;import java.io.FileNotFoundException;import java.io.PrintWriter;import java.io.UnsupportedEncodingException;import java.util.ArrayList;import java.util....

2019-06-15 14:48:11 355

原创 web日志清洗简单版

1：需求对web访问日志中的各字段识别切分去除日志中不合法的记录，（字段小于等于11）2：定义LogMap类package LogClean_01;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.NullWritable;import org.apache.hadoop.io.Text...

2019-06-15 09:29:51 408

原创 web日志解析清洗

测试web日志解析清洗复杂版1：需求对web访问日志中的各字段识别切分去除日志中不合法的记录，（字段小于等于11，状态码大于等于400）根据统计需求，生成各类访问请求过滤数据2：定义一个类bean，用来记录日志数据中的各数据字段package LogClean_02;public class LogBean { //客户端的IP地址 private St...

2019-06-15 09:22:42 544

原创根据日志分析手机流量汇总

这里只是根据一段日志，来做手机流量分析：1363157985066 13726230503 00-FD-07-A4-72-B8:CMCC 120.196.100.82 i02.c.aliimg.com 24 27 2481 24681 2001363157995052 13826544101 5C-0E-8B-C7...

2019-06-11 19:25:56 731

空空如也

空空如也