mozhw-CSDN博客

原创 mysql2es

input { # 用于接收控制台输入数据，进行测试 stdin { } jdbc { # 数据库数据库名称为elk，表名为book_table jdbc_connection_string => "jdbc:mysql://192.168.25.129:3306/elk?characterEncoding=UTF-8" # 数据库用户名 jdbc_user => "root" # 数据库密码 jdbc_p.

2022-03-28 16:08:10 687

原创 lvm磁盘管理

LVM磁盘管理一 LVM简介LVM是 Logical Volume Manager（逻辑卷管理）的简写，它是Linux环境下对磁盘分区进行管理的一种机制。LVM将一个或多个磁盘分区（PV）虚拟为一个卷组（VG），相当于一个大的硬盘，我们可以在上面划分一些逻辑卷（LV）。当卷组的空间不够使用时，可以将新的磁盘分区加入进来。我们还可以从卷组剩余空间上划分一些空间给空间不够用的逻辑卷使用。LVM模型如下：二LVM添加硬盘1 创建物理卷pvcreate /dev/sde.

2021-09-08 17:23:33 196

原创 pxf部署

yum install postgresql-develrpm -ivh --prefix=/data1/greenplum/greenplum-db-6.16.2/pxf /data1/greenplum/greenplum-db-6.16.2/pxf-gp6-6.0.1-2.el7.x86_64.rpmsed：无法读取 /usr/local/pxf-gp6/gpextable/pxf.control：没有那个文件或目录sed：无法读取 /usr/local/pxf-gp6/gpextable.

2021-09-03 20:09:50 648 1

原创 cdh部署记录

服务器9台，2台master/master_standby,7台datanodeip 机器名 namenode second namenode datanode nodemanager resourcemanager hive zookeeper hdfs mysql ntp 192.168.1.101 cdh1 1 1 1 1 1 1 1 192.168.1

2021-09-03 17:47:58 250

原创 centos7基础环境配置

一安装lrzsz软件上传下载yum -y install lrzsz二配置jdk环境vi /etc/profileexport JAVA_HOME=/opt/jdk/jdk1.8export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/jre/lib/rt.jarexport PATH=$PATH:$JAVA_HOME/binsource /etc/profile[root@mas

2021-07-18 11:43:49 357

原创 ClickHouse学习笔记

一clickhouse 用户权限设置创建管理员账户管理员账户主要用来进行权限分配和管理用的；需要在user.xml中进行如下配置：<users> <admin> ## clickhouse自带default用户，但是该用户拥有所有权限且没有设置登陆密码和开启RBAC <password>pwd</password> <access_management>1</access_...

2021-03-09 13:26:20 126

原创 flink on yarn

一下载源码wget https://archive.apache.org/dist/flink/flink-1.9.3/flink-1.9.3-bin-scala_2.12.tgz

2021-03-06 12:25:14 90

原创 hadoop HA 搭建

IP JDK ZK NN RM DN NM JN 10.30.21.58 y y y 10.30.21.59 y y y 10.30.21.60 y y y y y 10.30.21.61 y y y y y 10.30.21....

2021-03-05 18:43:12 103

原创 Flume、Logstash、Filebeat对比

1、Flume简介Flume的设计宗旨是向Hadoop集群批量导入基于事件的海量数据。系统中最核心的角色是agent，Flume采集系统就是由一个个agent所连接起来形成。每一个agent相当于一个数据传递员，内部有三个组件： source: 采集源，用于跟数据源对接，以获取数据 sink：传送数据的目的地，用于往下一级agent或者最终存储系统传递数据 channel：agent内部的数据传输通道，用于从source传输数据到sink 2、LogStash简介.

2020-11-03 17:58:15 2319

原创 filebeat介绍

一、filebeat是什么1.1、filebeat和beats的关系　　首先filebeat是Beats中的一员。　　Beats在是一个轻量级日志采集器，其实Beats家族有6个成员，早期的ELK架构中使用Logstash收集、解析日志，但是Logstash对内存、cpu、io等资源消耗比较高。相比Logstash，Beats所占系统的CPU和内存几乎可以忽略不计。目前Beats包含六种工具：Packetbeat：网络数据（收集网络流量数据） Metricbeat：指标（收集系统、进程和文

2020-11-03 17:33:30 41048 1

原创 Davinci介绍以及部署

一Davinci背景介绍在现代商业中，大数据扮演着越来越重要的角色，企业在数据分析和呈现上逐渐青睐于数据可视化工具，这类工具往往能有效地帮助使用者：回顾大量数据决策者通过查看以图形形式呈现的数据，能够在短时间内有效地理解大量数据的意义，相比分析数据表格要快得多。发现趋势时间序列数据通常蕴含趋势，但是当数据源种类繁多、数据量巨大时，发掘出隐藏在数据中的趋势便很难实现了。使用恰当的大数据可视化技术可以很容易地发现这些趋势，从而支持商业中更加快速和精准的决策。识别相关性和意外的关系大.

2020-11-03 17:10:11 1205

原创 datax介绍

一 datax介绍官方文档：https://github.com/alibaba/DataXgp版本： https://github.com/HashDataInc/DataXDataX目前已经有了比较全面的插件体系，主流的RDBMS数据库、NOSQL、大数据计算系统都已经接入，目前支持数据如下图，详情请点击：DataX数据源参考指南类型数据源 Reader(读) Writer(写) 文档..

2020-11-03 17:08:58 785

原创 canal部署应用

canal的配置加载方式一部署准备：canal:https://github.com/alibaba/canal/releases/download/canal-1.1.4/canal.deployer-1.1.4.tar.gzzookeeper部署参考https://github.com/alibaba/canal/wiki/Zookeeper-QuickStartkafka部署参考https://github.com/alibaba/canal/wiki/Kafka-QuickS...

2020-11-03 17:07:00 349

原创 azkaban部署使用

一首页介绍projects：最重要的部分，创建一个工程，所有flows将在工程中运行。scheduling:显示定时任务executing:显示当前运行的任务history:显示历史运行任务二工程介绍一个工程包含一个或多个flows，一个flow包含多个job。job是你想在azkaban中运行的一个进程，可以是简单的linux命令，可是java程序，也可以是复杂的shell脚本，当然，如果你安装相关插件，也可以运行插件。一个job可以依赖于另一个job，这种多个job和它们的依.

2020-11-03 17:05:49 93

原创时间窗口(Time Windows)的原理和使用

概述flink中支持多种窗口，包括：时间窗口，session窗口，count窗口等，本文简单介绍这些窗口的原理，并通过例子说明如何使用这些窗口。时间窗口(Time Windows)最简单常用的窗口形式是基于时间的窗口，flink支持两种时间窗口：一种是翻滚时间窗口(tumbling time window) 一种是滑动时间窗口(sliding time window)翻滚时间窗口(tumbling time window)翻滚时间窗口的窗口是固定的，比如设定一个1分钟的时间窗口，该时

2020-11-03 16:26:13 15604

原创 flink入门部署demo

flink 本地部署wget https://mirrors.bfsu.edu.cn/apache/flink/flink-1.11.2/flink-1.11.2-bin-scala_2.11.tgz[hadoop@slave1 soft]$ tar -zxvf flink-1.11.2-bin-scala_2.11.tgz[hadoop@slave1 soft]$ cd flink-1.11.2[hadoop@slave1 flink-1.11.2]$ pwd/home/hadoop/sof

2020-11-03 11:50:13 215

原创周所在月周数

背景：每个月第一个周一作为第一周/** * 获取月首个周一日期 * @param monthStr * @return */ public static String findFirstMonthMondayDate(String monthStr) { try { Calendar cal = Calendar.getInstance(); Date firstMonthMondayDate = format.parse(monthStr + "01"); c

2020-10-30 18:00:37 127

转载分布式系统之Quorum机制

在了解Quorum机制之前，先回顾一下数据一致性强一致性：在任意时刻，从任意不同副本取出的值都是一样的。弱一致性：有时泛指最终一致性，是指在任意时刻，可能由于网络延迟或者设备异常等原因，不同副本中的值可能会不一样，但经过一段时间后，最终会变成一样。显然，我们更想要做到强一致性的这种效果，那么有哪些方式可以实现呢，其中最为简单直接的就是WARO，也就是Write All Read one。WARO协议是一种简单的副本控制协议，当 Client 请求向某副本写数据时（更新数据），只有当所有的副

2020-10-30 11:06:10 262

原创 kafka知识汇总

什么是kafkaKafka是分布式发布-订阅消息系统，它最初是由LinkedIn公司开发的，之后成为Apache项目的一部分，Kafka是一个分布式，可划分的，冗余备份的持久性的日志服务，它主要用于处理流式数据。Kafka的流处理是什么意思连续、实时、并发和以逐记录方式处理数据的类型，我们称之为Kafka流处理为什么要使用 kafka，为什么要使用消息队列缓冲和削峰：上游数据时有突发流量，下游可能扛不住，或者下游没有足够多的机器来保证冗余，kafka在中间可以起到一个缓冲的作用，把

2020-10-28 14:18:30 184

原创 hive on tez

框架版本号 Hadoop 3.1.2 Hive 3.1.2 Tez 0.9.2 一编译 tez 0.9.2下载tez的src.tar.gz源码包，附官方下载链接（http://tez.apache.org/releases/index.html)需要在pom.xml中更改hadoop.version属性的值，以匹配所使用的hadoop分支的版本。编译mvn clean package -DskipTests=true -Dhadoop.vers.

2020-10-26 17:03:52 104

原创 deta lake

环境搭建pip install --upgrade pysparkpyspark --packages io.delta:delta-core_2.12:0.7.0 --conf "spark.sql.extensions=io.delta.sql.DeltaSparkSessionExtension" --conf "spark.sql.catalog.spark_catalog=org.apache.spark.sql.delta.catalog.DeltaCatalog"spark =

2020-10-26 16:59:34 146

原创 clickhouse部署应用以及分布式表

部署[root@slave1 ~]# yum install yum-utils[root@slave1 ~]# rpm --import https://repo.clickhouse.tech/CLICKHOUSE-KEY.GPG[root@slave1 ~]# yum-config-manager --add-repo https://repo.clickhouse.tech/rpm/stable/x86_64Loaded plugins: fastestmirroradding rep

2020-10-22 18:30:29 160

原创 zookeeper总结

zookeeper，是一个分布式服务框架，是Apache Hadoop 的一个子项目，它主要是用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。每个子目录项如 NameService 都被称作为 znode(目录节点)，和文件系统一样，我们能够自由的增加、删除znode，在一个znode下增加、删除子znode，唯一的不同在于znode是可以存储数据的。有四种类型的znode： PERSISTENT-持久化目录节点...

2020-10-22 15:11:52 109

原创 centos 7+hadoop 2.7.3

hadoop 2.7.3 maven protobuf zookeeper ssh

2020-07-21 13:55:36 969

原创编译Poco 1.7.8

修改buildwin.cmd下载OpenSSL安装包，由于POCO默认是32位的，所以此时不管你的操作系统是32位还是64位，下载OpenSSL的32位版本，另外虽说OpenSSL开源，也可以自己编译，但是http://slproweb.com/products/Win32OpenSSL.html下已经完全可以满足需求，所以不用自虐自己去编译OpenSSL，所以直接从上述网站下载已经编

2017-05-25 11:30:01 707

原创 VMware Tools 安装

[root@localhost mnt]# mkdir /mnt/cdrom[root@localhost mnt]# mount /dev/cdrom /mnt/cdrommount: /dev/sr0 is write-protected, mounting read-only[root@localhost mnt]# pwd/mnt[root@localhost mnt]# ls

2017-05-18 11:45:47 1005

转载虚函数和纯虚函数的作用与区别

转载于：http://blog.163.com/hi_qiqiy@126/blog/static/1440667912010111693516434/ 虚函数为了重载和多态的需要，在基类中是有定义的，即便定义是空，所以子类中可以重写也可以不写基类中的此函数！纯虚函数在基类中是没有定义的，必须在子类中加以实现，很像java中的接口函数！虚函数引入原因：为了方便使用多态特性，我们常

2015-02-04 10:55:02 507

原创 C++ 单链表反转

复习下C++ 单链表反转思路：在顺序读取链表的过程中，对每个节点逐个进行反转首先创建单链表 struct LinkNode{ int NodeData; LinkNode *next;};LinkNode * createLink(){ LinkNode * head=new LinkNode; head->NodeData=0; head->next

2015-02-04 10:41:48 393

原创记录在WIN7 64位安装32位Oracle 11G遇到的问题

监听程序未启动或数据库服务未注册到该监听程序通过查看D:\app\Eric_jcmozw\cfgtoollogs\dbca\orcl\emConfig.log： 2015-1-30 13:36:40 oracle.sysman.emcp.EMConfig perform严重: 监听程序未启动或数据库服务未注册到该监听程序。启动该监听程序并注册数据库服务, 然后重新运行 EM C

2015-01-30 15:12:58 873

原创 HADOOP学习连载：HDFS架构解读

Hadoop分布式文件系统（HDFS）是为了存储海量数据，并为分布在网络中的大量客户端提供数据访问。能够保存的数量在TB或者PB级，将数据散布在大量机器上，并且可靠地存储数据，使用数据复制方法。高速流式读取，顺序读取，避免查找。是一种块结构的文件系统。单个文件被拆分成固定大小的块，而这些块号村在HADOOP集群上。一个文件可以由多个块组成，这些块存储在不同的DataN

2015-01-22 14:39:43 444

原创以前写的一个多路归并代码进行汇总并实现了增量更新

先介绍下多路归并算法：多路归并是外部排序(External Sort)的基础，实现也比较简单，和最简单的归并排序中的二路归并是基本一样的，只不过路数是浮动的k。(1)假设有K路数据流，流内部是有序的，且流间同为升序或降序(2)首先读取每个流的第一个数，如果已经EOF，pass(3)将有效的k(k可能小于K)个数比较，选出最小的那路mink，输出，读取mink的下一个(4)直到所...

2015-01-22 10:52:08 689

原创缓冲区与memcpy

百度中这么解释memcpy： c和c++使用的内存拷贝函数，memcpy函数的功能是从源src所指的内存地址的起始位置开始拷贝n个字节到目标dest所指的内存地址的起始位置中。 strcpy和memcpy主要有以下3方面的区别。 1、复制的内容不同。strcpy只能复制字符串，而memcpy可以复制任意内容，例如字符数组、整型、结构体、类等。

2015-01-21 17:11:10 623

原创 Poco C++ 学习笔记连载：Poco命令行解释

在SDK中这样描述Option类： This class represents and stores the properties of a command line option. 意思是：这个类表示并存储一个命令行选项的属性。 An option has a full name, an optional short name, a description (u

2015-01-21 09:17:45 2292

网维的木棉后记