哈哈xxy-CSDN博客

原创 nginx反向代理做端口转发

1、安装nginxcd /optmkdir /usr/local/nginxtar -zxvf nginx-1.20.1.tar.gzcd nginx-1.20.1yum install -y zlib zlib-develyum install -y openssl openssl-develyum install -y pcre pcre-devel./configure --prefix=/usr/local/nginx --with-streammake && ma

2021-11-17 17:55:43 1348

原创 ogg_for_bigdata (oracle 数据通过ogg到hbase)

ogg_for_bigdata (oracle 数据通过ogg到hbase)文章目录ogg_for_bigdata (oracle 数据通过ogg到hbase)1、zookeeper安装2、hbase安装3、ogg for hbase 配置1、zookeeper安装基础环境见ogg_forbigdata hdfs安装文档 https://blog.csdn.net/weixin_43761300/article/details/116246042?spm=1001.2014.3001.5501zoo

2021-04-29 16:15:04 802

原创 ogg_for_bigdata(oracle日志通过ogg for bigdata 导入hdfs)

ogg for bigdata(oracle日志通过ogg for bigdata 导入hdfs)文章目录ogg for bigdata(oracle日志通过ogg for bigdata 导入hdfs)1、环境准备2、Oracle XE 11安装3、hadoop安装4、安装源端ogg5、安装目标端ogg for bigdata6、Oracle设置7、ogg源端配置OGG初始化配置管理器mgr添加要复制日志的表配置抽取进程配置投递进程配置define文件8、目标端的配置OGG初始化配置管理端的mgr配置c

2021-04-29 00:03:03 782 1

原创 hdfs2.x架构

架构图单点问题hdfs2.0通过增加namenode来解决单点故障问题，如图，NN分别有active和standby两个节点。journalnode既然有了standby的namenode,那么active的元数据和standby的元数据必然要一致。journal node就是用来namenode之间共享数据，数据同步的。两个namenode之间会通过一组journalnode的独立进程进行相互通信。namenode的HA是为了解决集群的单点故障，我们不能在引入解决方案后创造另一个单点故障，因此，

2021-02-08 10:50:21 236 2

原创 spring boot入门实战

文章目录1、创建工程2、spring-boot相关属性3、自动配置原理[email protected]@[email protected]@ComponentScan4 SpringBoot实践lombok静态资源目录拦截器整合jdbc和事务整合连接池整合mybatis真实调用git链接1、创建工程这里采用idea社区版本的Spring Assistant快速构建构建完成后的项目目录pom

2020-11-26 15:32:35 101

原创基于hbase的协处理器更新es索引数据(hbase二级索引解决方案)

elasticsearch使用的是7.x版本hbase使用的是1.2.x版本maven依赖<dependencies> <dependency> <groupId>org.elasticsearch.client</groupId> <artifactId>elasticsearch-rest-high-level-client</artifactId>

2020-11-17 17:31:31 385

原创 hbase bulkload 方式

1、生成hdfs文件创建hive表,这个表是用来生成适合bulkload的数据，被hbase导入之后该表为空表create table stu_info(rowkey string comment ‘rowkey’,name string comment ‘姓名’)STORED ASINPUTFORMAT ‘org.apache.hadoop.mapred.TextInputFormat’OUTPUTFORMAT ‘org.apache.hadoop.hive.hbase.HiveHFile

2020-11-16 17:03:23 458

原创 flink 六、flink stated状态管理和checkpoint容错机制

valueStateobject StateValue { /** * 使用valueState保存每个word的最小值 * @param args */ def main(args: Array[String]): Unit = { val environment: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment val dataStream: DataStream

2020-08-31 19:12:09 164

原创 flink 五、flink的window操作和水印机制

Flink 认为 Batch 是 Streaming 的一个特例，所以 Flink 底层引擎是一个流式引擎，在上面实现了流处理和批处理。而窗口（window）就是从 Streaming 到 Batch 的一个桥梁。Flink 提供了非常完善的窗口机制。什么是window在流式数据中，数据是连续的。有时我们需要根据业务做一些聚合类的操作，例如过去五分钟内用户浏览量的计算。这五分钟就是一个窗口。窗口可以由时间或者数量来做区分1.根据时间进行截取，比如每10分钟统计一次2.根据消息数量进行统计，比如每1

2020-08-30 23:17:28 385

原创 flink 四、flink流处理

Flink流处理的Source基于集合基于文件基于Socket使用Kafka作为数据源使用MySql作为数据源自定义数据源flink基于文件流或集合object TextStream { def main(args: Array[String]): Unit = { val environment: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment envir

2020-08-30 22:04:23 275

原创 flink 三、flink批处理

DataSource类型算子 val environment: ExecutionEnvironment = ExecutionEnvironment.getExecutionEnvironment // 支持多种Collection的具体类型 val datasource1: DataSet[String] = environment.fromCollection(Array("a", "b", "c", "d")) // 支持Tuple,自定义对象等复合形式 va

2020-08-30 17:59:20 531

原创 flink 二、flink集群搭建

flink集群搭建1、准备三台Linux机器，node01,node02,node03，基本环境构建vi /etc/hosts 1,2步骤仅在一台机器上做即可192.168.23.171 node01192.168.23.172 node02192.168.23.173 node03删除原有的Java环境，构建1.8的jdkrpm -qa|grep jdkrpm -e –nodeps 上面查找出的Java解压jdk.tar.gz配置/etc/profileexport JAVA_H

2020-08-30 17:07:55 283

原创 flink 一、wordCount入门示例

1、Java版本batch wordcountimport org.apache.flink.api.common.functions.FlatMapFunction;import org.apache.flink.api.common.functions.MapFunction;import org.apache.flink.api.java.ExecutionEnvironment;import org.apache.flink.api.java.operators.AggregateOpera

2020-08-28 14:15:58 139

转载 HBase架构理解

HBase架构理解clienthbase有两张特殊的表.META:记录了用户所有表拆分出来的region映射信息，.META 可以有多个region-ROOT-:记录了.META表的region信息，-ROOT-只有一个Region,无论如何不会分裂client 访问用户数据前需要先访问zookeeper,找到-ROOT-表的Region所在的位置，然后访问-ROOT-表，接着访问.META表，最后才能找到用户数据的位置去访问，中间需要多次网络操作不过client端会做cache缓存Zooke

2020-08-04 20:04:59 197

原创数据结构排序算法python版本

数据结构排序算法python版本# coding=utf-8# 冒泡排序,两两对比，进行交换位置def pupple_sort(arr): for i in range(len(arr)): for j in range(len(arr)): if arr[j] < arr[j+1]: temp = arr[j] arr[j] = arr[j+1] a

2020-08-03 20:40:32 86

原创 kafka理解（一）

kafka 的partition相当于一个个可追加的具有偏移量的日志文件，消费者根据不同的分区策略将不同的消息发送到不同的分区内。offset不跨越分区，kafka的分区有序，而不是主题有序kafka引入了多副本机制，以提升容灾能力。同一分区的不同副本中保存的消息相同，（在很短时间内，并不相同）leader 副本负责读写请求，follower副本只负责与leader副本的消息同步。生产者消...

2020-07-03 16:09:53 193

原创 JVM虚拟机内容整理

JVM虚拟机内容整理程序计数器可以理解为程序执行的位置，行号，由于CPU的轮询快速切换机制，需要为每一个线程标注一个当前执行位置java虚拟机栈是线程私有的，它的生命周期和线程相同，虚拟机栈描述的是java方法执行的线程内存模型，每个方法执行的时候，java虚拟机都会同步创建一个栈帧用于存储局部变量表，操作数栈，动态链接方法出口等信息。堆：java堆是虚拟机所管理的内存中最大的一块。java堆是被所有线程共享的一块内存区域，在虚拟机启动时创建，词内存区域的唯一目的就是存放对象实例方法区：与堆

2020-06-28 18:20:36 131

原创 docker容器使用常用命令

docker容器使用常用命令dockerdocker命令可以查看到docker客户端的所有命令容器使用docker pull ubuntu 获取镜像docker run -it ubuntu /bin/bash-i 交互式操作-t 终端-d 后台运行-P 将容器内部使用的网络端口映射到所使用的主机上--name 镜像名ubuntu 镜像/bin/bash 放在镜像名后用的是命令退出终端exit停止容器docker stop 容器id重启容器docker

2020-06-05 10:39:11 163

原创机器学习算法的评估指标概念

# coding=utf-8# 有监督学习：分类和回归# 分类：模型用来预测样本所属类别# 回归：当所要预测的样本结果为连续数值时# 无监督学习，聚类和降维# 聚类将整个数据集划分为若干个不相交的子集，每个子集被称为一个簇# 降维：顾名思义降低数据的维度，将数据从高维空间映射到低维空间print("***************回归算法的评估指标***************")#...

2020-01-08 17:46:24 198

原创 Java实现栈和队列

1、栈public class MyStack<E> { private ArrayList<E> list = new ArrayList(); /** * 入栈 * @param e 参数 */ public void inStack(E e){ list.add(e); } pub...

2020-01-03 10:11:24 99

原创二叉树的基本操作

1、节点定义public class Node { private int data; private Node leftNode; private Node rightNode; public int getData() { return data; } public void setData(int data) { ...

2020-01-02 20:14:08 63

原创 Java单链表的实现

1、定义节点public class Node { // 数据 private int value; // 下一节点 private Node next; public Node(){} public Node(int value, Node next) { this.value = value; this.next...

2020-01-02 20:08:13 52

原创 redis详解

Redis详解及常见问题总结什么是RedisRedis是一个高性能的基于内存的缓存数据库支持数据的持久化，支持多数据格式，keyvalue,list,zlist,set,zset支持数据的备份，master-slave读写并发高，操作原子性Redis单字符最大存储512MRedis的持久化机制AOF和RDBAOF：将所有的命令行记录以Redis命令的方式记录在aof文件中...

2019-12-24 16:17:04 92

原创 Spark-submit参数详解以及倾斜处理

在使用spark处理上亿数据的时候，发现出现了数据倾斜导致了spark.yarn.executor.memoryOverhead错误1、增大其值2、由于该参数指的是一台机器的堆外内存，可以采取减少同时运行的内核，降低内存使用3、重新分区，repartition更多分区，或者shuffle类算子增加并行度4、调整分区策略，常见的shuffle类分区策略hashPartition rangeP...

2019-12-17 17:20:17 147

原创 docker入门教程命令

docker镜像：docker images 查看镜像docker search 镜像，查找镜像docker pull 镜像:仓库 ,从具体的镜像仓库中获取镜像，如果不加版本号，默认是最新的版本docker rmi 镜像，删除镜像，此操作成功前提所有用该镜像创建的容器都移除了docker容器：docker run -i -t d --name ubuntutest ubuntu /b...

2019-12-09 20:55:10 77

原创机器学习入门之jieba分词

#coding=utf-8import jiebaimport jieba.posseg as pseg # 词性标注import jieba.analyse #关键词提取import re# jieba自定义词典# jieba.load_userdict()# 更改匹配规则，让其识别字典中的空格jieba.re_han_default = re.compile("(.+)",...

2019-11-22 16:06:12 456

原创机器学习实战书籍源代码以及数据文件

机器学习实战书籍源代码以及数据文件https://www.ituring.com.cn/book/1021

2019-11-14 17:15:38 403

原创机器学习之pandas

机器学习之pandasnumpy和pandas的区别numpy更多的是处理数值性的分析，而pandas除了处理数值之外（基于numpy)还能处理其它类型的数据，如字符串，时间序列等。Seriesimport pandas as pd# Series 是一维数组，带标签的数组，标签指的就是索引# dataFrame是多维数组series = pd.Series([2, 3, 5, 6,...

2019-07-23 17:28:13 109

原创机器学习之numpy入门

机器学习之numpy入门numpy基本使用numpy创建数组方式# coding = utf-8import randomimport numpy as np# array方式传入数据t1 = np.array(range(0, 12))print(t1)print(t1.dtype)print(type(t1))# np.arange方式t2 = np.arange(0,...

2019-07-23 11:49:01 102

原创使用matplotlib绘制图形

matplotlib的使用折线图# coding = utf-8from matplotlib import pyplot as pltx = range(2,26,2)y = [15,13,14,5,17,28,25,26,24,22,18,15]# win下显示中文，matplotlib默认不支持中文库plt.rcParams['font.family'] = ['sans-se...

2019-07-22 17:16:09 136

原创 SparkStreaming结合kafka将offSet保存在redis中

SparkStreaming结合kafka将offSet保存在redis中SparkStreaming结合kafka的两种方式1、SparkStreaming的高级APi CreateDStream，容易发生数据多次读取，官方已经不推荐2、SparkStreaming的低级APi createDirectStream 需要自己保存offset保存方式有两大类，一类是Spark自带的chec...

2019-07-17 15:38:22 824

原创 SparkSql1.x dataFrame创建方式

SparkSql1.x dataFrame创建方式1.使用Scala方式的方式来创建DataFrame2.使用StructType的方式创建DataFrame的方式来创建DataFrame3.加载json文件、csv文件、jdbc连接数据库等方式来创建DataFramejdbc方式1.使用Scala方式的方式来创建DataFrame val conf = new SparkConf().set...

2019-07-11 15:07:12 124

原创 flume自定义interceptor

flume自定义interceptor来过滤不同的event需求:根据nginx日志中的不同json日志进行区分，分类存放并存入hdfs中实现flume的interceptor，重写intercept方法flume采集的agent 客户端flume agent的服务端hdfs sink 和 hive需求:根据nginx日志中的不同json日志进行区分，分类存放并存入hdfs中实现flume的i...

2019-05-28 10:20:53 660

原创 hbase的二级索引方式

hbase的二级索引1、采用mr的方式将检索的字段与rokey做一张关联表2、hindex的方式3、使用solr和elasticsearch进行分词4、华为二级索引方式

2019-04-01 09:49:38 262

weixin_43761300的博客