自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(34)
  • 收藏
  • 关注

原创 nginx反向代理做端口转发

1、安装nginxcd /optmkdir /usr/local/nginxtar -zxvf nginx-1.20.1.tar.gzcd nginx-1.20.1yum install -y zlib zlib-develyum install -y openssl openssl-develyum install -y pcre pcre-devel./configure --prefix=/usr/local/nginx --with-streammake && ma

2021-11-17 17:55:43 1348

原创 ogg_for_bigdata (oracle 数据通过ogg到hbase)

ogg_for_bigdata (oracle 数据通过ogg到hbase)文章目录ogg_for_bigdata (oracle 数据通过ogg到hbase)1、zookeeper安装2、hbase安装3、ogg for hbase 配置1、zookeeper安装基础环境见ogg_forbigdata hdfs安装文档 https://blog.csdn.net/weixin_43761300/article/details/116246042?spm=1001.2014.3001.5501zoo

2021-04-29 16:15:04 802

原创 ogg_for_bigdata(oracle日志通过ogg for bigdata 导入hdfs)

ogg for bigdata(oracle日志通过ogg for bigdata 导入hdfs)文章目录ogg for bigdata(oracle日志通过ogg for bigdata 导入hdfs)1、环境准备2、Oracle XE 11安装3、hadoop安装4、安装源端ogg5、安装目标端ogg for bigdata6、Oracle设置7、ogg源端配置OGG初始化配置管理器mgr添加要复制日志的表配置抽取进程配置投递进程配置define文件8、目标端的配置OGG初始化配置管理端的mgr配置c

2021-04-29 00:03:03 782 1

原创 hdfs2.x架构

架构图单点问题hdfs2.0通过增加namenode来解决单点故障问题,如图,NN分别有active和standby两个节点。journalnode既然有了standby的namenode,那么active的元数据和standby的元数据必然要一致。journal node就是用来namenode之间共享数据,数据同步的。两个namenode之间会通过一组journalnode的独立进程进行相互通信。namenode的HA是为了解决集群的单点故障,我们不能在引入解决方案后创造另一个单点故障,因此,

2021-02-08 10:50:21 236 2

原创 spring boot入门实战

文章目录1、创建工程2、spring-boot相关属性3、自动配置原理[email protected]@[email protected]@ComponentScan4 SpringBoot实践lombok静态资源目录拦截器整合jdbc和事务整合连接池整合mybatis真实调用git链接1、创建工程这里采用idea社区版本的Spring Assistant快速构建构建完成后的项目目录pom

2020-11-26 15:32:35 101

原创 基于hbase的协处理器更新es索引数据(hbase二级索引解决方案)

elasticsearch使用的是7.x版本hbase使用的是1.2.x版本maven依赖<dependencies> <dependency> <groupId>org.elasticsearch.client</groupId> <artifactId>elasticsearch-rest-high-level-client</artifactId>

2020-11-17 17:31:31 385

原创 hbase bulkload 方式

1、生成hdfs文件创建hive表,这个表是用来生成适合bulkload的数据,被hbase导入之后该表为空表create table stu_info(rowkey string comment ‘rowkey’,name string comment ‘姓名’)STORED ASINPUTFORMAT ‘org.apache.hadoop.mapred.TextInputFormat’OUTPUTFORMAT ‘org.apache.hadoop.hive.hbase.HiveHFile

2020-11-16 17:03:23 458

原创 flink 六、flink stated状态管理和checkpoint容错机制

valueStateobject StateValue { /** * 使用valueState保存每个word的最小值 * @param args */ def main(args: Array[String]): Unit = { val environment: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment val dataStream: DataStream

2020-08-31 19:12:09 164

原创 flink 五、flink的window操作和水印机制

Flink 认为 Batch 是 Streaming 的一个特例,所以 Flink 底层引擎是一个流式引擎,在上面实现了流处理和批处理。而窗口(window)就是从 Streaming 到 Batch 的一个桥梁。Flink 提供了非常完善的窗口机制。什么是window在流式数据中,数据是连续的。有时我们需要根据业务做一些聚合类的操作,例如过去五分钟内用户浏览量的计算。这五分钟就是一个窗口。窗口可以由时间或者数量来做区分1.根据时间进行截取,比如每10分钟统计一次2.根据消息数量进行统计,比如每1

2020-08-30 23:17:28 385

原创 flink 四、flink流处理

Flink流处理的Source基于集合基于文件基于Socket使用Kafka作为数据源使用MySql作为数据源自定义数据源flink基于文件流或集合object TextStream { def main(args: Array[String]): Unit = { val environment: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment envir

2020-08-30 22:04:23 275

原创 flink 三、flink批处理

DataSource类型算子 val environment: ExecutionEnvironment = ExecutionEnvironment.getExecutionEnvironment // 支持多种Collection的具体类型 val datasource1: DataSet[String] = environment.fromCollection(Array("a", "b", "c", "d")) // 支持Tuple,自定义对象等复合形式 va

2020-08-30 17:59:20 531

原创 flink 二、flink集群搭建

flink集群搭建1、准备三台Linux机器,node01,node02,node03,基本环境构建vi /etc/hosts 1,2步骤仅在一台机器上做即可192.168.23.171 node01192.168.23.172 node02192.168.23.173 node03删除原有的Java环境,构建1.8的jdkrpm -qa|grep jdkrpm -e –nodeps 上面查找出的Java解压jdk.tar.gz配置/etc/profileexport JAVA_H

2020-08-30 17:07:55 283

原创 flink 一、wordCount入门示例

1、Java版本batch wordcountimport org.apache.flink.api.common.functions.FlatMapFunction;import org.apache.flink.api.common.functions.MapFunction;import org.apache.flink.api.java.ExecutionEnvironment;import org.apache.flink.api.java.operators.AggregateOpera

2020-08-28 14:15:58 139

转载 HBase架构理解

HBase架构理解clienthbase有两张特殊的表.META:记录了用户所有表拆分出来的region映射信息,.META 可以有多个region-ROOT-:记录了.META表的region信息,-ROOT-只有一个Region,无论如何不会分裂client 访问用户数据前需要先访问zookeeper,找到-ROOT-表的Region所在的位置,然后访问-ROOT-表,接着访问.META表,最后才能找到用户数据的位置去访问,中间需要多次网络操作不过client端会做cache缓存Zooke

2020-08-04 20:04:59 197

原创 数据结构排序算法python版本

数据结构排序算法python版本# coding=utf-8# 冒泡排序,两两对比,进行交换位置def pupple_sort(arr): for i in range(len(arr)): for j in range(len(arr)): if arr[j] < arr[j+1]: temp = arr[j] arr[j] = arr[j+1] a

2020-08-03 20:40:32 86

原创 kafka理解(一)

kafka 的partition相当于一个个可追加的具有偏移量的日志文件,消费者根据不同的分区策略将不同的消息发送到不同的分区内。offset不跨越分区,kafka的分区有序,而不是主题有序kafka引入了多副本机制,以提升容灾能力。同一分区的不同副本中保存的消息相同,(在很短时间内,并不相同)leader 副本负责读写请求,follower副本只负责与leader副本的消息同步。生产者消...

2020-07-03 16:09:53 193

原创 JVM虚拟机内容整理

JVM虚拟机内容整理程序计数器可以理解为程序执行的位置,行号,由于CPU的轮询快速切换机制,需要为每一个线程标注一个当前执行位置java虚拟机栈是线程私有的,它的生命周期和线程相同,虚拟机栈描述的是java方法执行的线程内存模型,每个方法执行的时候,java虚拟机都会同步创建一个栈帧用于存储局部变量表,操作数栈,动态链接方法出口等信息。堆:java堆是虚拟机所管理的内存中最大的一块。java堆是被所有线程共享的一块内存区域,在虚拟机启动时创建,词内存区域的唯一目的就是存放对象实例方法区:与堆

2020-06-28 18:20:36 131

原创 docker容器使用常用命令

docker容器使用常用命令dockerdocker命令可以查看到docker客户端的所有命令容器使用docker pull ubuntu 获取镜像docker run -it ubuntu /bin/bash-i 交互式操作-t 终端-d 后台运行-P 将容器内部使用的网络端口映射到所使用的主机上--name 镜像名ubuntu 镜像/bin/bash 放在镜像名后用的是命令退出终端exit停止容器docker stop 容器id重启容器docker

2020-06-05 10:39:11 163

原创 机器学习算法的评估指标概念

# coding=utf-8# 有监督学习:分类和回归# 分类:模型用来预测样本所属类别# 回归:当所要预测的样本结果为连续数值时# 无监督学习,聚类和降维# 聚类将整个数据集划分为若干个不相交的子集,每个子集被称为一个簇# 降维:顾名思义降低数据的维度,将数据从高维空间映射到低维空间print("***************回归算法的评估指标***************")#...

2020-01-08 17:46:24 198

原创 Java实现栈和队列

1、栈public class MyStack<E> { private ArrayList<E> list = new ArrayList(); /** * 入栈 * @param e 参数 */ public void inStack(E e){ list.add(e); } pub...

2020-01-03 10:11:24 99

原创 二叉树的基本操作

1、节点定义public class Node { private int data; private Node leftNode; private Node rightNode; public int getData() { return data; } public void setData(int data) { ...

2020-01-02 20:14:08 63

原创 Java单链表的实现

1、定义节点public class Node { // 数据 private int value; // 下一节点 private Node next; public Node(){} public Node(int value, Node next) { this.value = value; this.next...

2020-01-02 20:08:13 52

原创 redis详解

Redis详解及常见问题总结什么是RedisRedis是一个高性能的基于内存的缓存数据库支持数据的持久化,支持多数据格式,keyvalue,list,zlist,set,zset支持数据的备份,master-slave读写并发高,操作原子性Redis单字符最大存储512MRedis的持久化机制AOF和RDBAOF:将所有的命令行记录以Redis命令的方式记录在aof文件中...

2019-12-24 16:17:04 92

原创 Spark-submit参数详解以及倾斜处理

在使用spark处理上亿数据的时候,发现出现了数据倾斜导致了spark.yarn.executor.memoryOverhead错误1、增大其值2、由于该参数指的是一台机器的堆外内存,可以采取减少同时运行的内核,降低内存使用3、重新分区,repartition更多分区,或者shuffle类算子增加并行度4、调整分区策略,常见的shuffle类分区策略hashPartition rangeP...

2019-12-17 17:20:17 147

原创 docker入门教程命令

docker镜像:docker images 查看镜像docker search 镜像,查找镜像docker pull 镜像:仓库 ,从具体的镜像仓库中获取镜像,如果不加版本号,默认是最新的版本docker rmi 镜像 ,删除镜像,此操作成功前提所有用该镜像创建的容器都移除了docker容器:docker run -i -t d --name ubuntutest ubuntu /b...

2019-12-09 20:55:10 77

原创 机器学习入门之jieba分词

#coding=utf-8import jiebaimport jieba.posseg as pseg # 词性标注import jieba.analyse #关键词提取import re# jieba自定义词典# jieba.load_userdict()# 更改匹配规则,让其识别字典中的空格jieba.re_han_default = re.compile("(.+)",...

2019-11-22 16:06:12 456

原创 机器学习实战书籍源代码以及数据文件

机器学习实战书籍源代码以及数据文件https://www.ituring.com.cn/book/1021

2019-11-14 17:15:38 403

原创 机器学习之pandas

机器学习之pandasnumpy和pandas的区别numpy更多的是处理数值性的分析,而pandas除了处理数值之外(基于numpy)还能处理其它类型的数据,如字符串,时间序列等。Seriesimport pandas as pd# Series 是一维数组,带标签的数组,标签指的就是索引# dataFrame是多维数组series = pd.Series([2, 3, 5, 6,...

2019-07-23 17:28:13 109

原创 机器学习之numpy入门

机器学习之numpy入门numpy基本使用numpy创建数组方式# coding = utf-8import randomimport numpy as np# array方式传入数据t1 = np.array(range(0, 12))print(t1)print(t1.dtype)print(type(t1))# np.arange方式t2 = np.arange(0,...

2019-07-23 11:49:01 102

原创 使用matplotlib绘制图形

matplotlib的使用折线图# coding = utf-8from matplotlib import pyplot as pltx = range(2,26,2)y = [15,13,14,5,17,28,25,26,24,22,18,15]# win下显示中文,matplotlib默认不支持中文库plt.rcParams['font.family'] = ['sans-se...

2019-07-22 17:16:09 136

原创 SparkStreaming结合kafka将offSet保存在redis中

SparkStreaming结合kafka将offSet保存在redis中SparkStreaming结合kafka的两种方式1、SparkStreaming的高级APi CreateDStream,容易发生数据多次读取,官方已经不推荐2、SparkStreaming的低级APi createDirectStream 需要自己保存offset保存方式有两大类,一类是Spark自带的chec...

2019-07-17 15:38:22 824

原创 SparkSql1.x dataFrame创建方式

SparkSql1.x dataFrame创建方式1.使用Scala方式的方式来创建DataFrame2.使用StructType的方式创建DataFrame的方式来创建DataFrame3.加载json文件、csv文件、jdbc连接数据库等方式来创建DataFramejdbc方式1.使用Scala方式的方式来创建DataFrame val conf = new SparkConf().set...

2019-07-11 15:07:12 124

原创 flume自定义interceptor

flume自定义interceptor来过滤不同的event需求:根据nginx日志中的不同json日志进行区分,分类存放并存入hdfs中实现flume的interceptor,重写intercept方法flume采集的agent 客户端flume agent的服务端hdfs sink 和 hive需求:根据nginx日志中的不同json日志进行区分,分类存放并存入hdfs中实现flume的i...

2019-05-28 10:20:53 660

原创 hbase的二级索引方式

hbase的二级索引1、采用mr的方式将检索的字段与rokey做一张关联表2、hindex的方式3、使用solr和elasticsearch进行分词4、华为二级索引方式

2019-04-01 09:49:38 262

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除