清风千雨-CSDN博客

原创大数据组件HA配置大全

一.Hadoop的HA/usr/local/hadoop-2.8.4/etc/hadoop 下是所有hadoop配置文件1.HDFS HA配置：core-site.xml<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://myclust...

2019-07-09 12:28:45 463

原创 Spark性能调优

Spark 调优Spark 性能优化概览:Spark的计算本质是，分布式计算。所以，Spark程序的性能可能因为集群中的任何因素出现瓶颈：CPU、网络带宽、或者内存。CPU、网络带宽，是运维来维护的。聚焦点：内存。如果内存能够容纳下所有的数据，那就不需要调优了。如果内存比较紧张，不足以放下所有数据（10亿量级---500G）,需要对内存的使用进行性能优化。比如：使用某些方法减少...

2019-05-19 15:52:37 273

原创 jdbc时区问题 The server time zone value 'ÖÐ¹ú±ê×¼Ê±¼ä' is unrecognized or represents more than one

jdbc:mysql://localhost:3306/registeruser?serverTimezone=GMT%2B8 在后面加上这一段解决

2019-04-15 00:22:46 94

Flink快速使用1.快速使用demo1. DataSet WordCount demo (JAVA)2. DataStream WordCount demo (JAVA)3. SQL Batch WordCount demo (JAVA)2.Flink核心概念1. 故障恢复2. 失败重试3. 并行度1.快速使用demo1. DataSet WordCount demo (JAVA) public static void main(String[] args) thro

2020-11-25 18:36:24 294

原创 Spark直连kafka 0.10版本

新版本和老版本区别之前老版本通过直连维护偏移量使用的Api和新版的不一样，老版本不自行维护偏移量的话是自动维护到zk中新版会把偏移量维护到kafka中老版本实现https://blog.csdn.net/qq_33598343/article/details/87905091新版本实现https://www.it610.com/article/1288775916218032128.htm...

2020-08-19 23:49:33 361

转载字节对spark sql的优化

Spark SQL通过SQL解析器构成语法树，然后通过规则执行器（逻辑执行器，物理执行器，优化器）先获得Unresolved Logical Plan,然后获得Resolved Logical Plan,再通过optimzi 优化，获取Optimized Logical Plan，通过Query planner获取物理执行计划1.对bucket优化这块优化主要针对join进行优化，spark这块优化包括（hash shuffle join,broadcast shuffle join,sortMerge

2020-06-12 21:25:26 314

原创 HIVE 行转列以及列转行

列转行语法：虚拟表lateral view explode(split(tag,’,’)) 表别名 as 列别名表test列名: id tagselect id,tag_new from test lateral view explode(split(tag,',')) nums as tag_new行转列使用函数：concat_ws(’,’,collect_set(column))说明：collect_list 不去重，collect_set 去重。 column 的数据类

2020-06-08 17:14:19 403

原创 Failure to find org.glassfish:javax.el:pom:3.0.1-b06-SNAPSHOT in https://rep。。。。。。

<dependency> <groupId>org.glassfish</groupId> <artifactId>javax.el</artifactId> <version>3.0.1-b08</version> </dependency>通过配置pom直接下载把文件名修改，刚下好的时候是pom.lastupd.

2020-05-27 13:46:46 8830 7

原创 Flink运行架构

运行架构1.任务提交流程1)yarn模式2.任务调度原理1)执行图3.worker 和Slots4.forwarding,redistribute(类似spark 宽窄依赖)5.task与operator chains1.任务提交流程1)yarn模式Flink任务提交后，Client向HDFS上传Flink的Jar包和配置，之后向Yarn ResourceManager提交任务，ResourceManager分配Container资源并通知对应的NodeManager启动ApplicationMas

2020-05-25 22:42:27 143

原创 Flink部署

部署1.standalone模式1)flink/conf/flink-conf.yaml 文件2)修改 /conf/slave文件3)分发到其他节点4)执行程序2.yarn模式1)启动hadoop集群2)启动yarn-session3)执行程序1.standalone模式1)flink/conf/flink-conf.yaml 文件2)修改 /conf/slave文件3)分发到其他节点4)执行程序./flink run -c com.atguigu.flink.app.BatchWcApp

2020-05-25 22:11:43 130

原创多线程

文章目录创建线程1.实现Runnable接口2.继承Thread类3.实现callable接口sychronize和ReentrantLock1.lockcountDownLatchCyclicBarrier3. 线程池1.CachedThreadPool2.FixedThreadPool3. SingleThreadExecutor4.FIFO队列 LinkedBlockingQueue、Arr...

2020-05-04 20:49:08 155

转载 Unable to instantiate SparkSession with Hive support because Hive classes are not found

<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-hive_2.11</artifactI...

2020-03-06 20:52:13 425

转载 spark sql on hive配置及其使用

https://blog.csdn.net/a11a2233445566/article/details/54633033?utm_source=distribute.pc_relevant.none-task

2020-02-20 00:15:49 625

原创 Kafka的各种原理

文章目录1.kafka吞吐量为什么大？1.kafka吞吐量为什么大？1）kafka读写数据是顺序读取的，效率达到常数级。生产者将消息发送到topic的每个分区时，将数据顺序写入最后面的一个segment file,segment file达到阈值刷新到磁盘（默认500m），消费者消费的是磁盘的segment file,每个segment file对应两个文件，分别是以.log结尾的数据文件和...

2020-02-16 15:10:41 716

原创计算机网络

1.http和tcp的区别http是建立在tcp之上的应用层协议，而tcp是传输层建立的协议HTTP/1.* 一次请求-响应，建立一个连接，用完关闭；HTTP/1.1 串行化单线程处理，可以同时在同一个tcp链接上发送多个请求，但是只有响应是有顺序的，只有上一个请求完成后，下一个才能响应。一旦有任务处理超时等，后续任务只能被阻塞(线头阻塞)；HTTP/2 并行执行。某任务耗时严重，不会影响...

2020-02-11 14:16:43 119

原创大数据实时监控预警

文章目录1. 通过flume采集数据发送到Kafka1)自定义source2)自定义拦截器Interceptor3)自定义sink2.kafka->spark->es3.kafka->spark->hbase4.kafka->spark->hdfs5.kafka->spark->redis(warn预警)1. 通过flume采集数据发送到Kafka...

2020-01-22 22:21:28 3933

原创 LeetCode

文章目录hot1001.有效的括号hot1001.有效的括号题目：给定一个只包括 ‘(’，’)’，’{’，’}’，’[’，’]’ 的字符串，判断字符串是否有效。有效字符串需满足：左括号必须用相同类型的右括号闭合。左括号必须以正确的顺序闭合。注意空字符串可被认为是有效字符串。示例 1:输入: “()”输出: true示例 2:输入: “()[]{}”输出: true示例 ...

2020-01-14 22:57:57 277

原创数据结构-树

文章目录1.二叉树2.二叉查找树（binary search tree）bs Tree3.AVL树4.红黑树5.BTree6.B+Tree6.树堆1.二叉树public class TreeDemo { //二叉树节点类 private static class TreeNode{ private int data; private TreeNo...

2020-01-14 20:26:32 127

原创数据结构-链表

public class LinkedDemo { private static class Node{ int data; Node next; public Node(int data) { this.data = data; } } //头指针 private Node ...

2020-01-14 14:54:45 84

原创 JVM面试

文章目录1.jvm内存区域2.jvm指令分析3.内存回收1.jvm内存区域类通过类装载到相应内存区域，每一个线程都有单独的栈，本地方法栈，程序计数器，然后将每个方法进行压栈，每个方法压入站后为一个栈帧，栈帧中常用的几个区域为局部变量表，操作数栈，动态链接，方法出口。栈帧局部变量表：存储的局部变量操作数栈：方法栈进行例如a+b这样的计算在这个内存区域进行，将a和b的值取到操作数栈中进行计...

2020-01-11 12:38:41 136

原创 Elasticsearch restAPI

文章目录操作索引1.创建索引2.创建_mapping和type3.查看索引4.删除索引新增数据1.插入数据2.自定义Id3.自动判断类型生成_mapping修改数据1.修改数据删除数据基本查询1.查询所有的（match_all）操作索引1.创建索引PUT test{ "settings": { "number_of_replicas": 1, "number_of_sh...

2019-11-26 00:11:51 217

原创机器学习入门（二）验证曲线

拟合问题的解决寻找参数的最优：超参数优化器使用sklearn中的学习曲线单一参数这里我们使用验证曲线validation_curve来找到单一超参数的优化值>>>train_loss,test_loss=validation_curve(SVC(),X,y,param_name='gamma',param_range=param_range,cv=10, scor...

2019-10-12 21:59:21 517 2

原创机器学习入门（一）编写入门程序

目录1.学习的步骤（本文及后续内容针对开发岗，不深入）2.机器学习库sklearn3.机器学习入门程序（一）导入数据集（二）选择模型（三）训练模型（四）模型预测（五）模型评测(六)模型的保存1.学习的步骤（本文及后续内容针对开发岗，不深入）1.数据的加载2.选择模型3.模型的训练4.模型的预测5.模型的评测6.模型的保存2.机器学习库sklearnsklearn是机器学习中一...

2019-10-12 21:51:32 621 1

原创 SpringBoot入门

目录springboot1.快速入门环境要求：快速启动一个 hello springboot2.配置数据库spring不同时期的配置方式配置数据库连接池SpringBoot的属性注入springboot尽可能的减少一切xml配置，做到开箱即用，迅速上手SpringBoot创建java应用，并使用java –jar 启动它，就能得到一个生产级别的web工程。spring平台和第三方依赖库提...

2019-10-08 17:32:29 125

原创 Kafka重复消费，不丢失数据

kafka0.11.0.0版本正式支持精确一次处理语义exactly once semantic–EOSkafka幂等性参考1）幂等producer 保证单个分区的只会发送一次，不会出现重复消息2）事务(transation)：保证原子性的写入多个分区，即写入到多个分区的消息要么全部成功，要么全部回滚3）流式EOS：流处理本质上可看成是“”读取-处理-写入的管道“”。此ＥＯＳ保证整个过程的...

2019-09-16 22:01:24 666

原创 ElasticSearch索引基本常用查询语法入门（kibana）

目录创建索引创建mapping增查删创建索引PUT test_index/创建一个叫test_index的索引创建mappingPUT test_index/test01/_mapping{ "test01":{ "properties":{ "id":{ "type":"text" }, ...

2019-09-08 22:05:04 1642

原创 elasticsearch shard 和 replica

elasticsearch shard 和 replica（1）index包含多个shard（2）每个shard都是一个最小工作单元，承载部分数据，lucene实例，完整的建立索引和处理请求的能力（3）增减节点时，shard会自动在nodes中负载均衡（4）primary shard和replica shard，每个document肯定只存在于某一个primary shard以及其对应的r...

2019-09-08 13:25:49 394

原创 SpringMVC拦截器

目录创建拦截器配置拦截器测试流程拦截器案例应用，登录拦截器创建拦截器/** * 自定义拦截器 * @author Steven * */public class MyInterceptor1 implements HandlerInterceptor { //在Controller方法执行后被执行 //处理异常、记录日志 @Override public void afte...

2019-08-07 21:25:51 155

原创 Springmvc实现Restful

编码/** * RESTful风格演示 * * @param ids * @param model * @return */ //RESTful风格url上的参数通过{}点位符绑定 //点位符参数名与方法参数名不一致时，通过@PathVariable绑定 @RequestMapping("/item/{id}") public String testRest(@...

2019-08-07 21:16:47 199

原创 SpringMVC json数据交互

目录加入jar包编码加入jar包编码/** * json数据交互演示 * * @param item2 * @return */ @RequestMapping("getItem") //@ResponseBody把pojo转成json串响应用户 @ResponseBody //@RequestBody用于接收用户传入json串转成pojo public I...

2019-08-07 21:15:38 221

原创 SpringMVC图片上传处理

目录配置虚拟目录加入上传功能需要的jar包配置多媒体解析器jsp修改编写图片上传处理代码配置虚拟目录加入上传功能需要的jar包配置多媒体解析器  <bean id="multipartResolver" class="org.springfra...

2019-08-07 21:12:37 274

原创 Springmvc中异常处理

思想：做一个全局异常处理器，处理所有没有处理过的运行时异常用于更友好地提示用户。目录一.全局异常处理器二.更智能、更友好的提示，解决方案一.全局异常处理器/** * 全局异常处理器 * @author Steven * */public class CustomerException implements HandlerExceptionResolver { @Override...

2019-08-07 21:07:50 265

原创从SpringMVC入门到整合ssm配置demo

目录一.SpringMVC简介----------------------二.入门级demo配置三.SpringMVC架构四.处理器映射器,处理器适配器,视图解析器五.SpringMVC与Mybatis，spring整合配置六.默认支持的参数类型七.@RequestMapping注解的使用八.redirect与forward一.SpringMVC简介----------------------...

2019-08-07 00:09:36 131

原创 Elasticsearch 总结

目录1.Maven配置2.log4j2报错4.JAVA API操作-----获取Client-----创建索引-----删除索引-----新建文档（源数据json串）（String拼接）-----新建文档（源数据map方式添加json）-----新建文档（源数据es构建器添加json）-----搜索文档数据（单个索引）------搜索文档数据（多个索引）-----更新文档数据（update）---...

2019-07-31 18:47:04 460

原创 kibana-6.1.1-linux-x86_64.tar.gz安装使用

配置：# Kibana is served by a back end server. This setting specifies the port to use.server.port: 5601# To allow connections from remote users, set this parameter to a non-loopback address.server.ho...

2019-07-31 14:28:02 499

原创 Elasticsearch单节点与集群安装

1）Elasticsearch官网： https://www.elastic.co/products/elasticsearch单节点安装解压，启动

2019-07-31 11:52:15 328

原创 Redis内存数据库

为什么要把数据存入内存？快常见的内存数据库：MemCached（常用于session一致性，MemCached + keepalive实现）：看成Redis前身，严格来说，MemCached不能叫数据库，只能叫缓存不支持持久化。如果内存停电，数据丢失。Redis：内存数据库，支持持久化，支持HAOracle TimesTenRedis适合用来做什么？共享Cache ，不怕丢数...

2019-07-21 16:22:28 495

原创 centos7中ifconfig没有ens33

解决方案ifconfig ens33 upsystemctl stop NetworkManagersystemctl disable NetworkManagerifup ens33 systemctl restart network.service如果遇到设备 ens33 似乎不存在, 延迟初始化操作使用ip addr（或ifconfig）查看ens33的m...

2019-07-21 14:22:39 3905 6

原创 Spark MLlib (机器学习库)

机器学习机器学习是啥？机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。传统机器学习有监督学习（例如有y=kx+b,有y值）无监督学习（无y值，聚类分类）人工智能深度学习强化学习...

2019-07-18 23:29:30 962

原创 Spark窗口操作

窗口操作窗口：对落在窗口内的数据进行处理，也是一个DStream，RDD举例：每10秒钟把过去30秒的数据采集过来代码实现窗口滑动距离(reducebykeyandwindow的参数)必须是采样时间的整数倍(steamingcontext的参数)业务场景1.计算一天内接口的调用次数窗口滑动距离：1天...

2019-07-15 23:36:30 261

hadoop2.8.4的hadoop.dll

winutils2.8.4-hadoop2.8.4

空空如也