自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

开水烫鱼的博客

分享学习总结

  • 博客(173)
  • 资源 (2)
  • 收藏
  • 关注

原创 大数据组件HA配置大全

一.Hadoop的HA/usr/local/hadoop-2.8.4/etc/hadoop 下是所有hadoop配置文件1.HDFS HA配置:core-site.xml<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://myclust...

2019-07-09 12:28:45 463

原创 Spark性能调优

Spark 调优Spark 性能优化概览:Spark的计算本质是,分布式计算。所以,Spark程序的性能可能因为集群中的任何因素出现瓶颈:CPU、网络带宽、或者内存。CPU、网络带宽,是运维来维护的。聚焦点:内存。如果内存能够容纳下所有的数据,那就不需要调优了。如果内存比较紧张,不足以放下所有数据(10亿量级---500G),需要对内存的使用进行性能优化。比如:使用某些方法减少...

2019-05-19 15:52:37 273

原创 jdbc时区问题 The server time zone value 'Öйú±ê׼ʱ¼ä' is unrecognized or represents more than one

jdbc:mysql://localhost:3306/registeruser?serverTimezone=GMT%2B8 在后面加上这一段解决

2019-04-15 00:22:46 94

原创 Flink快速使用

Flink快速使用1.快速使用demo1. DataSet WordCount demo (JAVA)2. DataStream WordCount demo (JAVA)3. SQL Batch WordCount demo (JAVA)2.Flink核心概念1. 故障恢复2. 失败重试3. 并行度1.快速使用demo1. DataSet WordCount demo (JAVA) public static void main(String[] args) thro

2020-11-25 18:36:24 294

原创 Spark直连kafka 0.10版本

新版本和老版本区别之前老版本通过直连维护偏移量使用的Api和新版的不一样,老版本不自行维护偏移量的话是自动维护到zk中新版会把偏移量维护到kafka中老版本实现https://blog.csdn.net/qq_33598343/article/details/87905091新版本实现https://www.it610.com/article/1288775916218032128.htm...

2020-08-19 23:49:33 361

转载 字节对spark sql的优化

Spark SQL通过SQL解析器构成语法树,然后通过规则执行器(逻辑执行器,物理执行器,优化器)先获得Unresolved Logical Plan,然后获得Resolved Logical Plan,再通过optimzi 优化,获取Optimized Logical Plan,通过Query planner获取物理执行计划1.对bucket优化这块优化主要针对join进行优化,spark这块优化包括(hash shuffle join,broadcast shuffle join,sortMerge

2020-06-12 21:25:26 314

原创 HIVE 行转列以及列转行

列转行语法:虚拟表lateral view explode(split(tag,’,’)) 表别名 as 列别名表test列名: id tagselect id,tag_new from test lateral view explode(split(tag,',')) nums as tag_new行转列使用函数:concat_ws(’,’,collect_set(column))说明:collect_list 不去重,collect_set 去重。 column 的数据类

2020-06-08 17:14:19 403

原创 Failure to find org.glassfish:javax.el:pom:3.0.1-b06-SNAPSHOT in https://rep。。。。。。

<dependency> <groupId>org.glassfish</groupId> <artifactId>javax.el</artifactId> <version>3.0.1-b08</version> </dependency>通过配置pom直接下载把文件名修改,刚下好的时候是pom.lastupd.

2020-05-27 13:46:46 8830 7

原创 Flink运行架构

运行架构1.任务提交流程1)yarn模式2.任务调度原理1)执行图3.worker 和Slots4.forwarding,redistribute(类似spark 宽窄依赖)5.task与operator chains1.任务提交流程1)yarn模式Flink任务提交后,Client向HDFS上传Flink的Jar包和配置,之后向Yarn ResourceManager提交任务,ResourceManager分配Container资源并通知对应的NodeManager启动ApplicationMas

2020-05-25 22:42:27 143

原创 Flink部署

部署1.standalone模式1)flink/conf/flink-conf.yaml 文件2)修改 /conf/slave文件3)分发到其他节点4)执行程序2.yarn模式1)启动hadoop集群2)启动yarn-session3)执行程序1.standalone模式1)flink/conf/flink-conf.yaml 文件2)修改 /conf/slave文件3)分发到其他节点4)执行程序./flink run -c com.atguigu.flink.app.BatchWcApp

2020-05-25 22:11:43 130

原创 多线程

文章目录创建线程1.实现Runnable接口2.继承Thread类3.实现callable接口sychronize和ReentrantLock1.lockcountDownLatchCyclicBarrier3. 线程池1.CachedThreadPool2.FixedThreadPool3. SingleThreadExecutor4.FIFO队列 LinkedBlockingQueue、Arr...

2020-05-04 20:49:08 155

转载 Unable to instantiate SparkSession with Hive support because Hive classes are not found

<!-- https://mvnrepository.com/artifact/org.apache.spark/spark-hive --><dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-hive_2.11</artifactI...

2020-03-06 20:52:13 425

转载 spark sql on hive配置及其使用

https://blog.csdn.net/a11a2233445566/article/details/54633033?utm_source=distribute.pc_relevant.none-task

2020-02-20 00:15:49 625

原创 Kafka的各种原理

文章目录1.kafka吞吐量为什么大?1.kafka吞吐量为什么大?1)kafka读写数据是顺序读取的,效率达到常数级。生产者将消息发送到topic的每个分区时,将数据顺序写入最后面的一个segment file,segment file达到阈值刷新到磁盘(默认500m),消费者消费的是磁盘的segment file,每个segment file对应两个文件,分别是以.log结尾的数据文件和...

2020-02-16 15:10:41 716

原创 计算机网络

1.http和tcp的区别http是建立在tcp之上的应用层协议,而tcp是传输层建立的协议HTTP/1.* 一次请求-响应,建立一个连接,用完关闭;HTTP/1.1 串行化单线程处理,可以同时在同一个tcp链接上发送多个请求,但是只有响应是有顺序的,只有上一个请求完成后,下一个才能响应。一旦有任务处理超时等,后续任务只能被阻塞(线头阻塞);HTTP/2 并行执行。某任务耗时严重,不会影响...

2020-02-11 14:16:43 119

原创 大数据实时监控预警

文章目录1. 通过flume采集数据发送到Kafka1)自定义source2)自定义拦截器Interceptor3)自定义sink2.kafka->spark->es3.kafka->spark->hbase4.kafka->spark->hdfs5.kafka->spark->redis(warn预警)1. 通过flume采集数据发送到Kafka...

2020-01-22 22:21:28 3933

原创 LeetCode

文章目录hot1001.有效的括号hot1001.有效的括号题目:给定一个只包括 ‘(’,’)’,’{’,’}’,’[’,’]’ 的字符串,判断字符串是否有效。有效字符串需满足:左括号必须用相同类型的右括号闭合。左括号必须以正确的顺序闭合。注意空字符串可被认为是有效字符串。示例 1:输入: “()”输出: true示例 2:输入: “()[]{}”输出: true示例 ...

2020-01-14 22:57:57 277

原创 数据结构-树

文章目录1.二叉树2.二叉查找树(binary search tree)bs Tree3.AVL树4.红黑树5.BTree6.B+Tree6.树堆1.二叉树public class TreeDemo { //二叉树节点类 private static class TreeNode{ private int data; private TreeNo...

2020-01-14 20:26:32 127

原创 数据结构-链表

public class LinkedDemo { private static class Node{ int data; Node next; public Node(int data) { this.data = data; } } //头指针 private Node ...

2020-01-14 14:54:45 84

原创 JVM面试

文章目录1.jvm内存区域2.jvm指令分析3.内存回收1.jvm内存区域类通过类装载到相应内存区域,每一个线程都有单独的栈,本地方法栈,程序计数器,然后将每个方法进行压栈,每个方法压入站后为一个栈帧,栈帧中常用的几个区域为局部变量表,操作数栈,动态链接,方法出口。栈帧局部变量表:存储的局部变量操作数栈:方法栈进行例如a+b这样的计算在这个内存区域进行,将a和b的值取到操作数栈中进行计...

2020-01-11 12:38:41 136

原创 Elasticsearch restAPI

文章目录操作索引1.创建索引2.创建_mapping和type3.查看索引4.删除索引新增数据1.插入数据2.自定义Id3.自动判断类型生成_mapping修改数据1.修改数据删除数据基本查询1.查询所有的(match_all)操作索引1.创建索引PUT test{ "settings": { "number_of_replicas": 1, "number_of_sh...

2019-11-26 00:11:51 217

原创 机器学习入门(二)验证曲线

拟合问题的解决寻找参数的最优:超参数优化器使用sklearn中的学习曲线单一参数这里我们使用验证曲线validation_curve来找到单一超参数的优化值>>>train_loss,test_loss=validation_curve(SVC(),X,y,param_name='gamma',param_range=param_range,cv=10, scor...

2019-10-12 21:59:21 517 2

原创 机器学习入门(一)编写入门程序

目录1.学习的步骤(本文及后续内容针对开发岗,不深入)2.机器学习库sklearn3.机器学习入门程序(一)导入数据集(二)选择模型(三)训练模型(四)模型预测(五)模型评测(六)模型的保存1.学习的步骤(本文及后续内容针对开发岗,不深入)1.数据的加载2.选择模型3.模型的训练4.模型的预测5.模型的评测6.模型的保存2.机器学习库sklearnsklearn是机器学习中一...

2019-10-12 21:51:32 621 1

原创 SpringBoot入门

目录springboot1.快速入门环境要求:快速启动一个 hello springboot2.配置数据库spring不同时期的配置方式配置数据库连接池SpringBoot的属性注入springboot尽可能的减少一切xml配置,做到开箱即用,迅速上手SpringBoot创建java应用,并使用java –jar 启动它,就能得到一个生产级别的web工程。spring平台和第三方依赖库提...

2019-10-08 17:32:29 125

原创 Kafka重复消费,不丢失数据

kafka0.11.0.0版本正式支持精确一次处理语义exactly once semantic–EOSkafka幂等性参考1)幂等producer 保证单个分区的只会发送一次,不会出现重复消息2)事务(transation):保证原子性的写入多个分区,即写入到多个分区的消息要么全部成功,要么全部回滚3)流式EOS:流处理本质上可看成是“”读取-处理-写入的管道“”。此EOS保证整个过程的...

2019-09-16 22:01:24 666

原创 ElasticSearch索引基本常用查询语法入门(kibana)

目录创建索引创建mapping增查删创建索引PUT test_index/创建一个叫test_index的索引创建mappingPUT test_index/test01/_mapping{ "test01":{ "properties":{ "id":{ "type":"text" }, ...

2019-09-08 22:05:04 1642

原创 elasticsearch shard 和 replica

elasticsearch shard 和 replica(1)index包含多个shard(2)每个shard都是一个最小工作单元,承载部分数据,lucene实例,完整的建立索引和处理请求的能力(3)增减节点时,shard会自动在nodes中负载均衡(4)primary shard和replica shard,每个document肯定只存在于某一个primary shard以及其对应的r...

2019-09-08 13:25:49 394

原创 SpringMVC拦截器

目录创建拦截器配置拦截器测试流程拦截器案例应用,登录拦截器创建拦截器/** * 自定义拦截器 * @author Steven * */public class MyInterceptor1 implements HandlerInterceptor { //在Controller方法执行后被执行 //处理异常、记录日志 @Override public void afte...

2019-08-07 21:25:51 155

原创 Springmvc实现Restful

编码/** * RESTful风格演示 * * @param ids * @param model * @return */ //RESTful风格url上的参数通过{}点位符绑定 //点位符参数名与方法参数名不一致时,通过@PathVariable绑定 @RequestMapping("/item/{id}") public String testRest(@...

2019-08-07 21:16:47 199

原创 SpringMVC json数据交互

目录加入jar包编码加入jar包编码/** * json数据交互演示 * * @param item2 * @return */ @RequestMapping("getItem") //@ResponseBody把pojo转成json串响应用户 @ResponseBody //@RequestBody用于接收用户传入json串转成pojo public I...

2019-08-07 21:15:38 221

原创 SpringMVC图片上传处理

目录配置虚拟目录加入上传功能需要的jar包配置多媒体解析器jsp修改编写图片上传处理代码配置虚拟目录加入上传功能需要的jar包配置多媒体解析器<!-- 配置多媒体处理器 --> <!-- 注意:这里id必须填写:multipartResolver --> <bean id="multipartResolver" class="org.springfra...

2019-08-07 21:12:37 274

原创 Springmvc中异常处理

思想:做一个全局异常处理器,处理所有没有处理过的运行时异常用于更友好地提示用户。目录一.全局异常处理器二.更智能、更友好的提示,解决方案一.全局异常处理器/** * 全局异常处理器 * @author Steven * */public class CustomerException implements HandlerExceptionResolver { @Override...

2019-08-07 21:07:50 265

原创 从SpringMVC入门到整合ssm配置demo

目录一.SpringMVC简介----------------------二.入门级demo配置三.SpringMVC架构四.处理器映射器,处理器适配器,视图解析器五.SpringMVC与Mybatis,spring整合配置六.默认支持的参数类型七.@RequestMapping注解的使用八.redirect与forward一.SpringMVC简介----------------------...

2019-08-07 00:09:36 131

原创 Elasticsearch 总结

目录1.Maven配置2.log4j2报错4.JAVA API操作-----获取Client-----创建索引-----删除索引-----新建文档(源数据json串)(String拼接)-----新建文档(源数据map方式添加json)-----新建文档(源数据es构建器添加json)-----搜索文档数据(单个索引)------搜索文档数据(多个索引)-----更新文档数据(update)---...

2019-07-31 18:47:04 460

原创 kibana-6.1.1-linux-x86_64.tar.gz安装使用

配置:# Kibana is served by a back end server. This setting specifies the port to use.server.port: 5601# To allow connections from remote users, set this parameter to a non-loopback address.server.ho...

2019-07-31 14:28:02 499

原创 Elasticsearch单节点与集群安装

1)Elasticsearch官网: https://www.elastic.co/products/elasticsearch单节点安装解压,启动

2019-07-31 11:52:15 328

原创 Redis内存数据库

为什么要把数据存入内存?快常见的内存数据库:MemCached(常用于session一致性,MemCached + keepalive实现):看成Redis前身,严格来说,MemCached不能叫数据库,只能叫缓存不支持持久化。如果内存停电,数据丢失。Redis:内存数据库,支持持久化,支持HAOracle TimesTenRedis适合用来做什么?共享Cache ,不怕丢数...

2019-07-21 16:22:28 495

原创 centos7中ifconfig没有ens33

解决方案ifconfig ens33 upsystemctl stop NetworkManagersystemctl disable NetworkManagerifup ens33 systemctl restart network.service如果遇到 设备 ens33 似乎不存在, 延迟初始化操作使用ip addr(或ifconfig)查看ens33的m...

2019-07-21 14:22:39 3905 6

原创 Spark MLlib (机器学习库)

机器学习机器学习是啥?机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。传统机器学习有监督学习(例如有y=kx+b,有y值)无监督学习(无y值,聚类分类)人工智能深度学习强化学习...

2019-07-18 23:29:30 962

原创 Spark窗口操作

窗口操作窗口:对落在窗口内的数据进行处理,也是一个DStream,RDD举例:每10秒钟把过去30秒的数据采集过来代码实现窗口滑动距离(reducebykeyandwindow的参数)必须是采样时间的整数倍(steamingcontext的参数)业务场景1.计算一天内接口的调用次数窗口滑动距离:1天...

2019-07-15 23:36:30 261

hadoop2.8.4的hadoop.dll

支持hadoop2.8.4,其他的我没有试过,有问题的可以下载试试,放到hadoop的/bin目录下

2018-11-11

winutils2.8.4-hadoop2.8.4

使用hadoop的api从hdfs上下载文件,出现问题,需要将这个winutils放到hadoop的bin目录里,hadoop2.8.4和5可以用

2018-11-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除