疯狂的暴走蜗牛-CSDN博客

原创 Spring5.x源码编译及导入IDEA全过程及踩坑记录

文章目录1.写在前面2.编译前需要准备的环境和工具。3.具体步骤4.总结1.写在前面Spring作为风靡世界的优秀框架，很早就想研究研究Spring源码了。最近亲手搭建了Spring环境，从下载源码到编译到改动源码测试demo跑通，有些踩坑和心得需要记录一下，也与大家分享一下。注：笔者在2台不同电脑上均告成功，但是也不敢保证各位看官一定能成功，如果失败请轻拍砖。不过相信对各位编译Spring...

2019-12-05 15:12:49 6863 9

原创 Git修改远程仓库地址后推送失败解决办法

问题描述当本地库推送到远程库后，有可能会出现，创建了一个新的远程库，需要将本地代码推送到新的远程库的情况。按照如下操作。操作步骤首先取消本地仓库的远程地址配置。git remote remove origin添加新的远程库地址git remote add origin http://xxx/xxx.git这里不能直接推送。因为git还是认为这是两个独立的仓库，需要拉取一...

2019-12-17 16:06:29 3143

原创 Java静态代码块、构造代码块，构造函数，普通代码块执行顺序

文章目录1.静态代码块2.构造代码块3.构造函数4.普通代码块5.总结1.静态代码块类似下面的使用static修饰的代码块就是静态代码块static { System.out.println("静态代码块..."); }静态代码块存在于类中，不能存在于方法中的静态代码块在类被加载的时候运行，只运行一次。当有多个静态代码块时，执行顺序按照在代码中定义的顺序来执...

2019-11-20 09:57:15 330

原创 Maven配置多个远程库(国内镜像库+私服库)

文章目录简介全局配置单独配置注意事项简介通常我们需要同时使用比如阿里云等国内镜像库，和公司内的私服库。在maven中，有2种方式可以配置多个远程库，来同时满足加速公共库，同时又能访问私有库的方式。全局配置全局配置，主要是在settings配置文件中配置，可以将常用的公共库，私服库配置进去。这样就不用在每个项目的pom文件中去配置了。首先在settings配置文件中的<profile...

2019-11-19 15:21:32 5750 1

原创解决Maven修改setting.conf配置添加修改镜像库不生效的问题

文章目录问题描述解决步骤问题描述有时候出现一种奇怪的问题，就是无论如何修改远程库，镜像库的地址，好像都不生效。下面给出排查方法与思路。解决步骤首先检查eclipse或者IDEA中配置的settings文件是否是自己编辑的那个文件。如果是，那么检查配置的镜像库mirror，看是否有mirrorOf配置的是* ,这个值表示匹配所有的镜像库，相当于会屏蔽掉配置的其他的镜像库。注意配置的优...

2019-11-19 15:10:54 8178

原创 Spark任务报java.lang.StackOverflowError

Spark任务报java.lang.StackOverflowError简介日前遇到一个问题，在提交一个spark任务（提交模式:yarn-client），去读取2000+个字段的hive表时，报出一个错误：java.lang.StackOverflowError，于此分析记录一下问题。问题分析此问题的原因在于，通过sparksession去读取hive表时，会在 driver 端去解析...

2019-03-09 11:03:11 5505 1

原创搭建IDEA Btrace环境，并进行SpringBoot工程动态跟踪

简介在学习周志明老师的深入理解JVM虚拟机一书第四章时，对Btrace这个神奇的插件产生了兴趣。因为以前经常遇到，在某些情况下，比如生产环境出现问题，但是不能重启，又没有打日志，或者有些很奇怪的问题偶尔出现，重启应用又不出现的问题。如果能把这个Btrace工具应用起来，在某些束手无策的时候，可能有所裨益。 Btrace是什么？按照周老师的描述，在不停止目标程序运行的情况下...

2019-02-01 10:08:35 2045 1

原创 hive强制select * 进行MapReduce任务

简介由于hive本身的优化机制，一些简单的语句如select *，select 字段1，字段2 from table，hive不会启动MapReduce任务。但是有时候我们并不希望他这么做，比如：通过hiveserver2使用Java的jdbc发送select * from aaa，这个语句，当aaa这个表数据量超大的时候，比如我遇到的3000+的字段，5000万的数据量，程序就卡死...

2019-01-21 16:49:54 3570

转载你们是不是真的很缺大数据工程师

你们是不是真的很缺大数据工程师？摘要：其实个人在大数据在大数据这个坑中，细细算来，时间也有3+年了，从一开始做大数据中心平台开发构建，到现在关注的数据上层应用挖掘。所以，基本上从数据收集->数据处理(离线实时，并且还勉强算是国内实时处理早期的实践者)->数据上层应用挖掘，这个链路都走了一遍。其实个人在大数据在大数据这个坑中，细细算来，时间也有3+年了，从一开始做大数据中...

2018-08-22 18:28:15 8335

原创 CentOS7安装CDH5.14过程全纪录

目录简介环境及软件说明环境说明所需软件及说明安装前的主机准备一.安装JDK。（每台主机都要做）二.配置主机名和hosts（每台主机都要做，并且根据各个主机情况做相应的修改）三.禁止交换。（每台主机都要做）四。禁用大页面.（每台主机都要做）五。配置免密...

2018-08-22 11:16:18 8075 3

原创 spark远程debug之调试spark on yarn 程序（基于CDH平台，1.6.0版本）

简介由于spark有多种运行模式，远程调试的时候，虽然大体步骤相同，但是还是有小部分需要注意的地方，这里记录一下调试运行在spark on yarn模式下的程序。环境准备需要完好的Hadoop，spark集群，以便于提交spark on yarn程序。我这里是基于CDH的环境步骤 1.随

2017-11-27 17:45:08 5018 2

原创 IDEA中maven添加了依赖也报错java.lang.NoClassDefFoundError解决

简介最近从eclipse转到IDEA，一开始就遇到问题，以前eclipse运行的MAVEN管理的程序，在IDEA中，总要报错NoClassDefFoundError比如:Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/spark/api/java/function/Functio

2017-11-10 14:43:29 24972 6

原创编译打包spark-1.6.0-cdh5.11.0-src详细过程及问题记录

简介要深入学习spark，阅读源码，修改源码，学会自己编译打包spark是必须迈过的一道坎。折腾了两天，先后编译打包了spark-1.6.0-cdh5.11.0-src，spark-1.6.0-cdh5.13.0-src版本，现在记录过程，及遇到的问题如下。环境准备 1.我编译的平台是CentOS7，并且能正常联网（如果你能越过那道高高的山岗，那

2017-11-02 16:35:44 1838

原创 paxos算法结合Zookeeper介绍

说明：本文是一段视频教程中的资料，觉得很不错，摘录下来以备后查。 paxos算法，是一个基于消息传递的一致性算法，Leslie Lamport（莱斯利·兰伯特）在1990年提出的，近几年被广泛应用于分布式计算中，被认为是到目前为止唯一的分布式一致性算法，其他的算法都是paxos的改进或者简化。paxos算法有一个前提：没有拜占庭将军问题。拜占庭将军问题是对现实世界的模型化，由于硬件

2017-10-27 15:09:24 381

原创 CDH中 Apache Kylin使用spark引擎构建Cube

简介 Kylin v2.0引入了Spark引擎，可以在构建Cube步骤中替换MapReduce，目前还是beta版本，以下是配置步骤。配置步骤 1.在kylin的安装目录下，新建目录hadoop_conf mkdir $KYLIN_HOME/hadoop_conf 2.将core-site.

2017-09-26 14:45:50 3845 3

原创 CDH HBASE使用solr创建二级索引，更新删除索引

关于为什么要创建hbase二级索引，这里不再赘述，直接开始安装配置1.环境准备 ①安装HBASE，solr， Key-Value Store Indexer，这些在CDH的服务里面都有 ②进入CM HBASE配置页面，打开复制和编制索引： 2. 建表

2017-09-22 16:17:16 2928

转载日志系统之HBase日志存储设计优化

本文转自:http://blog.csdn.net/yanghua_kobe/article/details/46482319,感谢作者分享继续谈论最近接手的日志系统，上篇关于日志收集相关的内容，这篇我们谈谈日志存储相关的话题。简介我们首先来总结一下日志这种数据的业务特点：它几乎没有更新的需求，一个组件或一个系统通常有一个固定的日志格式，但就多个组件或系统而言它会存在各种五

2017-09-12 14:47:12 792

转载 HBase Shell 常用操作

HBase Shell 常用操作2015年3月10日 by debugo · 19 Comments本文转自http://debugo.com/hbase-shell-cmds/，感谢作者HBase Shell是HBase的一个命令行工具，我们可以通过它对HBase进行维护操作。我们可以使用sudo -u hbase hbase shell来进入HBase shel

2017-09-12 11:38:42 496

原创 hbase shell命令注意事项

hbase 的shell命令，创建表时，常常用的是简写的写法：如下create 't1','c1','c2' 以上代表创建t1表，有c1,c2两个列族，但是这种写法，其他比如版本数，是否压缩等其他属性，则是默认配置。不能手动配置属性，如果配置的话，会报错unknown配置的属性!若想具体设置，就要具体写完整的建表语句。比如想创建一个表，版本数为2，使用snap

2017-09-08 17:36:56 587

原创 flume kafka sparkstreaming整合后spark executor dead 及集群报错java.io.IOException: Connection reset by peer

简介整个项目架构是在CDH中，flume采集数据到kafka，然后sparkstreaming消费（flume1.7版本，kafka0.10版本，spark 2.1版本）。然后在集群中执行的时候，发现日志中会有下面这个错误，但是程序并没有死掉，结果也和本地环境测试的结果一样。同时发现，3个spark executor中，有一个会死掉。 java

2017-08-16 14:18:23 3934

原创 flume kafka sparkstreaming整合后集群报错org.apache.kafka.clients.consumer.KafkaConsumer.subscribe(Ljava/uti

简介整个项目架构是在CDH中，flume采集数据到kafka，然后sparkstreaming消费（flume1.7版本，kafka0.10版本，spark 2.1版本）。本来local本地模式测试已经没有问题，但是部署到集群上就报错如下：Exception in thread "streaming-start" java.lang.NoSuchMethodErr

2017-08-16 14:16:41 6513

原创 flume LineDeserializer Line length exceeds max (2048), truncating line!扩大一行数据量大小的采集上限

flume LineDeserializer Line length exceeds max (2048), truncating line!扩大一行数据量大小的采集上限。在一次使用flume+kafka+sparkstreaming架构处理日志时，出现一个很奇怪的问题：日志中的某一行数据总会被切分成了多行，总的输出日志行数也比原始日志文件多出了几十行，导致具体的处理逻辑中出现各种错误。经过排查，定位到问题是出现在flume上。在flume中采集的一行数据量是有大小限制的，默认为2048，即2KB，而我的

2017-08-15 17:36:17 3486

疯狂的暴走蜗牛的专栏

原创 Spring5.x源码编译及导入IDEA全过程及踩坑记录

原创 Git修改远程仓库地址后推送失败解决办法

原创 Java静态代码块、构造代码块，构造函数，普通代码块执行顺序

原创 Maven配置多个远程库(国内镜像库+私服库)

原创解决Maven修改setting.conf配置添加修改镜像库不生效的问题

原创 Spark任务报java.lang.StackOverflowError

原创搭建IDEA Btrace环境，并进行SpringBoot工程动态跟踪

原创 hive强制select * 进行MapReduce任务

转载你们是不是真的很缺大数据工程师

原创 CentOS7安装CDH5.14过程全纪录

原创 spark远程debug之调试spark on yarn 程序（基于CDH平台，1.6.0版本）

原创 IDEA中maven添加了依赖也报错java.lang.NoClassDefFoundError解决

原创编译打包spark-1.6.0-cdh5.11.0-src详细过程及问题记录

原创 paxos算法结合Zookeeper介绍

原创 CDH中 Apache Kylin使用spark引擎构建Cube

原创 CDH HBASE使用solr创建二级索引，更新删除索引

转载日志系统之HBase日志存储设计优化

转载 HBase Shell 常用操作

原创 hbase shell命令注意事项

原创 flume kafka sparkstreaming整合后spark executor dead 及集群报错java.io.IOException: Connection reset by peer

原创 flume kafka sparkstreaming整合后集群报错org.apache.kafka.clients.consumer.KafkaConsumer.subscribe(Ljava/uti

原创 flume LineDeserializer Line length exceeds max (2048), truncating line!扩大一行数据量大小的采集上限

原创 flume1.7 TailDirSource断点续传与文件更名后数据重复采集的bug修复

原创 CDH Can't scan a pre-transactional edit log，Timed out waiting 120000ms ，JournalNode数据文件破坏集群恢复方法

原创 CDH5.11 离线安装或者升级spark2.x详细步骤

原创 CDH5.11添加kafka服务及其初始启动OutOfMemoryError失败解决

原创改变eclipse的主题，使用IDEA的黑色主题

原创 EasyUi的tab组件href属性链接的页面JS代码无法执行

原创 jQuery使用笔记

原创 java基础学习笔记01

原创 hibernate中关于数据库方言导致不能自动生成数据库表的问题

转载 WEB-INFO/lib & build path 的jar包问题

原创 JSP页面的验证码生成，验证

阿里巴巴nacos-server-1.2.1 Windows版Linux版打包下载

sqljdbc_3.0.1301.101_chs

空空如也