自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(65)
  • 资源 (5)
  • 收藏
  • 关注

原创 idea 快捷键

F7 在 Debug 模式下,进入下一步,如果当前行断点是一个方法,则进入当前方法体内, 如果该方法体还有方法,则不会进入该内嵌的方法中* F8 在 Debug 模式下,进入下一步,如果当前行断点是一个方法,则不进入当前方法体内* F9 在 Debug 模式下,恢复程序运行,但是如果该断点下面代码还有断点则停在下一个断点上* Alt + ...

2019-10-23 17:22:12 218

原创 docker相关操作

1.查看pod节点当前日志kubectl attach pod节点名字 -n service-software2.查看docker容器中的日志首先要知道日志的路径,可以进入pod节点查找日志路径:kubectl exec -it pod节点名字 -n service-software sh然后根据关键字查找相应docker容器:docker ps|grep 关键字最后将...

2019-10-22 15:21:13 234

原创 Eclipse解决Toolbars在高分屏下图标太小的方法

右键=>eclipse=>属性=>“兼容性”选项卡=>“设置”项=>更改高DPI设置=>搞DPI缩放替代=>勾选“替代高DPI缩放行为”=>“缩放执行”下拉框中选择“系统”=>确认=>重启eclipse...

2019-10-12 15:35:55 716

转载 Spark Streaming使用Kafka保证数据零丢失

spark streaming从1.2开始提供了数据的零丢失,想享受这个特性,需要满足如下条件:数据输入需要可靠的sources和可靠的receivers应用metadata必须通过应用driver checkpointWAL(write ahead log)可靠的sources和receiversspark streaming可以通过多种方式作为数据sources(包括kafka)...

2019-09-04 22:25:02 490

原创 大数据面试题汇总

1.where,group by谁先执行总结一下hive语句的执行顺序。在hive的执行语句当中的执行查询的顺序:这是一条sql:select … from … where … group by … having … order by …执行顺序:from … where … select … group by … having … order by …其实总结hive的执行顺序也...

2019-09-02 05:03:47 526 1

转载 ZooKeeper故障处理

Zookeeper一般会出现以下两种故障:1.Zookeeper进程挂掉;2.Zookeeper进程还在,但不提供服务;(提示:ThisZooKeeperinstanceisnotcurrentlyservingrequests)Zookeeper故障监控:1.针对zookeeper进程的监控,直接监控器进程是否存在即可;(zookeeper进程名字:Quoru...

2019-08-31 16:44:15 1159

转载 Spark之RDD弹性特性

RDD作为弹性分布式数据集,它的弹性具体体现在以下七个方面。1.自动进行内存和磁盘数据存储的切换  Spark会优先把数据放到内存中,如果内存实在放不下,会放到磁盘里面,不但能计算内存放下的数据,也能计算内存放不下的数据。如果实际数据大于内存,则要考虑数据放置策略和优化算法。当应用程序内存不足时,Spark应用程序将数据自动从内存存储切换到磁盘存储,以保障其高效运行。2.基于Linea...

2019-08-29 06:55:08 321

原创 java内存结构

程序计数器:程序计数器是指CPU中的寄存器,它保存的是程序当前执行的指令的地址(也可以说保存下一条指令的所在存储单元的地址),当CPU需要执行指令时,需要从程序计数器中得到当前需要执行的指令所在存储单元的地址,然后根据得到的地址获取到指令,在得到指令之后,程序计数器便自动加1或者根据转移指针得到下一条指令的地址,如此循环,直至执行完所有的指令;(注:JVM中的程序计数器并不像汇编语言中的程序计数器...

2019-08-26 02:52:04 125

原创 java内存泄漏及预防总结

Java中的内存泄露,广义并通俗的说,就是:不再会被使用的对象的内存不能被回收,就是内存泄露。垃圾回收的时机:给对象赋予了空值null,之后再没有调用过。给对象赋予了新值,这样重新分配了内存空间。内存泄漏的场景:1、长生命周期的对象持有短生命周期的引用,就很可能会出现内存泄露。 例如:如果单例对象持有外部的引用,那么这个被引用对象将不能被 JVM 正常回收,导致内存泄漏。2、...

2019-08-26 01:22:54 155

原创 23种设计模式简介

零、设计模式的原则1.开闭原则:软件的维护性,复用性,扩展性。2.里氏替换原则:子类可以扩展父类的功能,但不能改变父类原有的功能。也就是说:子类继承父类时,除添加新的方法完成新增功能外,尽量不要重写父类的方法。3.依赖倒置原则:高层模块不应该依赖低层模块,两者都应该依赖其抽象;抽象不应该依赖细节,细节应该依赖抽象(比如顾客实体中的购买方法参数应该是商店接口而不是某个具体商店)。4.单一职责...

2019-08-21 05:40:10 385

原创 mysql及sql优化

一、mysql优化:1.查询优化慢查询日志开启并用mysqldumpslow分析使用EXPLAIN查看SQL执行计划,用法:EXPLAIN SELECT * FROM products2.使用索引B-Tree索引R-Tree索引在mysql很少使用,支持该类型的存储引擎只有MyISAM、BDb、InnoDb、NDb、Archive几种。相对于BTREE,RTREE的优势在于范围查找...

2019-08-18 08:09:39 121

原创 jvm优化概览

1.今日内容了解下我们为什么要学习JVM优化掌握jvm的运行参数以及参数的设置掌握jvm的内存模型(堆内存)掌握jamp命令的使用以及通过MAT工具进行分析掌握定位分析内存溢出的方法掌握jstack命令的使用掌握VisualJVM工具的使用我们为什么要对jvm做优化?运行的应用“卡住了”,日志不输出,程序没有反应服务器的CPU负载突然升高在多线程应用下,如何分配线程的数量?...

2019-08-17 06:22:44 178

原创 java并发包java.util.concurrent介绍

java.util.concurrent是并发包的目录。阻塞队列 BlockingQueue接口通常用于一个线程生产对象,而另外一个线程消费这些对象的场景。该接口的具体实现有ArrayBlockingQueue,DelayQueue,LinkedBlockingQueue,PriorityBlockingQueue,SynchronousQueue。DelayQueue 对元素进行持有直到...

2019-08-16 07:28:31 530

原创 HIVE中join、semi join、outer join举例详解

首先,hive中,left join与left outer join等价。举例子:hive> select * from zz0; 111111 222222 888888 hive> select * from zz1; 111111 333333 444444 888888hive> select * from zz0 join zz1 on z...

2019-08-15 04:21:22 234

原创 mapreduce自定义数据类型代码实现

package cn.itcast.mapreduce;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;import org.apache.hadoop.io.Writable;import org.apache.hadoop.io.WritableComparable;...

2019-08-13 02:43:52 126

原创 mapreduce wordcount完整代码

map:package cn.itcast.mapreduce;import java.io.IOException;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache...

2019-08-13 01:55:04 864

转载 Spark Streaming与Storm对比

对比点 Storm Spark Streaming 实时计算模型 纯实时,来一条数据,处理一条数据 准实时,对一个时间段内的数据收集起来,作为一个RDD,再处理 实时计算延迟度 毫秒级 秒级 吞吐量...

2019-08-08 05:32:36 150

原创 常用的选择排序算法

一、排序1.选择排序(比较次数n2/2,交换次数n,原理是每次都找到最小的元素与第一个元素交换位置)int[] sort(int[] a){ //用于储存最小值 int b = 0; int N = a.length; for(int i=0; i<N; i++){ //将a[i]和a[i+1]~a[N-1]中的最小值交换 int min = ...

2019-08-07 06:56:31 263

原创 数据仓库分层

为什么要对数据仓库分层?用空间换时间,通过大量的预处理来提升应用系统的用户体验(效率),因此数据仓库会存在大量冗余的数据;如果不分层的话,如果源业务系统的业务规则发生变化将会影响整个数据清洗过程,工作量巨大通过数据分层管理可以简化数据清洗的过程,因为把原来一步的工作分到了多个步骤去完成,相当于把一个复杂的工作拆成了多个简单的工作,把一个大的黑盒变成了一个白盒,每一层的...

2019-07-31 02:38:35 695

原创 多线程常用知识点

多线程并发执行可以提高程序的效率,同时完成多项工作。多线程的应用场景:迅雷下载多个资源,服务器处理多个请求,qq多人视频。并行需要多核cpu,并发不需要。java程序的运行原理:java命令会启动jvm虚拟机,等于启动了一个进程(应用程序)。该进程会启动一个主线程,主线程去调用入口类的main方法。jvm至少启动了主线程和垃圾回收线程,所以是多线程的。多线程程序实现的两种方式:1...

2019-07-25 03:16:20 106

转载 解决数据倾斜的两篇文章

第一篇文章:发现数据倾斜的时候,不要急于提高 executor 的资源,修改参数 或是修改程序,首先要检查数据本身,是否存在异常数据。  1、数据问题造成的数据倾斜  找出异常的 key  如果任务长时间卡在最后最后 1 个(几个)任务,首先要对 key 进行 抽样分析,判断是哪些 key 造成的。 选取 key,对数据进行抽样,统计出现的次数,根据出现次数大小排...

2019-07-23 04:11:45 323

转载 解决 spark 中的数据倾斜问题

发现数据倾斜的时候,不要急于提高 executor 的资源,修改参数 或是修改程序,首先要检查数据本身,是否存在异常数据。  1、数据问题造成的数据倾斜  找出异常的 key  如果任务长时间卡在最后最后 1 个(几个)任务,首先要对 key 进行 抽样分析,判断是哪些 key 造成的。 选取 key,对数据进行抽样,统计出现的次数,根据出现次数大小排序取 出前几...

2019-07-23 01:41:25 233

转载 动态上下线datanode的方法

namenode 中 hdfs-site.xml 配置 <property> <name>dfs.hosts</name> <value>/ddmap/hadoop-1.0.4/conf/hdfs_include</value> </property> <property> <name...

2019-07-23 00:02:05 881

原创 Kafka 阻塞如何排查?

o 首先获取所有的 topic 列表  bin/kafka-topics.sh --list --zookeeper localhost:2181 o 查看某一个 topic 下的 log 文件和 offset 是不是一样(下 一单之后再次查看有没有变化,应该是 log 文件和 offset 同时加 1 猜对,如果不是同时加 1 说明阻塞)  bin/kafka-run...

2019-07-22 23:54:49 2934

原创 storm 和 spark 的区别

对于 storm 来说: o 建议在那种需要纯实时,不能忍受 1 秒以上延迟的场景下 使用,比如实时金融系统,要求纯实时进行金融交易和分析 o 此外,如果对于实时计算的功能中,要求可靠的事务机制 和可靠性机制,即数据的处理完全精准,一条也不能多,一条也 不能少,也可以考虑使用 Storm o 如果还需要针对高峰低峰时间段,动态调整实时计算程序 的并行度,以最大限度利用集...

2019-07-22 23:32:34 967

转载 hadoop集群添加和格式化namenode的步骤

ClusterID添加了一个新的标识符ClusterID用于标识集群中所有的节点。当格式化一个Namenode,需要提供这个标识符或者自动生成。这个ID可以被用来格式化加入集群的其他Namenode。格式化Namenodes第一步: 使用如下命令格式化一个Namenode:> $HADOOP_PREFIX_HOME/bin/hdfs namenode -format [-c...

2019-07-21 22:27:29 2980

转载 [原理型] hadoop1的InputFormat的数据划分、Split调度、数据读取三个问题的浅析

转自http://www.aboutyun.com/thread-6803-1-1.html在执行一个Job的时候,Hadoop会将输入数据划分成N个Split,然后启动相应的N个Map程序来分别处理它们。数据如何划分?Split如何调度(如何决定处理Split的Map程序应该运行在哪台TaskTracker机器上)?划分后的数据又如何读取?这就是本文所要讨论的问题。先从一张经典的MapRed...

2019-07-21 21:30:36 119

转载 hadoop中MapReduce多种join实现实例分析

一、概述对于RDBMS中的join操作大伙一定非常熟悉,写sql的时候要十分注意细节,稍有差池就会耗时巨久造成很大的性能瓶颈,而在Hadoop中使用MapReduce框架进行join的操作时同样耗时,但是由于hadoop的分布式设计理念的特殊性,因此对于这种join操作同样也具备了一定的特殊性。本文主要对MapReduce框架对表之间的join操作的几种实现方式进行详细分析,并且根据我...

2019-07-21 18:23:56 188

原创 hadoop mapreduce找共同好友问题

找博客共同好友案例1)数据准备以下是博客的好友列表数据,冒号前是一个用户,冒号后是该用户的所有好友(数据中的好友关系是单向的)A:B,C,D,F,E,OB:A,C,E,KC:F,A,D,ID:A,E,F,LE:B,C,D,M,LF:A,B,C,D,E,O,MG:A,C,D,E,FH:A,C,D,E,OI:A,OJ:B,OK:A,C,DL:D,E,FM:E,F,G...

2019-07-21 04:50:15 469

原创 Hadoop中的KeyValueInputFormat

一:背景有时候,我们可以不以偏移量和行文本内容来作为数据源到MapTask的输入格式,而使用键值对的形式,使用KeyValueInputFormat就可以完成这种需求。二:技术实现数据源如下操作代码如下:public class MyKeyValueTextInputFormat { // 定义输入路径 private sta...

2019-07-21 04:22:21 788 3

原创 hadoop集群搭建必须用root用户吗

hadoop 3种搭建方式: rpm 安装和起服务都是用root权限 tar.gz 这种模式可以在某个用户下搭建及起服务,但是搭建后 hadoop平台只能这个用户访问,除非你去除kerberos sentry等权限管控组件,这样所有用户都能访问都是没有安全可言 cm 页面搭建 也是用root root用户迁移到非root:因为hadoop的配置文件、环境变量都...

2019-07-20 13:27:49 5951 1

原创 监控hadoop及其节点的两种方法

Hadoop本身自带的HDFS和JobTracker监控页面是最好用的监控页面,简单明了。但是现在想要自己开发一套监控系统,那该怎样去获取Hadoop集群的当前状况呢?网页抓取首先,想到的办法是抓取网页,通过抓取50030和50070页面获得监控的数据。不得不说,这个办法实在是太土了,不到万不得已真的不好意思用。脚本如下:[root@localhost libexec]# ca...

2019-07-19 02:53:03 1576

原创 sqoop数据导入hive 遇到的问题

1.ERROR exec.DDLTask: java.lang.NoSuchMethodError: com.fasterxml.jackson.databind.ObjectMapper.readerFor(Ljava/lang/Class;)Lcom/fasterxml/jackson/databind/ObjectReader;造成的原因:sqoop与hive使用的jackson包的版本...

2019-07-19 02:26:39 1538

转载 hbase性能调优

一、服务端调优1、参数配置 1)、hbase.regionserver.handler.count:该设置决定了处理RPC的线程数量,默认值是10,通常可以调大,比如:150,当请求内容很大(上MB,比如大的put、使用缓存的scans)的时候,如果该值设置过大则会占用过多的内存,导致频繁的GC,或者出现OutOfMemory,因此该值不是越大越好。2)、hbase.h...

2019-07-18 03:10:17 91

转载 hadoop 重启datanode及动态加入节点

hadoop2.2.0启动子节点适用于子节点单独挂掉然后重启的情况,或者增加子节点的情况。设置好相应的配置后:sbin/hadoop-daemon.shstartdatanode sbin/yarn-daemon.shstartnodemanager即可。执行jps应该可以看到类似:6847DataNode 7574NodeManag...

2019-07-18 01:29:39 3082

原创 大数据知识复习汇总

阶段5:流式计算stormstorm:实时数据计算框架hadoop包含两个框架:hdfs和mapreducestorm和hadoop的区别在于storm只负责计算不负责存储storm框架如何获取数据:spout。spout从任何地方取数据,比如文件,数据库,reids等hadoop用textinputformat获取数据hadoop用mapreduce计算数据,storm用Bolt计...

2019-07-11 00:04:26 631

转载 Unexpected token o in JSON at position 1 at JSON.parse (<anonymous>) SyntaxError: Unexpected

本文章转自https://www.cnblogs.com/aashui/p/9932175.html这个问题在之前做项目时碰到过一次,当时按照网上的做法,去掉JSON.parse()这一层转换后就没有这个报错了,数据也能正常使用,就没多想,也没深究是什么原因。可是这次又碰到了,所以这次我必须要弄明白原因。先看看它的作用JSON.parse()用于从一个字符串中解析出json对象,如v...

2019-04-11 17:12:18 5103

转载 eclipse安装SVN插件的两种方法

eclipse里安装SVN插件,一般来说,有两种方式:直接下载SVN插件,将其解压到eclipse的对应目录里 使用eclipse 里Help菜单的“Install New Software”,通过输入SVN地址,直接下载安装到eclipse里 第一种方式: 1.下载SVN插件 SVN插件下载地址及更新地址,你根据需要选择你需要的版本。现在最新是1.8.x...

2019-04-08 16:27:51 925

原创 打印Exception异常日志的方法

} catch (Exception e) { ByteArrayOutputStream baos = new ByteArrayOutputStream(); e.printStackTrace(new PrintStream(baos)); ...

2019-03-07 09:45:34 4284 1

原创 启动hive时报Access denied for user 'root'@'xxx'错误

将设置远程访问的grant all privileges on *.* to 'root' @'%' identified by '密码'; 中的%改成你具体的主机名(也就是hostname)。

2018-12-03 05:30:09 1603

大数据资料.zip 大数据文档资料

大数据文档资料,包括hadoop,spark,storm,hive,hbase,scala,flume等

2021-10-30

大数据总复习笔记.txt

大数据复习笔记包含了关于离线计算,实时计算的相关框架和知识点

2019-08-22

SQL 数据库面试题__最主要文档_好好总结看看.pdf

这是一个大数据的常见面试题的总结,里面包含hadoop和spark等等的内容

2019-08-12

PLSQL及使用方法文档

PLSQL安装,使用方法文档,以及中文乱码的解决方法。。

2018-03-18

svn使用方法讲义

svn使用方法讲义,讲解了svn的拉代码提交代码等操作。

2018-01-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除