2 jinYwuM

尚未进行身份认证

每个阶段,都做最好的自己。

等级
TA的排名 12w+

MapReduce运行模式

MapReduce运行模式1、本地模式 OR 集群模式// 设置为local时,运行模式为本地模式config.set("mapreduce.framework.name", "local");// 设置为yarn时,运行模式为集群模式config.set("mapreduce.framework.name", "yarn");2、数据文件的输入输出路径// 设置输入输...

2019-07-18 00:07:30

Oracle 去除或拼接字段内空格、换行符

1、问题原因数据文本中部分字段包含换行符(\r\n),导致入仓后数据异常2、解决思路将包含换行符的字段,使用函数Replace或Oreplace进行去除首先引入换行符的概念:0x0d => \r, carrige return, 指打字头归位的动作(回车),对应ASCII码表中的130x0a => \n, new line, 指打字机上卷一行的动作(换行),对应A...

2019-05-13 14:42:39

org.apache.hadoop.hbase.exceptions.ConnectionClosingException

问题:        利用HQL语句创建hbase 表时,出现异常。# Hive中的表名test_tbCREATE TABLE test_tb(key int, value string) # 指定存储处理器STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'# 声明列族,列名WITH SERDEPROPERT...

2018-10-29 15:42:54

hive-2.1.1整合hbase-2.1.0

一、环境准备1、软件版本hadoop-2.7.4 hbase-2.1.0 hive-2.1.12、hbase与hive的版本兼容hive0.90 与 hbase0.92是兼容的,早期的hive版本与hbase0.89/0.90兼容 hive1.x 与 hbase0.98.x或更低版本是兼容的 hive2.x 与 hbase1.x及hbase1.x更高版本兼容提示:hive ...

2018-10-29 15:14:20

Hive优化总结

一、hive表优化1、分区(不同文件夹)分区是以字段的形式在表结构中存在,通过desc table命令可以查看到字段存在, 但是该字段不存放实际的数据内容,仅仅是分区的表示(伪列)create table if not exists table_name(id int,name string,tel string)partitioned by(dt string)row form...

2018-10-24 16:56:59

flume拦截器

摘要:拦截器是简单的插件式组件,设置在source和channel之间。source接收到的时间,在写入channel之前,拦截器都可以进行转换或者删除这些事件。每个拦截器只处理同一个source接收到的事件。可以自定义拦截器。flume内置了很多拦截器,并且会定期的添加一些拦截器,在这里列出一些flume内置的,经常使用的拦截器。一、拦截器的种类介绍1、TimestampInt...

2018-09-11 03:02:32

Flume NG高可用集群搭建

软件版本:CentOS 6.7 hadoop-2.7.4 apache-flume-1.6.0一、Flume NG简述Flume 是 Cloudera 提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。 Flume将采集到的文件,socket数据包等各种形式的数据源,输出到HDFS、Hbase、hive、kafka等众多外部存储系统中 Flume针对特殊场景...

2018-09-10 23:15:44

栈与队列的区别及自定义实现

第一部分的总结主要转载:https://blog.csdn.net/bbc955625132551/article/details/72773285一、栈(Stack)和队列(Queue)的特点栈(Stack)和队列(Queue)是两种基于数组实现、操作受限的线性表,即栈和队列都是数组的子集。线性表:线性表是一种线性结构,它是一个含有n≥0个结点的有限序列,同一个线性表中的元素数据类型...

2018-09-08 16:40:59

自定义数组及简单时间复杂度分析

前言:作为java的一种容器,数组的优缺点同样明显优点:使用简单 ,查询效率高,内存为连续的区域 缺点:大小固定,不适合动态存储,不方便动态添加一、自定义实现数组1、Java中定义数组的三种形式 // 第一种:数组格式 类型[] 数组名 = new 类型[数组长度] int[] arr = new int[10]; // 第二种:定义数组,...

2018-09-05 02:10:19

Linux下Hive的安装部署

软件版本:CentOS 6.7 hive-1.2.1 hadoop-2.7.4一、yum安装MySQL1、查看系统之前是否已安装MySQL rpm -qa | grep mysql2、卸载MySQL:rpm -e --nodeps mysql-libs-5.1.71-1.el6.x86_64(查看到的选项全部删除)注意:强力删除模式,如果使用上面命令删除时,...

2018-09-03 13:49:13

Hadoop集群实现HA

软件版本:CentOS 6.7 jdk-8u171-linux-x64.tar.gz zookeeper-3.4.12.tar.gz hadoop-2.7.4-with-centos-6.7.tar.gz一、集群部署节点角色的规划1、集群部署节点角色的规划(7节点)    node01   namenode   zkfc    node02   namenode   zkfc...

2018-08-27 22:47:58

master.HMasterCommandLine: Master exiting

2018-08-2000:59:33,382ERROR[main]master.HMasterCommandLine:Masterexitingjava.io.IOException:CouldnotstartZKatrequestedportof2181.ZKwasstartedatport:2182.Abortingasclients(...

2018-08-27 22:10:12

Zookeeper集群搭建

软件版本:CentOS 6.7 jdk-8u171-linux-x64.tar.gz zookeeper-3.4.12.tar.gz一、Zookeeper完全分布式集群搭建1、安装JDK1.1、解压JDK:tar -zxvf jdk-8u171-linux-x64.tar.gz -C /export/server/1.2、配置JDK环境变量:export JAVA_HO...

2018-08-27 21:47:30

Collection集合总结

Collection接口继承体系图 Collection接口常用方法返回值类型 方法     解释 boolean add(E e) 向列表的尾部添加指定的元素(可选操作) boolean addAll(Collection<? extends E> c) 将指定 collection 中的所有元素都添加到此 collection...

2018-08-09 22:20:41

通过漫画轻松掌握HDFS工作原理

转 通过漫画轻松掌握HDFS工作原理 <div class="article-info-box"> <div class="article-bar-top d-

2018-08-08 23:35:00

Hadoop中分片split的原理解析

一、定义1、block:block是物理切块,在文件上传到HDFS文件系统后,对大文将以每128MB的大小切分若干,存放在不同的DataNode上;2、split:split是逻辑切片,在mapreduce中的map task开始之前,将文件按照指定的大小切割成若干个部分,每一部分称为一个split,默认是split的大小与block的大小相等,均为128MB。注意:在hadoop1....

2018-08-06 19:53:33

Hadoop2.7.4完全分布式环境搭建

软件版本虚拟机管理软件:VMware WorkStation Pro 12.0 操作系统:CentOS 6.7 Hadoop:Hadoop 2.7.4 JDK:jdk-8u65-linux-x64.tar.gz一、环境准备1、修改各个节点主机名:vi /etc/sysconfig/networkNETWORKING=yesHOSTNAME=node12、修改主机名和I...

2018-08-03 01:29:52

Error: Exception thrown by the agent : java.net.MalformedURLException: Local host name unknown: java

一、MyCat安装版本Linux版本:CentOS 6.7 Mycat-server-1.4-release-20151019230038-linux.tar.gz Mycat-server-1.6-RELEASE-20161028204710-linux.tar.gz最终选择版本:Mycat-server-1.6-RELEASE-20161028204710-linux.t...

2018-07-16 02:22:43

java.net.ConnectException: Connection refused: connect(无法连接redis服务器)

提示:出现问题版本为redis-3.2.1.tar.gz使用其他版本不需要做如下配置,idea、eclipse均连接正常,如:redis-3.0.0.tar.gz redis-4.0.11.tar.gzredis.clients.jedis.exceptions.JedisConnectionException: java.net.ConnectException: Connecti...

2018-07-09 20:38:31

Maven私服地址

一、问题现在maven项目非常流行,因为我们可以在pom.xml文件中配置项目所需要的jar包对应的坐标,maven就会自动管理jar包,但如果使用maven的中央仓库,因为其仓库服务器在国外,因此jar下载的速度非常慢,这时希望可以提高效率就需要配置国内的私服。其实方法很简单:maven是支持镜像的,我们可以在maven的conf文件夹下的setting.xml文件中找到<mirrors&...

2018-06-10 02:53:39

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 1024勋章
    1024勋章
    #1024程序员节#活动勋章,当日发布原创博客即可获得
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。