1 没有合适的昵称

尚未进行身份认证

暂无相关简介

等级
TA的排名 10w+

sqoop采坑

19/10/1614:19:04INFOsqoop.Sqoop:RunningSqoopversion:1.4.719/10/1614:19:04ERRORtool.BaseSqoopTool:Errorparsingargumentsforjob:19/10/1614:19:04ERRORtool.BaseSqoopTool:Unrecognizeda...

2019-10-16 14:22:02

storm安装

1、启动zk集群2、每台机器要求java7+以及python2.6.6+3、下载storm:http://storm.apache.org/downloads.html,我们使用1.2.2版本apache-storm-1.2.2.tar.gz4、将storm-1.2.2.tar.gz上传到master上hadoop-jrq用户下的bigdata目录下,用下面的命令解压:ta...

2019-10-13 16:10:21

CDH6.2.0安装

写文档很累了,就不粘贴复制了,需要的到下方链接下载,没有C币的请留下联系方式,我私发你

2019-10-07 09:05:15

记录一次azkaban的安装

本人因不喜欢oozie,因此在cdh安装完成后,不适用oozie,安装azkaban,轻巧,使用方便,在界面也可以看到各个任务的执行情况等下面记录一次实际的安装过程:MySQL配置:本处并未创建azkaban账号,有需要可以创建将azkaban-sql-script-2.5.0.tar.gz上传到cdh-cm服务器上tar-zxvfazkaban-sql-script-2.5.0.t...

2019-09-26 17:01:23

如何数据重跑

离线任务,数据重跑是很正常的事情,比如程序跑着跑着就挂掉了,比如跑出来的数据不正确,需要检查后重跑但是重跑的时候,需要注意的地方是,会不会有数据已经写入hbase了,或者hive的当天分区是否已经存在数据了hive有数据的话,这点倒不用太在意,因为在导数据之前,我们通常会先删除当天的文件数据(不删会报错):hadoopfs-rm-r/user/hive/warehouse/web.d...

2019-09-15 11:15:20

如何优雅的停止sparkstreaming程序

直接kill-9?不好吧,万一我这个程序还在处理数据呢?还没处理完呢?在处理的数据丢失了呢?但是我又想让它先停一下呢?好了,直接上代码吧(语言组织不好)~importorg.apache.hadoop.conf.Configurationimportorg.apache.hadoop.fs.{FileSystem,Path}importorg.apache.spark.strea...

2019-09-15 11:08:31

使用Spark SQL合并小文件的一个例子

小文件的危害完我就不在多说,请见:https://blog.csdn.net/qq_34341930/article/details/89031661importorg.apache.spark.sql.{SaveMode,SparkSession}/***使用SparkSQL合并小文件*/objectSmallFileMerger{defmain(args...

2019-09-06 17:05:21

Spark Streaming程序怎么才能做到不丢数据

SparkStreaming在接收数据的时候有两种模式,第一种是基于Receiver模式,第二种是KafkaDirect模式,两者不丢数据的处理方式不一样,下面我们就来聊聊这两种模式不丢数据的处理策略基于Receiver模式在这种模式下,我们可以使用checkpoint+WAL+ReliableReceiver的方式保证不丢失数据,就是说在driver端打开chechpoint,用...

2019-08-16 15:18:48

canal同步MySQL的数据

canal是什么?canal是阿里巴巴的一个开源项目,其作用就是:模拟MySQL的从节点,从而达到数据的同步作用原理图如下:这种方式对比flume和sqoop的优点是:不影响源数据库可以识别新增数据,也可以检测到删除或者更新的数据不要求源数据库必须有用于表示增量的字段...

2019-09-06 15:17:13

传统数据库的数据怎么实时导入到HDFS中

注意:这里的传统数据库一般是指传统的关系型数据库,比如Oracle、MySQL、SQLServer、DB2等将传统数据库实时导入到HDFS的方法一般是两种:1.准实时的发起增量SQL查询,然后将查询到的增量数据导入到HDFS中2.实时的监控数据库的增量的日志数据,然后将增量的日志数据实时导入到HDFS中以下分别看下上面两种方式的流程以及优缺点准实时的发起增量SQL查询的方式要从传统数...

2019-09-06 15:19:32

cdh5.14.X集群的安装

相关软件:链接:https://pan.baidu.com/s/1oCvrk6YEfEGCQeCVW6OzmQ提取码:6jco注意centos要下载el7的,我就因为一开始不清楚下的el5,结果提示parcels不知道redhat7,搞了好久才还原到初始重新来过角色分配以上的角色分配可以参考:https://www.cloudera.com/documentation/enterpr...

2019-09-04 10:50:42

hive和spark版本问题

FAILED:SemanticExceptionorg.apache.hadoop.hive.ql.metadata.HiveException:java.lang.RuntimeException:Unabletoinstantiateorg.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient当你在执行hive命令之...

2019-09-03 23:20:56

flume三种方式收集日志的案例

exec监测某个单一的文件#user_action_log_src这个名字可以任意取agent1.sources=user_action_log_src#memoryChannel也是随便取的agent1.channels=memoryChannel#hdfs_sink发送到hdfs的agent1.sinks=hdfs_sink#Foreachone...

2019-09-04 15:06:10

sqoop做ETL的一些案例

说在前面:注意,这些数据和例子是我之前在学习的时候的例子,因此,请举一反三简单的sqoop例子将mysql中的movie表数据导入到HDFS中sqoopimport--connectjdbc:mysql://master:3306/movie--usernameroot--password1234--tablemovie--split-byid-m2说明:sq...

2019-09-03 00:42:37

Sqoop1安装

1、下载:http://mirrors.hust.edu.cn/apache/sqoop/1.4.7/sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz2、将sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz上传至master机器的~/bigdata目录下,且解压3、配置Sqoop环境变量:vi~/.bash_profileexportSQ...

2019-09-03 00:18:02

zeppelin安装使用

Zeppelin的安装登陆到slave1上,执行如下命令:cdbigdatawgethttp://mirror.bit.edu.cn/apache/zeppelin/zeppelin-0.8.0/zeppelin-0.8.0-bin-all.tgztar-xvfzeppelin-0.8.0-bin-all.tgzcdzeppelin-0.8.0-bin-all启动:bin/...

2019-09-01 19:31:51

hive操作总结DML

Loadingfilesintotables(将数据加载到表中)CREATETABLEemployeeLIKEsensor.employee;LOADDATALOCALINPATH'/home/hadoop-jrq/hive-course/employee.txt'OVERWRITEINTOTABLEemployee;LOADDATALOCALINPATH...

2019-08-31 09:01:04

hive操作总结DDL

话不多说,直接写笔记了,你不用知道数据原本是什么样的,能够举一反三就行,操作都是一样的,只是场景不同而已,另外一些没有备注操作是干嘛的,复制粘贴看下就知道啦,很简单的,如果你有MySQL等数据库基础,一般都看得懂,注意,下面的所有你看到的 都是空格,不是table键打出来的,因为table键打出来的,在CLI和beeline上是不支持的,是会报错的基本操作CREATEDataBase语法...

2019-08-29 19:07:23

Hive beeline和Spark SQL兼容Hive – 配置

Hivebeeline和SparkSQL兼容Hive–配置Hivebeeline上面安装后直接输入hive是CLI的操作方式,在后面可能会被舍弃掉,换用beeline方式去连接,因为目前使用CLI的人比较多,所以还暂未舍弃1.打开hiveserver2的服务:nohupKaTeXparseerror:Expected'EOF',got'&'atpositi...

2019-08-29 07:55:57

Hive安装的三种模式

前提java1.7,最好是java1.8,hadoop2.x,mysql下载Hive安装包:https://mirrors.tuna.tsinghua.edu.cn/apache/hive/stable-2/概念HiveMetastore有三种配置方式,分别是:1.EmbeddedMetastoreDatabase(Derby)内嵌模式2.LocalMetastore...

2019-08-28 19:01:28

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv2
    勤写标兵Lv2
    授予每个自然周发布4篇到6篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。