自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

大数据学习成长之路

从hadoop基础学习到hive、sqoop、oozie、Hbase、spark等的框架实战应用。

  • 博客(23)
  • 资源 (7)
  • 收藏
  • 关注

原创 linux|rpm命令安装软件包

1、cd配置centos的ISO文件2、挂载cdrom [root@localhost Packages]# mount /dev/cdrom /media3、利用wc统计一下rpm按照包的个数查看某文件是否安装 [root@localhost Packages]# rpm -qa | grep yp-tools 参数说明: -q 表...

2018-05-28 16:51:25 11247

原创 linux各发行版本下载地址

别乱找了6.4下载地址及其他下载地址 http://vault.centos.org/6.4/isos/x86_64/ 目前商用最多的linux发行系统是centos系统。 centos被红帽收购了。

2018-05-17 23:41:39 1177

原创 Hbae批量装载(Bulk Loading)

什么是bulk load HBase 有好几种方法将数据装载到表。最直接的方式即可以通过MapReduce任务,也可以通过普通客户端API。但是这都不是高效方法。 批量装载特性采用 MapReduce 任务,将表数据输出为HBase的内部数据格式,然后可以将产生的存储文件直接装载到运行的集群中。批量装载比简单使用 HBase API 消耗更少的CPU和网络资源。使用BU...

2018-05-10 16:39:31 2677

原创 使用importTsv完成HBase 的数据迁移

数据迁移场景举例Hbase集群装好了,若需要往表中装数据;数据的备份,如测试集群往生产集群上迁移。几种HBase数据导入方式(不推荐使用)使用Hbase Put API:例如MapReduce也是使用Put API 使用Hbase批量加载工具 自定义的MapReduce job 这三种方式都涉及到Put内置,大多数数据迁移场景都涉及到数据的导入(import),从存在的...

2018-05-10 14:40:22 1478

原创 编写MapReduce程序,集成HBase对表进行读取和写入数据

参考地址:http://hbase.apache.org/boot.html#mapreduce导入:import org.apache.hadoop.conf.Configured; 导入:import org.apache.hadoop.util.Tool;。 三要素创建Mapper Class 创建Reducer Class 创建Driver创建Mapper...

2018-05-07 23:12:58 1740

原创 Cloudera Hue

Hue是Cloudera开源的一个Hadoop UI,由Cloudera Desktop演化而来。面向用户提供方便的UI用于平时的Hadoop操作中。Apache Ambari面向的是管理员,用于安装、维护集群,而不是使用集群。两者针对的是不同需求。依赖安装:“` sudo yum install krb5-devel cyrus-sasl-gssapi cyrus-sasl...

2018-04-17 17:50:01 1015

原创 Oozie 介绍

Hadoop 调度框架Linux Crontab Azkaban https://azkaban.github.io/Oozie http://oozie.apache.org/Zeus https://github.com/michael8335/zeus2Azkaban, Open-source Workflow ManagerOozie, Workfl...

2018-04-05 16:12:39 4014

原创 oozie 异常

异常1Stack trace for the error was (for debug purposes):--------------------------------------org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.authorize.AuthorizationException): Us...

2018-04-05 16:11:59 283

原创 oozie安装部署

安装步骤 解压–>配置代理用户–>解压oozie依赖的hadoop包–>复制hadoop依赖包到libext目录–>把ext*.zip包放到libext中–>准备oozie的war包–>oozie依赖包上传到HDFS系统–>创建oozie数据库–>修改oozie依赖hadoop配置文件路径–>启动oozie环境要求配置...

2018-04-05 16:11:34 227

原创 Oozie案例运行MapReduced Workflow

解压oozie-examples.tar.gz[beifeng@hadoop-senior oozie-4.0.0-cdh5.3.6]$ tar -zxvf oozie-examples.tar.gz 上传Examples The examples/ directory must be copied to the user HOME directory in HDFS...

2018-04-05 16:08:17 390

原创 Oozie 报错的解决方法

错误信息org.apache.oozie.action.ActionExecutorException: Could not locate Oozie sharelib at org.apache.oozie.action.hadoop.JavaActionExecutor.addSystemShareLibForAction(JavaActionExecutor.java:614...

2018-04-05 16:07:09 1134

原创 oozie工作流定义

介绍流程定义流程节点启动节点结束节点Kill Control NodeMap-Reduce ActionA map-reduce action can be configured to perform file system cleanup and directory creation before starting t...

2018-04-05 16:06:49 677

原创 Oozie WorkFlow中Hive Action案例

官方地址http://archive.cloudera.com/cdh5/cdh/5/oozie-4.0.0-cdh5.3.6/DG_HiveActionExtension.html复制样例重新命名后对hive进行修改 cp -r examples/apps/hive oozie-apps/mv oozie-apps/hive hive-select修改hiv...

2018-04-05 16:06:18 1245 2

原创 WorkFlow中Sqoop Action运行案例

复制样例[beifeng@hadoop-senior oozie-4.0.0-cdh5.3.6]$ cp -r examples/apps/sqoop oozie-apps/样例重新命令mv sqoop sqoop-import复制mysql依赖包[beifeng@hadoop-senior oozie-apps]$ mkdir sqoop-import/l...

2018-04-05 16:04:04 306

原创 WorkFlow中Sqoop Action使用案例错误总结

job.properties 中可能出现的错误jobTracker=hadoop-senior.beifeng.com:8032 端口错误 jobTracker的端口设置错误 8032 。表示是yarn的运行地址及端口号oozieAppsRoot 地址错误 表示 在HDFS上oozie运行sqoop流程job的目录。目录前后把反斜杠都去掉。正确写法是oozieA...

2018-04-05 12:48:04 312

原创 Hive的UDF编程

官方地址:https://cwiki.apache.org/confluence/display/Hive/HivePlugins什么是UDF(user-Define-Function)?用户定义的函数。查看hive自带的函数。show funtion;查询某个函数的详细使用手册desc function extended split ; UDF几种类型UDF(User-Defined-Func...

2018-03-08 17:56:20 216

原创 Hive中order by、sort by、distribute by和cluster by

Order By语法colOrder: ( ASC | DESC )colNullOrder: (NULLS FIRST | NULLS LAST) -- (Note: Available in Hive 2.1.0 and later)orderBy: ORDER BY colName colOrder? colNullOrder? (',' colName colOrd...

2018-03-08 16:55:52 360

原创 Hive中数据导入导出(Import和Export)

官方文档地址:https://cwiki.apache.org/confluence/display/Hive/Home导出EXPORT将hive表中的数据导出到外部。语法:EXPORT TABLE tablename [PARTITION (part_column="value"[, ...])] TO 'export_target_path' [ FOR replication('even...

2018-03-08 11:59:13 7091

原创 大数据||Hive中常用的查询

Hive中的查询 Select查询语法SELECT [ALL | DISTINCT] select_expr, select_expr, ...  FROM table_reference  [WHERE where_condition]  [GROUP BY col_list]  [ORDER BY col_list]  [CLUSTER BY col_list    | [DISTRIBUTE...

2018-03-07 00:15:45 17393 2

原创 大数据||导出Hive表中的数据

导出Hive表中的数据方式由很多种。一下就介绍一下方式一:在hive的命令行内insert overwrite local directory '/opt/datas/hive_emp_exp' ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' COLLECTION ITEMS TERMINATED BY '\n' select * from em...

2018-03-06 23:25:37 1616

原创 Hive的管理表和外部表

管理表内部表也称之为MANAGED_TABLE;默认存储在/user/hive/warehouse下,也可以通过location指定;删除表时,会删除表数据以及元数据;外部表外部表称之为EXTERNAL_TABLE;在创建表时可以自己指定目录位置(LOCATION);删除表时,只会删除元数据不会删除表数据;语法外部表创建外部表create external table if not exists ...

2018-03-06 22:53:02 690

原创 Hive中分区表及陷阱

分区表分区表实际就是对应hdfs文件系统上的的独立的文件夹,该文件是夹下是该分区所有数据文件。分区可以理解为分类,通过分类把不同类型的数据放到不同的目录下。分类的标准就是分区字段,可以一个,也可以多个。分区表的意义在于优化查询。查询时尽量利用分区字段。如果不使用分区字段,就会全部扫描。在查询是通过where子句查询来指定所需的分区。样例create external table if not ex...

2018-03-06 22:52:08 7899

原创 导入数据到hive表中的6种方式

数据导入六种方式1、加载本地文件到hive表语法2、加载hdfs文件到hive中3、加载数据覆盖表中已有的数据4、创建表时通过select加载create table if not exists default.dept_catsas select * from dept;5、创建表通过insert加载6、创建表的时候通过location指定加载外部表方式create external table...

2018-03-06 22:42:54 30826 1

OSB安装部署.doc

OSB安装部署步骤详细

2019-07-09

powerdesigner 16.5破解文件

绿色版powerdesigner 16.5破解文件,找了好久百度文件都失效了。

2018-05-21

netcatnetcatnetcat

netcat-0.7.1-1.i386 telnet-0.17-48.el6.x86_64 telnet-server-0.17-48.el6.x86_64 xinetd-2.3.14-40.el6.x86_64

2018-03-22

svn插件site-1.8.22.zip

myeclipse elicsep 插件。插件版本 site-1.8.22.zip 。插件信息描述(site-1.8.22.zip 稳定 markphip 于 2013年5月31日 星期五,12:40:25 16.79 mB ) 使用方法:1、解压zip包 2、把features 和plugins下的文件copy到eclpse安装目录下的对应文件夹下。

2017-09-30

文件在线预览系统

1、首先安装openoffice 配置环境变量 2、安装swftools配置环境变量。 3、通过 FileService 对上传的doc ppt xls pdf png文件进行转换。 4、通过flaxpaper进行在线预览

2014-08-12

OpenOffice 4 不同操作系统兼容性启动命令

OpenOffice 4 不同操作系统兼容性启动命令。 升级版本启动命令。 之前缺少主引导,现在添加主引导。可支持window xp 、win7 等操作系统。

2014-08-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除