- 博客(23)
- 资源 (7)
- 收藏
- 关注
原创 linux|rpm命令安装软件包
1、cd配置centos的ISO文件2、挂载cdrom [root@localhost Packages]# mount /dev/cdrom /media3、利用wc统计一下rpm按照包的个数查看某文件是否安装 [root@localhost Packages]# rpm -qa | grep yp-tools 参数说明: -q 表...
2018-05-28 16:51:25 11247
原创 linux各发行版本下载地址
别乱找了6.4下载地址及其他下载地址 http://vault.centos.org/6.4/isos/x86_64/ 目前商用最多的linux发行系统是centos系统。 centos被红帽收购了。
2018-05-17 23:41:39 1177
原创 Hbae批量装载(Bulk Loading)
什么是bulk load HBase 有好几种方法将数据装载到表。最直接的方式即可以通过MapReduce任务,也可以通过普通客户端API。但是这都不是高效方法。 批量装载特性采用 MapReduce 任务,将表数据输出为HBase的内部数据格式,然后可以将产生的存储文件直接装载到运行的集群中。批量装载比简单使用 HBase API 消耗更少的CPU和网络资源。使用BU...
2018-05-10 16:39:31 2677
原创 使用importTsv完成HBase 的数据迁移
数据迁移场景举例Hbase集群装好了,若需要往表中装数据;数据的备份,如测试集群往生产集群上迁移。几种HBase数据导入方式(不推荐使用)使用Hbase Put API:例如MapReduce也是使用Put API 使用Hbase批量加载工具 自定义的MapReduce job 这三种方式都涉及到Put内置,大多数数据迁移场景都涉及到数据的导入(import),从存在的...
2018-05-10 14:40:22 1478
原创 编写MapReduce程序,集成HBase对表进行读取和写入数据
参考地址:http://hbase.apache.org/boot.html#mapreduce导入:import org.apache.hadoop.conf.Configured; 导入:import org.apache.hadoop.util.Tool;。 三要素创建Mapper Class 创建Reducer Class 创建Driver创建Mapper...
2018-05-07 23:12:58 1740
原创 Cloudera Hue
Hue是Cloudera开源的一个Hadoop UI,由Cloudera Desktop演化而来。面向用户提供方便的UI用于平时的Hadoop操作中。Apache Ambari面向的是管理员,用于安装、维护集群,而不是使用集群。两者针对的是不同需求。依赖安装:“` sudo yum install krb5-devel cyrus-sasl-gssapi cyrus-sasl...
2018-04-17 17:50:01 1015
原创 Oozie 介绍
Hadoop 调度框架Linux Crontab Azkaban https://azkaban.github.io/Oozie http://oozie.apache.org/Zeus https://github.com/michael8335/zeus2Azkaban, Open-source Workflow ManagerOozie, Workfl...
2018-04-05 16:12:39 4014
原创 oozie 异常
异常1Stack trace for the error was (for debug purposes):--------------------------------------org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.authorize.AuthorizationException): Us...
2018-04-05 16:11:59 283
原创 oozie安装部署
安装步骤 解压–>配置代理用户–>解压oozie依赖的hadoop包–>复制hadoop依赖包到libext目录–>把ext*.zip包放到libext中–>准备oozie的war包–>oozie依赖包上传到HDFS系统–>创建oozie数据库–>修改oozie依赖hadoop配置文件路径–>启动oozie环境要求配置...
2018-04-05 16:11:34 227
原创 Oozie案例运行MapReduced Workflow
解压oozie-examples.tar.gz[beifeng@hadoop-senior oozie-4.0.0-cdh5.3.6]$ tar -zxvf oozie-examples.tar.gz 上传Examples The examples/ directory must be copied to the user HOME directory in HDFS...
2018-04-05 16:08:17 390
原创 Oozie 报错的解决方法
错误信息org.apache.oozie.action.ActionExecutorException: Could not locate Oozie sharelib at org.apache.oozie.action.hadoop.JavaActionExecutor.addSystemShareLibForAction(JavaActionExecutor.java:614...
2018-04-05 16:07:09 1134
原创 oozie工作流定义
介绍流程定义流程节点启动节点结束节点Kill Control NodeMap-Reduce ActionA map-reduce action can be configured to perform file system cleanup and directory creation before starting t...
2018-04-05 16:06:49 677
原创 Oozie WorkFlow中Hive Action案例
官方地址http://archive.cloudera.com/cdh5/cdh/5/oozie-4.0.0-cdh5.3.6/DG_HiveActionExtension.html复制样例重新命名后对hive进行修改 cp -r examples/apps/hive oozie-apps/mv oozie-apps/hive hive-select修改hiv...
2018-04-05 16:06:18 1245 2
原创 WorkFlow中Sqoop Action运行案例
复制样例[beifeng@hadoop-senior oozie-4.0.0-cdh5.3.6]$ cp -r examples/apps/sqoop oozie-apps/样例重新命令mv sqoop sqoop-import复制mysql依赖包[beifeng@hadoop-senior oozie-apps]$ mkdir sqoop-import/l...
2018-04-05 16:04:04 306
原创 WorkFlow中Sqoop Action使用案例错误总结
job.properties 中可能出现的错误jobTracker=hadoop-senior.beifeng.com:8032 端口错误 jobTracker的端口设置错误 8032 。表示是yarn的运行地址及端口号oozieAppsRoot 地址错误 表示 在HDFS上oozie运行sqoop流程job的目录。目录前后把反斜杠都去掉。正确写法是oozieA...
2018-04-05 12:48:04 312
原创 Hive的UDF编程
官方地址:https://cwiki.apache.org/confluence/display/Hive/HivePlugins什么是UDF(user-Define-Function)?用户定义的函数。查看hive自带的函数。show funtion;查询某个函数的详细使用手册desc function extended split ; UDF几种类型UDF(User-Defined-Func...
2018-03-08 17:56:20 216
原创 Hive中order by、sort by、distribute by和cluster by
Order By语法colOrder: ( ASC | DESC )colNullOrder: (NULLS FIRST | NULLS LAST) -- (Note: Available in Hive 2.1.0 and later)orderBy: ORDER BY colName colOrder? colNullOrder? (',' colName colOrd...
2018-03-08 16:55:52 360
原创 Hive中数据导入导出(Import和Export)
官方文档地址:https://cwiki.apache.org/confluence/display/Hive/Home导出EXPORT将hive表中的数据导出到外部。语法:EXPORT TABLE tablename [PARTITION (part_column="value"[, ...])] TO 'export_target_path' [ FOR replication('even...
2018-03-08 11:59:13 7091
原创 大数据||Hive中常用的查询
Hive中的查询 Select查询语法SELECT [ALL | DISTINCT] select_expr, select_expr, ... FROM table_reference [WHERE where_condition] [GROUP BY col_list] [ORDER BY col_list] [CLUSTER BY col_list | [DISTRIBUTE...
2018-03-07 00:15:45 17393 2
原创 大数据||导出Hive表中的数据
导出Hive表中的数据方式由很多种。一下就介绍一下方式一:在hive的命令行内insert overwrite local directory '/opt/datas/hive_emp_exp' ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' COLLECTION ITEMS TERMINATED BY '\n' select * from em...
2018-03-06 23:25:37 1616
原创 Hive的管理表和外部表
管理表内部表也称之为MANAGED_TABLE;默认存储在/user/hive/warehouse下,也可以通过location指定;删除表时,会删除表数据以及元数据;外部表外部表称之为EXTERNAL_TABLE;在创建表时可以自己指定目录位置(LOCATION);删除表时,只会删除元数据不会删除表数据;语法外部表创建外部表create external table if not exists ...
2018-03-06 22:53:02 690
原创 Hive中分区表及陷阱
分区表分区表实际就是对应hdfs文件系统上的的独立的文件夹,该文件是夹下是该分区所有数据文件。分区可以理解为分类,通过分类把不同类型的数据放到不同的目录下。分类的标准就是分区字段,可以一个,也可以多个。分区表的意义在于优化查询。查询时尽量利用分区字段。如果不使用分区字段,就会全部扫描。在查询是通过where子句查询来指定所需的分区。样例create external table if not ex...
2018-03-06 22:52:08 7899
原创 导入数据到hive表中的6种方式
数据导入六种方式1、加载本地文件到hive表语法2、加载hdfs文件到hive中3、加载数据覆盖表中已有的数据4、创建表时通过select加载create table if not exists default.dept_catsas select * from dept;5、创建表通过insert加载6、创建表的时候通过location指定加载外部表方式create external table...
2018-03-06 22:42:54 30826 1
netcatnetcatnetcat
2018-03-22
svn插件site-1.8.22.zip
2017-09-30
文件在线预览系统
2014-08-12
OpenOffice 4 不同操作系统兼容性启动命令
2014-08-12
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人