4 星河scorpion

尚未进行身份认证

希望以后多多交流

等级
博文 262
排名 1w+

hive从查询中获取数据插入到表或动态分区

Hive的insert语句能够从查询语句中获取数据,并同时将数据Load到目标表中。现在假定有一个已有数据的表staged_employees(雇员信息全量表),所属国家cnty和所属州st是该表的两个属性,我们做个试验将该表中的数据查询出来插入到另一个表employees中。INSERTOVERWRITETABLEemployeesPARTITION(country='中国'...

2019-06-18 15:46:19

linux及hadoop修改权限

inux下修改文件权限:在shell环境里输入:ls-l或者ls-lhdrwxr-xr-x2nsfusers102412-1017:37下载文件备份对应:文件属性连接数文件拥有者所属群组文件大小文件修改时间文件名例如:  d rwx r-x r-x第一个字符指定了文件类型。在通常意义上,一个目录也是一个文件。如果第一个字符是横线...

2019-06-18 14:03:08

Hadoop:查看任务管理相关——操作命令

1.查看Job信息:hadoopjob-list2.杀掉Job:hadoopjob–killjob_id3.指定路径下查看历史日志汇总:hadoopjob-historyoutput-dir4.作业的更多细节:hadoopjob-historyalloutput-dir5.打印map和reduce完成百分比和所有计数器:hadoopjo...

2019-06-17 13:33:15

HBase Java API类介绍

几个相关类与HBase数据模型之间的对应关系java类 HBase数据模型 HBaseAdmin 数据库(DataBase) HBaseConfiguration HTable 表(Table) HTableDescriptor 列族(ColumnFamily) Put 列修饰符(ColumnQualifier) Get Sc...

2019-04-28 09:10:29

tar命令

tar命令用于对文件打包压缩或解压,格式为:“tar[选项][文件]”。打包并压缩文件:“tar-czvf压缩包名.tar.gz文件名”解压并展开压缩包:“tar-xzvf压缩包名.tar.gz”参数作用-c创建压缩文件-x解开压缩文件-t查看压缩包内有那些文件-z用Gzip压缩或解压-j用bzip2压缩或解压-v显示压缩或解压的过程-f目标文件...

2019-04-19 19:07:00

kafka工作原理介绍

原文链接:https://blog.csdn.net/qq_29186199/article/details/80827085两张图读懂kafka应用:Kafka中的术语broker:中间的kafkacluster,存储消息,是由多个server组成的集群。topic:kafka给消息提供的分类方式。broker用来存储不同topic的消息数据。...

2019-04-15 18:02:47

HBase数据库相关知识

1、HBase相关概念模型l表(table),与关系型数据库一样就是有行和列的表l行(row),在表里数据按行存储、行由行键(rowkey)唯一标识,没有数据类型统一为byte[]数组l列族(columnfamily),行里的数据按列族分组String类型,每个表必须至少有一个列族l列限定符(columnqualifier),列族里的数据用列限定符定位。类似关...

2019-04-02 13:50:03

HBase 列族数据库

数据模型我们可以将一个表想象成一个大的映射关系,通过行健、行健+时间戳或行键+列(列族:列修饰符),就可以定位特定数据,HBase是稀疏存储数据的,因此某些列可以是空白的, RowKey TimeStamp ColumnFamily:c1 ColumnFamily:c2 ...

2019-04-02 11:28:54

Region和Available Zone的区别

亚马逊AWS是公共云计算的先驱,一些云计算中重要的产品设计和基础概念可以说都是亚马逊引入的。这其中有两个非常重要的概念:地域(Region)和可用区(AZ:AvailableZone)。很多第一次接触云计算的同学,光看这两个名字的字面意义,虽然也能够猜出大致的意思,但深入的学习了解云计算一段时间之后,才能深刻的体会这两个概念对于云计算的重要影响。包括国内的这些云计算服务商,也是过了很长时间才陆续...

2019-04-02 09:54:50

hbase批量入库遇到的坑

详细请参考链接内容:https://blog.csdn.net/weixin_40861707/article/details/79105753

2019-04-01 16:17:19

mr 过程setSortComparatorClass和setGroupingComparatorClass

代码:Customer.upsmart.recommend.TestReduceSortjob.setPartitionerClass(PartitionClass.class);对key取hash值(或其它处理),进入不同的reducejob.setSortComparatorClass(SortComparator.class);对进入同一个reduce的键或键的...

2019-03-27 16:32:44

UUID的定义以及作用

UUID含义是通用唯一识别码(UniversallyUniqueIdentifier),这是一个软件建构的标准,也是被开源软件基金会(OpenSoftwareFoundation,OSF)的组织应用在分布式计算环境(DistributedComputingEnvironment,DCE)领域的重要部分。作用:UUID的目的是让分布式系统中的所有元素,都能有唯一...

2019-03-25 17:22:29

Hive 快速入门,MapReduce原理,优化方案

原文http://gitbook.cn/books/5924bd0523245b0aa3776b65/index.htmlHive快速入门作者:鸣宇淳前言我写这篇文章的目的是尽可能全面地对Hive进行入门介绍,这篇文章是基于hive-1.0.0版本介绍的,这个版本的Hive是运行在MapReduce上的,新的版本可以运行在Tez上,会有一些不同。Hive是对数据仓库进行管...

2019-03-25 15:24:48

missing artifact jdk.tools:jar:1.7

pom.xml一直提示“missingartifactjdk.tools:jar:1.7”但pom.xml文件里没有相关jdk.tools的依赖配置主要原因:eclipse用来启动的JRE不是我们在开发时候配置的JRE,而Maven去找jdk的tools.jar时,是去eclipse的启动jre下边找,运气不好的就找不到了。所以需要我们把eclipse运行所依赖的jvm虚拟机也配置一下...

2019-03-21 17:36:38

DOM4J_ElementHandler示例代码

DOM4J解析XML利用ElementHandler接口。重写onStart()和onEnd()两个方法。注意:要读取元素节点的内容,必须在onEnd()方法中,因为onStart()只解析到开始节点。1、解析:SAXReadersaxReader=newSAXReader();//addHandler必须在read之前,否则无效。saxReader.addHandler...

2019-03-21 14:27:46

[Apache Spark源码阅读]-SparkContext解析

稍微了解Spark源码的人应该都知道SparkContext,作为整个Project的程序入口,其重要性不言而喻,许多大牛也在源码分析的文章中对其做了很多相关的深入分析和解读。这里,结合自己前段时间的阅读体会,与大家共同讨论学习一下Spark的入口对象—天堂之门—SparkContex。SparkContex位于项目的源码路径\spark-master\core\src\main\scala\...

2019-03-20 15:45:38

Hadoop中Partition和Combiner作用

1、解析Partiton  把map任务的输出的中间结果按照key的范围进行划分成r份,r代表reduce任务的个数。hadoop默认有个类HashPartition实现分区,通过key对reduce的个数取模(key%r),这样可以保证一段范围内的key交由一个reduce处理。以此来实现reduce的负载均衡。不至于使有些reduce处理的任务压力过大,有些reduce空闲。  如果我...

2019-03-20 09:20:27

【MR】MapReduce中shuffle、partition、combiner的作用与关系

【MR】MapReduce中shuffle、partition、combiner的作用与关系一,shuffle(一)对shuffle的理解shuffle的正常意思是洗牌或弄乱。它只代表reducetask获取maptask的输出的过程,也可以理解为从map输出到reduce输入的整个过程。shuffle是MR的核心,也有把它称为奇迹发生的地方。这样MR的过程可以简化为下图(二...

2019-03-20 09:14:32

Spark groupByKey,reduceByKey,sortByKey算子的区别

SparkgroupByKey,reduceByKey,sortByKey算子的区别在spark中,我们知道一切的操作都是基于RDD的。在使用中,RDD有一种非常特殊也是非常实用的format——pairRDD,即RDD的每一行是(key,value)的格式。这种格式很像Python的字典类型,便于针对key进行一些处理。首先,看一看spark官网[1]是怎么解释的:reduceBy...

2019-03-18 17:24:33

java Spark 简单实例 包含每一个方法具体的使用

最近因为工作需要,研究了下spark,因为scala还不熟,所以先学习了java的spark程序写法,下面是我的简单测试程序的代码,大部分函数的用法已在注释里面注明。我的环境:hadoop2.2.0spark-0.9.0scala-2.10.3jdk1.7im...

2019-03-18 16:10:02
奖章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!