自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 资源 (3)
  • 收藏
  • 关注

转载 大数据:Hive - ORC 文件存储格式

一、ORC File文件结构  ORC的全称是(Optimized Row Columnar),ORC文件格式是一种Hadoop生态圈中的列式存储格式,它的产生早在2013年初,最初产生自Apache Hive,用于降低Hadoop数据存储空间和加速Hive查询速度。和Parquet类似,它并不是一个单纯的列式存储格式,仍然是首先根据行组分割整个表,在每一个行组内进行按列存储。ORC文件是自描述的...

2018-06-04 10:36:58 314

转载 漫谈数据仓库之拉链表(原理、设计以及在Hive中的实现)

转载0x00 前言本文将会谈一谈在数据仓库中拉链表相关的内容,包括它的原理、设计、以及在我们大数据场景下的实现方式。全文由下面几个部分组成:先分享一下拉链表的用途、什么是拉链表。通过一些小的使用场景来对拉链表做近一步的阐释,以及拉链表和常用的切片表的区别。举一个具体的应用场景,来设计并实现一份拉链表,最后并通过一些例子说明如何使用我们设计的这张表(因为现在Hive的大规模使用,我们会以Hive场景...

2018-06-04 09:59:27 911

转载 拉链表

在数据仓库的数据模型设计过程中,经常会遇到这样的需求:1. 数据量比较大;2. 表中的部分字段会被update,如用户的地址,产品的描述信息,订单的状态等等;3. 需要查看某一个时间点或者时间段的历史快照信息,比如,查看某一个订单在历史某一个时间点的状态,   比如,查看某一个用户在过去某一段时间内,更新过几次等等;4. 变化的比例和频率不是很大,比如,总共有1000万的会员,每天新增和发生变化的...

2018-06-04 08:34:37 237

转载 ETL DataStage实现

转载第1章  前言自开始知道数据库,就知道有数据仓库这个东西,数据仓库中一关键环节就是ETL。可是三四年过去了,由于没有接触数据仓库这个东西,对ETL自然是一知半解,更别提实现了。从2007年9月份开始,要做数据仓库项目了,接触了ETL。ETL中要用DS实现,项目中没有人会,组长要我一个月内,边工作边自学DS,然后给大家讲怎么用DS实现ETL。想起初学时的困难和迷惑,和现在一些同学的疑问,本人从开...

2018-05-31 09:46:20 1994

转载 DataStage(ETL)技术总结 -- 介绍篇

转载 数据整合的核心内容是从数据源中抽取数据,然后对这些数据进行转化,最终加载的目标数据库或者数据仓库中去,这也就是我们通常所说的 ETL 过程(Extract,Transform,  Load)。    IBM WebSphere DataStage(下面简称为DataStage)为整个 ETL 过程提供了一个图形化的开发环境,它是一套专门对多种操作数据源的数据抽取、转换和维护过程进行简化和自动...

2018-05-31 09:25:56 1187

转载 impala-kudu相关问题经验总结

今天在hue上执行数据的重新导入:1、删除原先的kudu表:drop table  events_tab_2;2、需要在impala里创建kudu新表:CREATE TABLE  events_tab_2(   user_id STRING ,   item_id STRING ,   create_time BIGINT ,   col_1 STRING ,   col_12 STRING , ...

2018-05-16 20:45:33 373

转载 hive 插入列的问题

hive 添加列a,访问历史数据a全为null,遇到一个奇怪的问题:分区daytime=2013-12-16已经存在,用load data将数据加载进分区daytime=2013-12-16,select * from tb where daytime='2013-12-16' and a is not null limit 10; 结果为空;查hdfs发现daytime='2013-12-16'...

2018-05-16 08:45:09 1913

转载 Hive通过查询语句向表中插入数据注意事项

转载

2018-05-16 08:32:51 1077

转载 hive增加Update、Delete支持

转载一、配置hive-site.xml二、建表三、操作四、总结一、配置hive-site.xmlCDH版本先进入Hive配置页  选择高级,找到hive-site.xml 的 Hive 客户端高级配置代码段配置项  点击+号,增加如下配置项hive.support.concurrency = true hive.enforce.bucketing = true hive.exec.dynami...

2018-05-15 15:16:25 1711

转载 Hive中的桶表入门(适用于抽样查询)

1、基本概念  (1)桶表是对某一列数据进行哈希取值以将数据打散,然后放到不同文件中存储。  (2)在hive分区表中,分区中的数据量过于庞大时,建议使用桶。  (3)在分桶时,对指定字段的值进行hash运算得到hash值,并使用hash值除以桶的个数做取余运算得到的值进行分桶,保证每个桶中有数据但每个桶中的数据不一定相等。           做hash运算时,hash函数的选择取决于分桶字段的...

2018-05-15 15:12:30 957

转载 CDH5离线集群搭建--绿色简单

转离线安装CM5和CDH5.13完全教程2017年11月15日 14:43:36阅读数:3719安装过程较为详细,需要安装的同学可以好好查看 —关于CDH和Cloudera ManagerCDH (Cloudera’s Distribution, including Apache Hadoop),是Hadoop众多分支中的一种,由Cloudera维护,基于稳定版本的Apache Hadoop构建,...

2018-05-15 08:52:46 265

转载 Hive三种建表语句详解

转载注:hive其他语法在hive官网有说明,建议初学者,去官网学习一手的资料, 官网:https://cwiki.apache.org/confluence/display/Hive/Home#Home-UserDocumentationCreate Table官网说明Hive建表方式共有三种:直接建表法查询建表法like建表法首先看官网介绍 ‘[]’ 表示可选,’|’ 表示二选一CREATE ...

2018-05-15 08:49:12 8336

转载 在Hive中实现存储过程–HQL/SQL

Hive存储过程系列文章

2018-05-14 19:31:51 2123

转载 Hadoop Hive sql语法详解4--DQL 操作:数据查询SQL

链接1.基本的Select 操作如何实现?2.基于Partition的查询如何实现?3.如何实现join,是否支持左连接,右连接?4.hive数据如何去重?5.ORDER BY 是否全局排序,只有一个Reduce任务?6.SORT BY 是否全局排序?7.hive是否支持exists?8.Hive不支持所有非等值的连接,为什么?1 基本的Select 操作SELECT [ALL | DISTINC...

2018-05-14 09:07:13 364

转载 Hive--HiveQL与SQL区别

转载链接1.hive内联支持什么格式?2.分号字符注意什么问题?3.hive中empty是否为null?4.hive是否支持插入现有表或则分区中?5.hive是否支持INSERT INTO 表 values()?1、Hive不支持等值连接 •SQL中对两表内联可以写成:•select * from dual a,dual b where a.key = b.key;•Hive中应为•select ...

2018-05-14 09:03:16 314

转载 kudu1.5.0新特性

New features1、tablet servers现在在启动的时候可以容忍磁盘故障,这个功能是实验性,默认情况下,如果遇到磁盘故障,Kudu将崩溃。如果启用,在磁盘上有任何数据的tablet都不会打开和在需要的时候会进行副本的复制,启动此功能, 设置 –suicide_on_eio flag to false,另外,可配置的权衡,在新添加的tablet对磁盘故障的容忍,它的并行化IO通过 –...

2018-05-10 11:30:53 250

转载 内连接和等值连接的区别

内连接就是满足连接条件的结果集,这是相对于外连接而言。 外连接即使找不到满足条件的记录,另一方的记录还是要输出INNER JOIN可以不等:select * from t1 inner join t2 on t1.id<>t2.id; 从集合论角度看:等值连接是内连接的子集.转载 ...

2018-05-10 10:19:26 5018

转载 sql内连接中,等值连接与自然连接的区别

1. 等值连接中不要求相等属性值的属性名相同,而自然连接要求相等属性值的属性名必须相同,即两关系只有在同名属性才能进行自然连接。如上例R中的C列和S中的D列可进行等值连接,但因为属性名不同,不能进行自然连接。    2. 等值连接不将重复属性去掉,而自然连接去掉重复属性,也可以说,自然连接是去掉重复列的等值连接。如上例R中的B列和S中的B列进行等值连接时,结果有两个重复的属性列B,而进行自然连接时...

2018-05-10 09:20:21 4337

转载 Hive开发要知道数据仓库的四个层次设计

  数据仓库:数据仓库全面接收源系统数据,ETL进程对数据进行规范化、验证、清洗,并最终装载进入数据集市,通过数据集市支持系统进行数据查询、分析,整个数据仓库包含四大层次。       ETL(extractiontransformation loading)负责将分散的、异构数据源中的数据抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中。ETL 是实施数据仓库的核心和灵魂,...

2018-05-08 08:43:56 519

原创 bash中` ` |' '| " "的区别

在bash里,‘’“”都可以用来表示字符串,区别是双引号中变量被赋值了,而单引号是字符串本身,·` `反引号,内一般放的是bash的命令,将命令的结果赋值给一个变量。如下:a="abc"b=`pwd`echo "string=$a" # 结果显示 string=abcecho 'string=$a' # 结果显示string=$aecho 'string=$b' # 结果显示 strin...

2018-05-07 23:38:23 14534 1

原创 批量清理hive的分区数据,从指定的文件获取相关的参数

1.文件:table_config_order  内容如下test.tb_test_basic   work_date  1,2    3    2018-04-25--- scheam.table     时间分区字段         每天都跑的处理方式         保留最近3天     数据时间分区存在起始时间2.文件:delete_partitions.sh  内容如下#!/bin/ba...

2018-05-07 23:25:12 1044

机器学习 数据相关基础知识

入门学习的数学基础及机器学习书籍,有空的时候可以学习一下

2018-05-07

mysql 驱动jar包-5.1.46

比较新的连接mysql的驱动,向下兼容,亲测搭建CDH5.13,mysql版本不一致可用,centos放在/usr/share/java/ 目录下系统可更快的找到驱动

2018-05-07

hbase+phoenix 本机测试文档

用phoenix对hbase建立二级索引,利用关系型数据库一样用sql语句操作HBase

2018-05-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除