4 qq_36039236

尚未进行身份认证

我要认证

暂无相关简介

等级
TA的排名 70w+

离线数仓-数据增量采集与同步

方式1:1、流水性数据: 写入数据库后不再发生变化的日志流水数据每日可以按照数据时间进行增量采集,采集后放入数仓的ods--query "select ... from ... where ... and updated_time>=T-1 and updated_time<T"方式2:2、普通性数据: 存在状态,内容变化的数据数据量不大,可以每日全量快照采集数据量比较大,每天变化大比例比较少,采用增量采集上日变化部分大数据全量:--query "select ... fro

2020-05-12 14:01:38

MapReduce二次排序

 默认情况下,Map输出的结果会对Key进行默认的排序,但是有时候需要对Key排序的同时还需要对Value进行排序,这时候就要用到二次排序了。下面我们来说说二次排序1、二次排序原理  我们把二次排序分为以下几个阶段  Map起始阶段    在Map阶段,使用job.setInputFormatClass()定义的InputFormat,将输入的数据集分割成小数据块split,同时InputForm...

2018-04-22 17:10:16

hadoop的mapreduce执行

map任务的输出阶段,输出的内容可能会被分了好几个区,执行shuffle阶段的时候,由于每个map任务的完成时间可能不同,当只有一个map任务完成,reduce任务就开始复制其输出,这就是shuffle的copy阶段,对应的map任务和reduce任务只复制,sort同一个分区map的数据。从shuffle的过程可以看出,map任务处理的是一个inputsplit,而reduce任务处理的是所有m...

2018-04-22 12:27:30

Hadoop:HDFS数据存储与切分

Hadoop入门教程:HDFS数据存储与切分,在Hadoop中数据的存储是由HDFS负责的,HDFS是Hadoop分布式计算的存储基石,Hadoop的分布式文件系统和其他分布式文件系统有很多类似的特质。那么HDFS相比于其他的文件系统有什么特征呢?简单总结有如下的基本特征:对于整个集群有单一的命名空间。数据一致性。适合一次写入多次读取的模型,客户端在文件没有被成功创建之前无法看到文件存在。(Dat...

2018-04-22 11:55:54
勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。