xiaoL_clo-CSDN博客

转载 Apache Kylin高级部分之使用Hive视图

本章节我们将介绍为什么需要在Kylin创建Cube过程中使用Hive视图；而如果使用Hive视图，能够带来什么好处，解决什么样的问题；以及需要学会如何使用视图，使用视图有什么限制等等。 1. 为什么需要使用视图Kylin创建Cube的过程中使用Hive的表数据作为输入源。但是有些情况下，Hive中的表定义和数据并不能满足分析的需求，例如有些列的值需要进行处理，有些列的类型不满足需求，甚至...

2018-03-26 14:58:40 702

转载 spark sql 的应用实践

背景介绍目前spark主要应用在streaming、ETL和ML场景上，本文主要是分享我们ETL场景从hive SQL到spark SQL的迁移实践。在整个迁移过程中我们把线上多个版本的spark(1.5.2，1.6.3)统一推动升级到2.1.1，同时从Standalone运行模式迁移到了On YARN模式，以减少我们的维护成本。在安全控制上我们参考hive的权限系统开发了统一的权限验证模

2018-02-08 15:31:29 1689

转载 MapReduce 中的两表 join 几种方案简介

1. 概述在传统数据库（如：MYSQL）中，JOIN操作是非常常见且非常耗时的。而在HADOOP中进行JOIN操作，同样常见且耗时，由于Hadoop的独特设计思想，当进行JOIN操作时，有一些特殊的技巧。本文首先介绍了Hadoop上通常的JOIN实现方法，然后给出了几种针对不同输入数据集的优化方法。2. 常见的join方法介绍假设要进行join的数据分别来自File1和File2.

2018-02-06 14:51:21 1170

转载 storm单机环境部署

前面说过storm集群的部署，这篇主要介绍storm单机环境部署，其实他们之间很类似，就是将之前配置文件中所有的集群条目改成本机的地址即可，部署之前应该按前面solr和zookeeper单机环境部署那篇文章中，正确设置好zookeeper并且启动zookeeper服务，设置方法和前面完全一致，接下来开始配置storm，首先释放storm并且放到/usr/目录下，命令如下：$ tar -xv

2017-11-22 20:53:49 1116

转载如何设计一个秒杀系统

什么是秒杀秒杀场景一般会在电商网站举行一些活动或者节假日在12306网站上抢票时遇到。对于电商网站中一些稀缺或者特价商品，电商网站一般会在约定时间点对其进行限量销售，因为这些商品的特殊性，会吸引大量用户前来抢购，并且会在约定的时间点同时在秒杀页面进行抢购。秒杀系统场景特点秒杀时大量用户会在同一时间同时进行抢购，网站瞬时访问流量激增。秒杀一般是访问请求数量远远大于库存数量，只

2017-11-09 17:15:55 835

Presto 是 Facebook 推出的一个基于Java开发的大数据分布式 SQL 查询引擎，可对从数 G 到数 P 的大数据进行交互式的查询，查询的速度达到商业数据仓库的级别，据称该引擎的性能是 Hive 的 10 倍以上。Presto 可以查询包括 Hive、Cassandra 甚至是一些商业的数据存储产品，单个 Presto 查询可合并来自多个数据源的数据进行统一分析。Presto 的目标

2017-09-28 19:35:18 4575

转载 Hive-hive.groupby.skewindata配置相关问题调研

使用Hive的过程中，我们习惯性用set hive.groupby.skewindata=true来避免因数据倾斜造成的计算效率问题，但是每个设置都是把双刃剑，最近调研了下相关问题，现总结如下：从下表可以看出，skewindata配置真正发生作用，只会在以下三种情况下，能够将1个job转化为2个job： select count distinct ... from ...selec

2017-09-07 20:34:33 1882

转载 hive计算map数和reduce数

Hadoop在运行一个mapreduce job之前，需要估算这个job的maptask数和reducetask数。首先分析一下job的maptask数，当一个job提交时，jobclient首先分析job被拆分的split数量，然后吧job.split文件放置在HDFS中，一个job的MapTask数量就等于split的个数。job.split中包含split的个数由FileIn

2017-09-07 20:33:33 3309

转载 Hadoop2源码分析－MapReduce篇

1.概述　　前面我们已经对Hadoop有了一个初步认识，接下来我们开始学习Hadoop的一些核心的功能，其中包含mapreduce，fs，hdfs，ipc，io，yarn，今天为大家分享的是mapreduce部分，其内容目录如下所示：MapReduce V1MapReduce V2MR V1和MR V2的区别MR V2的重构思路　　本篇文章的源码是基于hadoop-2.6.

2017-07-14 20:20:02 584

转载 Hadoop2源码分析－Hadoop V2初识

1.概述　　在完成分析Hadoop2源码的准备工作后，我们进入到后续的源码学习阶段。本篇博客给大家分享，让大家对Hadoop V2有个初步认识，博客的目录内容如下所示：Hadoop的渊源Hadoop V2部分项目图各个包的功能介绍　　本篇文章的源码是基于Hadoop-2.6.0来分析，其他版本的Hadoop的源码可以此作为参考分析。2.Hadoop的渊源　　

2017-07-14 20:13:12 487 1

转载 Hadoop2源码分析－准备篇

1.概述　　我们已经能够搭建一个高可用的Hadoop平台了，也熟悉并掌握了一个项目在Hadoop平台下的开发流程，基于Hadoop的一些套件我们也能够使用，并且能利用这些套件进行一些任务的开发。在Hadoop的应用级别上，我们接着往后面去研究学习，那就是Hadoop的源码了，作为Hadoop开发人员，我们得去学习和研究Hadoop得实现原理，底层框架的设计，编码的实现过程等等，下面就开始我

2017-07-14 20:12:02 365

转载解读Secondary NameNode的功能

1.概述　　最近有朋友问我Secondary NameNode的作用，是不是NameNode的备份？是不是为了防止NameNode的单点问题？确实，刚接触Hadoop，从字面上看，很容易会把Secondary NameNode当作备份节点；其实，这是一个误区，我们不能从字面来理解，阅读官方文档，我们可以知道，其实并不是这么回事，下面就来赘述下Secondary NameNode的作用。

2017-07-14 20:07:56 652

转载 Hive性能优化

1.概述　　继续《那些年使用Hive踩过的坑》一文中的剩余部分，本篇博客赘述了在工作中总结Hive的常用优化手段和在工作中使用Hive出现的问题。下面开始本篇文章的优化介绍。2.介绍　　首先，我们来看看Hadoop的计算框架特性，在此特性下会衍生哪些问题？数据量大不是问题，数据倾斜是个问题。jobs数比较多的作业运行效率相对比较低，比如即使有几百行的表，如果多次关联

2017-07-14 20:00:21 484

转载 SQL join中级篇--hive中 mapreduce join方法分析

1. 概述。本文主要介绍了mapreduce框架上如何实现两表JOIN。2. 常见的join方法介绍假设要进行join的数据分别来自File1和File2.2.1 reduce side joinreduce side join是一种最简单的join方式，其主要思想如下：在map阶段，map函数同时读取两个文件File1和File2，为了区分两种来源的key/value数据

2017-07-10 11:29:37 843

转载 Hive数据倾斜（大表join大表）

业务背景用户轨迹工程的性能瓶颈一直是etract_track_info，其中耗时大户主要在于trackinfo与pm_info进行左关联的环节，trackinfo与pm_info两张表均为GB级别，左关联代码块如下：from trackinfo a left outer join pm_info b on (a.ext_field7 = b.id) 123123使用以上代码

2017-07-10 11:08:12 1690 2

转载大数据算法：对5亿数据进行排序

前言：在大数据研究的路上，我们总要对一些很大的数据进行各种各样的操作。比如说对数据排序，比如说对数据统计，比如说对数据计算。而在大量的数据面前，我们总是束手无策，因为我们无法在限定时间的情况下，在效率上做到让人满意，也无法在限定空间的情况下，能够快速解决问题。可能我们在一些日常的开发过程中，没有遇到过这些问题。不过，现在是时候来考虑一下这样的问题了。因为，现在正值大数据的时代。

2017-07-06 10:20:47 476

转载 Hive SQL的编译过程

转载，原链接地址：http://tech.meituan.com/hive-sql-to-mapreduce.htmlHive是基于Hadoop的一个数据仓库系统，在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建，每天执行近万次的Hive ETL计算流程，负责每天数百GB的数据存储和分析。Hive的稳定性和性能对我们的数据分析非常关键。在几次升级Hive的过程中，我们遇到

2017-07-05 13:11:30 341

转载 Hive UDAF开发

Hive进行UDAF开发，相对要比UDF复杂一些，不过也不是很难。请看一个例子package org.hrj.hive.udf;import org.apache.hadoop.hive.ql.exec.UDAFEvaluator;import org.apache.hadoop.hive.serde2.io.DoubleWritable; public

2017-07-03 18:44:19 552

转载 Hive UDF开发

Hive进行UDF开发十分简单，此处所说UDF为Temporary的function，所以需要hive版本在0.4.0以上才可以。Hive的UDF开发只需要重构UDF类的evaluate函数即可。例：package com.hrj.hive.udf;import org.apache.hadoop.hive.ql.exec.UDF;public class hell

2017-07-03 18:43:10 241

转载 Hive自定义UDF和聚合函数UDAF

Hive是一种构建在Hadoop上的数据仓库，Hive把SQL查询转换为一系列在Hadoop集群中运行的MapReduce作业，是MapReduce更高层次的抽象，不用编写具体的MapReduce方法。Hive将数据组织为表，这就使得HDFS上的数据有了结构，元数据即表的模式，都存储在名为metastore的数据库中。可以在hive的外壳环境中直接使用dfs访问hadoop的

2017-07-03 15:20:34 1364

转载 Hive自定义UDF的JAR包加入运行环境的方法

Hive开发udf函数打包jar文件后，需将jar文件放入hive的运行环境，方法有三。先将http://blog.csdn.net/fjssharpsword/article/details/70265554中重定义的两个类打包成DefTextInputFormat.jar，并放到/home/hdfs目录下。1、方法一：使用add jar命令 1）在Hiv

2017-07-03 14:50:53 4009

转载 Hive、Hbase、mysql区别

Hive和HBase的区别Hive是为了简化编写MapReduce程序而生的，使用MapReduce做过数据分析的人都知道，很多分析程序除业务逻辑不同外，程序流程基本一样。在这种情况下，就需要hive这样的用戶编程接口。Hive本身不存储和计算数据，它完全依赖于HDFS和MapReduce，Hive中的表纯逻辑，就是些表的定义等，也就是表的元数据。使用SQL实现Hive是因为SQL大家都熟

2017-06-28 16:16:47 772

转载 Hive集成HBase详解

摘要Hive提供了与HBase的集成，使得能够在HBase表上使用HQL语句进行查询插入操作以及进行Join和Union等复杂查询应用场景1. 将ETL操作的数据存入HBase2. HBase作为Hive的数据源3. 构建低延时的数据仓库使用1.从Hive中创建HBase表使用HQL语句创建一个指向HBa

2017-06-22 13:22:23 1878

转载 jieba分词

jieba“结巴”中文分词：做最好的 Python 中文分词组件"Jieba" (Chinese for "to stutter") Chinese text segmentation: built to be the best Python Chinese word segmentation module.Scroll down for English documenta

2017-06-07 18:51:59 1232

转载 jieba（结巴）分词种词性简介

jieba为自然语言语言中常用工具包，jieba具有对分词的词性进行标注的功能，词性类别如下：Ag形语素形容词性语素。形容词代码为 a，语素代码ｇ前面置以A。a形容词取英语形容词 adjective的第1个字母。ad副形词直接作状语的形容词。形容词代码 a和副词代

2017-05-20 15:00:54 1347

转载 python 结巴分词(jieba)学习

源码下载的地址：https://github.com/fxsjy/jieba演示地址：http://jiebademo.ap01.aws.af.cm/特点1，支持三种分词模式： a,精确模式，试图将句子最精确地切开，适合文本分析； b,全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义； c,搜索引擎模式，在

2017-05-18 15:32:10 1310

转载 hive中order by,sort by, distribute by, cluster by作用以及用法

1. order by Hive中的order by跟传统的sql语言中的order by作用是一样的，会对查询的结果做一次全局排序，所以说，只有hive的sql中制定了order by所有的数据都会到同一个reducer进行处理（不管有多少map，也不管文件有多少的block只会启动一个reducer）。但是对于大量数据这将会消耗很长的时间去执行。这里跟传统的sql还有一点

2017-05-17 14:05:01 386

转载使用Hive实现时间拉链功能

背景：在数据仓库的数据模型设计过程中，经常会遇到如下的业务需求：1. 表的数据量很大，大几千万或上亿;2. 表中的部分字段会被update更新操作，如用户的上级领导，产品的描述信息，订单的状态等等;3. 需要查看某一个时间点或者时间段的历史快照信息，比如，查看某一个订单在历史某一个时间点的状态;4. 变化的比例和频率不是很大，比如，总共有8000万的用户，每天新增和发生变化

2017-05-17 11:13:54 436

转载 hive的几种文件格式

Hive文件存储格式1.textfiletextfile为默认格式存储方式：行存储磁盘开销大数据解析开销大压缩的text文件 hive无法进行合并和拆分2.sequencefile二进制文件,以的形式序列化到文件中存储方式：行存储可分割压缩一般选择block压缩优势是文件和Hadoop api中的mapfile是相互兼容的。3.rcf

2017-05-17 10:34:50 468

转载从Hive表中进行数据抽样-Sampling

在Hive中提供了数据取样（SAMPLING）的功能，用来从Hive表中根据一定的规则进行数据取样，Hive中的数据取样支持分桶表取样和数据块取样。16.1 数据块取样（Block Sampling）block_sample: TABLESAMPLE (n PERCENT)根据输入的inputSize，取样n%。比如：输入大小为1G，TABLESAMPLE (50

2017-05-11 19:48:17 12100

转载大规模知识图谱数据存储实战解析

本文转自公众号PlantData知识图谱实战（ID：KGPlantData），本文摘录自上海海翼知信息科技有限公司胡芳槐博士4月14日在北京理工大学分享的《大规模知识图谱数据存储》PPT。作者对知识图谱的存储进行了全面的介绍，内容包括：什么是知识图谱，知识图谱的适用场景，知识图谱数据存储的几种常见方式和最佳方案，知识图谱中的时态信息及其存储实现，结合实例说明如何利用图数据库进行数据存储

2017-05-03 13:34:12 11971 1

转载 Hive最新数据操作详解（超级详细）

数据操作能力是大数据分析至关重要的能力。数据操作主要包括：更改(exchange)，移动(moving)，排序(sorting)，转换(transforming)。Hive提供了诸多查询语句，关键字，操作和方法来进行数据操作。一、数据更改数据更改主要包括：LOAD, INSERT, IMPORT, and EXPORT1. LOAD DATA load关键字的作用是将数据移动到hive中。如果

2017-04-27 10:20:54 11163 1

转载 Hive函数大全

Hive函数大全–完整版现在虽然有很多SQL ON Hadoop的解决方案，像Spark SQL、Impala、Presto等等，但就目前来看，在基于Hadoop的大数据分析平台、数据仓库中，Hive仍然是不可替代的角色。尽管它的相应延迟大，尽管它启动MapReduce的时间相当长，但是它太方便、功能太强大了，做离线批量计算、ad-hoc查询甚至是实现数据挖掘算法，而且，和HBase、Sp

2017-04-26 13:47:32 4047

转载干货：解码OneData，阿里的数仓之路

摘要：据IDC报告，预计到2020年全球数据总量将超过40ZB(相当于4万亿GB)，这一数据量是2013年的10倍。正在“爆炸式”增长的数据的潜在巨大价值正在被发掘，它有可能成为商业世界的“新能源”，变革我们的生产，影响我们生活。当我们面对如此庞大的数据之时，如果我们不能有序、有结构的进行分类组织免费开通大数据服务：https://www.aliyun.com/product/odp

2017-04-26 10:53:29 11552

转载【阿里在线技术峰会】李金波：企业大数据平台仓库架构建设思路

原文地址：https://yq.aliyun.com/articles/57901?spm=5176.100239.blogcont57826.25.oaM83B摘要：在阿里巴巴在线在线技术峰会上的第三天，来自阿里云高级技术专家李金波为大家题为《企业大数据平台仓库架构建设思路》。本次分享中，李金波主要从总体思路、模型设计、数加架构、数据治理四个方面介绍了如何利用大数据平台的特性，构建更贴

2017-04-26 10:51:29 595

转载数据仓库中的Inmon与Kimball架构之争

对于数据仓库体系结构的最佳问题，始终存在许多不同的看法，甚至有人把Inmon和Kimball之争称之为数据仓库界的“宗教战争”，那么本文就通过对两位提倡的数据仓库体系和市场流行的另一种体系做简单描述和比较，不是为了下定义那个好，那个不好，而是让初学者更明白两位数据仓库鼻祖对数据仓库体系的见解而已。首先，我们谈Inmon的企业信息化工厂。 2000年5月，W.H.Inm

2017-04-26 10:49:27 937

转载 YARN、Spark、Hive使用kerberos

本文记录YARN、Spark、Hive各服务配置使用kerberos的过程。我的环境：三台服务器，分别命名为zelda1、zelda2、zelda3ubuntu 14.04hadoop 2.7.2spark 2.0/1.6.1YARN认证目的是将YARN接入到kerberos集群里，使得：RM和NM之间能互相认证，避免混进去恶意服务；其他提交到YARN上的J

2017-02-20 09:43:05 11645 1

转载 HDFS使用Kerberos

转载自：http://www.datastart.cn/tech/2016/06/07/kerberos-1.html本文尝试记录HDFS各服务配置使用kerberos的过程，配置的东西比较多，一定会有疏漏。我的环境：三台服务器，分别命名为zelda1、zelda2、zelda3ubuntu 14.04hadoop 2.7.2spark 2.0/1.6.1

2017-02-17 15:12:01 23645 3

转载 HDFS配置Kerberos认证

HDFS配置Kerberos认证2014.11.04本文主要记录 CDH Hadoop 集群上配置 HDFS 集成 Kerberos 的过程，包括 Kerberos 的安装和 Hadoop 相关配置修改说明。注意：下面第一、二部分内容，摘抄自《Hadoop的kerberos的实践部署》，主要是为了对 Hadoop 的认证机制和 Kerberos 认证协议做个

2017-02-15 10:19:01 2416

转载 kerberos安装配置

安装步骤： 1.下载krb5-1.9 http://web.mit.edu/kerberos/dist/krb5/1.9/krb5-1.9-signed.tar 2.解压 tar -xvf krb5-1.9.signed.tar 生成krb5-1.9.tar.gz 和krb5-1.9.tar.gz.asc 继续解压tar zxvf krb5-1.9.tar.gz

2017-02-13 10:32:21 2144 2

空空如也

空空如也