自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

isyslab的博客

在求知路上不断探索

  • 博客(9)
  • 收藏
  • 关注

原创 Flume案例:实时采集python爬取的豆瓣最新电影

首先,让我们看一下本案例的背景:通过python爬虫抓取豆瓣最新上映的电影信息,抓取的信息通过flume传输到HDFS中。python的版本是3.6,flume的版本是1.8。Python 爬虫程序讲解(1)编写网页爬虫程序,首先要对网页进行访问,python中使用的urllib库,代码如下:from urllib import request resp = request.urlo...

2018-11-15 19:44:25 4137 1

翻译 数据质量保障原则

评估数据质量的好坏,业界标准并不统一。阿里巴巴对数据仓库主要从四个方面进行评估,即完整性、准确性、一致性和及时性。完整性完整性是指数据的记录和信息是否完整,是否存在缺失的情况。数据的缺失主要包括记录的缺失和记录中某个字段信息的缺失,两者都会造成数据不准确,所以说完整性是数据质量最基础的保障。比如交易中每天支付订单数都在100万笔左右,如果某一天支付订单数突然下降到1万笔,那么很可能是记录缺失...

2018-10-03 20:02:46 3147

原创 数据倾斜解决方案

数据倾斜定义简单的讲,数据倾斜就是我们在数据计算的时候,由于数据的分散度不够,导致大量的数据集中到了一台或者几台机器上计算,这些机器的计算速度远远低于整个集群的平均计算速度,导致整个计算过程十分缓慢。常见数据倾斜现象数据倾斜往往会发生在数据开发的各个环节中,比如: ● 用Hive数据计算的时候reduce阶段卡在99.99% ● 用SparkStreaming做实时算法...

2018-09-05 21:43:38 1797

原创 浅谈数据仓库的核心概念

1、数据仓库定义 数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。 2、数据仓库发展历程 数据仓库的发展大致经历了这样的三个过程: ● 简单报表阶段:这个阶段,系统的主要目标是...

2018-08-20 17:33:43 7308 1

原创 mysql备份策略(全量备份+增量备份)

最近项目需要对数据库数据进行备份,通过查阅各种资料,设计了一套数据库备份策略,通过调试运行一周后,目前已经处于平稳运行状态。现在将思路分享出来,同时感谢gredn大佬。设计场景1)增量备份在周一到周六凌晨3点,复制mysql-bin.00000*到指定目录; 2)全量备份则使用mysqldump将整个数据库导出,每周日凌晨3点执行,并会删除上周留下的mysq-bin.00000*,然...

2018-07-25 18:46:20 20494 54

原创 Hive调用python脚本实现数据清洗、统计过程

本实例通过python脚本对电影数据进行清洗,帮助读者了解hive调用python脚本的整个流程。操作步骤:1、创建基表CREATE TABLE u_data ( userid INT, //用户ID movieid INT, //电影ID rating INT, //电影评分 unixtime STRING)。 //时间戳ROW FORMAT DEL...

2018-05-18 16:11:11 10818

原创 linux下安装并使用Gnuplot

     Gnuplot是一个命令行的交互式绘图工具(command-driven interactive function plotting program)。用户通过输入命令,可以逐步设置或修改绘图环境,并以图形描述数据或函数,使我们可以借由图形做更进一步的分析。安装步骤:(1) 切换到root用户,yum安装软件:            #yum install gnuplot...

2018-04-24 20:02:35 12824 1

原创 ant的安装与使用

    Apache Ant是一个Java库和命令行工具,其任务是将构建文件中描述的进程作为相互依赖的目标和扩展点。Ant的主要用途是构建Java应用程序。Ant提供了许多允许编译,组装,测试和运行Java应用程序的内置任务。Ant还可以有效地用于构建非Java应用程序,例如C或C ++应用程序。更一般地说,Ant可以用来试验任何类型的过程,可以用目标和任务来描述。Ant非常灵活,不会将编码约定或...

2018-04-24 19:09:14 13619

原创 Hive自定义函数实现通过日期计算星座

    虽然Hive已经提供了很多内置的函数,比如count()、sum(),但是还是不能满足用户的需求,因此提供了自定义函数供用户自己开发函数来满足自己的需求。一、自定义函数分类    UDF(User-Defined-Function)用户自定义函数,输入一个数据然后产生一个数据;     UDAF(User-Defined Aggregation Function)用户自定义聚合函数,多个输...

2018-04-18 10:47:10 3716

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除