9 Data_IT_Farmer

尚未进行身份认证

BJUT 2014级 计算机学院小硕一枚,现为某上市金融公司--高级大数据开发工程师一枚。自20170701开始记录自己的技术工作生涯!广结天下技术之友,笑对未来技术之难题!

等级
TA的排名 3k+

Hive 自定义函数UDF开发手把手教程—— 创建临时函数和永久函数

Hive自定义函数UDF开发手把手教程——创建临时函数和永久函数Hive中,除了提供丰富的内置函数(见[一起学Hive]之二–Hive函数大全-完整版)之外,还允许用户使用Java开发自定义的UDF函数。开发自定义UDF函数有两种方式,一个是继承org.apache.hadoop.hive.ql.exec.UDF,另一个是继承org.apache.hadoop.hiv...

2019-10-11 11:50:27

Sublime Text 3 常用插件 —— SFTP

SublimeText3常用插件——SFTPSFTP在Win下常用Xftp软件来和远程服务传递文件,但是要是在项目开发的时候频繁的将远程文件拖到本地编辑然后再传回远程服务器,那真是麻烦无比,但是Sublime中SFTP插件,它让这世界美好了许多。Sublime下的SFTP,只要Ctrl+S即可同步本地到服务器。它主要功能就是通过FTP/SFTP连接远程服...

2019-10-10 22:00:20

Win10下python 2.7与python 3.7双环境安装教程

Win10下python2.7与python3.7双环境安装教程1、python软件下载网址:https://www.python.org/downloads/windows/2、安装python2.7.16第一步双击安装包,选择你要安装的路径第二步默认next,这里不能配置环境变量,只能安装好后手动配。点击finish安装完成。这样python2和...

2019-10-10 20:51:41

【数仓建模】星型模型和雪花型模型比较

一、概述维度模型是数据仓库领域的RalphKimball大师所倡导的,他的TheDatawarehouseToolkit-TheCompleteGuidetoDimensionalModeling是数据仓库工程领域最流行的数据仓库建模的经典。维度建模从分析决策的需求出发构建模型,为分析需求服务,因此它重点关注用户如何更快速地完成需求分析,同时具有较好的大规模复杂查...

2019-09-21 13:07:19

linux shell语法检查或者查看shell脚本执行过程的参数介绍及两种使用方法

shell语法检查或者查看shell脚本执行过程的参数介绍及两种使用方法一、常用参数概述:set-x与set+x在liunx脚本中可用set-x就可有详细的日志输出,省的老是要echo了用于脚本调试。set是把它下面的命令打印到屏幕set-u是显示语法未定义的变量,却使用了set-x是开启set+x是关闭set-o是查看(xtrace),...

2019-09-17 19:11:05

Sqoop全量数据导入、增量数据导入、并发导入 (Sqoop进阶)

一、sqoop概述:Sqoop(发音:skup)是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如:MySQL,Oracle,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。Sqoop项目开始于200...

2019-08-31 20:42:18

Hive的三个窗口函数排序结果的差异(rank函数,dense_rank函数,row_numer函数)

总结:RANK()排序相同时会重复,总数不会变DENSE_RANK()排序相同时会重复,总数会减少ROW_NUMBER()会根据顺序计算这三个函数常常和开窗函数结合在一起使用案例实操:1,计算没门科目的成绩排名:[isea@hadoop108datas]$catscore.txt悟空语文87悟空数学...

2019-08-31 19:40:22

inotifywait+rsync 实时同步脚本

相同服务器我们时常需要相同的部署,这时就需要我们能够实时的同步文件。今天我就和大家分享一个能够实现自动远程实时同步文件的方法:一、利用inotifywait对文件系统事件实时监控,触发事件调用rsync远程同步文件至一台或多台服务器接下来说说我们需要使用到的工具:1、rsync一个远程数据同步工具,可通过LAN/WAN快速同步多台主机间的文件。rsync使用所谓...

2019-07-23 22:03:11

Python中: unsupported format character ''' (0x27)

Python中:unsupportedformatcharacter'''(0x27)1)MySQLDB使用%运算符将参数放入查询中,因此查询字符串中的任何单个%字符都被解释为参数说明符的开始。2)%在python中三个特殊的符号,如%s,%d分别代表了字符串占位符和数字占位符。例子一、今天写python程序,用pymysql从数据库查询数据,使用like模糊匹配报错:...

2019-07-19 11:32:47

【超级有用】大数据的压缩格式

为什么map端用snappy压缩格式;而reduce用gzip或者bzip2的压缩格式呢?为什么每个reduce端压缩后的数据不要超过一个block的大小呢?检查Hadoop版本的压缩格式是否可用【我在Hadoopcdh5.7版本中查看Hadoop压缩格式】$hadoopversion$hadoopchecknative一、在解答上述问题以前,我们先...

2019-07-18 10:30:59

【hive创建动态分区】hive使用动态分区插入数据详解

【hive创建动态分区】hive使用动态分区插入数据详解往hive分区表中插入数据时,如果需要创建的分区很多,比如以表中某个字段进行分区存储,则需要复制粘贴修改很多sql去执行,效率低。因为hive是批处理系统,所以hive提供了一个动态分区功能,其可以基于查询参数的位置去推断分区的名称,从而建立分区。1.创建一个单一字段分区表createtabledpartition(i...

2019-07-01 21:18:37

【hive创建动态分区】使用MSCK命令修复Hive表分区

【hive创建动态分区】使用MSCK命令修复Hive表分区一、介绍我们平时通常是通过altertableaddpartition方式增加Hive的分区的,但有时候会通过HDFSput/cp命令往表目录下拷贝分区目录,如果目录多,需要执行多条alter语句,非常麻烦。Hive提供了一个"RecoverPartition"的功能。具体语法如下:MSCKREPAIRTAB...

2019-07-01 21:10:00

【spark exception】org.apache.spark.SparkException java.lang.ArrayIndexOutOfBoundsException 造成数组越界

【sparkexception】org.apache.spark.SparkExceptionjava.lang.ArrayIndexOutOfBoundsException造成数组越界当执行以下spark-sql是时候insertoverwritetablehive_user_income_detail_dailypartition(pday='20190620',i...

2019-06-28 17:01:10

python获取不同时区的时间:通过datetime获取UTC时间ISO格式

python获取不同时区的时间:通过datetime获取UTC时间ISO格式一个热点统计需求,需要限定一个时间范围,计算出该范围内的热点事件,相关数据则以UTC标准时间的ISO时间格式存在mongodb中,和服务器设置的时区UTC+8并不一致。为了解决这个问题,直觉反应是在python中将时区改为UTC时区,然而改变整个服务的时区设置却可能会影响其他逻辑,此种更改最好是能限定在热点逻辑的这...

2019-06-19 21:05:11

python 实现两个list列表逐元素相减,实现合并两个列表,以及zip() 函数介绍

python实现两个list列表逐元素相减,实现合并两个列表,以及zip()函数介绍(1)python两个相同长度得list列表逐个对应元素相减Python中的列表中的元素不能直接相加减,但是可以采用如下方法实现目的:1)循环相减:a=[1,2,3,4,5]b=[5,4,3,2,1]c=[a[i]+b[i]foriinrange(0,len(a)...

2019-05-31 20:59:51

XShell鼠标选中, 实现快捷复制和粘贴

以前用Putty,里面有选中后,点击鼠标右键快速粘贴的功能,用Xshell后发现默认没有这个设置.但是Xshell因为界面漂亮得多,功能也丰富得多,并且一直在更新维护,所以还是喜欢用它.一次在视频课程上,看到老师用XShell也实现了和Putty上的功能,求助度娘,找到了这个被隐藏起来的好用的功能.1.鼠标选中,点击鼠标右键快速粘贴:工具-->选项...

2019-05-30 12:15:44

理解维度数据仓库——事实表、维度表、聚合表

理解维度数据仓库——事实表、维度表、聚合表一、事实表在多维数据仓库中,保存度量值的详细值或事实的表称为“事实表”。一个按照州、产品和月份划分的销售量和销售额存储的事实表有5个列,概念上与下面的示例类似。 Sate Product Mouth Units Dollars W...

2019-05-23 21:16:22

大数据模块开发----数据仓库设计

大数据模块开发----数据仓库设计1.维度建模基本概念维度建模(dimensionalmodeling)是专门用于分析型数据库、数据仓库、数据集市建模的方法。数据集市可以理解为是一种"小型数据仓库"。1.1、维度表(dimension)维度表示你要对数据进行分析时所用的一个量,比如你要分析产品销售情况,你可以选择按类别来进行分析,或按区域来分析。这样的按..分析就构成一个维...

2019-05-23 20:24:36

spark用正则表达式处理需要将多个输入文件路径作为输入的问题

一、spark用正则表达式处理需要将多个输入文件路径作为输入的问题1、spark需要处理过去半个月的数据,每天的数据再hdfs上存到一个文件中,将近15个输入目录,此时可以采用如下正则匹配的写法,将代码简化:importdatetimedefproduce_half_month(thedate):current_day=thedate#current_da...

2019-05-19 20:48:40

Python之 /usr/bin/python^M: bad interpreter: No such file or directory

在windows的IDE开发,部署在linux服务器运行时,需要注意windows和linux的文件编码问题part01:在windows系统下写的python脚本,在linux下赋予权限chmod+xxxx.py以后,执行./xxx.py运行提示:bash:/usr/bin/autocrorder:/usr/bin/python^M:badinterpreter:Nos...

2019-05-19 20:39:04

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。