9 Data_IT_Farmer

尚未进行身份认证

BJUT 2014级 计算机学院小硕一枚,现为某上市金融公司--高级大数据开发工程师一枚。自20170701开始记录自己的技术工作生涯!广结天下技术之友,笑对未来技术之难题!

等级
TA的排名 2k+

Hive自定义函数UDF与transform的区别和使用例子

Hive自定义函数与transform的区别和使用例子 hive是给了我们很多内置函数的,比如转大小写,截取字符串等,具体的都在官方文档里面。但是并不是所有的函数都能满足我们的需求,所以hive提供了给我们自定义函数的功能。一般有两种方法:自定义内置函数 UDF(Java实现)和Transform关键字(Python)实现一、Transform关键字(Python)实现...

2020-03-29 23:40:13

Linux shell xargs命令详解,xargs与管道的区别

Linux shell xargs命令详解,xargs与管道的区别阅读目录为什么要用xargs,问题的来源 xargs是什么,与管道有什么不同 xargs的一些有用的选项回到顶部为什么要用xargs,问题的来源在工作中经常会接触到xargs命令,特别是在别人写的脚本里面也经常会遇到,但是却很容易与管道搞混淆,本篇会详细讲解到底什么是xargs命令,为什么要用xargs命令以及...

2020-03-28 10:52:33

Linux alias实现命令别名

Linux alias实现命令别名需要经常进入/srv/www/app/account这个目录,每次都得重复的输入这一长串路径进入该目录,显得麻烦而费时,因此可以将“cd /srv/www/app/account”这样一个命令取一个别名,每次只需输入该别名就可以进入该目录Linux系统提供了一个有用的工具叫alias,可以让我们将一些需要频繁使用的但又过于冗长的命令设置一个别名,以后只需输...

2020-03-26 21:37:01

linux下,源码的安装之 ./configure --prefix --with解释

linux下,源码的安装之 ./configure --prefix --with解释linux下,源码的安装一般由3个步骤组成:配置(configure)、编译(make)、安装(make install)。过程中用到./configure --prefix --with;其中--prefix指的是安装路径,--with指的是安装本文件所依赖的库文件with:指定依赖--w...

2020-03-26 21:06:01

Python的内嵌函数和闭介绍

Python的内嵌函数和闭介绍1.内嵌函数:在函数中定义函数内嵌函数例子1、# 代码段1def fun1(): print('外层函数正在被调用') def fun2(): print('内层函数正在被调用')fun1()'''输出如下:外层函数正在被调用'''例子2:# 代码段2def fun1(): print('外层函数正在被调用') ...

2020-03-15 21:59:30

格式化namenode时报错No Route to Host from node1/192.168.3.101 to hadoop05:8485 failed on socket timeout ex

格式化namenode时 报错 No Route to Host from node1/192.168.3.101to hadoop:8485 failed on socket timeout exception: java.net.NoRouteToHostException: No route to host解决方案一、报错信息概要在配置hadoop高可用HA集群的时候,在使用had...

2020-02-17 12:17:26

Linux shell命令行可选参数的getopts命令使用例子

shell命令行可选参数的getopts命令使用例子一、概述getopts [option[:]] [DESCPRITION] VARIABLEoption:表示为某个脚本可以使用的选项":" 冒号如果某个选项(option)后面出现了冒号(":"),则表示这个选项后面可以接参数(即一段描述信息DESCPRITION)VARIABLE:表示将某个选项保存在变量VARIABLE中g...

2020-01-03 20:03:24

python中url解析及排序函数sort ()与 sorted() 区别、字典排序及高级用法

python中url解析及排序函数sort ()与 sorted() 区别、字典排序及高级用法一、python如何解析url,获取host和path最近在工作中需要将url的host和path路径分开存储,python内置的urlparse, 支持我们优雅的解决这个问题,参考地址>>> from urlparse import urlparse>>&...

2020-01-02 18:32:06

Spark模拟实现统计出每个域名下面访问次数最多的前三个URL

Spark模拟实现统计出每个域名下面访问次数最多的前三个URL一、需求:现在假设有一个IT教育网站,有Java,PHP,net等多个栏目,下面是模拟实现的网站日志第一个字段是访问日期,第二个字段是访问的URL,其中每个栏目有一个独立域名,如下:java.aaaaaaa.cnnet.aaaaaaa.cnphp.aaaaaaa.cn统计出每个域名下面访问次数最多的前三个URL...

2020-01-02 16:47:21

hive-sql查询结果保留特点小数位数的方法

一、ceil:向上取整ceil(DOUBLE d): d是DOUBLE类型的,返回>=d的最小的BIGINT值spark-hive> select ceil(123.58);_c0124Time taken: 0.093 sspark-hive> select ceil(123.28);_c0124Time taken: 0.109 s二、flo...

2019-12-17 13:27:17

Hive分析函数之SUM,AVG,MIN和MAX OVER(PARTITION BY xxx order by xxx,用于求一段时间内截至到每天的累计访问次数、平均访问次数、最小访问次数、最大访问次

Hive分析函数之SUM,AVG,MIN和MAX OVER(PARTITION BY xxx order by xxx,用于求一段时间内截至到每天的累计访问次数、平均访问次数、最小访问次数、最大访问次数Hive提供了很多分析函数,用于统计分析,比如SUM OVER PARTITION BY ORDER BY 是 实现分组累计的计算方法。本文先介绍SUM、AVG、MIN、MA...

2019-12-17 13:16:26

【spark源码系列】pyspark.sql.Row介绍和使用示例

0、Spark SQL和DataFrames重要的类有:pyspark.sql.SQLContext: DataFrame和SQL方法的主入口 pyspark.sql.DataFrame: 将分布式数据集分组到指定列名的数据框中 pyspark.sql.Column :DataFrame中的列 pyspark.sql.Row: DataFrame数据的行 pyspark.sql.Hiv...

2019-12-08 11:36:15

【源码解读系列之spark】Spark RDD缓存函数cache() 和 persist()原理和使用

1、RDD的缓存级别顺便看一下RDD都有哪些缓存级别,查看storagelevel.py代码StorageLevel类如下:__all__ = ["StorageLevel"]class StorageLevel(object): """ Flags for controlling the storage of an RDD. Each StorageLevel...

2019-11-24 12:20:33

Mysql 日期和时间加减及日期计算相差年、月、周、日数整理

Mysql 日期和时间加减及日期计算相差年、月、周、日数整理1、日期和时间加减select now()-- 获取当前具体的日期和时间 2019-11-13 16:38:20select curdate()-- 获取当前日期 2019-11-13select curtime()-- 获取当前时间 6:38:201.1、MySQL加减某个时间间隔设置当前...

2019-11-13 17:40:49

python使用xlwt形成合并单元格的excel并且读取合并单元格的excel

python使用xlwt形成合并单元格的excel并且读取合并单元格的excel 在日常数据报表数据处理中,经常会遇到看某个大类下面每个小类的各自的情况,此时形成的合并一些单元格作为表头的excel。在excel中,手动合并单元格比较容易,但是怎么利用python构造某些列或者行合并作为标题行或列的excel呢?废话不多说,直接上代码。1、安装python处理excel需要的包...

2019-11-12 13:24:47

SSLError ssl.c510: error:14090086:SSL routines:SSL3_GET_SERVER_CERTIFICATE:certificate verify failed

python 采用post方式模拟登录的时候,却报了如下错误:requests.exceptions.SSLError: HTTPSConnectionPool(host='login.sec.xxx.net', port=436): Max retries exceeded with url: /sec/login (Caused by SSLError(SSLError(1, '_ssl...

2019-11-01 20:25:45

mysql中的几种join 及 full join,自然连接问题

【注意】:1)、Oracle数据库支持full join,mysql是不支持full join的,但仍然可以同过左外连接+ union+右外连接实现 2)、自然连接:通过MySql自己的判断完成连接过程,不需要指定连接条件。MySql会使用表内的,相同的字段,作为连接条件。自然连接分为内外之分。0、初始化SQL语句:/*join 建表语句*/drop...

2019-10-26 19:54:23

Python 中 str.format() 方法详解

Python 中 str.format() 方法详解参考:https://blog.csdn.net/jpch89/article/details/84099277以下建议在版本 python 3.7.4 和python 2.7.16 实验,部分在Python 2.6.6通不过。1. 术语说明str.format() 方法通过字符串中的花括号 {} 来识别替换字段 replace...

2019-10-23 21:07:47

hive中的lateral view 与 explode函数,及collect_set函数的使用

大纲: 1、概述 2、explode 使用例子 3、引入lateral view的原因 4、explode与lateral view使用示例1 5、explode与lateral view使用示例2 6、collect_set()函数示例 7、substr()函数示例 8、concat_ws()函数示例1、概述 ...

2019-10-18 16:18:35

Hive 自定义函数UDF开发手把手教程—— 创建临时函数和永久函数

Hive 自定义函数UDF开发手把手教程—— 创建临时函数和永久函数 Hive中,除了提供丰富的内置函数(见[一起学Hive]之二–Hive函数大全-完整版)之外,还允许用户使用Java开发自定义的UDF函数。开发自定义UDF函数有两种方式,一个是继承org.apache.hadoop.hive.ql.exec.UDF,另一个是继承org.apache.hadoop.hiv...

2019-10-11 11:50:27

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。