自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(26)
  • 收藏
  • 关注

原创 (14)pandas基础1:Series和DataFrame模块

pandas的常用工具数据结构:Series和DataFrame

2021-11-16 18:17:42 1242 1

原创 (13)numpy基础5:random模块 伪随机数生成及使用

1.numpy.random 模块1.1 函数详解seed 向随机数生成器传递随机状态种子permutation 返回一个序列的随机排序,或者返回一个乱序的整数范围序列shuffle 随机排序一个序列rand 从均匀分布中抽取样本randint 根据给定的由低到高的范围抽取随机整数randn 从均值0方差1的正态分布中抽取样本(MATLAB型接口)binomial 从二项分布中抽取样本normal 从正态(高斯)分布中抽取样本beta 从bata分布中抽取样本c.

2021-11-16 15:34:33 928

原创 (12)numpy基础4:数组进行文件输入或输出及 线性代数等操作

1 numpy数组进行文件输入和输出numpy在硬盘中将数据以文本或二进制文件的形式存入硬盘或由硬盘载入np.save和np.load是高效存取硬盘数据的函数arr = np.arange(10)np.save('some_array', arr) #将数组数据存储,文件会加后缀 .npynp.load('some_array.npy') #将数组的输出np.savez('array_archive.npz', a=arr, b=arr) #将要存储的数组,作为参数传入,保存arch

2021-11-12 17:19:33 2036

原创 (11)numpy基础3:面向数组编程

1 牛刀小试对网格数据可视化样例points = np.arange(-5, 5, 0.01) # 生成起始为-5,步长为0.01,结束为5的数组pointsxs, ys = np.meshgrid(points, points) #据两个数组生成网格采样点的函数,结果是二维矩阵ys注意:[X,Y] =meshmeshgrid(x,y); 返回的两个meshX、Y必定是行数、列数相等的且X、Y的行数都等于输入参数y中元素的总个数,X、Y的列数都等于输入参数x中元素总个数...

2021-11-04 15:30:26 487

原创 (10)numpy基础2:通用函数

通用函数,也可称为ufunc,是一种在ndarray数据中进行逐元元素操作的函数后续更新···

2021-11-03 18:53:19 194

原创 sql 拉链表详解

参考链接:拉链表详细讲解 - 知乎 (zhihu.com)代码部分:CREATE TABLE source_table( userid string, loginname string, regiondate string, phonenum string, birthday string, status string, lastlogindate string)PARTITIONED BY (datatime string)ROW FORMAT D...

2021-11-03 16:16:31 3058

原创 (9)numpy基础1:数组与向量化计算

1 初识numpy1.1定义是 Numerical Python 简称,它是python数值计算最为重要的基础包,基于numpy的科学函数功能,将numpy的数值对象作为数据交换的通用语NumPy 是一个运行速度非常快的数学库,主要用于数组计算,包含:(1)ndarray,高效多维数组,基于数组计算及广播功能函数(2)对硬盘中数组数据进行读写的工具,并对内存映射文件进行操作(3)用numpy连接C/C++/Fortran语言类库的c语言API将数据传给底层语言编写的外部类库,再.

2021-11-01 15:54:36 293

原创 (7)python 之 文件操作(open函数) 与Unicode编码

1 操作文件 open()函数详解open()函数用于创建或打开指定文件,语法格式:file = open(file_name , mode='r' , buffering=-1 , encoding = 'utf-8')file:表示要创建的文件对象。file_name:要创建或打开文件的文件名称(最好绝对路径)mode:可选,用于指定文件的打开模式。如果不写,则默认以只读(r)模式打开文件。可选模式:r:只读(文件必须存在); w:只写 (若文件存在,会覆盖文件;反之,则..

2021-10-31 14:25:40 5995 2

原创 (8)python 实战详情 常用模块和函数

1 运行python脚本传参1.1 指定参数名传参python xx/xx.py -t $a -s $b -k $c实际使用:usage = "usage: %prog -t token -s secret -k key" parser = OptionParser(usage) parser.add_option("-t", "--token", dest="token", help="Token") parser.add_option("-s", "--sec...

2021-10-27 12:02:29 232

原创 shell 之变量详解及实战

1 定义定义变量时 your_name="xx除了显式地直接赋值,还可以用语句给变量赋值,如:for file in `ls /etc`或for file in $(ls /etc)2 变量类型运行shell时,会同时存在三种变量:(1)局部变量局部变量在脚本或命令中定义,仅在当前shell实例中有效,其他shell启动的程序不能访问局部变量。(2)环境变量所有的程序,包括shell启动的程序,都能访问环境变量,有些程序需要环境变量来保证其正常运行。必要的时候she...

2021-10-27 11:11:11 294

原创 (6)python 之 函数 详解

1.定义函数python中最重要、最基础的代码组织和代码复用方式;函数声明时使用def,返回时用return如达到函数尾部时仍没有return,就会自动返回none方法定义 例子:def my_function(x, y, z=1.5): if z > 1: return z * (x + y) else: return z / (x + y)调用例子:my_function(5, 6, z=0.7)my_functio...

2021-10-25 17:49:37 150

原创 (5)python 列表、集合和字典的推导式

1 定义可过滤一个容器的元素,用一种简明的表达式:转换传递过滤的元素,生成新的列表基本形式:[expr for val in collection if condition]

2021-10-21 17:05:09 177

原创 shell 常用的语句整合

1.执行脚本(1)调用hive(hive -e/-f )hive --hiveconf tez.application.tags="xx/xx" --hiveconf hive.metastore.uris="xx/xx" -hivevar tableName=$tableName -hivevar partition=$partition -hivevar date=$date -f ${xx}/xx.sql(2)调用sparkspark-sql --hiveconf ...

2021-10-21 16:01:39 188

原创 (4)python 之 集合 set 详解

1 定义集合set 是一种无序且元素唯一的容器,集合像字典,但是只有键没有值;创建方式有两种:通过set函数或用字面值集与大括号的语法set([2, 2, 2, 1, 3, 3]) 或 {2, 2, 2, 1, 3, 3}2 集合set 常见方法支持数学上的集合操作,联合、交集、差集、对称差集合并:a.union(b) a | b交集:a.intersection(b) a & bc = a.copy()c |= b 将c的内容 设置为.

2021-10-21 15:43:04 151

原创 spark-submit 样例

spark-submit --conf spark.driver.host=xx \--conf hive.metastore.uris=xx \--class com.mainclass\--num-executors 1 \--executor-cores 2 \--master local[2] \--driver-cores 1 \--executor-memory 4g \--jars xx/fastjson-1.2.62.jar,xx.jar \xx.jar.

2021-10-21 14:49:12 309

原创 java 打成jar包,并指定main方法的插件

1 插件 maven方法<plugin> <artifactId>maven-assembly-plugin</artifactId> <configuration> <descriptorRefs> <descriptorRef>jar-with-dependencies</descriptorRef> </descriptorRefs&g.

2021-10-21 14:48:18 122

原创 (3)python之 字典dict 详解

dict

2021-10-20 17:15:42 687

原创 (2)python 之 列表 list 详解

(1)定义列表的长度可变,包括的内容也可变,使用[]或list来定义a_list = [2, 3, 7, None] 创建listtup = ('foo', 'bar', 'baz')b_list = list(tup) 创建listb_listb_list[1] = 'peekaboo' 修改对应索引值b_list 返回 ['foo', 'peekaboo', 'baz']gen = range(10)genlist(gen)(2)增减元素增加元素b_list.app

2021-10-19 19:02:05 500

原创 (1) python 之 元组 详解

1 元组 tuple(1)定义,修改tup = 4, 5, 6 返回 (4, 5, 6)nested_tup = (4, 5, 6), (7, 8) 返回 ((4, 5, 6), (7, 8))tuple([4, 0, 2]) 返回 (4, 0, 2) tuple('string') 返回('s', 't', 'r', 'i', 'n', 'g')tup[0] 返回's' tuple(['foo', [1, 2], True])tup = tuple(['foo', [1, 2]

2021-10-19 17:42:05 170

原创 sql 常用统计函数

(1)一列中不同值的数据量统计1.使用count count(channel = 0 OR NULL) AS '注册',count(channel = 1 OR NULL) AS '新增',2.使用sum+ifsum(IF(channel = 0, 1, 0)) AS '注册',sum(IF(channel = 1, 1, 0)) AS '新增',3.使用sumsum(channel = 0) AS '注册',sum(channel = 1) AS '新增',...

2021-10-19 16:42:07 985

原创 hive 常见函数 窗口函数 聚合函数 map相关函数 实例

一、map的使用map的具体k-v,例如:{k1:v1,k2:v2,k3:v3}1、size(Map)函数:可得map的长度2.map_keys(Map)函数:可得map中所有的key;返回值类型: array3.map_values(Map)函数:可得map中所有的value;返回值类型: array4.array_contains(map_keys(Map),'k1'):判断map中是否包含某个key值5.split(Map['k1'],',')[1]:在k-v对...

2021-09-27 11:23:37 1911

原创 SQL多表查询:SQL JOIN连接查询各种用法总结

转载:原文链接:SQL多表查询:SQL JOIN连接查询各种用法总结 - 知乎 (zhihu.com)前面在实际应用中,大多的查询都是需要多表连接查询的,但很多初学SQL的小伙伴总对各种JOIN有些迷糊。回想一下,初期很长一段时间,我常用的似乎也就是等值连接 WHERE 后面加等号,对各种JOIN也是不求甚解,今天索性就来个JOIN的小总结。首先,设定两张表,作为下面例子的操作对象。表1 学生信息表表2 专业班级表再来个SQL JOIN连接查询各种用法的大合影,先预热一下。

2021-09-26 18:03:40 156

原创 执行hive-sql

(1)hive -e 执行直接执行hive -e '待执行语句'设置基本参数hive --hiveconf hive.metastore.uris="xx" -e "待执行语句" > xx/xx(导出路径)动态传参hive -hivevar tableName="xx" -hivevar partitionTime="xx" -e "待执行语句"整合语句hive --hiveconf tez.application.tags="xx" --hivec...

2021-09-26 17:52:28 305

原创 sql常设置的参数

参数设置:set tez.queue.name=${USER_QUEUE};set hive.execution.engine=tez;set hive.exec.dynamic.partition=true;set hive.exec.dynamic.partition.mode=nonstrict;set hive.exec.max.dynamic.partitions=100000;set hive.exec.max.dynamic.partitions.pernode=1000

2021-09-26 17:25:41 1268

原创 hive-sql DDL常用语句

建表:create table if not exists xx;删表:drop table if exists xx;删除一列:alter table xx drop 列名;清空表:truncate table xx添加表字段:alter table xx add columns(xx string comment '店铺ID');修改表字段顺序:alter table xx change 字段名(需要修改的字段) 字段名 需要修改的字段)字段类型 aft...

2021-09-26 17:08:15 423

原创 sql 执行计划,简写

sql 执行过程:将sql 解析成抽象语法树--> 验证sql语法(包括字段名和语法等验证)---> 解析成逻辑执行执行计划(据语法树调用javacc的方法)-->优化逻辑执行计划--->将逻辑执行计划转化成物理执行计划-->优化物理执行计划-->执行...

2021-09-26 16:49:27 41

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除