旅途心情-CSDN博客

原创（14）pandas基础1：Series和DataFrame模块

pandas的常用工具数据结构：Series和DataFrame

2021-11-16 18:17:42 1242 1

原创（13）numpy基础5：random模块伪随机数生成及使用

1.numpy.random 模块1.1 函数详解seed 向随机数生成器传递随机状态种子permutation 返回一个序列的随机排序，或者返回一个乱序的整数范围序列shuffle 随机排序一个序列rand 从均匀分布中抽取样本randint 根据给定的由低到高的范围抽取随机整数randn 从均值0方差1的正态分布中抽取样本（MATLAB型接口）binomial 从二项分布中抽取样本normal 从正态（高斯）分布中抽取样本beta 从bata分布中抽取样本c.

2021-11-16 15:34:33 928

原创（12）numpy基础4：数组进行文件输入或输出及线性代数等操作

1 numpy数组进行文件输入和输出numpy在硬盘中将数据以文本或二进制文件的形式存入硬盘或由硬盘载入np.save和np.load是高效存取硬盘数据的函数arr = np.arange(10)np.save('some_array', arr) #将数组数据存储，文件会加后缀 .npynp.load('some_array.npy') #将数组的输出np.savez('array_archive.npz', a=arr, b=arr) #将要存储的数组，作为参数传入，保存arch

2021-11-12 17:19:33 2036

原创（11）numpy基础3：面向数组编程

1 牛刀小试对网格数据可视化样例points = np.arange(-5, 5, 0.01) # 生成起始为-5，步长为0.01，结束为5的数组pointsxs, ys = np.meshgrid(points, points) #据两个数组生成网格采样点的函数，结果是二维矩阵ys注意：[X,Y] =meshmeshgrid(x,y); 返回的两个meshX、Y必定是行数、列数相等的且X、Y的行数都等于输入参数y中元素的总个数，X、Y的列数都等于输入参数x中元素总个数...

2021-11-04 15:30:26 487

原创（10）numpy基础2：通用函数

通用函数，也可称为ufunc，是一种在ndarray数据中进行逐元元素操作的函数后续更新···

2021-11-03 18:53:19 194

原创 sql 拉链表详解

参考链接：拉链表详细讲解 - 知乎 (zhihu.com)代码部分：CREATE TABLE source_table( userid string, loginname string, regiondate string, phonenum string, birthday string, status string, lastlogindate string)PARTITIONED BY (datatime string)ROW FORMAT D...

2021-11-03 16:16:31 3058

原创（9）numpy基础1：数组与向量化计算

1 初识numpy1.1定义是 Numerical Python 简称，它是python数值计算最为重要的基础包，基于numpy的科学函数功能，将numpy的数值对象作为数据交换的通用语NumPy 是一个运行速度非常快的数学库，主要用于数组计算，包含：（1）ndarray，高效多维数组，基于数组计算及广播功能函数（2）对硬盘中数组数据进行读写的工具，并对内存映射文件进行操作（3）用numpy连接C/C++/Fortran语言类库的c语言API将数据传给底层语言编写的外部类库，再.

2021-11-01 15:54:36 293

原创（7）python 之文件操作（open函数）与Unicode编码

1 操作文件 open()函数详解open()函数用于创建或打开指定文件，语法格式：file = open(file_name , mode='r' , buffering=-1 , encoding = 'utf-8')file：表示要创建的文件对象。file_name：要创建或打开文件的文件名称（最好绝对路径）mode：可选，用于指定文件的打开模式。如果不写，则默认以只读（r）模式打开文件。可选模式：r：只读(文件必须存在); w:只写 (若文件存在，会覆盖文件；反之，则..

2021-10-31 14:25:40 5995 2

原创（8）python 实战详情常用模块和函数

1 运行python脚本传参1.1 指定参数名传参python xx/xx.py -t $a -s $b -k $c实际使用：usage = "usage: %prog -t token -s secret -k key" parser = OptionParser(usage) parser.add_option("-t", "--token", dest="token", help="Token") parser.add_option("-s", "--sec...

2021-10-27 12:02:29 232

原创 shell 之变量详解及实战

1 定义定义变量时 your_name="xx除了显式地直接赋值，还可以用语句给变量赋值，如：for file in `ls /etc`或for file in $(ls /etc)2 变量类型运行shell时，会同时存在三种变量：（1）局部变量局部变量在脚本或命令中定义，仅在当前shell实例中有效，其他shell启动的程序不能访问局部变量。（2）环境变量所有的程序，包括shell启动的程序，都能访问环境变量，有些程序需要环境变量来保证其正常运行。必要的时候she...

2021-10-27 11:11:11 294

原创（6）python 之函数详解

1.定义函数python中最重要、最基础的代码组织和代码复用方式；函数声明时使用def，返回时用return如达到函数尾部时仍没有return，就会自动返回none方法定义例子：def my_function(x, y, z=1.5): if z > 1: return z * (x + y) else: return z / (x + y)调用例子：my_function(5, 6, z=0.7)my_functio...

2021-10-25 17:49:37 150

原创（5）python 列表、集合和字典的推导式

1 定义可过滤一个容器的元素，用一种简明的表达式：转换传递过滤的元素，生成新的列表基本形式：[expr for val in collection if condition]

2021-10-21 17:05:09 177

原创 shell 常用的语句整合

1.执行脚本（1）调用hive(hive -e/-f )hive --hiveconf tez.application.tags="xx/xx" --hiveconf hive.metastore.uris="xx/xx" -hivevar tableName=$tableName -hivevar partition=$partition -hivevar date=$date -f ${xx}/xx.sql（2）调用sparkspark-sql --hiveconf ...

2021-10-21 16:01:39 188

原创（4）python 之集合 set 详解

1 定义集合set 是一种无序且元素唯一的容器，集合像字典，但是只有键没有值；创建方式有两种：通过set函数或用字面值集与大括号的语法set([2, 2, 2, 1, 3, 3]) 或 {2, 2, 2, 1, 3, 3}2 集合set 常见方法支持数学上的集合操作，联合、交集、差集、对称差集合并：a.union(b) a | b交集：a.intersection(b) a & bc = a.copy()c |= b 将c的内容设置为.

2021-10-21 15:43:04 151

原创 spark-submit 样例

spark-submit --conf spark.driver.host=xx \--conf hive.metastore.uris=xx \--class com.mainclass\--num-executors 1 \--executor-cores 2 \--master local[2] \--driver-cores 1 \--executor-memory 4g \--jars xx/fastjson-1.2.62.jar,xx.jar \xx.jar.

2021-10-21 14:49:12 309

原创 java 打成jar包，并指定main方法的插件

1 插件 maven方法<plugin> <artifactId>maven-assembly-plugin</artifactId> <configuration> <descriptorRefs> <descriptorRef>jar-with-dependencies</descriptorRef> </descriptorRefs&g.

2021-10-21 14:48:18 122

原创（3）python之字典dict 详解

dict

2021-10-20 17:15:42 687

原创（2）python 之列表 list 详解

（1）定义列表的长度可变，包括的内容也可变，使用[]或list来定义a_list = [2, 3, 7, None] 创建listtup = ('foo', 'bar', 'baz')b_list = list(tup) 创建listb_listb_list[1] = 'peekaboo' 修改对应索引值b_list 返回 ['foo', 'peekaboo', 'baz']gen = range(10)genlist(gen)(2)增减元素增加元素b_list.app

2021-10-19 19:02:05 500

原创（1） python 之元组详解

1 元组 tuple（1）定义，修改tup = 4, 5, 6 返回 (4, 5, 6)nested_tup = (4, 5, 6), (7, 8) 返回 ((4, 5, 6), (7, 8))tuple([4, 0, 2]) 返回 (4, 0, 2) tuple('string') 返回('s', 't', 'r', 'i', 'n', 'g')tup[0] 返回's' tuple(['foo', [1, 2], True])tup = tuple(['foo', [1, 2]

2021-10-19 17:42:05 170

原创 sql 常用统计函数

（1）一列中不同值的数据量统计1.使用count count(channel = 0 OR NULL) AS '注册',count(channel = 1 OR NULL) AS '新增',2.使用sum+ifsum(IF(channel = 0, 1, 0)) AS '注册',sum(IF(channel = 1, 1, 0)) AS '新增',3.使用sumsum(channel = 0) AS '注册',sum(channel = 1) AS '新增',...

2021-10-19 16:42:07 985

原创 hive 常见函数窗口函数聚合函数 map相关函数实例

一、map的使用map的具体k-v，例如：{k1:v1,k2:v2,k3:v3}1、size(Map)函数：可得map的长度2.map_keys(Map)函数：可得map中所有的key;返回值类型: array3.map_values(Map)函数：可得map中所有的value;返回值类型: array4.array_contains(map_keys(Map),'k1')：判断map中是否包含某个key值5.split(Map['k1'],',')[1]：在k-v对...

2021-09-27 11:23:37 1911

原创 SQL多表查询：SQL JOIN连接查询各种用法总结

转载：原文链接：SQL多表查询：SQL JOIN连接查询各种用法总结 - 知乎 (zhihu.com)前面在实际应用中，大多的查询都是需要多表连接查询的，但很多初学SQL的小伙伴总对各种JOIN有些迷糊。回想一下，初期很长一段时间，我常用的似乎也就是等值连接 WHERE 后面加等号，对各种JOIN也是不求甚解，今天索性就来个JOIN的小总结。首先，设定两张表，作为下面例子的操作对象。表1 学生信息表表2 专业班级表再来个SQL JOIN连接查询各种用法的大合影，先预热一下。

2021-09-26 18:03:40 156

原创执行hive-sql

(1)hive -e 执行直接执行hive -e '待执行语句'设置基本参数hive --hiveconf hive.metastore.uris="xx" -e "待执行语句" > xx/xx(导出路径)动态传参hive -hivevar tableName="xx" -hivevar partitionTime="xx" -e "待执行语句"整合语句hive --hiveconf tez.application.tags="xx" --hivec...

2021-09-26 17:52:28 305

原创 sql常设置的参数

参数设置：set tez.queue.name=${USER_QUEUE};set hive.execution.engine=tez;set hive.exec.dynamic.partition=true;set hive.exec.dynamic.partition.mode=nonstrict;set hive.exec.max.dynamic.partitions=100000;set hive.exec.max.dynamic.partitions.pernode=1000

2021-09-26 17:25:41 1268

原创 hive-sql DDL常用语句

建表：create table if not exists xx;删表：drop table if exists xx;删除一列：alter table xx drop 列名;清空表：truncate table xx添加表字段：alter table xx add columns(xx string comment '店铺ID');修改表字段顺序：alter table xx change 字段名（需要修改的字段）字段名需要修改的字段）字段类型 aft...

2021-09-26 17:08:15 423

原创 sql 执行计划，简写

sql 执行过程：将sql 解析成抽象语法树--> 验证sql语法(包括字段名和语法等验证)---> 解析成逻辑执行执行计划（据语法树调用javacc的方法）-->优化逻辑执行计划--->将逻辑执行计划转化成物理执行计划-->优化物理执行计划-->执行...

2021-09-26 16:49:27 41

xiaomengzhang的博客