囊萤映雪的萤-CSDN博客

原创 doris--Apache Doris 1.1.0编译过程记录

doris1.1.0的编译过程

2023-03-15 22:11:19 461 1

原创 clickhouse--求累计数值

clickhouse求累计值的几种方法

2022-05-13 21:10:39 2578

原创 clickhouse--行列转换

clickhouse行专列与列转行的方法

2022-05-13 20:25:46 8091

WITH子句语法WITH <expression> AS <identifier>orWITH <identifier> AS <subquery expression>将常量表达式作为“变量”使用WITH '2019-08-01 15:23:00' as ts_upper_boundSELECT *FROM hitsWHERE EventDate = toDate(ts_upper_bound) AND EventTime

2022-05-04 17:41:19 1045

原创 clickhouse--性能优化

目录一、建表优化1.1 数据类型1.1.1 时间字段1.1.2 空值存储类型1.2 分区和索引1.3 表参数1.4 写入和删除优化1.5 举例1.6 常见配置1.6.1CPU资源1.6.2 内存资源1.6.3 存储二、语法优化规则2.1 count优化2.2 消除子查询重复字段2.3 谓词下推2.3.1 having2.3.2 子查询2.4 聚合计算外推2.5 聚合函数消除2.6 删除重复2.6.1 删除重复的order by key2.6.2 删除重复的limit by key2.6.3 删除重复的USI

2022-05-04 16:27:42 4506

原创 pyspark--读取数据

文章目录pyspark读取数据参数介绍formatschemaloadtableoption读取文件jsoncsvparquet和orc读取数据表hivejdbcpyspark读取数据参数介绍formatDataFrameReader.format(source)指定不同格式来读取文件，例如以下为指定json格式读取数据：df = spark.read.format('json').load('python/test_support/sql/people.json')针对常用几个文件格式

2022-04-24 20:54:50 6424 1

原创 pyspark--写入数据

文章目录pyspark写入数据参数说明modeformatpartitionBybucketBysortByoption数据准备写入文件csv文件txt文件json文件parquet文件orc文件写入数据表api介绍saveAsTableinsertIntojdbc写入hive数据表appendoverwrite分区表写入mysql数据表pyspark写入数据参数说明官网通用的写数据方式如下：DataFrameWriter.save(path=None, format=None, mode=Non

2022-04-22 16:00:29 7914 1

原创 pyspark--创建DataFrame

通过列表创建value = [('Alice', 1)]spark.createDataFrame(value, ['name', 'age']).collect()value = [('Alice', 1)]spark.createDataFrame(value, ['name', 'age']).collect()d = [{'name': 'Alice', 'age': 1}]spark.createDataFrame(d).collect()通过pandas创建spark.

2022-04-19 21:11:40 5616 4

原创 pyspark--写hive分区表覆盖指定分区数据

初次写入分区数据spark写入hive分区表时，如果数据表事先不存在，可以选择手动建表，可以使用以下代码写入数据，会自动创建数据表：df = spark.createDataFrame([(1, "alice", "20220412"), (2, "bob", "20220412")], ["id", "name", "date"])df.show()df.write.format("orc").mode("overwrite").partitionBy("date").saveAsTable("t

2022-04-16 22:27:45 6628

原创 clickhouse--常用表引擎

表引擎MergeTree FamilyMergeTree特点用于插入极大量的数据到一张表当中。数据可以以数据片段的形式一个接着一个的快速写入，数据片段在后台按照一定的规则进行合并。建表语法CREATE TABLE [IF NOT EXISTS] [db.]table_name [ON CLUSTER cluster]( name1 [type1] [DEFAULT|MATERIALIZED|ALIAS expr1] [TTL expr1], name2 [type2] [DEF

2021-11-26 21:01:19 496

原创 clickhouse--物化视图

物化视图物化视图是查询结果的持久化，可以理解为一张时刻在与计算的表，创建过程中用了一个特殊引擎。但是对更新与删除操作支持并不好，更像是个插入触发器。概述与普通视图的区别普通视图仅仅保存查询语句，查询的时候还是从原表读取数据。物化视图是把查询的结果根据相应的引擎存入到了磁盘或内存中，对数据重新进行了组织，可以理解为完全的一张新表。优缺点优点：查询速度快缺点：写入过程中消耗较多机器资源，比如带宽占满，存储增加等。本质是一个流式数据的使用场景，是累加式的技术，所以要用历史数据做去重、去核的分

2021-11-24 00:00:38 3005

原创 clickhouse--开窗函数(window function)的用法

数据准备CREATE TABLE employee_salary_1(month Date,name String ,department String,salary UInt32) ENGINE = MergeTree()partition by monthORDER BY monthINSERT INTO employee_salary_1 VALUES('2020-01-01', 'Ali', 'Sales', 6000),('2020-01-01', 'Bob', 'Sal

2021-10-17 23:48:51 16360 3

原创 pyspark--Window Functions

文章目录1 Ranking functions1.1 row_number()1.2 rank()1.3 dense_rank()1.4 percent_rank()1.5 ntile()2 Analytic functions2.1 cume_dist()2.2 lag()2.3 lead()3 Aggregate Functions参考链接：pyspark-window-functionsWindow函数在实际业务场景中非常实用，用的好的话能避免很多浪费时间的计算。刚好最近看到一篇对Window讲

2020-08-15 17:07:34 2055

原创 pyspark--Window 特定统计值所在行保留

假定有如下数据：from pyspark.sql.window import Windowfrom pyspark.sql import functions as Fcol_names = ["name", "date", "score"]value = [ ("Ali", "2020-01-01", 10.0), ("Ali", "2020-01-02", 15.0), ("Ali", "2020-01-03", 20.0), ("Ali", "2020-01-0

2020-08-15 13:21:41 423

原创 pyspark--Window不同分组窗的使用

参考链接：spark-window-functions-rangebetween-dates假设我们有以下数据：from pyspark.sql import Rowfrom pyspark.sql.window import Windowfrom pyspark.sql.functions import mean, colrow = Row("name", "date", "score")rdd = sc.parallelize([ row("Ali", "2020-01-01".

2020-08-15 13:20:26 1767

原创 pyspark--单词统计的简单例子

文章目录方法一先聚合再统计方法二先统计再聚合假设我们有以下数据：from pyspark.sql import functions as Fdf = sc.parallelize([(1,["what", "sad", "to", "me"]), (1,["what", "what", "does", "the"]), (2,["at", "the", "oecd", "with"])]).toDF(["id",

2020-08-15 13:13:01 1231

原创 pyspark--groupby条件聚合

文章目录条件聚合方法一条件聚合方法二条件聚合方法一假设我们有以下数据：col_names = ["name", "date", "score"]value = [ ("Ali", "2020-01-01", 10.0), ("Ali", "2020-01-02", 15.0), ("Ali", "2020-01-03", 20.0), ("Ali", "2020-01-04", 25.0), ("Ali", "2020-01-05", 30.0), (

2020-08-15 13:11:39 6609

原创 pyspark--groupby条件分组

一些情况下，我们需要将数据按照某种条件划分，一部分满足条件的进行分析，另一部分不满足条件的划分为另一组进行分析。假设我们有如下数据：from pyspark.sql import Row, functions as Fcol_names = ["name", "score"]value = [ ("Red", 100.0), ("Origen", 80.0), ("Yellow", 55.0), ("Green", 90.0), ("Cyan", 85.0)

2020-08-15 13:10:06 2779

原创 pyspark--groupby同类型多列聚合

业务场景中，我们可能会碰到这样的情况：每一条数据有好几个列都是数值，比如不同科目的分数。而我们需要计算每一个数值列的最大值、最小值、标准差、方差之类的。这种情况下，如果在使用groupby分组聚合的时候，依次去对每一列进行聚合，就会导致写了非常多重复的代码。例如：df.groupby("name").agg(F.stddev("val1"),F.stddev("val2"),F.stddev("val3")).show()如果需要计算的维度特别多就会导致代码很长，而且多了很多冗余的代码。而将同类型的聚合

2020-08-15 13:07:39 3873

原创 pyspark--中位数计算

文章目录分组中位数计算单列分位数计算分组中位数计算原始数据如下：from pyspark.sql import Rowfrom pyspark.sql.window import Windowfrom pyspark.sql.functions import mean, colfrom pyspark.sql import functions as Fcol_names = ["name", "date", "score"]value = [ ("Ali", "2020-01-01

2020-08-15 13:05:05 4468 1

原创 python--列表、字符串、字典、元组之间的转换

文章目录列表、字符串、字典、元组之间的转换1. 列表与字符串的相互转换列表转字符串字符串转列表2. 列表与字典的相互转换列表转字典两个列表转字典嵌套列表转字典字典转列表3. 字典与字符串的相互转换字符串转字典字典转字符串4. 元组与字符串的相互转换元组转字符串字符串转元组5. 元组与列表的相互转换元组转列表列表转元组6. 元组与字典的相互转换元组转字典字典转元组列表、字符串、字典、元组之间的转换...

2020-01-02 14:03:42 2600

原创 python--时间，日期，时间戳处理及转换

文章目录一、获取当前时间1. 获取当前本地时间1) 日期格式时间2) struct_time格式时间2. 获取当前UTC时间1) 日期格式时间2) struct_time格式时间3. 获取当前时间戳二、输入时间字符串格式转换1. time模块2. datetime模块三、日期与时间戳的相互转换1. 日期转时间戳1) 本地日期转时间戳a) time模块b) datetime模块2) UTC日期转时间...

2019-11-30 18:26:12 3000

原创 python--pandas读取txt文件

pandas读取txt文件参考链接：pandas.read_csvpandas.read_csv常用参数为：header, sep, name，其余参数待用到时再行补充假如有个名为dates.txt的文件，其中内容如下：20191128, 2019112820191129, 2019112920191130, 20191130注意观察该文件没有标题行，类似表格的列名，那么就需要指定...

2019-11-30 14:40:58 87491 1

原创 python--getattr()方法

getattr()方法参考链接：python getarrt()函数getattr() 函数用于返回一个对象属性值。class A(object): num = 5 def classname(self): print("This is class A") def add(self, x, y): return x + y...

2019-11-30 11:26:28 497

原创 python--正则表达式

python中的正则表达式mindmaster制作的思维导图，貌似只能粘贴成图片，暂记一下~

2019-11-30 10:38:24 121

原创 python--装饰器(Decorators)

参考链接：https://www.runoob.com/w3cnote/python-func-decorators.htmlhttps://foofish.net/python-decorator.html先mark一下，菜鸟教程比较全，但有些东西讲的简略，下面那篇博客很详细，值得参考~...

2019-10-16 20:44:07 133

原创 python--xlsx文件的读写

文章目录xlsx文件的写入新建工作簿和新建工作表为工作表添加内容xlsx文件的读取最近碰到一个问题，需要读取后缀为xlsx的文件，因此在此总结一下python对于xlsx文件的读写。一般如果是后缀xls的话，用xlwt和xlrd进行读写；而后缀是xlsx的话，用openpyxl进行读写。在此主要介绍openpyxl库对xlsx的读写。参考链接：python之openpyxl模块xlsx文...

2019-09-20 21:20:10 98287 9

原创 python--subprocess.Popen()多进程

subprocess.Popen()用法Popen的属性子进程的终止首先来看一段代码：p = subprocess.Popen(['echo','helloworl.py'], stdin=subprocess.PIPE, stdout=subprocess.PIPE, stderr=subprocess.PIPE)print(p.poll())print('Exit code:', ...

2019-09-19 20:31:28 23014 3

原创 python--列表(List)的操作(元素的添加和删除以及列表的复制)

文章目录列表元素的添加list.append()list.extend()list.insert()列表元素的删除del list[index]list.remove(obj)list.pop(index)删除重复元素通过集合(set)转换通过字典键值(key)转换使用numpy中的unique去重循环判断排序以后相邻元素比较参考链接：python 列表1python 列表2列表元素的添加...

2019-09-19 16:09:02 8054 3

原创 python--csv文件的读写

参考链接：python3：csv的读写参考的博客写的还是蛮详细的，笔者就稍微粗糙总结一下。读取csv文件test.csv文件中的数据形式如下：有三种方式读取，分别是file.readlines()，csv.reader()，pandas.read_csv()file.readlines()代码示例：file = 'E:/test.csv'with open(file) as f:...

2019-09-17 14:41:28 855

原创 python--文件读写模式

参考链接：文件读写读写模式如下：模式可做操作若文件不存在是否覆盖r只能读报错-r+可读可写报错是w只能写创建是w+可读可写创建是a只能写创建否，追加写a+可读可写创建否，追加写例如下列代码，打开python脚本并读入到字符串中file = 'E:/code-study/python/test2.p...

2019-09-11 19:29:10 532

原创 python--python中的各种“分割”（分隔）

partitionsplitsplitextsplitlinesos.path.split字符串分割str.partition()参考：菜鸟教程 python partition()str.partition(str)partition() 方法用来根据指定的分隔符将字符串进行分割。如果字符串包含指定的分隔符，则返回一个3元的元组，第一个为分隔符左边的子串，第二个为分隔符本...

2019-09-11 17:23:41 26198

原创 python--遍历当前文件夹下的目录和文件

os.walk()使用格式参考：菜鸟教程os.walk(top, topdown=True, οnerrοr=None, followlinks=False)top – 是你所要遍历的目录的地址, 返回的是一个三元组(root,dirs,files)。root 所指的是当前正在遍历的这个文件夹的本身的地址dirs 是一个 list ，内容是该文件夹中所有的目录的名字(不包括子目录)...

2019-09-11 14:23:39 19173

原创 python--pipenv搭建虚拟环境(win10+git bash)

参考：知乎回答pipenv搭建虚拟环境pipenv管理项目pipenv安装在git bash中安装，使用该环境的好处时可以该环境下可以使用shell命令。$ pip install pipenv查看是否安装成功，可以查看安装的版本 pipenv --version :$ pipenv --versionpipenv, version 2018.11.26确定安装没问题。可以...

2019-09-05 14:20:51 1728

原创 python--ipython入门

最近在cmd窗口进入python交互环境时老是出现报错：Python 3.7.3 (default, Mar 27 2019, 17:13:21) [MSC v.1915 64 bit (AMD64)] :: Anaconda, Inc. on win32Type "help", "copyright", "credits" or "license" for more information....

2019-09-05 10:50:21 215

原创 python--python脚本中调用shell命令

文章目录python脚本调用shell命令os.system()os.popen()subprocess.call()subprocess.Popen()commands参考：python脚本调用shell命令os.system()os.system()执行成功会自动返回值0，执行的shell命令结果会打印出来，例如执行如下代码：import osif __name__ == "__...

2019-09-03 09:35:39 5819 2

原创 python--os.chdir() 方法切换当前工作路径

以前只知道shell脚本中可以切换工作路径，最近的任务需要将python脚本当前工作路径切换到指定路径下，这才知道了python中切换路径的方法os.chdir() 。参考：Python3 os.chdir() 方法将下面的代码保存到test2.py文件中。import os, syspath = "learn-to-pack"# 查看当前工作目录retval = os.getcw...

2019-09-02 16:37:06 18238 5

原创 python--windows路径转Linux路径

参考：Python windows路径转Linux路径例如笔者需要获取当前脚本 test2.py 所在的路径，并将该路径转换为Linux下的路径：import osimport sys if __name__ == "__main__": print("this is test2 file ") sh_path = os.path.dirname(os.path....

2019-09-02 16:15:36 7319 4

原创 python--获取参数输入(获取用户输入)

参考链接：http://c.biancheng.net/view/4228.htmlpython获取参数的方式笔者归纳下来主要有三种方式，下面依次说明。input()函数input()函数通过在命令行提示的形式提示用户输入需要的参数，如下：data = input("please enter the data: ")print(data)将上述代码保存在test.py脚本文件中，在命...

2019-09-02 15:34:57 76773