自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(41)
  • 收藏
  • 关注

原创 用sql写用户留存和留存率

用sql写用户留存和留存率

2023-06-30 17:18:15 1302

原创 SQL如何查询用户的最长连续活跃天数?

SQL如何查询用户的最长连续活跃天数?

2023-06-30 10:25:28 1317

原创 excel countifs 计算包含了空白单元格

再使用不等于号的情况下,他会去数所有单元格,包括你没有启用的空白单元格结果发现数字一两万行的文件,竟然数了,百万行。我们再使用这种不等于的条件时,需要多加“等于”或者肯定的条件,进行筛选。...

2021-04-01 17:45:49 4610

原创 python 正则表达式 转义字符 反斜杠 原始字符串 r‘‘

关于反斜杠,转义字符总有人问我,今天写一下,我拜读了几篇文章,如下链接,链接如下:https://blog.csdn.net/jinixin/article/details/56705284https://www.cnblogs.com/miaoning/p/11450659.html引用文章里的话,首先一切问题或者误会,麻烦,烦恼的原因就是反斜杠在字符串里有转义的作用,在正则里有转义的作用,最关键都是以string形式工作。就乱套了所以我是这么理解的,我们写的正则表达式,我称之为表达式,这个表达式

2021-01-10 12:19:19 1264

原创 正则表达式,分组,捕获组,反向引用,重复数字正则表达式 ,python 实现

今天的目标是匹配文本中的ababab形式的所有内容,str=‘121212,123456,343434,565656,787878’也就是,‘121212,’,‘343434,565656,787878’两部分最后的表达式为reg=’(\d{2})\1+,.*,((\d{2})\3+,)+(\d{2})\4+’浅谈我的经验:1.首先利用的分组,或者说捕获组,子模式,\d代表一个数字,\d{2}代表两个数字,由于我们是希望abab形式,所以需要重复\d{2},但是我们不能写成\d{2}\d{2},

2021-01-10 00:01:43 777

原创 pandas,多条件,文本模糊查询,list,str.contains()

针对文本的模糊查询可以用str.contains()进行,但是如果多条件呢,几十个上百个,不能一个一个去查询。思路是1.将多条件简历在一个列表里2.通过列表推导式加str.contains()函数和sum()函数求和3.通过loc筛选出我们需要的本文的内容创建需要筛选的内容words列表,之后进行筛选、下面显示的是sum函数里的内容的最后形式,1和2都相当于True,0代表False有时间写一个更简单的的另一种多条件模糊筛选。...

2021-01-08 11:03:28 6021

原创 excel 经典面试题,笔记7,权亮

求各省份2017全年进货金额(全部产品)Top1的医院关键点,是各个省份,2017年,第一名的,医院.数据如下:销售表:医院表:价格表:解答:我们要根据价格表在产品表里填充每次购买药品的价格,从而生成总额,之后根据InstitutionCode,填充医院,省份,类型.我们首先将三个表放在一个sheet下,这样方便操作1,填充每次药品的价格方法一:方法二:之后我们用...

2020-04-25 08:48:14 1751 5

原创 sql面试题 带看量客源量 有效客源 答案

SQL题目一、请获取2019年3月31日录入的城市的客源量,客源状态为有效客源或者共享池客源,取出信息包括城市名称,客源量(电话号码去重)。create table custdel_all_info_da(cust_id int not null,cust_name varchar(20) not null,cust_phone1 varchar(20) not null,cust...

2020-04-24 12:05:41 44

原创 PCA 算法几何理解

PCA(Principal component analysis)PCA 是一种基于多变量的降维技术,主要用于降维、可视化、去相关、分类、确定潜在因子、压缩和去噪音等方面。是特征工程中不可缺少的一部分,有利于我们构建更加适合模型的特征。PCA 旨在找到数据中的主成分,并利用这 些主成分表征原始数据 ,从而达到降维的目的 。PCA的主要思想是将n维特征映射到k维上,这k维是全新的正交特征也被称...

2020-04-04 18:53:31 993

原创 统计学:方差分析和相关分析的区别和联系

区别:方差分析目的是检验因素是否对总体起作用,方法是不同的分组施加不同的因素水平,然后看组间差距是否明显大于组内差距,若明显大于则认为因素对总体起作用。具体过程中,方差分析只读取因变量数据,而不读取自变量数值。相关分析是检验变量之间是否有依存关系,是想表达当一个变量变化时另一个变量是否有协同变化以及协同变化的程度。联系:两者都表示是否有关系。但方差分析表达的意义在于是否“显著”,而相关关系表达...

2020-03-26 15:45:06 14300

原创 pandas多级索引的一点小总结

这里有一个 pop1的多级索引的 Series.对他们的索引和切片进行操作,得到以下情形,作为回顾的笔记

2020-02-29 18:33:58 184

原创 pandas 的一些基础操作

2020-02-29 15:44:31 87

原创 利用 np.argsort()对某一列(行)进行排序

我们知道 np.sort()对数组进行排序,如下图,那我们如何将某一行,某一列进行排列呢?请看我下面的测试:关键一步是 Z[:,1],这是选择哪一列进行排序,也可以是哪一行进行排列,如下图.然后利用 np.array.argsort()进行排序,返回排序数字的索引位置,最后重新对 Z 进行索引.此方法对数据清洗,计算,整理,分析都有帮助....

2020-02-27 14:50:51 1593

原创 numpy.mean,sum,max,min (keepdims=True)的理解

np.mean() 函数定义:numpy.mean(a, axis, dtype, out,keepdims )当 keepidms=True,保持其二维或者三维的特性,(结果保持其原来维数)默认为 False,不保持其二维或者三维的特性.(结果不保持其原来维数)接下来我举例子说明:a 是一个(2,2)的二维数组.第 486 和 491 对比,在 axis=1的时候,当 keepidm...

2020-02-27 14:11:14 7096 1

原创 numpy:np.random.choice()理解

拜读了这篇文章对np.random.choice()有所了解.本文部分引自这篇文章.https://blog.csdn.net/wyx100/article/details/80639653?depth_1-utm_source=distribute.pc_relevant.none-task&utm_source=distribute.pc_relevant.none-task先了解...

2020-02-27 12:16:59 310

原创 numpy.put ()理解

这个函数非常有用,更换需要的值,可以操作.参数----------a:ndarray目标数组。ind:array_like目标索引,解释为整数。v:array_like在目标指数的“a”中放置的值。 如果v比ind短,它将在必要时重复。mode:{‘raise’,‘wrap’,‘clip’},optional指定越界索引的行为方式。 *'加注' - 引发错误(默认) ...

2020-02-27 00:27:03 1256

原创 np.eye() 和 np.identity() 的理解

np.eye,生成对角线的矩阵.参数介绍:(1)N:int型,表示的是输出的行数(2)M:int型,可选项,输出的列数,如果没有就默认为N(3)k:int型,可选项,对角线的下标,默认为0表示的是主对角线,负数表示的是低对角,正数表示的是高对角。(4)dtype:数据的类型,可选项,返回的数据的数据类型(5)order:{‘C’,‘F’},可选项,也就是输出的数组的形式是按照C语言的行...

2020-02-26 07:46:38 2199

原创 numpy花哨索引理解

#1,花哨索引说明:(1)94号,行与列的索引相当于,(0,2),(2,3),(1,1)的去筛选x的内容.(2)102和103,行索引是等价的,我们不能用[1,2,3,4,5]代替.

2020-02-25 20:56:52 317

原创 numpy数组关于一维数组的解析

在拜读了这篇文章后,把我一直心目中的疑惑解开了.不知道大家有没有,如果有,希望你读完我的文章能解决.https://blog.csdn.net/xo3ylAF9kGs/article/details/78623276疑问,到底什么是一维数组,拿np.ones((1,10)),np.ones(10),进行说明第一步生成两个数组,如下:他们的形状是(1,10)和(10,)我一直有个疑问,...

2020-02-25 11:24:50 712 1

原创 Spark 运行流程框架.和shuffle原理

Spark 运行流程框架.和shuffle原理第一,spark框架原理我们使用spark-submit提交一个Spark作业之后,这个作业就会启动一个对应的Driver进程。根据你使用的部署模式(deploy-mode)不同,Driver进程可能在本地启动,也可能在集群中某个工作节点上启动。而Driver进程要做的第一件事情,就是向集群管理器(可以是Spark Standalone集群,也可...

2020-02-23 21:10:57 132

原创 Hive查询,客服电话练习

如图片,我自己建了两个表格模拟数据库内容,如下:table:calltable:sepcreate table call(case_id int, create_time date,deal_name string,deal_group string) row format delimited fields terminated by ‘,’;load data local inp...

2020-02-20 01:13:44 379

原创 Hive 蚂蚁森林面试题训练

背景说明:以下表记录了用户每天的蚂蚁森林低碳生活领取的记录流水。table_name:user_carbonuser_id data_dt low_carbon用户 日期 减少碳排放(g)蚂蚁森林植物换购表,用于记录申领环保植物所需要减少的碳排放量table_name: plant_carbonplant_i...

2020-02-19 20:52:40 573

原创 Hive工作原理

Hive工作原理,如上图,我们不讲右边的hadoop阶段,我们只讲左边hive阶段的流程:. 用户提交查询等任务给Driver。编译器获得该用户的任务Plan。编译器Compiler根据用户任务去MetaStore中获取需要的Hive的元数据信息。编译器Compiler得到元数据信息,对任务进行编译,先将HiveQL转换为抽象语法树,然后将抽象语法树转换成查询块,将查询块转化为...

2020-02-15 22:11:32 265

原创 hadoop的hdfs读写文件流程

一 读取文件流程打开分布式文件-调用分布式文件 DistributedFileSystem.open()方法从Namenode获得Datanode地址-DistributedFileSystem 使用RPC调用Namenode,Namenode返回存有该副本的Datanode地址,DistributedFileSystem返回一个输入流FSDatainputstream对象,该对象封存了输入...

2020-02-14 23:44:19 213

原创 MapReduce流程详解

MapReduce 流程详解客户端阶段:我们在hdfs上有一个需要分析的文件a.txt在客户端在提交处理之前,客户端先获取文件,然后程序进行一个参数配置,对文件进行切片,切片程序:首先计算切片的最大最小值, 从而确定切片大小,一般为128m,也可以根据自身的需要调整大小, 计算切片大小的逻辑:Math.max(minSize, Math.min(maxSize, blockSize))....

2020-02-14 22:50:24 85

转载 Mac修改vimrc只读配置文件(转)

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入Mac自带v...

2020-01-31 09:59:37 2208 1

原创 mysql 查询面试题 练习题 权亮

python

2019-12-01 09:48:05 188

原创 Jupyter Notebook更改Windows默认启动目录,储存目录

之前很难受,网上查了好多方法,这个最快,省事,靠谱。第一步:打开Jupyter快捷方式右键notebook快捷方式,属性。将目标的参数默认是%USERPROFILE%和起始位置替换成你想要的文件夹路径(我的是E:\CDA\CDA上课\Python)。即可,确认保存。...

2019-11-17 17:02:58 152

原创 Mysql 查询综合训练,权亮

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入python...

2019-10-23 11:53:49 109

原创 python 基础知识-条件,循环,笔记3 权亮

二. 条件、循环条件语句用作布尔表达式(用作if语句中的条件)时,下面的值都将被解释器视为假:False, None, 0 ,"" ,() ,[], {}.而其他的都是值都被认为是真. 与赋值一样,Python也支持链式比较:可同时使用多个比较运算符,如0 < age < 100。a) ==与=的区别=是赋值运算符,是修改值的方法,这个不能作为比较运算符.==是...

2019-09-01 23:56:32 103

原创 python 基础知识-字符串(列表,元组,列表,集合,字典)笔记2 权亮

3.1. 字符串字符串是以单引号’或双引号"括起来的任意文本,比如’abc’,“xyz"等等,它是有序但是无法修改内容的。请注意,’'或”“本身只是一种表示方式,不是字符串的一部分,因此,字符串’abc’只有a,b,c这3个字符。如果’本身也是一个字符,那就可以用”"括起来,比如"I’m OK"包含的字符是I,’,m,空格,O,K这6个字符。如果字符串内部既包含’又包含"怎么办?可以用转义字符\...

2019-08-31 21:03:53 975

原创 python 基础知识-标识符和保留字,变量,笔记1 权亮

标识符和保留字标识符:标志不同的词法单位,通俗讲就是名字, 如变量名 、函数名等。名称(标识符)只能由字母、数字和下划线(_)构成,且不能以数字打头。大小写敏感,名字不能和关键字/保留字相同。关键字/保留字: python一些具有特殊功能的标识符,这就是所谓的关键字,关键字,是python已经使用的了,所以不允许开发者自己定义和关键字相同的名字的标识符。下图为我在交互式命令行下查询的保留...

2019-08-31 08:47:41 277 1

原创 excel 数据透视表,笔记6,权亮

1 四种不同的汇总方式的数据透视表解答:在数据的任意的单元格内,点击插入数据透视表.,然后将项目先拖进行,之后将部门名称拖进行,将金额拖进值,拖四遍.之后求和项:金额旁边的向下箭头点中,选择值字段设置.分别设置成平均数,最大值,最小值....

2019-08-17 18:23:18 249

原创 excel用图表来表现数据,笔记5,权亮

1 对称图表看需要求的图的特点,选中数据,插入图表,选择条形图.,几个关键问题1,条形图两个条形要在中间,相反的方向伸展.2,数轴两边全是正数.3,有两个数轴解答:我们第一步添加一个数轴.,由于两个公司的数据是一个类型,且数量级差不多,估,为任何一公司添加数轴都可以.之后我们需要将条形图,移动到图表中央,那我们可以设置一下鼠标周范围是正负7000.这样条形图,就到了图中央了....

2019-08-17 18:06:54 487

原创 excel查找和引用函数的学习与应用,笔记4,权亮

1 修改补充员工档案表蓝色底为所求的区域.提示:生日为身份证中间八位.年龄为现在日期到的年头,工龄为现在的日期到入职时间的年头,以上的主要是使用日期函数来求出.直辖市和所属区县用vlookup函数,寻找,后面附地区代码表.解答:Datedif函数格式为: datedif函数:DATEDIF(start_date,end_date,unit)第一个参数start_date:起始时间第二...

2019-08-10 22:46:59 387

原创 excel数组的学习和应用,笔记3,权亮

1 两列数据之差的和计算计算下列两列数据相减后的和.解答:我们一般计算这样的方法是b2-a2,得出来的结果,向下复制,就得到了各列之差,最后我们在下面输入sum函数即可求出来.我们用数组的方法,可以直接b2:b11-a2:a11,求出来对应的差.但是方法有个前提条件,就是提前选中要被求差结果的单元格,如果只选择b-a列的第二个单元格,他不会全部都求出,必须全部选出来,另外一个条件是数组的计算...

2019-08-04 16:08:39 374

原创 excel的数据收集与清洗,笔记2,权亮

1 数据的快速输入将鼠标放置在单元格右下角,鼠标变为黑色十字,之后按住向下拉,变回自动填充。同时我们可以根据自己的实际需要,自定义序列的内容。2 填充柄+右键解答:将鼠标放在第一个数据的单元格的右下角,使得鼠标变为黑色十字,右键点击之后向下拉,拉至你想要的结束的单元格,松手,会弹出菜单,根据自己的需要选择菜单,下图分别是选择序列,以工作日填充,以月填充,以年填充。最后的结...

2019-07-28 18:08:00 301

原创 excel的使用技巧,笔记1,权亮

一 Excel的使用技巧1 定位条件:查找空单元格将下方的表格中空单元格一次全部找出,并将它们同时填入数字一百。解答:全选表格,之后再查找和选择上,选择条件格式,选择出所有空值后,输入100,表格将会在第一个空格输入100,如果我们想要所有选中的表格都输入100,那我们就在输入一百后,不是按enter键,而是按ctrl+enter键。2 定位条件:复制分类汇总结果将下列表格,首先对不...

2019-07-28 17:48:35 215

原创 mysql数据库的基础知识和操作,笔记3,权亮

AS 用来重命名 表名或者字段名,只是在查询中有效。作用省事。同时用来解释说明,将子查询重命名,当表用,在查询命令内,定义在后面,重命名在前面也有效。Limit 整数值,连续显示前多少个整数值的信息,写在最后,Limit 整数值,整数值。两个参数时候,第一个参数代表开始元素也就是开始的行的位置,第二个参数代表连续的数值。0代表起始第一行位置。Limit 2,3,也就是第三行,连续三个,...

2019-07-18 14:36:51 5479

原创 mysql数据库的基础知识和操作,笔记2,权亮

Use 数据库,是未来使用数据库的必要的操作,之后才能使用这个数据库内的数据表格。Mysql workbench 左侧观看SCHEMAS,刷新按钮,下面可以看到新建的数据库。Utf8,数据库的编码格式,编码结构一致,Excel 的编码格式Ansi,文件分为文本文件和二进制文件,文本文件可以用记事本打开,可以认出来内容。二进制文件在文本里打开是二进制编码。文本文档在转换成excel文件格式...

2019-07-17 10:12:24 208

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除