Distrlili-CSDN博客

原创 read_csv()报错

当用pd.read_csv( )出现 OSError: Initializing from file failed 问题时，一般是因为参数文件名或文件路径包含中文，所以改为f = open(path)data = pd.read_csv(f)即可解决。...

2020-03-05 19:47:31 410

原创时间序列的总结

总结工作中用到的时间序列相关内容。1、指数平滑的理论指数平滑R实践# 基础包里的函数HoltWinters()# 非季节性简单指数平滑 — models level（即上面简单指数平滑法）fit <- HoltWinters(myts, beta=FALSE, gamma=FALSE)# 非季节性性趋势模型 - models level and trendfit <- ...

2020-03-04 23:49:19 1031

原创将Chrome设置为Jupyter_notebook的默认浏览器

1.获取Jupyter_notebook配置文件我们首先需要找到Jupyter_notebook的配置文件jupyter_notebook_config.py在哪里，配置文件里面保存着Jupyter_notebook的各种设置。打开Anaconda Promt，运行以下命令就可以得到配置文件的路径。用编辑器（我用的sublime）打开文件jupyter_notebook_config.py，...

2020-02-25 22:25:17 1143 1

原创 Jupyter Notebook 修改默认路径

Jupyter Notebook 工作空间 / 默认路径的设置方式Jupyter notebook启动后，默认的工作空间是当前用户目录。为了方便对文档进行管理，往往需要自行设置工作空间。下面介绍两种亲试有效的工作空间设置方法。第一步：修改快捷方式对 Jupyter notebook 快捷方式进行修改。右击 Jupyter notebook 快捷方式 -> 属性把“目标”中的 %...

2020-02-25 22:08:55 338

原创用户分析的案例

一些常用逻辑：问题1：分析不同用户群体在几个月”户均购买量“的变化情况。定义分组：根据”历史使用产品的频率“作为分组条件，如3个典型分组（经常、偶尔、极少）定义用户生命周期：以自然月份为周期定义指标：考察”户均购买量“【用户的使用频率，产功能的复杂度角度考虑。】结合对产品近期优化升级的了解，可以得出，该产品优化过于偏重熟练用户，提供了很多高级复杂的操作功能，对经常使用的用户...

2020-02-25 00:20:26 1549

原创观察数据时易出错的点

观察数据，推断结论时，常见的错误：错误1：不谨慎的归因，造成相关性的误解。广告投入和流失率之间的相关性属于相关，不是因果关系。他们的共同的原因是“客户认可广告效果”，因为客户认可，所以投入广告费用比较高，因为客户认可广告效果，所以流失率比较低。错误2：比较对象不当，造成：缺失或不匹配的比较。合理比较对象的选择：自身历史与历史同期比较，例如去年或上个季度。如：由于今年营销...

2020-02-22 23:12:17 406

原创离散变量的重编码

在建模的过程中离散型的字符变量是不能直接用于建模，需要对这些变量进行重编码。重编码的方法有多种，字符型的值转换为整数型的值、哑变量处理（0-1变量）、One-Hot热编码（类似于哑变量）。1.字符转数值的方法处理前的数据集：for feature in income.columns:if income[feature].dtype == ‘object’:income[feature...

2019-07-11 00:57:02 1202 1

原创 groupby()函数的size()和count()用法

Data_loan.groupby(['DataPhase','CreditRank']).size().reset_index()Data_loan.groupby(['DataPhase','CreditRank'],as_index=False)['BorrowerState'].count()

2019-07-02 10:47:27 8540

原创 python——类型转换和冗余数据删除

1.类型转换import pandas as pdimport datetime一般我们拿到日期型数据时，基本都是字符串表示的，该如何将其转换为日期型和日期时间型。法1：dt = '2019/06/13 16:16:39'd = '2017-04-24'str2datetime = datetime.datetime.strptime(dt,'%Y/%m/%d %H:%M:%S'...

2019-06-28 15:19:55 1159

转载 Hive- 序列函数

数据集如下：cookie1,2015-04-10,1cookie1,2015-04-11,5cookie1,2015-04-12,7cookie1,2015-04-13,3cookie1,2015-04-14,2cookie1,2015-04-15,4cookie1,2015-04-16,4cookie2,2015-04-10,2cookie2,2015-04-11,3cook...

2019-06-20 14:30:22 3294

转载 Hive - 聚合函数+ 窗口函数

1.partition by 定义的分组，具有累计的功能，会返回每个组中的成员。另外partition by字句的优点是：在同一个select语句中，一个窗口函数的计算独立于按其他列分区的其他窗口函数的计算。当在窗口函数over字句中使用order by 字句时，就指定了两件事：1、分区中的行如何排序2、在计算时对哪些行进行累计1、创建表create database if not ...

2019-06-20 13:56:15 1661

转载 Hive查询函数（二）

1、汇总统计函数count() ：个数统计函数collect_set ：集合去重数，语法: collect_set (col)，将 col 字段进行去重，合并成一个数组。collect_list ：集合不去重函数2、表格生成函数explode：数组拆分成多行，语法: explode(ARRAY)，返回值: 多行说明: 将数组中的元素拆分成多行显示3、Map 拆分成多行，语法:...

2019-06-20 11:50:55 476

转载 Hive 基础（-）

1.Hive创建表 - 默认创建外部表create table student (id int,name string, sex string, age int, department string ) row format delimited fields terminated by ",";关键字ROW FORMAT DELIMITED指定表的分隔符，通常后面要与以下关键...

2019-06-20 11:27:00 478

原创 python -- apply() 求某列数据与其均值的差

已知一个DataFrame的数据集rr为：计算R_interval、F_value、M_value每列数据与其均值的差。若下面这样筛选数据则会报错，一直没找到具体原因。rr['R_interval'].apply(lambda x:x-x.mean()).head()但是若用双方括号则不会报错，如下图:![在这里插入图片描述](https://img-blog.csdnimg....

2019-06-18 12:44:11 3489

转载 lambda 与 if else 函数的用法

sourcedf[‘地区’]=sourcedf[‘exam_district’].apply(lambda x:“全国” if x1 else (“北京” if x3 else(“上海” if x==24 else “其他地区”)) )原文：https://blog.csdn.net/weixin_40161254/article/details/86231869...

2019-06-18 12:35:38 10846

原创 sqlzoo-names

1.找出所有首都和其国家名字，首都中要有国家名字出现。SELECT capital,nameFROM worldWHERE capital LIKE concat('%',name,'%')concat连接字符串，capital LIKE concat(‘%’,name,’%’)...

2018-07-12 15:03:26 272

原创 SQLzoo-select from world

1.展示以人口或面积为大国的国家，但不能同时两者SELECT name,population,areaFROM world WHERE (area>3000000 AND population<250000000) OR (area<3000000 AND population>250000000);2.查询以N开头的国家,Oceania用australasia...

2018-07-12 14:02:47 424

原创 python基础

BIF——内置函数组（suite）：python 代码块，通过缩进来指示分组IDLE shell : ALT+P 前一个代码；ALT + N 表示下一个标志符是指示数据对象的名字。标识符没有类型，标识符所指示的数据对象有类型。列表是一个数据集合，数据项之间用逗号分隔，整个列表用中括号包围。列表可以存放任意数据，而且数据可以是混合类型。列表还可以包含其他列表。列表可以随需要伸...

2018-07-09 15:36:45 283

原创 CASE WHEN 嵌套

记录CASE WHEN 流程控制语句SELECT 'PAID' AS '维度', CASEWHEN t2.PRINCIPAL_DUE IN ('1000', '1700') THENIF ( SUM(t1.ORDER_AMT) &gt;= t2.PRINCIPAL_DUE * 0.7, t2.PRINCIPAL_DUE * 0.7, SUM(t1.O...

2018-07-06 11:09:12 2852

原创索引的原理

面试题目：索引的原理及分类？简单了解一下。索引的原理：索引类似于书的目录，当表中的数据量很大时，索引可以提高数据的检索速度。没有建立索引时，查询name=”TOM”需要将表中的记录全部搜索一遍，因为可能有重名的。而建立了索引之后，索引会对每个name的值构建索引条目（name,rowid），存储到索引段中，查询时直接找到name为TOM即可直接找到目的地。索引只是用于优化wh...

2018-05-29 22:06:43 593

原创 Python 基础

工具：Python 3 IDE:Python3自带的IDLEIDLE可以区分颜色的语法来突出显示代码； IDLE很清楚Python的缩进语法；输入部分代码，TAB键可以提供一些待选项提示； ALT-P 回退 ALT_N 移到下一个列表#创建一个列表movies=["The Holy Grail","The Life of Brain","The Meaning of ...

2018-05-28 23:20:55 325

原创数据迁移 CREATE TABLE .... AS ...

再做一些数据迁移时候，很多人会使用create table new_table as select * from table old_table where id=-1的方式来年建立一摸一样的表，但是这样做有个很大的弊端，不能将原表中的default value也一同迁移过来。...

2018-05-27 21:45:42 395

转载 SQL 注释语句 ("--"与"/.../")

（1）–：表示单行注释（2）/…/：用于多行（块）注释例： use pubs –选择数据库 –first line of a multiple-line comment./first line of a multiple-line comment. second line of a multiple-line comment./...

2018-05-27 21:42:19 9360

原创 excel函数

excel数据分析过程中的总结： 1、输入法：英文状态 2、通过公式计算得出的结果，无法直接引用。如果要引用，可以复制这一列的数值粘贴到后面一列。复制“该列结果”列—新的粘贴位置点鼠标右键—选择“选择性粘贴”—选中“数值”—点“确定”。3、一列数据套用相同公式，如下操作： Excel有很多强大的函数，这篇文章主要介绍各种函数的用途。实战会后续文章讲解。1、清洗处理类...

2018-03-25 21:38:35 727

转载 excel数据分析案例

背景：现用Python爬取了某求职网站上关于数据分析的数据，我希望知道数据分析是个怎样的职位？它的工资和薪酬是多少？它有哪些特点，需要掌握哪些能力？哪些公司会招聘这样一个岗位？1、数据有无缺失值？数据的缺失值很大程度上影响分析结果。引起缺失的原因很多，例如技术原因，爬虫没有完全抓去，例如本身的缺失，该岗位的HR没有填写。如果某一字段缺失数据较多（超过50%），分析过程中要考虑是否删除该...

2018-03-24 22:33:31 17284 6

原创 LeetCode SQL刷题

1、表联合 Table1: Person (PersonId is the primary key column for this table.) Column Name Type PersonId int FirstName varchar LastName varcharTable2: Address (AddressId is...

2018-03-12 12:57:14 1114

原创 MySQL error———You can't specify target table 's' for update in FROM clause

[Err] 1093 - You can’t specify target table ‘s’ for update in FROM clause执行SQL语句时出现这个错误。原因是在更新这个表和数据时又查询了它，而查询的数据又做了更新的条件。MySQL不允许在修改表S的同时在其子查询中使用到表S，但是可以通过在子查询中在嵌套一层针对表S的子查询，因为最里层的子查询产生的结果存在临时表中，...

2018-03-11 15:31:51 322

转载 SQL常见面试题

1.用一条SQL 语句查询出每门课都大于80 分的学生姓名name kecheng fenshu 张三语文 81 张三数学 75 李四语文 76 李四数学 90 王五语文 81 王五数学 100 王五英语 90#按...

2018-03-11 14:58:47 422

转载 SQL Select查询原理--查询语句执行原则（基础）

1.单表查询：根据WHERE条件过滤表中的记录，形成中间表（这个中间表对用户是不可见的）；然后根据SELECT的选择列选择相应的列进行返回最终结果。SELECT 字段 FROM 表名 WHERE 条件表达式那它们是按什么顺序执行呢？分析器会先看语句的第一个词，当它发现第一个词是SELECT关键字的时候，它会跳到FROM关键字，然后通过FROM关键字找到表名并把表...

2018-03-09 21:54:02 1258

转载经典的数据库查询例题

原文：http://www.cnblogs.com/dlexia/p/4449841.htmlhttp://blog.csdn.net/a379850992/article/details/55655495纸上得来终觉浅，绝知此事要躬行。理论知识要靠实践来加强。1.创建四个表学生表，课程表和成绩表。 Teacher教师表(教工编号Tno，教工姓名Tname，教工性别Tsex，教工...

2018-03-07 21:44:20 6373

转载 SQL中分组查询的执行次序

1、group by 的执行的过程：先执行select 的操作返回一个程序集，然后去执行分组的操作，这时候他将根据group by 后面的字段进行分组。2.当同时含有where子句、group by 子句、having子句及聚集函数时，执行顺序如下：–执行where子句查找符合条件的数据；–使用group by 子句对数据进行分组；对group by 子句形成的组运行聚集函数...

2018-03-07 21:26:44 601

原创众数插值法

自定义众数函数stat.mode <- function(x, rm.na = TRUE){ if (rm.na == TRUE){ y = x[!is.na(x)] } res = names(table(y))[which.max(table(y))] return(res) }自定义函数，实现分组替补my.impute <- function(data, c

2017-01-20 11:17:59 2045

原创哑变量的处理

将几个离散变量转换为因子，目的便于下面一次性处理哑变量final_housecluster<−factor(clust cluster <- factor(clustcluster) final_housefloow<−factor(final h ouse floow <- factor(final_housefloow) final_housetype.new<−factor(final h

2017-01-20 11:00:25 3553

原创 k-means的分类数目

k-means聚类的类数确定根据类内离差平方和最小，类间离差平方和最大的原则自定义函数tot.wssplot <- function(data, nc, seed=1234){ #假设分为一组时的总的离差平方和 tot.wss <- (nrow(data)-1)*sum(apply(data,2,var)) for (i in 2:nc){ #必须指定随机种子数

2017-01-20 10:58:31 2874

原创交叉检验的实现

在k重交叉验证中，样本被分为k个子样本，轮流将k–1个子样本组合作为训练集，另外1个子样本作为保留集。这样会获得k个预测方程，记录k个保留样本的预测表现结果，然后求其平均值。（当n是观测总数目，且k为n时，该方法又称作刀切法，jackknifing。）目前实现了交叉检验的两种实现方法： 1.boot包里的cv.glm()函数主要用来做广义线性模型的交叉验证，一般与glm（）函数一起使用。

2016-12-26 18:56:16 2829

原创线性回归的正态性检验及其诊断问题

单变量正态检验主要的话包括以下这些 shapiro.test();#Shapiro-Wilk检验 ,样本量小于5000 ks.tyest();#Kolmogorov-Smirnov检验，可用于大样本但是要求样本中不能出现相同的值library(“nortest”); lillie.test() #Kolmogorov-Smirnov检验 ad.test() #Anderson-Darling

2016-12-26 17:37:00 5753

原创判别系数的通俗理解

1.可决系数R^2的通俗理解对于一元线性回归，R2就是简单相关系数的平方；对于多元线性回归，R2是复相关系数的平方。复相关系数实际上就是y和fitted(y)的简单相关系数。 1.read.table(“clipboard”, header = FALSE,fill = TRUE, blank.lines.skip = FALSE) 若想保留csv文件中的空白行，参数fill和bla

2016-12-26 17:34:02 1791

转载回归分析中的多重共线性问题

最近做回归分析，出现了相关系数与回归方程系数符号相反的问题，经过研究，确认是多重共线性问题并探索了解决方法。在此将多重共线性的相关知识整理如下。解释变量理论上的高度相关与观测值高度相关没有必然关系，有可能两个解释变量理论上高度相关，但观测值未必高度相关，反之亦然。所以多重共线性本质上是数据问题。造成多重共线性的原因有一下几种：1、解释变量都享有共同的时间趋势；2、一个解释变量是另一个的滞后，二者往往

2016-12-10 10:52:22 20538

原创 SELECT高级查询——连接查询、子查询（多表数据查询）

在实际中，经常是从多张表中查询数据。本节学习多表连接查询、子查询等高级SELECT语句的应用。1.简单连接查询多表查询是指SELECT命令中显示的列来源于多个数据表；连接查询将多个表以某个或某些列为条件进行连接操作而检索出关联数据的过程。多个表之间以共同列而关联在一起。1.1使用WHERE子句的简单连接查询用WHERE子句对数据记录限定检索条件，在WHERE子句中使用”...

2016-11-30 17:45:58 40025 4

原创 My SQL函数

SQL数据库的常用函数包括字符串函数、数值函数、日期时间函数、转换函数和正则表达式函数，以及一些聚合函数。1.字符串函数字符串函数主要用于对字符串数据的处理。函数含义 ASCII(string) 返回给定ASCII字符string的十进制值 CHAR(string) 返回给定整数integer所对应的ASCII字符 COUNT(st...

2016-11-28 16:32:04 803

空空如也

空空如也