to be a good girl-CSDN博客

原创回归分析

前言本文只是记录回归分析中所可能使用到的代码，具体的知识点及调参方法并未记录from sklearn.model_selection import train_test_splitimport numpy as npfrom sklearn import datasets,linear_modelimport pandas as pddata = pd.read_csv("data...

2020-02-02 22:53:27 278

一、前言参数估计（parameter estimation），统计推断的一种。根据从总体中抽取的随机样本来估计总体分布中未知参数的过程。从估计形式看，区分为点估计与区间估计：从构造估计量的方法讲，有矩法估计、最小二乘估计、似然估计、贝叶斯估计等。要处理两个问题：（1）求出未知参数的估计量；（2）在一定信度（可靠程度）下指出所求的估计量的精度。信度一般用概率表示，如可信程度为95%；精度用估计量与...

2019-12-23 00:30:47 4603

原创 python 抽样分布实践

本次选取泰坦尼克号的数据，利用python进行抽样分布描述，主要是提供实现代码，具体的理论知识不会过多涉及。（注：是否服从T分布不是进行t检验~）字段说明：Age:年龄，指登船者的年龄。Fare:价格，指船票价格。Embark:登船的港口。需要验证的是：1、验证数据是否服从正态分布？2、验证数据是否服从T分布？3、验证数据是否服从卡方分布？我们选取年龄作为栗子进行数据验证。...

2019-12-08 23:07:58 506

转载 Python实现概率分布

一、概率分布概率分布，是概率论的基本概念之一，主要用以表述随机变量取值的概率规律。为了使用的方便，根据随机变量所属类型的不同，概率分布取不同的表现形式。概率分布包括离散概率分布和连续概率分布。离散数据：数据由一个个单独的数值组成，其中的每一个数值都有相应概率。连续数据：数据涵盖的是一个范围，这个范围内的任何一个数值都有可能成为事件的结果。离散概率分布包括：伯努利分布、二项分布、几何分布、...

2019-11-24 23:55:49 1476

原创数据的概括性度量

数据的概括性度量中所用到的相关知识点词汇：相关的代码实现：import pandas as pdimport numpy as npimport matplotlib.pyplot as pltpath = "D:\\数据\\wblc\\breast-cancer-wisconsin_data.csv"data = pd.read_csv(path, encoding = "UTF...

2019-10-05 15:43:09 959

原创杜邦分析仪的制作

需要用到的知识点：1、OFFSET函数2、粘贴链接的图片3、match函数4、控件OFFSET(reference, rows, cols, [height], [width])返回对单元格或单元格区域中指定行数和列数的区域的引用。返回的引用可以是单个单元格或单元格区域。可以指定要返回的行数和列数。Reference : 必需。要作为偏移基准的参照。引用必须引用单元格...

2019-10-04 20:02:54 1228

原创 python实现选择排序法

1、选择排序法不是稳定排序法，空间复杂度为最佳，只需一个额外空间2、无论是最坏情况、最佳情况还是平均情况都需要找到最大值（或最小值），因此比较的次数是（n-1) + (n-2) +…+3 + 2+1 = n(n-1)/2, 时间复杂度为O（n^2)3、此排序法适用于数据量小或有部分数据已经过排序的情况数据从小到大排序：def showdata(data): for i in ...

2019-09-21 21:06:15 463

原创 python实现冒泡排序法

1、冒泡排序法是稳定排序法，空间复杂度最佳为1；2、最坏和平均情况需要进行n(n-1）/2次扫描，时间复杂度为O(n^2)3、最好的情况只需要进行一次扫描，n-1次比较，时间复杂度为O（n);4、此排序法适用于数据量小或有部分数据已经过排序的情况把数据从小到大进行排序：def showdata(data): for i in range(len(data)) : # 使用循...

2019-09-21 20:36:30 883

原创数据百问系列之七：在Hive中遇到了数据倾斜该如何处理？

本次讨论的主题是：在Hive中遇到了数据倾斜该如何处理？问题：你在工作中有哪些小技巧或者套路来处理数据数据倾斜问题？分析：本话题是一个发散性的话题，并没有限制太多的内容，主要是想跟大家讨论一下当我们在工作中遇到数据倾斜的时候，大家都是怎么处理这一类问题的，有什么小技巧或者套路来处理这一块的问题?对于这个话题，我觉得群友们的讨论已经很极致了，所以下面的文章中我就根据大家讨论的情况...

2019-09-18 23:56:04 277

原创数据百问系列之六：数据仓库中的主题域是如何划分的？

本次讨论的主题是：数据仓库中的主题域是如何划分的？问题：你在工作中和交流中，有主题域划分的例子可以分享吗？分析：本话题是一个发散性的话题，并没有限制太多的内容，主要是想跟大家讨论一下在工作和交流中大家都是怎么划分主题域的。对于这个话题，我觉得群友们的讨论已经很极致了，所以下面的文章中我就根据大家讨论的情况对这个话题进行一个整理与补充一点个人的理解(站在巨人们的肩上看问题~)关...

2019-09-18 23:09:56 11440 1

原创数据分析流程

数据分析的流程有六步：一、商业理解：本阶段的要点：定义商业需求评估现状定义数据挖掘/分析的目标准备项目计划二、数据理解本阶段的要点：收集数据描述数据识别及探索数据三、数据准备本阶段的要点：选择数据清理数据结构化数据集成数据格式化数据四、建立模型本阶段的要点：选择技术设计测试建立模型评估模型五、阶段评估本阶段的要点：评估结果复...

2019-09-06 22:18:23 258

原创 python extend和append的区别

区别：append() 方法向列表的尾部添加一个新的元素。一次只接受一个参数;extend()方法只接受一个列表作为参数，并将该参数的每个元素都添加到原有的列表中；demo:a = ["a", "b"]b = ["c", ["d", "e"]]append循环：for i in b: a.append(i)aextend循环：for i in b: a.e...

2019-09-06 13:00:19 130

原创统计学系列：平均工资背后的统计学知识

0x00 前言让我们从最近很火的一个小案例入手：前些日子，腾讯发表了上半年的财报，随后，“腾讯月平均工资破7万”的消息不胫而走，也因此催生了不少柠檬树。不管你酸不酸，反正我是很酸的，于是乎，就跑去问了居士：“大佬，你的工资有7w+吗？”居士曰：“我倒是希望我的工资能有7w+…”他这么一说，我突然就不酸了，哈哈哈，原来居士也是“被平均”了的一分子(可能这就是一种阿Q式的心理安慰了)。那么站在统...

2019-09-05 17:33:36 3111

原创数据百问系列之五：什么是数据资产?

本次讨论的主题是：什么是数据资产？问题：大家所处的工作环境里面，有没有和数据资产相关的项目或者使用场景？分析：本话题是一个发散性的话题，并没有限制太多的内容，主要是想跟大家讨论一下关于“数据资产”这个话题，大家在都是怎么理解的。对于这个话题，我感觉需要拆开来看，首先需要先弄懂什么是数据？其次是弄懂什么是资产？最后再综合讨论一下什么是数据资产？关于数据：1、数据(data)...

2019-09-05 17:25:34 1913

原创人物访谈：会计成功转型数据分析

今天，跟着大佬去访谈了某大厂的一个数据分析师罗生，问到的问题很多，在讲述自己从会计转型到数据分析的过程中的思想及准备，我觉得对自己的启发很大，故记之。背景介绍：罗生原先毕业于一所三本的学校，大学读的是财会专业，毕业后顺利地在一所二线城市找了一份还算不错的会计工作，但因某次闲聊中知晓了同部门大佬级别的工资，故决定要转型，不想自己就这么一直做下去。转型的时候，听从了堂姐的建议，决定转型数据行业。...

2019-09-05 17:18:39 948

原创 CASE WHEN数据归类

student表通过s_id与score表连接score表通过c_id与course表连接student表的数据score表的数据:course表里面的数据通过case when 和group by 函数将输出的结果按照姓名横向排序便于观察数据tips: group by之后的数据只返回第一行， case when 进行判断后的数据也只返回第一行，所以需要使用max函数将case...

2019-09-02 20:02:05 239

原创 SQL之limit

limit可以用来按照位置抽取记录用法:select * from table limit start, numberstart 表示数据开始检索的位置，number表示需要抽取的数据数量。栗子：从第5个记录开始抽取10条数据：select * from table limit 4, 10; ...

2019-09-01 17:26:04 198

原创 SQL查询连续记录

目的：编写一个语句查询出连续三条记录的人数不少于100的记录记录：记录中的visit_date是连续的，但是people的数量是不一样的，输出结果：思路：先将人数大于100的查询出来select * from data WHERE people >= 100输出来的结果：接下来我需要在这个表格的基础上找出至少连续的三条记录。这里我使用的是以ip为一条记录。思路：先...

2019-08-31 11:55:15 2810

原创用python实现时间序列自相关图(acf)、偏自相关图（pacf)

自相关图是一个平面二维坐标悬垂线图。横坐标表示延迟阶数，纵坐标表示自相关系数偏自相关图跟自相关图类似，横坐标表示延迟阶数，纵坐标表示偏自相关系数自相关图与偏自相关图的python代码实现：from statsmodels.graphics.tsaplots import plot_acf, plot_pacfplot_acf(b.salesVolume)plot_pacf(b.s...

2019-08-30 16:21:39 41617 12

原创用python实现时间序列白噪声检验

白噪声检验也称为纯随机性检验，当数据是纯随机数据时，再对数据进行分析就没有任何意义了，所以拿到数据后最好对数据进行一个纯随机性检验acorr_ljungbox(x, lags=None, boxpierce=False) # 数据的纯随机性检验函数lags为延迟期数，如果为整数，则是包含在内的延迟期数，如果是一个列表或数组，那么所有时滞都包含在列表中最大的时滞中boxpierce...

2019-08-30 15:52:27 13958 2

原创用python实现时间序列单位根检验

在时间序列的建模中，需要先对数据进行平稳性检验，常用的有DF检验、ADF检验和PP检验，文章实例ADF检验注：检验的P值是只在一个假设检验问题中，利用样本观测值能够作出拒绝原假设的最小显著性水平。如果a >= p, 则在显著性水平a 下拒绝H0如果a < p,则在显著性水平a下接受H0实现方法一：from arch.unitroot import ADFADF(dat...

2019-08-30 15:15:08 4708 3

原创数据百问系列之三：关于未知数据的处理

数据百问系列之三：关于未知数据的处理本次讨论的主题是：数据维度分类中，习惯将无法归类或者数据模糊的归为“未知”,那么对于这些未知数据，我们应该怎么处理呢?问题：1、“未知”对数据分析和可视化有什么影响？好处和坏处是什么？2、需求方经常反馈看不懂“未知”数据，认为“未知”数据量级过大，你会怎么处理这种情况的？示例：比如每个城市的用户数北京 123上海 123……未知：23...

2019-08-27 21:34:19 682

原创数据百问系列之四：产品经理的能力期望

本次讨论的主题是：对于数据产品经理的突出能力，你更看重哪一方面？问题描述：现在有两个产品可能会和你合作：1、一个产品，不懂技术细节，但是能给你带来业务价值，能帮你把数仓推广到全公司，帮你在老板前露脸2、另一个产品，对数仓很了解，甚至能帮你设计一套数据仓库，可能比你设计的还好，但是其他方面一般般，比较偏研发这两个产品，你会选哪个做你们的合作伙伴？请说出你的理由！分析：本话题是一...

2019-08-27 21:29:17 233

原创数据挖掘知识点串烧：逻辑回归

数据挖掘知识点串烧：逻辑回归0x00 前言我们知道，回归模型可以解决因变量为连续变量的问题，但是，如果因变量为分类变量的话，用回归的方法就行不通了。这个时候我们就得选择用其他的分类方法了，如决策树、随机森林、SVM等。而本篇文章要说的逻辑回归也是一种很好的分类方法。我们需要明确的一点是，逻辑回归虽然是“回归”，但是它本质上是一种二分类算法，用来处理二分类问题的。0x01 走近逻辑回归问题1...

2019-08-27 14:35:06 234

原创数据百问系列之二：游戏DAU骤降分析

游戏DAU骤降分析问题描述：假设你在一家游戏公司做数据分析，现在发现从8月份开始公司运营的某款游戏出现了DAU骤降的现象，你该如何分析这个现象？对于这个话题，我感觉可以从对内和对外两个方向进行分析，但是不管是哪一个方向，我觉得都应该先着手于最简单的方面去定位问题，所以下面的总结步骤中可能会有跳转的情况，因为我个人认为在数据分析过程中出现了问题是要对问题进行定位，定位到造成该问题的原因了，则需要...

2019-08-24 23:54:10 2648

原创数据百问系列之一：你认为数据开发需要了解机器学习算法吗？

你认为数据开发需要了解机器学习算法吗？对于这个话题，我觉得了解机器学习算法还是很有必要的，不过有必要并不意味着就需要马上去学习。是否现在就要学习算法取决于你现在所处的状态及位置。刚入职不久的小萌新：如果你是刚入职场不久，那么我觉得此时掌握开发技术才是最重要的。在这个阶段，与其花费时间去了解机器学习，不如多花一点时间在打根基上。此时，多花点时间了解开发方面的知识、理解工作上的需求、掌握必要的开...

2019-08-24 23:50:32 215

原创 rank()、dense_rank()、row_number()的区别

rank()、dense_rank()、row_number()的区别1、rank()over()跳序排序, 数据查出来后的排名顺序为1、2、2、4、5的形式select id , rank() over( [partition by xxx] order by xx ) "rank" from table;-- partitoion by 可以是分区或者分组2、dense_ran...

2019-08-21 17:57:47 252

原创 python简单实现支持向量机

支持向量机（SVM）代码实现支持向量机是一个重要的分类算法，在上一篇文章中简单地介绍了它的一些理论知识，这篇文章是简单讲一下如何用python训练一个svm模型导入所需的数据库import numpy as npfrom sklearn import datasetsfrom sklearn.pipeline import Pipelinefrom sklearn.preproce...

2019-08-08 22:14:35 728

原创数据挖掘之朴素贝叶斯

上篇内容：数据挖掘面试之SVM0x00 前言我们知道，概率模型的训练过程其实就是求参数估计的过程。贝叶斯学派认为参数是随机变量，其本身也可以有分布，我们可以通过假定参数服从一个先验分布，然后基于观测到的数据来计算参数的后验分布。而在许多招聘数据挖掘工程师岗位的要求中，熟悉贝叶斯算法算是基础的要求了。本篇文章主要是讲在面试中可能会遇到的贝叶斯算法中的朴素贝叶斯问题。0x01 贝叶斯准备知识问...

2019-08-05 13:51:44 1010

原创数据挖掘面试之SVM

SVM（上）理论知识本文简单讲述了SVM的一些小问题~0x00 前言有人认为支持向量机是所有机器学习算法中最难的一个了，但是仔细去看数据挖掘的招聘要求，你会发现支持向量机(SVM)出现的频率异常地高。果然，该过的坎再难都得跨，那就让我们一起来看看SVM究竟是什么吧~0x01 初始SVM问题1：你能给我讲讲什么是SVM吗？回答：SVM是一种二分类模型，它的基本模型是在特征空间中寻找间隔最...

2019-08-04 13:37:00 387

原创逻辑回归（下）代码实现

预测癌症状况data = pd.read_csv('./data.csv')data = data.replace(to_replace = '?', value = np.nan).dropna()对数据进行划分x = data.loc[:, data.columns != 'Class']y = data.loc[:, data.columns == 'Class']x_trai...

2019-07-24 22:54:04 206

原创逻辑回归（上）理论知识

逻辑回归理论知识一、什么是逻辑回归逻辑回归是一种二分类算法，一般只用来解决二分类问题，但是它也可以用来解决多分类问题，当使用它来解决多分类问题的时候，由于逻辑回归的特点，我们一般将多分类问题转化为二分类问题，这里多分类问题的转化有三种拆分策略，分别是一对一、一对其余和多对多，通过多分类拆分策略，我们可以使用逻辑回归来进行多分类问题的预测，但是这种方法我们一般不用，因为多分类问题我们可以使用随机...

2019-07-21 17:05:59 286

原创 sklearn训练模型的保存与加载

使用joblib模块保存于加载模型在机器学习的过程中，我们会进行模型的训练，最常用的就是sklearn中的库，而对于训练好的模型，我们当然是要进行保存的，不然下次需要进行预测的时候就需要重新再进行训练。如果数据量小的话，那再重新进行训练是没有问题的，但是如果数据量大的话，再重新进行训练可能会花费很多开销，这个时候，保存好已经训练的模型就显得特别重要了。我们可以使用sklearn中的joblib模...

2019-07-20 23:49:01 6656 2

原创决策树（下）代码实现

决策树python代码实现目的：使用决策树预测糖尿病数据源: https://www.kaggle.com/uciml/pima-indians-diabetes-database#diabetes.csv# 导入数据包import pandas as pdfrom sklearn.tree import DecisionTreeClassifierfrom sklearn.model...

2019-07-15 23:46:42 327

原创决策树（上）理论知识

决策树理论知识一、学习目的决策树学习的目的是为了找到产生一颗泛化能力强，即处理未见示例能力强的决策树，遵循“分而治之”的策略。二、信息熵、信息增益、基尼系数1、信息熵：熵是表示随机变量不确定性的度量。（简单点理解就是：如果你去苹果专卖店买手机，那么苹果手机在苹果专卖店中存在的概率就很大，相对的，信息熵就很小。而你去杂货店买本子，因为杂货店的货物比较混乱，那本子在杂货店中存在的概率...

2019-07-15 21:15:53 322

原创主成分回归python实现

主成分分析python实现这是我一直都想写的内容，但是迟迟没有动手开始写，主要的原因是没有理解python中PCA降维后再进行回归时应该要怎么做。再网上查了很多资料，也没有这方面的讲解，书上也是讲到了PCA降维就结束了。以下是我使用R语言的思想写的code,日后若找到相关的内容再进行修改。先介绍一下sklearn中PCA模型的参数及方法：参数：n_components ： int，floa...

2019-06-10 22:40:56 11515 9

原创主成分分析理论知识

主成分分析理论知识1、主成分分析是将多指标化为少数几个综合指标的一种统计分析方法。在实际问题中，研究多指标的问题是经常遇到的问题，由于变量个数太多，彼此之间存在着一定的关联性，因而使得所观测到是数据在一定程度上所反映的信息会有所重叠。主成分分析是一种降维的思想，利用较少的变量尽可能多地反映原来变量的信息，而且彼此之间互不相关。2、主成分分析的应用：指标分类（变量分类）、样品分类、样...

2019-06-09 21:20:06 2629

原创 Mysql的基础操作

SHOW STATUS，用于显示广泛的服务器状态信息；SHOW CREATE DATABASE和SHOW CREATE TABLE，分别用来显示创建特定数据库或表的MySQL语句；SHOW GRANTS，用来显示授予用户（所有用户或特定用户）的安全权限；SHOW ERRORS和SHOW WARNINGS，用来显示服务器错误或警告消息。检索数据SELECT DISTINCT COLUMN...

2019-05-29 23:14:46 110

原创数据挖掘基础知识

主要的数据挖掘模块：NumpyPandasmatplotlibStatsModelsScipyScikit-LearnKerasGensimpandas中的一些函数DataFrame或者Series的对象方法名函数功能sum()求和（按列）mean()算数平均数var()方差std()标准差corr()Spearman...

2019-05-29 23:10:39 256

原创 Django虚拟环境配置

Django虚拟环境配置如果在开发的过程中需要使用到同一个包的不同版本（不同版本的代码会有所不同），这个时候，如果是在同一个目录下安装或者更新包，那么其他版本的代码可能就无法运行了。为了解决这个问题，我们可以使用虚拟环境进行项目之间的隔离。总的来说，就是虚拟环境就是复制真实python中的环境，在复制的python中安装包不会影响到原python中的代码，通过多个虚拟环境可以实现项目之间的隔离...

2019-03-23 16:54:48 348

空空如也

空空如也