1 DD-Kylin

尚未进行身份认证

数据分析,SQL,机器学习 升级打怪

等级
TA的排名 15w+

回归分析

前言本文只是记录回归分析中所可能使用到的代码,具体的知识点及调参方法并未记录from sklearn.model_selection import train_test_splitimport numpy as npfrom sklearn import datasets,linear_modelimport pandas as pddata = pd.read_csv("data...

2020-02-02 22:53:27

python实现参数估计

一、前言参数估计(parameter estimation),统计推断的一种。根据从总体中抽取的随机样本来估计总体分布中未知参数的过程。从估计形式看,区分为点估计与区间估计:从构造估计量的方法讲,有矩法估计、最小二乘估计、似然估计、贝叶斯估计等。要处理两个问题:(1)求出未知参数的估计量;(2)在一定信度(可靠程度)下指出所求的估计量的精度。信度一般用概率表示,如可信程度为95%;精度用估计量与...

2019-12-23 00:30:47

python 抽样分布实践

本次选取泰坦尼克号的数据,利用python进行抽样分布描述,主要是提供实现代码,具体的理论知识不会过多涉及。(注:是否服从T分布不是进行t检验~)字段说明:Age:年龄,指登船者的年龄。Fare:价格,指船票价格。Embark:登船的港口。需要验证的是:1、验证数据是否服从正态分布?2、验证数据是否服从T分布?3、验证数据是否服从卡方分布?我们选取年龄作为栗子进行数据验证。...

2019-12-08 23:07:58

Python实现概率分布

一、概率分布概率分布,是概率论的基本概念之一,主要用以表述随机变量取值的概率规律。为了使用的方便,根据随机变量所属类型的不同,概率分布取不同的表现形式。概率分布包括离散概率分布和连续概率分布。离散数据:数据由一个个单独的数值组成,其中的每一个数值都有相应概率。连续数据:数据涵盖的是一个范围,这个范围内的任何一个数值都有可能成为事件的结果。离散概率分布包括:伯努利分布、二项分布、几何分布、...

2019-11-24 23:55:49

数据的概括性度量

数据的概括性度量中所用到的相关知识点词汇:相关的代码实现:import pandas as pdimport numpy as npimport matplotlib.pyplot as pltpath = "D:\\数据\\wblc\\breast-cancer-wisconsin_data.csv"data = pd.read_csv(path, encoding = "UTF...

2019-10-05 15:23:15

杜邦分析仪的制作

需要用到的知识点:1、OFFSET函数2、粘贴链接的图片3、match函数4、控件OFFSET(reference, rows, cols, [height], [width])返回对单元格或单元格区域中指定行数和列数的区域的引用。 返回的引用可以是单个单元格或单元格区域。 可以指定要返回的行数和列数。Reference : 必需。 要作为偏移基准的参照。 引用必须引用单元格...

2019-10-04 18:52:48

python实现选择排序法

1、选择排序法不是稳定排序法,空间复杂度为最佳,只需一个额外空间2、无论是最坏情况、最佳情况还是平均情况都需要找到最大值(或最小值), 因此比较的次数是(n-1) + (n-2) +…+3 + 2+1 = n(n-1)/2, 时间复杂度为O(n^2)3、此排序法适用于数据量小或有部分数据已经过排序的情况数据从小到大排序:def showdata(data): for i in ...

2019-09-21 21:02:07

python实现冒泡排序法

1、冒泡排序法是稳定排序法,空间复杂度最佳为1;2、最坏和平均情况需要进行n(n-1)/2次扫描,时间复杂度为O(n^2)3、最好的情况只需要进行一次扫描,n-1次比较,时间复杂度为O(n);4、此排序法适用于数据量小或有部分数据已经过排序的情况把数据从小到大进行排序:def showdata(data): for i in range(len(data)) : # 使用循...

2019-09-21 20:08:01

数据百问系列之七: 在Hive中遇到了数据倾斜该如何处理?

本次讨论的主题是: 在Hive中遇到了数据倾斜该如何处理?问题:你在工作中有哪些小技巧或者套路来处理数据数据倾斜问题?分析:本话题是一个发散性的话题,并没有限制太多的内容,主要是想跟大家讨论一下当我们在工作中遇到数据倾斜的时候,大家都是怎么处理这一类问题的,有什么小技巧或者套路来处理这一块的问题?对于这个话题,我觉得群友们的讨论已经很极致了,所以下面的文章中我就根据大家讨论的情况...

2019-09-18 23:26:27

数据百问系列之六:数据仓库中的主题域是如何划分的?

本次讨论的主题是: 数据仓库中的主题域是如何划分的?问题:你在工作中和交流中,有主题域划分的例子可以分享吗?分析:本话题是一个发散性的话题,并没有限制太多的内容,主要是想跟大家讨论一下在工作和交流中大家都是怎么划分主题域的。对于这个话题,我觉得群友们的讨论已经很极致了,所以下面的文章中我就根据大家讨论的情况对这个话题进行一个整理与补充一点个人的理解(站在巨人们的肩上看问题~)关...

2019-09-18 23:06:34

数据分析流程

数据分析的流程有六步:一、商业理解:本阶段的要点:定义商业需求评估现状定义数据挖掘/分析的目标准备项目计划二、数据理解本阶段的要点:收集数据描述数据识别及探索数据三、数据准备本阶段的要点:选择数据清理数据结构化数据集成数据格式化数据四、建立模型本阶段的要点:选择技术设计测试建立模型评估模型五、阶段评估本阶段的要点:评估结果复...

2019-09-06 22:06:24

python extend和append的区别

区别:append() 方法向列表的尾部添加一个新的元素。一次只接受一个参数;extend()方法只接受一个列表作为参数,并将该参数的每个元素都添加到原有的列表中;demo:a = ["a", "b"]b = ["c", ["d", "e"]]append循环:for i in b: a.append(i)aextend循环:for i in b: a.e...

2019-09-06 12:54:59

统计学系列:平均工资背后的统计学知识

0x00 前言让我们从最近很火的一个小案例入手:前些日子,腾讯发表了上半年的财报,随后,“腾讯月平均工资破7万”的消息不胫而走,也因此催生了不少柠檬树。不管你酸不酸,反正我是很酸的,于是乎,就跑去问了居士:“大佬,你的工资有7w+吗?”居士曰:“我倒是希望我的工资能有7w+…”他这么一说,我突然就不酸了,哈哈哈,原来居士也是“被平均”了的一分子(可能这就是一种阿Q式的心理安慰了)。那么站在统...

2019-09-05 17:33:36

数据百问系列之五:什么是数据资产?

本次讨论的主题是:什么是数据资产?问题:大家所处的工作环境里面,有没有和数据资产相关的项目或者使用场景?分析:本话题是一个发散性的话题,并没有限制太多的内容,主要是想跟大家讨论一下关于“数据资产”这个话题,大家在都是怎么理解的。对于这个话题,我感觉需要拆开来看,首先需要先弄懂什么是数据?其次是弄懂什么是资产?最后再综合讨论一下什么是数据资产?关于数据:1、数据(data)...

2019-09-05 17:20:40

人物访谈:会计成功转型数据分析

今天,跟着大佬去访谈了某大厂的一个数据分析师罗生,问到的问题很多,在讲述自己从会计转型到数据分析的过程中的思想及准备,我觉得对自己的启发很大,故记之。背景介绍:罗生原先毕业于一所三本的学校,大学读的是财会专业,毕业后顺利地在一所二线城市找了一份还算不错的会计工作,但因某次闲聊中知晓了同部门大佬级别的工资,故决定要转型,不想自己就这么一直做下去。转型的时候,听从了堂姐的建议,决定转型数据行业。...

2019-09-05 16:54:55

CASE WHEN数据归类

student表通过s_id与score表连接score表通过c_id与course表连接student表的数据score表的数据:course表里面的数据通过case when 和group by 函数将输出的结果按照姓名横向排序便于观察数据tips: group by之后的数据只返回第一行, case when 进行判断后的数据也只返回第一行,所以需要使用max函数将case...

2019-09-02 20:02:05

SQL之limit

limit可以用来按照位置抽取记录用法:select * from table limit start, numberstart 表示数据开始检索的位置,number表示需要抽取的数据数量。栗子:从第5个记录开始抽取10条数据:select * from table limit 4, 10; ...

2019-09-01 17:26:04

SQL查询连续记录

目的:编写一个语句查询出连续三条记录的人数不少于100的记录记录:记录中的visit_date是连续的,但是people的数量是不一样的, 输出结果:思路: 先将人数大于100的查询出来select * from data WHERE people >= 100输出来的结果:接下来我需要在这个表格的基础上找出至少连续的三条记录。这里我使用的是以ip为一条记录。思路: 先...

2019-08-31 11:55:15

用python实现时间序列自相关图(acf)、偏自相关图(pacf)

自相关图是一个平面二维坐标悬垂线图。横坐标表示延迟阶数,纵坐标表示自相关系数偏自相关图跟自相关图类似,横坐标表示延迟阶数,纵坐标表示偏自相关系数自相关图与偏自相关图的python代码实现:fromstatsmodels.graphics.tsaplotsimportplot_acf,plot_pacfplot_acf(b.salesVolume)plot_pacf(b.s...

2019-08-30 16:21:39

用python实现时间序列白噪声检验

白噪声检验也称为纯随机性检验, 当数据是纯随机数据时,再对数据进行分析就没有任何意义了, 所以拿到数据后最好对数据进行一个纯随机性检验acorr_ljungbox(x, lags=None, boxpierce=False) # 数据的纯随机性检验函数lags为延迟期数,如果为整数,则是包含在内的延迟期数,如果是一个列表或数组,那么所有时滞都包含在列表中最大的时滞中boxpierce...

2019-08-30 15:52:27

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv2
    勤写标兵Lv2
    授予每个自然周发布4篇到6篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。