自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

原创 为什么t检验只适用小样本均值检测?

T 检验的思路是 通过计算t值,检验两两样本组是否均值相等。当给定一个样本组的样本均值是100,另一个样本组均值是110的时候,怎么判断两者是否是均值不等(或者运气导致的?)如果110是样本数为1000的样本均值,那不用做什么t检验了,明显就是不等,根据大数定律(样本量足够大的时候,样本均值接近总体均值)可得。所以T检验是用来检验小样本量的样本均值是否相等的...

2021-09-12 14:56:39 2310

原创 找出连续活跃5天的用户(解题思路)(互联网必看难题)

找出连续活跃5天的用户表 Accounts:+---------------+---------+| Column Name | Type |+---------------+---------+| id | int || name | varchar |+---------------+---------+id 是该表主键.该表包含账户 id 和账户的用户名.表 Logins:+---------------+-------

2021-07-07 22:47:45 659

原创 吴恩达-python机器学习代码-线性回归笔记

目录:一、单变量线性回归1、计算代价函数cost function((X * theta.T).T - y)*X 的形式为:theta为0时的代价函数2、梯度下降函数 gradient descent function3、可视化代价函数二、多变量线性回归1、特征归一化2、多元回归改变iterations和alpha的值时三、 正规方程Normal equation求解import pandas as pdimport numpy as npimport matplotlib.pyplot as pl

2021-05-03 16:59:54 686

原创 Machine Learning (Stanford University)第一周笔记

目录:(第一周)一、Introduction1、What is machine learning2、Machine learning algorithms1)Supervised learning2)Unsupervised learning3) Others: reinforcement learning, recommender systems二、Model&Cost Function1、Model Representation2、Cost Function 代价函数3、Gradient Des

2021-04-29 23:29:41 180

原创 pandas.Series-我的学习笔记(全)

Series 学习笔记目录:Series 学习笔记一、list列表、ndarray、series 对比二、Series列表的创建方式1、通过一维列表创建Series序列2、通过一维数组创建Series3、通过可迭代对象创建Series4、通过字典创建Series5、通过标量(常数)创建Series三、Series常用属性说明1、Series和ndarray共有的属性2、Series独有的属性3、操作实例四、Series元素的获取1、使用head()和tail()函数获取2、切片获取Series中的元素3、

2021-04-24 23:20:10 346

原创 Numpy-我的学习笔记(全)

Numpy介绍numpy是’Numerical Python’的简称,numpy提供了一个高性能的多维数组对象ndarray(N Dimension Array),以及大量的库函数和操作。维度维度的写法元素的索引ndarray数据结构元数据部分存储当是当前ndarray对象当一些描述信息。比如shape\size\dtype\ndim真实数据部分存储的是当前这个ndarray对象中的真实数据ndarray常用属性ndim返回数组堆数shape返回数组形状dtype返回数组数

2021-04-21 13:32:49 463 2

原创 SQL数据库70题(力扣推荐)-我的刷题记录(持续更新)

数据来源:力扣网站:https://leetcode-cn.com/1、游戏玩法分析1写一条 SQL 查询语句获取每位玩家 第一次登陆平台的日期。查询结果的格式如下所示:Activity 表:±----------±----------±-----------±-------------+| player_id | device_id | event_date | games_played |±----------±----------±-----------±-------------+|

2021-04-20 23:24:32 786

原创 SQL换次序、换座位解题思路

如图,题目要求:交换上下相邻的座位(当最后一个学生id为奇数时,则不换)。首先是,当id/2的余数为1时,即定义id为奇数时,如果id为总的行数,即为最后一行时,返回id,实现最后一个学生不动。其次,其他id为奇数的学生,则id+1,实现了换位。然后,其他偶数的学生,则id-1。最后,对id进行从大到小的排序即可。(这是因为之前的id顺序已经发生了相邻id的大小改变。所以要重新排序)...

2021-04-18 15:03:47 586

原创 group by 与 Max()函数一起使用的坑

总结如下:如果使用了group by 只能查询被分组的列,如果要查询其他列,就需要在其他列上面使用聚合函数,如果没有使用聚合函数的列就只能查出这一列的这一组的第一行,本身这种查询默认是会强制性警告的,但如果关闭ONLY_FULL_GROUP_BY模式,就不会报错。...

2021-04-18 14:37:18 505

原创 pandas-profiling在Jupyter notebook如何调用?

昨晚发现了一个很方便的数据概览包,但是自己尝试的时候jupyter一直报错。用anaconda安装 panda-profiling即可正常使用。

2021-04-17 12:02:30 511 1

原创 为什么双样本独立T检验需要进行方差齐次性检验?

搜了很多答案都没搜到,自己总结参考别人的,希望对大家有帮助。首先,讲讲什么是方差齐性,方差齐性是指不同组间的总体方差是一样的。那为什么方差分析的前提是要组间的总体方差保持一致呢?先想想方差分析是做什么呢?方差分析是用来比较多组之间均值是否存在显著差异。那如果方差不一致,也就意味着值的波动程度是不一样的,如果此时均值之间存在显著差异,不能够说明一定是不同组间处理带来的,有可能是大方差带来大的波动;这里大方差的解释可能有点不容易理解。举个例子:假设第一组数据的总体分布方差非常大,导致抽到的样本点很分散,同理

2021-04-13 20:57:27 7162

原创 Python中Series,List,DataFranme,Dict,元组之间的区别!!!

1.List:List是一个一维的列表,我们可以利用下标进行值得追踪(不要忘了!python第一个元素的下标从0开始),每个元素可变,类型可变。其方便之处在于可以用append函数进行添加c=[1,2,3,4,5]2.np.arraypython中的list和array的不同之处list是列表,可以通过索引查找数值,但是不能对整个列表进行数值运算b=[1,2]b[1]Out[97]: 2type(b)Out[98]: listb+bOut[99]: [1, 2, 1, 2]ar

2021-04-13 12:35:09 1609

转载 箱线图Boxplot-统计学解读

箱线图:箱线图顾名思义最重要的两个成分就是箱和线。那么箱和线分别代表什么呢?我们首先来看中间这个箱子以及中间那条粗线:中间粗线代表中位数(如果是标准正态分布,中位数和平均值是一样的,位置在小箱子的中间位置)。箱子大小代表的是四分位数间距(IQR),也称为中间50%间距,是统计离散度的度量,等于第75和第25百分位数之间的差异,或者说是在上下四分位数之间,即:IQR = Q3-Q1。(这一句话中出现的分位数,四分位数,和百分位数在英语中对应了三个单词quantile,quartile,和percenti

2021-04-12 15:27:12 11697 1

转载 饼图-Matplotlib一幅图掌握全部饼图知识点

案例:芝麻信用失信用户分析关于pie函数的参数我们讲了这么多,光讲不练假把式,我们接下来通过案例,来绘制一个个性化的饼图。关于绘图数据,我们借用芝麻信用近300万失信人群的样本统计数据,该数据显示,从受教育水平上来看,中专占比25.15%,大专占比37.24%,本科占比33.36%,硕士占比3.68%,剩余的其他学历占比0.57%。对于这样一组数据,我们该如何使用饼图来呈现呢?import matplotlib.pyplot as plt# 设置绘图的主题风格(不妨使用R中的ggplot分隔)pl

2021-04-12 12:38:59 291

转载 pandas中的loc与iloc最本质区别

iloc和loc最本质差别iloc是按照行数名取值,而loc按着index名取值data=DataFrame(np.arange(16).reshape(4,4),index=list("1234"),columns=list("wxyz"))print(data) w x y z #列名 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15print(data.iloc[0])#w 0#x

2021-04-11 11:06:02 97

转载 处理数据中的缺失值、空值的方法大全

不论是机器学习模型,KPI或者报告,缺失值和它们的替代值都会导致你的分析结果出现巨大错误。通常分析人员只用一种方式处理缺失值。但事实并非如此,下面我们会介绍三种类型的缺失值以及其对应的解决方法。空值(null)的类型**随机遗失(MAR):**在变量中空值的出现并非随机,而是取决于记录中已知或者是未知的特征。那么你可能会问自己,为什么其被称为随机遗失呢?这是因为空值与其实际值无关。这取决于你的数据集是否能被测试。为了找出替代值,你应该比较其他变量的分布,以获取具有缺失值和非缺失值的记录。比如:一个关于

2021-04-10 22:22:50 4938

原创 为什么样本点平均值会经过线性回归直线?

在求回归直线的斜距的时候,为什么用样本点的均值带入就能求了呢?这是最小二乘法的性质决定的。详见:

2021-04-07 20:46:19 5605

转载 为什么t检验要满足正态?

因为t检验本质上是一种参数检验,是均值的比较。当我们进行t检验进行假设检验时都会使用以下假设:H0:两组之间的均值相等 ;H1:两组之间的均值不等 。t检验其实仅仅是对两组之间的均值进行了比较,但是为啥呢,正态分布不是有俩参数嘛——均值、标准差,为啥比一个均数就能说两样本代表的总体之间是否存在差异呢?我们发现t检验的前提条件除了要求数据来自正态分布总体外,还要求两样本总体方差相等,即具有方差齐性。举个栗子,看图说话:如果不要求满足正态分布,那么如下图,正态分布和指数分布比,比均数比个锤子,均数没有差异也

2021-01-03 14:32:54 5804

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除