YouShouldKnowMe-CSDN博客

原创数据分析之Logistic回归分析中的【二元逻辑回归】

Logistic回归分析用于研究X对Y的影响，并且对X的数据类型没有要求，X可以为定类数据，也可以为定量数据，但要求Y必须为定类数据，并且根据Y的选项数，使用相应的数据分析方法。

2024-03-01 11:06:11 5498 4

名字是方差分析，其实主要是比较总体的均值，在判断均值是否有差异时要借助方差。它的优点是可以增加分类的可靠性。如果要研究4个总体的均值那么要两两比较需要比较6次，如果每次犯第一类错误的概率都是0.05，那么随着实验次数的增多会增大犯错误的概率。一般来说，随着增加个体显著性检验的次数，偶然因素导致差别的可能性也会增大(并非均值真的存在差别)，而方差分析就是同时考虑所有的样本，因此排除了错误累积的概率，从而避免拒绝一个真实的原假设。.........

2022-07-28 15:59:39 63278 2

原创数据分析之卡方检验

检验某个连续变量的分布是否与某种理论分布相一致。例如是否符合正态分布，均匀分布，Poisson(泊松)分布检验某个分类变量的各类的概率是否等于指定概率检验某两个分类变量是否相互独立检测两种方法的检测结果是否一致检测控制某种或某几种的变量后，另外两个分类变量是否相互独立。............

2022-07-04 10:16:39 39960 3

原创数据分析之T检验

1、定义：t检验，亦称student t检验（Student’s t test），主要用于样本含量较小（例如n < 30），总体标准差σ未知的正态分布。 t检验是用t分布理论来推论差异发生的概率，从而比较两个平均数的差异是否显著。它与f检验、卡方检验并列。来源：百度百科用于统计量服从正态分布，但方差未知的情况。T检验分析时，当样本量较大时，很少考虑T检验的使用条件。由中心极限定理可知，只要样本量足够大，其样本均数的抽样分布仍然是正态的。即：只要数据分布不是强烈的偏态，一般而言T检验

2021-12-07 17:13:33 17265

原创数据分析之参数检验与非参数检验

1、参数检验和非参数检验的区别定义不同：参数检验：假定数据服从某分布（一般为正态分布），通过样本参数的估计量（x±s）对总体参数（μ）进行检验，比如t检验、u检验、方差分析。非参数检验：不需要假定总体分布形式，直接对数据的分布进行检验。由于不涉及总体分布的参数，故名「非参数」检验。比如，卡方检验。衡量值不同参数检验的集中趋势的衡量为均值，而非参数检验为中位数。需要的信息不同参数检验要利用到总体的信息（总体分布、总体的一些参数特征如方差），以总体分布和样本信息对总体参数

2021-12-07 13:24:44 22196 6

原创数据分析之正态性检验

定义利用观测数据判断总体是否服从正态分布的检验称为正态性检验，它是统计判决中重要的一种特殊的拟合优度假设检验。常用的正态性检验方法有正态概率纸法、夏皮罗一威尔克检验法(Shapiro-Wilktest)，科尔莫戈罗夫检验法，偏度-峰度检验法等。在数据分析过程中，数据的不同分布形态将直接影响数据分析策略的选择。因此，对数据分布形态的判定是非常重要内容。常见的数据分布形态有正态分布、均匀分布、指数分布、泊松分布等。但最重要也是最有用的分布形态是正态分布，很多数据分析技术都是面向正态分布的定距变量。

2021-11-30 17:33:08 21387

原创数据分析之Logistic回归分析中的【多元有序逻辑回归】

多元有序逻辑回归基于概率模型，它假设因变量的每个类别与一个潜在的连续变量（或称为对数优势）相关联。这个潜在变量的大小决定了观察到的有序分类结果。模型的目标是估计自变量对潜在变量的影响，以及它们如何影响因变量在不同有序类别之间的概率。多元有序逻辑回归用于分析有序分类因变量与一个或多个自变量之间的关系。有序逻辑回归适用于因变量具有自然排序但没有固定间距的类别，例如疾病严重程度（轻度、中度、重度）或调查问卷中的满意度评分（非常不满意、不满意、一般、满意、非常满意）。

2024-04-02 14:38:17 733

原创数据分析之面试题目汇总（2万字解读汇总）

缺失值是指数据集中某些观测值或特征的数据为空缺的情况。处理缺失值的方法有：删除缺失值、填充缺失值（使用平均值、中位数、众数、插值等方法填充）、使用模型进行缺失值预测填充等。删除缺失值：如果缺失值的比例很小，可以考虑将包含缺失值的数据行删除。填充缺失值：可以使用均值、中位数、众数等统计量来填充数值型特征的缺失值；对于分类特征，可以使用出现频率最高的类别进行填充；对于时间序列数据，可以使用前后数值的插值进行填充。预测填充：可以使用机器学习算法（如随机森林、KNN等）预测缺失值进行填充。

2023-09-05 13:57:45 5477

原创如何关闭Windows更新

近年来，Windows更新频率过快，最大只能暂停更新5周，导致用户不厌其烦，从网上找到的暂停更新的方法不是过于繁琐就是毫无效果，或者是暂停的时间有限，无意中发现一个大神的帖子可以通过修改注册表信息以达到永久暂停的效果，最高暂停更新73.5万年；故此分享给大家。

2023-08-18 13:30:39 370 2

原创数据分析之非参数检验与二元逻辑回归结果不一致的原因

在对两组数据进行非参数检验时，各项属性间无统计学差异，但以分类变量作为因变量使用二元逻辑回归进行分析时，其中存在属性p值小于0.05，即该变量对因变量的影响具有显著性。导致该情况的原因可能是由于两个检验方法所用的假设和检验策略不同所致：非参数检验通常是用来检验两组数据在中位数、平均数等位置指标上是否有显著差异，一般做的是单一变量检验。它具有追求健壮性和应用广泛性的优点，但缺点是通常没有考虑两组数据之间的关系和其他可能的相互作用。而逻辑回归是用于研究两个变量之间的关系，适用于分析连续性自变

2023-05-23 17:30:39 1429

原创数据分析之样本量-大样本与小样本的区分

小样本是指样本量较少的情况，具体多少才算小样本并没有一个确切的标准，一般来说，小样本的定义受到具体问题和研究领域的影响。简单来说，当样本量少到无法满足正态分布、中心极限定理等假设条件时，就可视为小样本。在某些研究领域中，如生物医学研究、心理学研究等，样本量一般较少，小于30或50的样本通常被认为是小样本。而在其他一些领域，如大数据分析、金融统计等，数百万甚至数亿的数据都是常态，少则数百、数千的样本就可能被视为小样本。因此，小样本的具体定义需要根据研究领域、具体问题和样本特征等因素来定量化。

2023-05-23 13:47:35 8594

原创数据分析之【渐近显著性(双侧)】与【精确显著性[2*（单侧显著性）]】的异同

渐近显著性和精确显著性适用于不同的情境，需要根据具体的研究问题和数据特点选择合适的方法。在大样本容量下，可以使用渐近显著性以取得更高效的计算；而在小样本的情况下，应该使用精确显著性来避免精确度的丢失。

2023-05-23 13:38:38 4305

原创数据分析之数据仓库

数据仓库（简称“数仓”），顾名思义，存放数据的仓库，它集合了各个业务系统的数据，以金融业为例，数仓包含了贷款业务、CRM、存款业务等数据。用于企业做数据分析、出报告、做决策；在有些公司也作为各业务系统的数据来源。从逻辑上理解，数据库和数仓没有区别，都是通过数据库软件实现存放数据的地方，只不过从数据量来说，数据仓库要比数据库更庞大。数据库与数据仓库最主要的区别在于，传统事务型数据库如 MySQL 用于做联机事务处理（OLTP），例如交易事件的发生等；

2022-09-19 10:57:25 957 1

原创数据分析之假设检验

假设检验（hypothesis testing），又称统计假设检验，是用来判断样本与样本、样本与总体的差异是由抽样误差引起还是本质差异造成的统计推断方法。显著性检验是假设检验中最常见的一种方法，也是一种最基本的统计推断形式。其基本原理是：先对总体的特征做出某种假设，然后通过抽样研究的统计推理，对此假设应该被拒绝还是接受做出推断。对总体特征做某种假设，然后通过样本研究统计推理，最终对此假设做出接受或者拒绝的判断，常见的假设检验有：Z检验、t检验、F检验、卡方检验。

2022-09-15 17:02:19 2251

原创数据分析之AB测试

AB测试就是通过将测试对象随机分成两组，然后控制其他变量一致的前提下，对其中一组进行某种行为或者功能的干预。继而计算AB效果的差异。学术说法：AB测试是基于统计学原理, 通过合理流量分配, 高效、准确选取局部指标价值最大化方案的一系列方法论的总和。

2022-09-15 14:07:53 5011

原创数据分析之技术文章分享

《SQL必知必会》万字精华！

2022-05-31 11:12:26 227

原创数据分析之异常值检验的方法

一、基于分布的方法1、3sigma基于正态分布，3sigma准则认为超过3sigma的数据为异常点def three_sigma(s): mu, std = np.mean(s), np.std(s) lower, upper = mu-3*std, mu+3*std return lower, upper2、Z-scoreZ-score为标准分数，测量数据点和平均值的距离，若A与平均值相差2个标准差，Z-score为2。当把Z-score=3作为阈值去剔除异常.

2022-05-30 10:29:59 5109

原创 MySQL数据库四大排序函数的使用方法，以及R、python中的排序函数

一、ROW_NUMBER()ROW_NUMBER()函数在排名时序号连续且不重复，即使表中的两个一样的值时也是这样原数据：sql代码：select *,row_number() OVER(order by number ) as row_numfrom numORDER BY id排序后：二、rank()Rank() 函数会把要求排序的值相同的归为一组且每组序号一样，排序不会连续执行sql代码：select *,rank() OVER(order by number ) as

2022-05-27 16:27:24 816

原创 ImportError: cannot import name ‘Imputer‘ from ‘sklearn.preprocessing‘

代码from sklearn.preprocessing import Imputer报错---------------------------------------------------------------------------ImportError Traceback (most recent call last)<ipython-input-4-2e97a66a2985> in <module>

2021-12-24 09:50:36 1721 1

原创 Jupyter 中的表格样式高亮设置

1、数据及环境准备pandas版本需满足1.3.0以上，否则部分功能无法实现import pandas as pdimport numpy as nppath = r"C:\Users\a\Desktop\测试数据.xlsx"data = pd.read_excel(path).iloc[:10,:20]print(f'pandas version:{pd.__version__}')print(f'numpy version:{np.__version__}')data2

2021-11-24 16:07:49 3796 4

原创 Pandas和Numpy关闭科学计数法的方式

Pandas全局设置：（显示数据的精度，可自定义修改 “%.3f” 改变数字即可）pd.set_option('float_format', lambda x: '%.3f' % x)Numpy全局设置（直接关闭科学计数法）np.set_printoptions(suppress=True)以上

2021-06-24 10:13:28 1796

原创 Pycharts 常用技巧（柱状图、条形图、折线图、堆叠图及多图组合） -进阶

1 数据堆叠柱状图代码from pyecharts import options as optsfrom pyecharts.charts import Barl1=['星期一','星期二','星期三','星期四','星期五','星期六','星期日']l2=[100,200,300,400,500,400,300]l3=[300,400,500,400,300,200,100]bar = ( Bar() .add_xaxis(l1) .add_yaxis("l2",

2021-03-30 14:36:37 1363 2

原创 Pycharts 常用技巧（柱状图、条形图、折线图、堆叠图及多图组合） - 基础

1 基本柱状图代码from pyecharts import options as optsfrom pyecharts.charts import Barl1 = ['星期一', '星期二', '星期三', '星期四', '星期五', '星期六', '星期日']l2 = [100, 200, 300, 400, 500, 600, 700]l3 = [111, 222, 333, 444, 333, 222, 111]bar = ( Bar() .add_xaxi

2021-03-30 14:18:23 1917

原创 MySQL数据库最全知识总结-SQL基础、SQL高级、SQL进阶、SQL函数、SQL存储过程（思维导图）

思维导图分组总览SQL基础

2021-03-29 15:14:03 745

原创 ValueError: need at least one array to concatenate

代码求上下四分位时报错data_QuantileDown = data.quantile(0.25).round()data_QuantileUp = data.quantile(0.75).round()报错ValueError: need at least one array to concatenate原因循环求取同一工作簿文件的不同表的数据时，有一个工作表文件忘记放入数据。即数组维度为空时报此错误。解决方案向本工作表内容填充数据，即保证数组维度不为空时即可避免此错误。这种错误

2021-01-04 11:02:03 4086

原创导入seaborn库时报错 OSError: Initializing from file failed

报错OSError: Initializing from file failed代码 tips = sns.load_dataset("tips") print(tips.shape)原因1、因为读入的时候不知道是python的引擎2、因为SSL错误，你的系统无法通过网站直接下载外部的数据解决方法1、#加engine参数 tips = sns.load_dataset("tips",engine='python') print(tips.shape)2、#更

2020-12-29 09:52:09 330 1

原创 xlrd.biffh.XLRDError: Unsupported format, or corrupt file: Expected BOF record； found b‘08:00:15‘

代码 path = r"664069-222611.xls" data = pd.read_excel(path) print(data.head())错误xlrd.biffh.XLRDError: Unsupported format, or corrupt file: Expected BOF record; found b'08:00:15'原因文件虽是xls文件，但是内容是csv格式的解决方案方法- 在excel中将文件另存为csv格式- 修改文件后

2020-12-23 15:41:41 15146

原创 CondaIOError: Missing write permissions in: C:\ProgramData\Anaconda3

代码conda install pip错误CondaIOError: Missing write permissions in: C:\ProgramData\Anaconda3解决方法桌面打开Anaconda的Anaconda prompt 右键以管理员身份运行结果重新输入需要进行的命令运行即可

2020-11-30 14:50:57 1128

原创数据分析中的检验方法-正态性检验、非参数检验、T检验、卡方检验

原文链接已重置，详情请移步以下链接。参数检验与非参数检验。

2020-08-11 15:47:21 4002

转载 16种常用的数据分析方法汇总

1.频数分布分析主要通过频数分布表、条图、直方图以及集中趋势和离散趋势的各种统计量，描述数据的分布特征

2020-08-03 22:28:30 728

原创 urllib.error.URLError: 「urlopen error [Errno 11004] getaddrinfo failed」

代码import seaborn as snsanscombe = sns.load_dataset('tips')print(anscombe)报错urllib.error.URLError: <urlopen error [Errno 11004] getaddrinfo failed>原因及解决方法电脑配置的DNS不能使用了，只需修改DNS地址为114.114.114.114即可修改DNS链接：https://jingyan.baidu.com/article/2

2020-07-10 14:39:48 14450 12

原创 sklearn流程

#encoding=gbk"""传统的机器学习任务从开始到建模的一般流程是：获取数据 -> 数据预处理 -> 训练建模 -> 模型评估 -> 预测，分类。"""#===============1.获取数据 ========================# ==============1.1 sklearn中的数据集，必须导入datasets模块========...

2019-08-17 16:51:16 446

转载 sklearn使用

网上有很多关于sklearn的学习教程，大部分都是简单的讲清楚某一个方面。其实最好的教程就是官方文档（http://scikit-learn.org/stable/），但是官方文档讲述的太过于详细，同时很多人对官方文档的理解和结构认识上都不能很好的把握。我写这篇文章的目的是想用一篇文章讲清楚整个sklearn库，我会讲清楚怎么样用这个库，而不是讲清楚每一个知识点。（授人以鱼不如授人以渔）（本文很...

2019-08-17 15:26:34 230

原创 sklearn-决策树（监督学习）

决策树优缺点决策树的优势:便于理解和解释。树的结构可以可视化出来。训练需要的数据少。其他机器学习模型通常需要数据规范化，比如构建虚拟变量和移除缺失值,不过请注意，这种模型不支持缺失值。由于训练决策树的数据点的数量导致了决策树的使用开销呈指数分布(训练树模型的时间复杂度是参与训练数据点的对数值)。能够处理数值型数据和分类数据。其他的技术通常只能用来专门分析某一种变量类型的数...

2019-08-17 14:47:53 252

原创 sklearn-- 朴素贝叶斯（监督学习）

朴素贝叶斯GaussianNB：先验为高斯分布的朴素贝叶斯MultinomialNB：先验为多项式分布的朴素贝叶斯BernoulliNB：先验为伯努利分布的朴素贝叶斯应用场景一般来说，如果样本特征的分布大部分是连续值，使用GaussianNB会比较好如果如果样本特征的分大部分是多元离散值，使用MultinomialNB比较合适如果样本特征是二元离散值或者很稀疏的多元离散值，...

2019-08-17 14:22:29 427

原创 sklearn--NearestNeighbors（监督学习）

源码 def __init__(self, n_neighbors=5, radius=1.0, algorithm='auto', leaf_size=30, metric='minkowski', p=2, metric_params=None, n_jobs=None, **kwargs): ...

2019-08-17 13:46:47 2989 1

原创快速导入各种python模块

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple/ 要导入的模块名称例如：pip install -i https://pypi.tuna.tsinghua.edu.cn/simple/ pymysql

2019-08-13 23:05:12 463

转载知识图谱

知识图谱的定义知识图谱是结构化的语义知识库，用于以符号形式描述物理世界中的概念及其相互关系。其基本组成单位是“实体-关系-实体”三元组。通过知识图谱，可以实现Web从网页链接向概念链接的转变。知识图谱的架构从逻辑上可以划分为2个层次：数据层和模式层。在知识图谱的数据层，知识以事实（fact）为单位存储在图数据库。图数据中有“实体-关系-实体”或者“实体-属性-属性值”两种三元组，所有数据...

2019-08-13 21:06:15 1491

转载数据降维的方法

降维：一种能在减少数据集中特征数量的同时，避免丢失太多信息并保持/改进模型性能的方法。什么是降维？每天，我们都会生成大量数据，而事实上，现在世界上约90%的数据都是在过去3到4年中产生的，这是个令人难以置信的现实。如果你不信，下面是收集数据的几个示例：Facebook会收集你喜欢、分享、发布、访问的内容等数据，比如你喜欢哪家餐厅。智能手机中的各类应用会收集大量关于你的个人信息，比如你所在的地点。淘...

2019-08-13 20:30:42 3013

原创推荐系统详解

1、基于内容的推荐系统（1）基于内容的推荐算法概述基于内容的推荐算法(Content-based Recommendations, CB)也是一种工业界应用比较广的一种推荐算法。由于协同过滤推荐算法中仅仅基于用户对于商品的评分进行推荐，所以有可能出现冷启动的问题，如果可以根据物品的特性和用户的特殊偏好等特征属性进行比较直观的推荐就可以解决这个冷启动的问题。 CB算法虽然需要依赖物品和用户偏...

2019-08-13 09:08:58 561 1

MySQL数据库.xmind

KNN算法--手写数字识别代码实现.zip

spider.zip

空空如也