数据科学作家-CSDN博客

原创一文讲透SPSS中查看文件和变量信息

数据文件建立后，我们可能希望看到数据文件的结构和变量的组成以确定是否需要完善或修改，此时我们就需要用到文件和变量信息查看功能。

2024-02-10 12:52:37 1295

原创 SPSS双变量相关分析

双变量相关分析通过计算皮尔逊简单相关系数、斯皮尔曼等级相关系数、肯德尔等级相关系数及其显著性水平展开。其中皮尔逊简单相关系数是一种线性关联度量，适用于变量为定量连续变量且服从正态分布、相关关系为线性时的情形。如果变量不是正态分布的，或具有已排序的类别，相互之间的相关关系不是线性的，则更适合采用斯皮尔曼等级相关系数和肯德尔等级相关系数。

2024-02-10 12:48:03 1253

原创 SPSS基础操作：对数据按照样本观测值进行排序

在整理数据资料或者查看分析结果时，我们通常希望样本观测值能够按照某一变量的大小进行升序或者降序排列，比如我们想按照学生的学习成绩进行排序，按照销售额的大小对各个便利店进行排序等。

2024-02-09 21:41:09 577

原创 SPSS基础操作：对数据按照变量进行排序

在整理数据资料或者查看分析结果时，如果变量设置得非常多，我们有时会希望变量值能够按照变量的某一属性大小进行升序或者降序排列，比如我们想观察有哪些变量是名义变量或者有序变量，有哪些变量进行了变量标签操作或者值标签操作等。

2024-02-09 21:38:13 872

原创一文讲透Python函数中的形式参数和实际参数

函数参数包括形式参数和实际参数，简称形参和实参。其中形式参数即是在定义函数时函数后面括号中的参数列表（parameterlist），比如上一个帖子的示例中的width, length；实际参数则是调用函数时函数后面括号中的参数值（parametervalue），比如之前帖子的示例中的4,6。所以，调用函数时需要把实际参数传递给形式参数，才能使函数对这些参数进行运算或处理。

2024-02-08 18:46:43 536

原创使用Python进行数据的描述性分析，用少量的描述性指标来概括大量的原始数据

在进行数据分析时，当研究者得到的数据量很小时，可以通过直接观察原始数据来获得所有的信息。但是，当得到的数据量很大时，就必须借助各种描述性指标来完成对数据的描述工作。用少量的描述性指标来概括大量的原始数据，对数据展开描述的统计分析方法被称为描述性统计分析。需要说明的是，基于描述性指标开展的描述性分析通常针对连续变量的数值型数据，通过计算平均值、标准差、最大值、最小值、四分位数等统计指标的方式来进行，分类变量数据不宜用描述性指标来进行描述性分析。

2024-02-08 09:16:22 447

原创 SPSS绘图：直方图的绘制

直方图（Histogram）又称质量分布图，是一种以组距为底边、以频率为高度的一系列连接起来的直方型矩形图，由一系列高度不等的纵向条纹或线段表示数据分布的情况。一般用横轴表示数据类型，纵轴表示分布情况。通过绘制直方图可以较为直观地传递有关变量的数据变化信息，使数据使用者能够较好地观察变量数据波动的状态，使数据决策者能够依据分析结果确定在什么地方需要集中力量改进工作。绘制直方图时，可选择带上正态分布曲线，以直观观察数据是否服从正态分布。

2024-02-07 10:35:53 2025

原创 SPSS基础操作：对数据进行加权处理

对数据进行加权处理是我们使用SPSS提供某些分析方法的重要前提。对数据进行加权后，当前的权重将被保存在数据中。当进行相应的分析时，用户无须再次进行加权操作。本节以对广告的效果观测为例，讲解数据的加权操作。本例给出了消费者购买行为与是否看过广告之间的联系，按“是否看过广告”和“是否购买商品”两个标准，消费者被分为4类，研究者对这4类消费者分别进行了调查。由于各种情况下调查的人数不同，如果将4种情况等同进行分析，势必由于各种情况的观测数目不同导致分析的偏误，因此我们需要对观测量进行加权。

2024-02-07 10:31:15 2158

原创 Python基础知识：Python函数的定义、创建与调用

Python本质上是一种编程语言，通过编写运行代码的方式实现工作目标。读者可以想象，如果针对机器学习或数据统计分析的每种方法或统计量计算都要用户自行编写代码，那么显然在很多情况下是无法满足用户便捷开展分析的要求的，用户体验也会远远不如Stata、SPSS等专业集成统计软件。所以，Python提供了函数作为完成某项工作的标准化代码块，达到标准化编写后反复调用、增加标准代码复用性、减少代码冗余、提升工作效率的目的。

2024-02-06 13:42:57 324

原创 Python基础知识：Python数据行列处理

我们在应用Python开展机器学习或统计分析时，经常需要对数据行列进行处理，下面介绍几种常用的Python数据行列处理操作。

2024-02-05 08:43:38 909

原创 Python基础知识：Python与序列相关的内置函数

Python序列是最基本的数据结构，是一种数据存储方式，用来存储一系列的数据。在内存中，序列就是一块用来存放多个值（元素）的连续空间，每个值（元素）在连续空间中都有相应的索引或位置。Python 3常用的序列对象有列表、元组、字典、集合、字符串等。本节介绍了Python与序列相关的内置函数。

2024-02-05 08:39:19 745

原创 Python基础知识：Python模块

所谓模块(Module)，就是一种以“.py”为命名后缀的Python 文件，里面包含着很多集成的函数，可以很方便的被其他程序和脚本导入并使用。如果模块理解为一辆汽车，我们使用汽车可以完成驾驶等工作，那么代码就是一个个细小的汽车零部件，函数就是由一个个零部件组成的标准化的发动机、轮胎等。

2024-02-04 13:52:28 739

原创 Python基础知识：Python流程控制语句

流程控制就是控制程序如何执行的方法，适用于任何一门编程语言，其作用在于，可以根据用户的需求决定程序执行的顺序。计算机在运行程序时，有3种执行方法，第一种是顺序执行，自上而下顺序执行所有的语句，对应程序设计中的顺序结构；第二种是选择执行，程序中含有条件语句，根据条件语句的结果选择执行部分语句，对应程序设计中的选择结构；第三种是循环执行，在一定条件下反复执行某段程序，对应程序设计中的循环结构，其中被反复执行的语句为“循环体”，决定循环是否中止的判断条件为“循环条件”。

2024-02-04 13:39:36 525

原创 Python基础知识：Python序列以及序列的索引、切片、相乘和相加

Python基础知识：Python序列以及序列的索引、切片、相乘和相加。索引就是序列中的每个元素所在的位置，可以通过从左往右的正数索引，也可以通过从右往左的负数索引。从左往右的正数索引：在python序列中，第一个元素的索引值为0，第二个元素的索引值为1，以此类推，假设序列中共有n个元素，那么最后一个元素的索引值为n-1。从右往左的负数索引：在python序列中，最后一个元素的索引值为-1，倒数第二个元素的索引值为-2，以此类推，假设序列中共有n个元素，那么第一个元素的索引值为-n。

2024-02-03 17:27:47 803

原创 Python基础知识：Python注释及print函数、input函数

在Python中，注释是对相应代码的解释，以增加代码的可读性，让用户能够更好地理解相应代码的含义。注释通过在相应代码后面加上“#”号来实现。print（）函数用来实现基本的输出，用户通过print（）函数将括号的内容向计算机发出指令，计算机输出括号内容。input函数用来实现基本的输入，是最常用的输入函数，该函数用来获取用户的输入，输入的内容会以返回值的形式返回。

2024-02-03 17:22:14 698

原创 Python机器学习：样本划分之验证集法

验证集法又被称为“留出法”，基本思路是将样本数据集划分为两个互斥的集合：训练集和测试集。其中训练集占比一般为2/3~4/5，常用70%；测试集占比一般为1/5~1/3，常用30%。训练集用来构建机器学习模型；测试集也被称为“验证集”“保留集”，用来进行样本外预测，并计算测试集误差，估计模型预测能力。

2024-02-02 17:06:19 763

原创结合实例谈谈SPSS多元线性回归分析结果解读与报告撰写

为研究某地区房地产市场的价格与相关影响因素之间的关系，现从该地区采集了 20份样本，数据如下表，请给出销售价格与相关影响因素之间的函数表达式，并从统计学角度分析这些因素之间的关系，最后预测 X小区的平均销售价格？

2024-02-02 17:01:44 1753

原创一文讲透Python序列中的索引是什么概念，怎么应用？

索引就是序列中的每个元素所在的位置，可以通过从左往右的正数索引，也可以通过从右往左的负数索引。从左往右的正数索引：在python序列中，第一个元素的索引值为0，第二个元素的索引值为1，以此类推，假设序列中共有n个元素，那么最后一个元素的索引值为n-1。从右往左的负数索引：在python序列中，最后一个元素的索引值为-1，倒数第二个元素的索引值为-2，以此类推，假设序列中共有n个元素，那么第一个元素的索引值为-n。

2024-02-01 17:27:04 1183

原创 Python机器学习：一文讲透机器学习中的验证集法

验证集法又被称为“留出法”，基本思路是将样本数据集划分为两个互斥的集合：训练集和测试集。其中训练集占比一般为2/3~4/5，常用70%；测试集占比一般为1/5~1/3，常用30%。训练集用来构建机器学习模型；测试集也被称为“验证集”“保留集”，用来进行样本外预测，并计算测试集误差，估计模型预测能力。

2024-02-01 17:24:07 1084

原创一文讲透如何使用SPSS在现有数据文件中增加新的样本观测值，超级简单！

如果需要在现有数据文件中增加新的样本观测值，则可以将光标置于要插入观测值的那一行的任意单元格中，选择“编辑”→“插入个案”命令，或者右击，在弹出的菜单中选择“插入个案”命令（见图）……

2024-01-31 15:38:03 642

原创一文讲透Python机器学习特征选择角度的卡方检验

机器学习特征选择角度的卡方检验是计算特征变量与响应变量之间的χ2统计量。χ2统计量越大，则特征变量与响应变量之间独立的概率就越小，相关性就越大。因此，χ2统计量大的特征变量将会被优先选择用于预测。在使用卡方检验时，会返回F值和p值两个统计量。其中特征变量的F值越大，越倾向于选择该特征变量；而p值则是与F值相对应的统计量，特征变量的P值越小，则越倾向于选择该特征变量。P值的参照标准一般为0.05。

2024-01-31 15:32:20 621

原创 Python机器学习--简单清晰的说说K近邻算法的基本原理

K近邻算法的基本原理：首先通过所有的特征变量构筑起一个特征空间，特征空间的维数就是特征变量的个数，然后针对某个测试样本，按照参数K在特征空间内寻找与它最为近邻的K个训练样本观测值，最后依据这K个训练样本的响应变量值或实际分类情况获得该样本响应变量拟合值或预测分类情况。

2024-01-30 17:27:34 814

原创泛谈一下数字化技能的学习，SPSS、Stata还是Python？技术、业务+表达、展现！

应知乎、小红书、CSDN很多年轻朋友、同学们的邀请，今天我泛谈一下数字化技能的学习。很多学生在本科或专科上学时代学过统计学、计量经济学、机器学习、数据分析、统计分析、数据挖掘、量化建模等一门或多门课程，至少也学过概率论、数理统计、线性代数、微积分等课程，其实就已经具备了相对较好的数据分析基础。等到本科或专科毕业后，有的同学致力于读研、读博，也有的同学倾向于毕业以后找工作，迈向社会，无论是读研读博还是走向职场，其实数据分析的能力要求，……

2024-01-30 17:17:22 1315

原创《SPSS统计学基础与实证研究应用精解》视频讲解：个案摘要报告

视频为《SPSS统计学基础与实证研究应用精解》张甜杨维忠著清华大学出版社一书的随书赠送视频讲解5.2节内容。《SPSS统计学基础与实证研究应用精解》张甜杨维忠清华大学出版社。手把手教会使用SPSS撰写实证研究类论文或开展数据分析。常用统计学原理、实证研究的套路、调查问卷设计、信度分析、效度分析、T检验、ANOVA分析、相关性分析、回归分析、中介效应、调节效应、因子分析、聚类分析……一应俱全。全网热销中。

2024-01-29 17:51:11 776

原创《SPSS统计学基础与实证研究应用精解》视频讲解：在线分析处理报告

视频为《SPSS统计学基础与实证研究应用精解》张甜杨维忠著清华大学出版社一书的随书赠送视频讲解5.1节内容。《SPSS统计学基础与实证研究应用精解》张甜杨维忠清华大学出版社。手把手教会使用SPSS撰写实证研究类论文或开展数据分析。常用统计学原理、实证研究的套路、调查问卷设计、信度分析、效度分析、T检验、ANOVA分析、相关性分析、回归分析、中介效应、调节效应、因子分析、聚类分析……一应俱全。全网热销中。

2024-01-29 17:49:48 604

原创《SPSS统计学基础与实证研究应用精解》视频讲解：数据缺失值处理

视频为《SPSS统计学基础与实证研究应用精解》张甜杨维忠著清华大学出版社一书的随书赠送视频讲解4.12节内容。《SPSS统计学基础与实证研究应用精解》张甜杨维忠清华大学出版社。手把手教会使用SPSS撰写实证研究类论文或开展数据分析。常用统计学原理、实证研究的套路、调查问卷设计、信度分析、效度分析、T检验、ANOVA分析、相关性分析、回归分析、中介效应、调节效应、因子分析、聚类分析……一应俱全。全网热销中。

2024-01-28 10:39:36 754

原创《SPSS统计学基础与实证研究应用精解》视频讲解：数据结构重组（数据重组方式的选择、由变量组到样本观测值组的重组、由样本观测值组到变量组的重组）

视频为《SPSS统计学基础与实证研究应用精解》张甜杨维忠著清华大学出版社一书的随书赠送视频讲解4.11节内容。《SPSS统计学基础与实证研究应用精解》张甜杨维忠清华大学出版社。手把手教会使用SPSS撰写实证研究类论文或开展数据分析。常用统计学原理、实证研究的套路、调查问卷设计、信度分析、效度分析、T检验、ANOVA分析、相关性分析、回归分析、中介效应、调节效应、因子分析、聚类分析……一应俱全。全网热销中。

2024-01-28 10:36:24 802

原创《SPSS统计学基础与实证研究应用精解》视频讲解：数据汇总

视频为《SPSS统计学基础与实证研究应用精解》张甜杨维忠著清华大学出版社一书的随书赠送视频讲解4.10节内容。《SPSS统计学基础与实证研究应用精解》张甜杨维忠清华大学出版社。手把手教会使用SPSS撰写实证研究类论文或开展数据分析。常用统计学原理、实证研究的套路、调查问卷设计、信度分析、效度分析、T检验、ANOVA分析、相关性分析、回归分析、中介效应、调节效应、因子分析、聚类分析……一应俱全。全网热销中。

2024-01-27 18:04:44 570

原创《SPSS统计学基础与实证研究应用精解》视频讲解：数据分解

视频为《SPSS统计学基础与实证研究应用精解》张甜杨维忠著清华大学出版社一书的随书赠送视频讲解4.9节内容。《SPSS统计学基础与实证研究应用精解》张甜杨维忠清华大学出版社。手把手教会使用SPSS撰写实证研究类论文或开展数据分析。常用统计学原理、实证研究的套路、调查问卷设计、信度分析、效度分析、T检验、ANOVA分析、相关性分析、回归分析、中介效应、调节效应、因子分析、聚类分析……一应俱全。全网热销中。

2024-01-27 18:02:23 515

原创《SPSS统计学基础与实证研究应用精解》视频讲解：数据合并（按照样本观测值合并数据文件、按照变量合并数据文件）

视频为《SPSS统计学基础与实证研究应用精解》张甜杨维忠著清华大学出版社一书的随书赠送视频讲解4.8节内容。《SPSS统计学基础与实证研究应用精解》张甜杨维忠清华大学出版社。手把手教会使用SPSS撰写实证研究类论文或开展数据分析。常用统计学原理、实证研究的套路、调查问卷设计、信度分析、效度分析、T检验、ANOVA分析、相关性分析、回归分析、中介效应、调节效应、因子分析、聚类分析……一应俱全。全网热销中。

2024-01-26 09:42:32 808

原创《SPSS统计学基础与实证研究应用精解》视频讲解：数据加权处理

视频为《SPSS统计学基础与实证研究应用精解》张甜杨维忠著清华大学出版社一书的随书赠送视频讲解4.7节内容。《SPSS统计学基础与实证研究应用精解》张甜杨维忠清华大学出版社。手把手教会使用SPSS撰写实证研究类论文或开展数据分析。常用统计学原理、实证研究的套路、调查问卷设计、信度分析、效度分析、T检验、ANOVA分析、相关性分析、回归分析、中介效应、调节效应、因子分析、聚类分析……一应俱全。全网热销中。

2024-01-26 09:41:00 701

原创一文简单讲透如何使用SPSS生成虚拟变量

虚拟变量也称“哑变量”，很多时候我们需要针对分类变量生成多个虚拟变量以用于后续分析。以本书附带的数据4为例，针对“性别”生成虚拟变量的步骤进行讲解。

2024-01-25 11:40:40 1939

原创一文讲透Excel数据如何导入到Stata？

一文讲透Excel数据如何导入到Stata？

2024-01-25 11:36:07 2324

原创论述Python中列表、元组、字典和集合的概念

Python列表是用于存储任意数目、任意类型的数据集合，包含多个元素的有序连续的内存空间，是内置可变序列，或者说可以任意修改。在Python中，列表以方括号（[ ]）形式编写。Python元组与Python列表类似，同样为有序序列，但与列表为可变序列不同的是，元组为不可变序列，元组中的元素不可以单独修改，用于保存程序中不可修改的内容。在Python中，元组以小括号（( )）的形式编写。字典（Dictionary）是Python中的一种常用数据结构，也被称作关联数组或哈希表，由键（key）和值（val

2024-01-24 16:55:53 1248

空空如也

空空如也