哈伦2019-CSDN博客

原创 stata 蒙特卡罗模拟（一）一元线性回归模拟

蒙特卡罗模拟验证一元线性回归模型

2023-03-16 15:19:08 2256

以数据集grilic.dta为例，继续探讨教育投资回报率。此数据集的主要变量包括：lnw(工资对数)，s(教育年限)，expr(工龄)，tenure(在现单位的工作年数)，iq(智商)，med(母亲的教育年限)，kww(在“knowledge of the World of Work”测试中的成绩)，rns(美国南方虚拟变量，住在南方=1)，smsa(大城市虚拟变量，住在大城市=1)。/*读入数据*/use "C:\Users\Administrator\Desktop\stata work..

2022-05-25 17:29:09 16333 2

原创金融统计分析与挖掘实战8.3-8.4

第八章上市公司综合评价# 设置工作路径和导入基本数据分析包import osos.chdir("C:\\Users\\Administrator\\Desktop") #设置路径import pandas as pdimport numpy as np8.3 基于总体规模与投资效率的综合评价8.3.1 数据读取与处理data=pd.read_excel('data.xlsx') #读取数据data2=data.iloc[data['Accper'].values=='2016-12

2022-05-18 15:22:02 1508 1

原创金融统计分析与挖掘实战7.6-7.7

7.6 沪深300指数走势预测import osos.chdir("C:\\Users\\Administrator\\Desktop") #设置路径import pandas as pdimport numpy as np7.6.1 读取数据td=pd.read_excel('index300.xlsx') # 读取数据td.head(6) # 查看前6行 Indexcd Idxtrd01 Idxtrd02

2022-05-13 15:40:20 1399 1

原创金融统计分析与挖掘实战7.3-7.5

# 7.3 上市公式净利润增长率计算import osos.chdir("C:\\Users\\Administrator\\Desktop")import pandas as pddt = pd.read_excel('data2.xlsx') #获取数据dt.head(6) Stkcd Accper B002000101 0 16 2014-12-3

2022-05-11 15:27:08 2794 1

原创金融统计分析与挖掘实战6.1-6.3

# 6.1 关联规则import numpy as npimport pandas as pdimport osos.chdir("C:\\Users\\Administrator\\Desktop") #更改工作路径，注意双\\ 任何操作前可以先将常用包和路径先设置好# 6.2.1 一对一关联规则挖掘# 将原始数据转化为布尔数值表tiem = ['西红柿','排骨','鸡蛋','茄子','袜子','酸奶','土豆','鞋子']data = pd.read_excel('tr.xlsx'

2022-05-04 15:39:45 1214 2

原创金融数据分析与挖掘实战5.6-5.7

# 5.6 支持向量机#汽车评价数据，6个特征变量，1个分类标签，共1728条记录#要求取1690条记录作为训练集，余下的作为测试集，计算预测准确率import numpy as npimport pandas as pdimport osos.chdir("C:\\Users\\Administrator\\Desktop") #更改工作路径，注意双\\ 任何操作前可以先将常用包和路径先设置好# 1.读取数据data = pd.read_excel("car.xlsx")datah

2022-04-29 15:39:33 588

原创金融统计分析与挖掘实战5.3-5.5

# 5.3 线性回归应用# 一、准备工作（导入包，输入数据，选择变量）import numpy as npimport pandas as pdimport osos.chdir("C:\\Users\\Administrator\\Desktop") #更改工作路径，注意双\\ 任何操作前可以先将常用包和路径先设置好data = pd.read_excel("发电场数据.xlsx")datah = data.head(6) #看前6行的数据，本例中有9000多样本，显示全占用篇幅较大

2022-04-27 17:26:14 1153

原创金融统计分析与挖掘实战5.1-5.2

# 第5章机器学习包# 5.2.1 缺失值处理import numpy as npimport pandas as pdimport osos.chdir("C:\\Users\\Administrator\\Desktop") #更改工作路径，注意双\\ 任何操作前可以先将常用包和路径先设置好data = pd.read_excel("missing.xlsx") #将文件放到工作路径下，用该命令读取数据print(data) a b c d0 2.

2022-04-22 17:11:27 814

原创金融统计分析与挖掘实战3.3.3-3.5

# 3.3.3 数据框# 8.as_matrix()报错import pandas as pdimport numpy as nplist1 = [1,2,3,4,5,6]list2 = [2,3,4,5,6,7]D = pd.DataFrame({"m1":list1,"m2":list2})print(D) m1 m20 1 21 2 32 3 43 4 54 5 65 6 7D1 = D.as_matrix()

2022-04-13 17:19:24 304

原创金融统计分析与挖掘实战3.3.1-3.3.3

# 3.3 数据框 # 特征：多个序列按照相同的索引组成的二维表# 3.3.1 数据框的创建import pandas as pdimport numpy as np # 先导入两个最常用的数据处理分析包data = {"a" : [2,2,np.nan,5,6],"b" : ["kl","kl","kl",np.nan,"kl"],"c" : [4,6,5,np.nan,6],"d" : [7,9,np.nan,9,8]} #生成一个字典df = pd.DataFrame(data)

2022-04-08 17:37:40 1873

原创金融统计分析与挖掘实战3.1-3.2

# 第三章数据处理包 pandas# 3.2序列#3.2.1 序列的创建与访问import pandas as pdimport numpy as np # 数据分析前先导入两个最常见的包# 创建序列# 列表、元组和数组转化为序列s1 = pd.Series([1,-2,2.3,'hq']) #把列表转换为序列print(s1) #虽然我们没写索引，但系统默认了索引0 11 -22 2.33 hqdtype: objecttyp

2022-04-06 17:18:16 1085

原创金融数据分析与挖掘实战练习2.10

# 2.10矩阵及线性代数的运算# 2.10.1 创建矩阵import numpy as npmat1 = np.mat("1 2 3 ; 4 5 6 ; 7 8 9")print(mat1)[[1 2 3] [4 5 6] [7 8 9]]type(mat1)numpy.matrixmat2 = np.matrix([[1,2,3],[4,5,6],[7,8,9]])print(mat2)[[1 2 3] [4 5 6] [7 8 9]]type(mat2)n

2022-04-01 17:34:22 668

原创金融数据分析与挖掘实战练习2.5-2.9

# 2.5.1数组切片#满足条件的切片import numpy as npD = np.array([[1,2,3,4],[5,6,7,8],[9,10,11,12],[13,14,15,16]]) #定义数组print(D)[[ 1 2 3 4] [ 5 6 7 8] [ 9 10 11 12] [13 14 15 16]]# 将D中的第0列大于5的所有列数据取出D1 = D[D[ : ,0] > 5, : ]print(D1)[[ 9 10 11 12]

2022-04-01 09:52:05 935

原创金融数据分析与挖掘实战练习2.1-2.4

#逻辑运算符3 and 443 and 5 and 8 # 如果用and连接多个正整数，那么将显示最后的那个83 and 8 and 553 or 5 or 8 #如果用or连接多个正整数，那么将显示最前面的那个38 or 5 or 385 > 3 < 4 #相当于5>3 and 3<4True#逻辑否运算 not5 > 4True not 5 > 4Falsenot 3 > 4True

2022-03-25 17:38:21 1493

原创金融数据分析余挖掘实战1.9-1.10补充

# 1.9.2 有返回值的函数def sumt(t): #求1一直加到t的和 s = 0 while t > 0: s = s + t t = t - 1 return ss = sumt(30) #从1加到30的结果print(s)465s = sumt(50) #从1加到50的结果print(s)1275# 如果返回命令写错，比如写成了返回 tdef sumt1(t): #求1一直加到t的和

2022-03-23 17:39:15 474

原创金融数据分析与挖掘实战练习-1.9

# if while 的综合运用# 猜数字#请猜我心中的那个数字（假如是10）s = input("请猜测我心中记住的那个数字是：")guess = int(s)if guess == 10: print("你很聪明呀，一下子就猜对了！")else: print("很遗憾！我心中的那个数字是10")print("游戏结束，不玩啦！") #缩进很重要，此处顶格写，表示是最外层的程序，一定会执行请猜测我心中记住的那个数字是：10你很聪明呀，一下子就猜对了！游戏

2022-03-18 17:44:42 4219

原创金融数据分析与挖掘实战1.7-1.8

#1.7练习：如果成绩为60分以下，记为E，60-70 记为D，70-80 记为C ，80-90记为B，# 90-100记为A，某个同学成绩为75分，请设计一个if语句打印输出结果#采用if语句进行操作score = 75if 100 >= score >= 90: #最基础、最直接的条件表达 print("A")if 90 > score >= 80: print("B")if 80 > score >= 70: print(

2022-03-16 17:42:40 718

原创金融数据分析与挖掘实战1.6-1.7

#1.6 字典的基本操作# 创建字典d = dict() #创建一个空字典d = {}type(d)dictlist1 = [("a",'ok'),('1','lk'),("001",'lk')] #列表中嵌套元组d1 = dict(list1)print(d1){'a': 'ok', '1': 'lk', '001': 'lk'}list11 = [("a",'ok'),('a','lk'),("001",'lk')] #列表中嵌套元组d11 = dict(lis

2022-03-11 17:47:07 535

原创金融数据分析与挖掘实战1.5.2-1.5.3

元组，字符串的基本操作

2022-03-09 17:41:07 236

原创金融数据分析与挖掘实战1.4.4-1.5.1

# 1.4.4 统计L1 = [1,2,3,4,5,6]t1 = (1,2,3,4,6)s2 = 'hello word!'m1 = max(L1)print(m1)6m2 = max(t1)print(m2)6m3 = min(t1)print(m3)1m4 = sum(L1)print(m4)21m5 = max(s2)print(m5)wm6 = min(s2) # 不输出结果print(m6)J1 = {1,2,3,4,5,6

2022-03-08 11:54:26 309

原创金融数据分析与挖掘实战1.3.1-1.3.6

Python基础

2022-03-02 17:49:29 197

原创金融数据分析与挖掘实战1.4.1-1.4.3

2021-2022-2 （2）Python基础课程

2022-03-02 17:40:42 287

原创关联规则mlxtend的应用

#购物篮例子，找出关联规则item_list1 = [['西红柿','排骨','鸡蛋'], ['西红柿','茄子'], ['鸡蛋','袜子'], ['西红柿','排骨','茄子'], ['西红柿','排骨','袜子','酸奶'], ['鸡蛋','茄子','酸奶'], ['排骨','鸡蛋','茄子'], ['土豆

2021-06-02 19:55:01 751 1

原创 apriori关联规则

pip install mlxtend #注意在jupyter里面操作要加！The following command must be run outside of the IPython shell: $ pip install mlxtendThe Python package manager (pip) can only be used from outside of IPython.Please reissue the `pip` command in a separate t

2021-05-31 20:32:22 635 2

原创 Python 第五章因子分析

#相关系数矩阵import pandas as pdData=pd.read_excel('农村居民人均可支配收入来源2016.xlsx')X=Data.iloc[:,1:]R=X.corr()print(R) 工资性收入经营净收入财产净收入转移净收入工资性收入 1.000000 -0.388997 0.826683 0.401917经营净收入 -0.388997 1.000000 -0.205737 -0.314542财产净收入

2021-05-10 20:42:27 1157

原创 Python 第五章数据预处理

#缺失值填充import pandas as pdimport numpy as npdata=pd.read_excel('missing.xlsx') #数据框datac=np.array([[1,2,3,4],[4,5,6,np.nan],[5,6,7,8],[9,4,np.nan,8]]) #数组cC=pd.DataFrame(c) #数据框C# 1.均值填充策略f

2021-05-10 20:39:52 277

原创空间计量经济学（5）---指数矩阵空间模型

一、指数矩阵空间模型（MESS）简介经典的空间回归方法通常用一个外生的阶权重矩阵设定个观测之间的空间关系，该处理方法存在两个问题：第一，在经济背景下，空间结构可能由外部性或溢出效应引起，假设空间权重矩阵为外生的不符合实际。例如，在经济结构中，外部性和溢出效应意味着位于空间中某点的经济单元对其他经济单元产生了影响，其影响的大小和随距离衰减的程度都是我们关注的重要问题。第二，传统的空间自回归（SAR）模型及其各种拓展模型的极大似然估计涉及一个含参数的高阶行列式，其解析解难以表达，尤其..

2021-02-04 11:08:04 1314

原创空间计量经济学（4）---空间滞后与空间杜宾误差模型

一、空间滞后模型1.空间滞后模型的形式空间滞后模型（spatial lag model，SLM）描述的是空间相关，也称为空间自回归模型（SAR）。其模型表达式为： ????为空间矩阵，是空间计量经济学模型的核心，具体表达为：其中 ????????????描述了第 ????个截面个体与第J个...

2021-02-03 10:49:11 21692 1

原创空间计量经济学（3）---空间杜宾模型与广义嵌套空间模型

一、空间杜宾模型1.空间杜宾模型形式空间杜宾模型（SDM）是空间滞后模型和空间误差项模型的组合扩展形式，可通过对空间滞后模型和空间误差模型增加相应的约束条件设立。空间杜宾模型（SDM）是一个通过加入空间滞后变量而增强的SAR模型（空间滞后模型）。即：式中????????是因变量的空间相关关系，????????是自变量的空间相关关系，两者可以设置为相同或不...

2021-02-02 21:29:44 21166 6

原创空间计量经济学（2）---广义空间自回归与空间误差模型

一、广义空间自回归（SAC） 1.模型形式广义空间回归模型（spatial autocorrelation，SAC）同时描述了空间实质相关和空间扰动相关，其形式是空间滞后模型（SAR）和空间误差模型（SEM）的综合，如式所示：其中， W1和 W2分别描述不同截面个体中被解释变量间的相关性和误差项间的相关性，两者可以相同。...

2021-01-31 15:30:00 10331 1

原创空间计量经济学（1）---空间计量简介与空间权重矩阵设置

一、空间计量学空间计量经济学与传统计量经济学的最大区别就是引入了空间效应，空间效应是空间计量经济学的基本特征，它反映着空间因素的影响，是空间计量经济学从传统计量经济领域独立出来的根本原因。1.空间相关性空间相关性是指空间中各变量之间存在相互影响。Goodchild(1992)指出，几乎所有的空间数据都具有空间依赖（或者称空间自相关）特征，也就是说一个地区空间单元的某种经济地理现象或者某一属性值与邻近地区空间单元上同一现象或属性值是相关的。 ...

2021-01-29 17:13:27 15145 5

原创利用arcgis软件画地图

在实际应用中，经常需要将某个特征变量的值显示在地图上，便于观察特征的地域变化，如各省新冠疫情分布图。本文以GDP分布图为例，介绍具体操作，下图即为最终成形图（还可以细化，增加一些其它元素）。操作步骤：（操作前需要准备：arcgis软件，中国31个省的shp地图，所需特征变量（GDP）保存在Excel中）安装好arcgis软件后，首先打开软件，如下：第二步，导入shp文件。打开软件后，进入主界面，点击下图中红色圈内工具，出现添加数据功能，选择shp文件所在路径，添加，然后出现下面第三.

2020-08-21 12:03:30 1344 1

原创政策评价效应---断点回归（RDD）

1. 断点回归基本原理断点回归分析被认为是最接近随机实验的检验方法，能够缓解参数估计的内生性问题，近来在越来越多的研究中得到使用。现有资料已经对断点回归方法的基本原理和效应识别进行了较为广泛的介绍，但对阶数选择和稳健性检验等问题的仍相对较少涉及。本文将基于Stata软件来系统介绍断点回归方法的图形观测、效应识别和有效性和稳健性检验。限于篇幅，本文将内容限定于清晰断点回归方法（Sharp Regression Discontinuity Design ），且只考虑只有一个断点和一个分配变量的问题。2.特征

2020-06-25 15:22:46 17437 6

转载时间字符串与时间戳批量转换

原文博客地址：https://blog.csdn.net/s1164548515/article/details/100186773 时间字符串与时间戳批量转换

2020-06-20 10:01:19 962

转载 R语言实现混频数据分析实例----midas回归预测

目录原文博客地址：https://blog.csdn.net/s1164548515/article/details/101021959背景加载包数据加载数据预览数据预处理混频回归背景：基于季度GDP和月度非农就业总额预测下一季度GDP增长率加载包：library(midasr)...

2020-06-09 16:40:33 4508 1

转载 R语言实现混频数据分析

目录示例： R代码实现加载包生成符合条件的随机数权重分配：Exponential Almon polynomial 约束一致系数低频序列模拟 (e.g. 年度)MIDAS 回归示例月度、季度数据转化为同频基于最小二乘的线性模型基于无约束的混频回归基于midas...

2020-06-09 16:17:57 2968 1

原创结构方程模型-调节（干扰）效应检验（一）

一、调节效应的含义调节效应是交互效应的一种，是有因果指向的交互效应，而单纯的交互效应可以互为因果关系；调节变量一般不受自变量和因变量影响，但是可以影响自变量和因变量；调节变量一般不能作为中介变量，在特殊情况下，调节变量也可以作为中介变量。在统计回归分析中，检验变量的调节效应意味着检验调节变量和自变量的交互效应是否显著。简单来说，就是当x对y有影响，但这种影响关系是否因为第三个变量而改变呢？如果发生改变，则这第三个变量为调节变量。二、例子不考虑调节效应，分析驾驶车速与发生事故概率的

2020-06-07 16:44:37 11311 1

原创线性回归（六）岭回归、lasso回归和弹性网络回归比较

预测儿童身高案例案例背景介绍理论上，一个人的身高除了随年龄变大而增长之外，在一定程度上还受到遗传和饮食习惯以及其他因素的影响。在这里我们把问题简化一下，假定一个人的身高只受年龄、性别、父母身高、祖父母身高和外祖父母身高这几个因素的影响，并假定大致符合线性关系。%config InteractiveShell.ast_node_interactivity = 'all' #同时输出多行结果import copyimport numpy as npfrom sklearn import line

2020-06-03 11:28:47 3237

中国劳动力动态调查2011-2016年

“中国劳动力动态调查” （China Labor-force Dynamics Survey，简称 CLDS）是中国社会科学调查平台（世界一流大学配套专项），是全国第一个以劳动力为主题的全国性跟踪调查。CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查，系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响，建立劳动力、家庭和社区三个层次上的追踪数据库，从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。

2023-03-05

1999-2021年全国各省在校大学生人数

1999-2021年全国各省在校大学生人数，包括本专科生人数，不包括研究生人数。

2022-11-12

市场化指数（1997-2022）

中国分省份市场化指数（简称“市场化指数”）是一个用指数形式衡量全国各省、自治区和直辖市市场化相对进程的指数体系，数据涵盖了全国31个省、自治区、直辖市（以下简称“省份”）在1997—2022年的市场化相对进程总体评分及排序、各方面指数和分项指数评分及排序（西藏个别年份数据暂缺）。市场化指数包含总指标以及各个分项：政府与市场关系、非国有经济发展、产品市场的发育程度、要素市场的发育程度、市场中介组织的发育和法律制度环境。

2022-06-10