自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

哈伦2019的博客

数据分析软件

  • 博客(102)
  • 资源 (21)
  • 收藏
  • 关注

原创 stata蒙特卡罗模拟(二)模拟中心极限定理

蒙特卡罗模拟中心极限定理

2023-03-22 14:48:19 1259

原创 stata 蒙特卡罗模拟(一) 一元线性回归模拟

蒙特卡罗模拟验证一元线性回归模型

2023-03-16 15:19:08 2256

原创 工具变量与两阶段最小二乘stata

以数据集grilic.dta为例,继续探讨教育投资回报率。此数据集的主要变量包括:lnw(工资对数),s(教育年限),expr(工龄),tenure(在现单位的工作年数),iq(智商),med(母亲的教育年限),kww(在“knowledge of the World of Work”测试中的成绩),rns(美国南方虚拟变量,住在南方=1),smsa(大城市虚拟变量,住在大城市=1)。/*读入数据*/use "C:\Users\Administrator\Desktop\stata work..

2022-05-25 17:29:09 16333 2

原创 金融统计分析与挖掘实战8.3-8.4

第八章 上市公司综合评价# 设置工作路径和导入基本数据分析包import osos.chdir("C:\\Users\\Administrator\\Desktop") #设置路径import pandas as pdimport numpy as np8.3 基于总体规模与投资效率的综合评价8.3.1 数据读取与处理data=pd.read_excel('data.xlsx') #读取数据data2=data.iloc[data['Accper'].values=='2016-12

2022-05-18 15:22:02 1508 1

原创 金融统计分析与挖掘实战7.6-7.7

7.6 沪深300指数走势预测import osos.chdir("C:\\Users\\Administrator\\Desktop") #设置路径import pandas as pdimport numpy as np7.6.1 读取数据td=pd.read_excel('index300.xlsx') # 读取数据td.head(6) # 查看前6行 Indexcd Idxtrd01 Idxtrd02

2022-05-13 15:40:20 1399 1

原创 金融统计分析与挖掘实战7.3-7.5

# 7.3 上市公式净利润增长率计算import osos.chdir("C:\\Users\\Administrator\\Desktop")import pandas as pddt = pd.read_excel('data2.xlsx') #获取数据dt.head(6) Stkcd Accper B002000101 0 16 2014-12-3

2022-05-11 15:27:08 2794 1

原创 金融统计分析与挖掘实战6.1-6.3

# 6.1 关联规则import numpy as npimport pandas as pdimport osos.chdir("C:\\Users\\Administrator\\Desktop") #更改工作路径,注意双\\ 任何操作前可以先将常用包和路径先设置好# 6.2.1 一对一关联规则挖掘# 将原始数据转化为布尔数值表tiem = ['西红柿','排骨','鸡蛋','茄子','袜子','酸奶','土豆','鞋子']data = pd.read_excel('tr.xlsx'

2022-05-04 15:39:45 1214 2

原创 金融数据分析与挖掘实战5.6-5.7

# 5.6 支持向量机#汽车评价数据,6个特征变量,1个分类标签,共1728条记录#要求取1690条记录作为训练集,余下的作为测试集,计算预测准确率import numpy as npimport pandas as pdimport osos.chdir("C:\\Users\\Administrator\\Desktop") #更改工作路径,注意双\\ 任何操作前可以先将常用包和路径先设置好# 1.读取数据data = pd.read_excel("car.xlsx")datah

2022-04-29 15:39:33 588

原创 金融统计分析与挖掘实战5.3-5.5

# 5.3 线性回归应用# 一、准备工作(导入包,输入数据,选择变量)import numpy as npimport pandas as pdimport osos.chdir("C:\\Users\\Administrator\\Desktop") #更改工作路径,注意双\\ 任何操作前可以先将常用包和路径先设置好data = pd.read_excel("发电场数据.xlsx")datah = data.head(6) #看前6行的数据,本例中有9000多样本,显示全占用篇幅较大

2022-04-27 17:26:14 1153

原创 金融统计分析与挖掘实战5.1-5.2

# 第5章 机器学习包# 5.2.1 缺失值处理import numpy as npimport pandas as pdimport osos.chdir("C:\\Users\\Administrator\\Desktop") #更改工作路径,注意双\\ 任何操作前可以先将常用包和路径先设置好data = pd.read_excel("missing.xlsx") #将文件放到工作路径下,用该命令读取数据print(data) a b c d0 2.

2022-04-22 17:11:27 814

原创 金融统计分析与挖掘实战3.3.3-3.5

# 3.3.3 数据框# 8.as_matrix()报错import pandas as pdimport numpy as nplist1 = [1,2,3,4,5,6]list2 = [2,3,4,5,6,7]D = pd.DataFrame({"m1":list1,"m2":list2})print(D) m1 m20 1 21 2 32 3 43 4 54 5 65 6 7D1 = D.as_matrix()

2022-04-13 17:19:24 304

原创 金融统计分析与挖掘实战3.3.1-3.3.3

# 3.3 数据框 # 特征:多个序列按照相同的索引组成的二维表# 3.3.1 数据框的创建import pandas as pdimport numpy as np # 先导入两个最常用的数据处理分析包data = {"a" : [2,2,np.nan,5,6],"b" : ["kl","kl","kl",np.nan,"kl"],"c" : [4,6,5,np.nan,6],"d" : [7,9,np.nan,9,8]} #生成一个字典df = pd.DataFrame(data)

2022-04-08 17:37:40 1873

原创 金融统计分析与挖掘实战3.1-3.2

# 第三章 数据处理包 pandas# 3.2序列#3.2.1 序列的创建与访问import pandas as pdimport numpy as np # 数据分析前先导入两个最常见的包# 创建序列# 列表、元组和数组转化为序列s1 = pd.Series([1,-2,2.3,'hq']) #把列表转换为序列print(s1) #虽然我们没写索引,但系统默认了索引0 11 -22 2.33 hqdtype: objecttyp

2022-04-06 17:18:16 1085

原创 金融数据分析与挖掘实战练习2.10

# 2.10矩阵及线性代数的运算# 2.10.1 创建矩阵import numpy as npmat1 = np.mat("1 2 3 ; 4 5 6 ; 7 8 9")print(mat1)[[1 2 3] [4 5 6] [7 8 9]]type(mat1)numpy.matrixmat2 = np.matrix([[1,2,3],[4,5,6],[7,8,9]])print(mat2)[[1 2 3] [4 5 6] [7 8 9]]type(mat2)n

2022-04-01 17:34:22 668

原创 金融数据分析与挖掘实战练习2.5-2.9

# 2.5.1数组切片#满足条件的切片import numpy as npD = np.array([[1,2,3,4],[5,6,7,8],[9,10,11,12],[13,14,15,16]]) #定义数组print(D)[[ 1 2 3 4] [ 5 6 7 8] [ 9 10 11 12] [13 14 15 16]]# 将D中的第0列大于5的所有列数据取出D1 = D[D[ : ,0] > 5, : ]print(D1)[[ 9 10 11 12]

2022-04-01 09:52:05 935

原创 金融数据分析与挖掘实战练习2.1-2.4

#逻辑运算符3 and 443 and 5 and 8 # 如果用and连接多个正整数,那么将显示最后的那个83 and 8 and 553 or 5 or 8 #如果用or连接多个正整数,那么将显示最前面的那个38 or 5 or 385 > 3 < 4 #相当于5>3 and 3<4True#逻辑否运算 not5 > 4True not 5 > 4Falsenot 3 > 4True

2022-03-25 17:38:21 1493

原创 金融数据分析余挖掘实战1.9-1.10补充

# 1.9.2 有返回值的函数def sumt(t): #求1一直加到t的和 s = 0 while t > 0: s = s + t t = t - 1 return ss = sumt(30) #从1加到30的结果print(s)465s = sumt(50) #从1加到50的结果print(s)1275# 如果返回命令写错,比如写成了返回 tdef sumt1(t): #求1一直加到t的和

2022-03-23 17:39:15 474

原创 金融数据分析与挖掘实战练习-1.9

# if while 的综合运用# 猜数字#请猜我心中的那个数字(假如是10)s = input("请猜测我心中记住的那个数字是:")guess = int(s)if guess == 10: print("你很聪明呀,一下子就猜对了!")else: print("很遗憾!我心中的那个数字是10")print("游戏结束,不玩啦!") #缩进很重要,此处顶格写,表示是最外层的程序,一定会执行请猜测我心中记住的那个数字是:10你很聪明呀,一下子就猜对了!游戏

2022-03-18 17:44:42 4219

原创 金融数据分析与挖掘实战1.7-1.8

#1.7练习:如果成绩为60分以下,记为E,60-70 记为D,70-80 记为C ,80-90记为B,# 90-100记为A,某个同学成绩为75分,请设计一个if语句打印输出结果#采用if语句进行操作score = 75if 100 >= score >= 90: #最基础、最直接的条件表达 print("A")if 90 > score >= 80: print("B")if 80 > score >= 70: print(

2022-03-16 17:42:40 718

原创 金融数据分析与挖掘实战1.6-1.7

#1.6 字典的基本操作# 创建字典d = dict() #创建一个空字典d = {}type(d)dictlist1 = [("a",'ok'),('1','lk'),("001",'lk')] #列表中嵌套元组d1 = dict(list1)print(d1){'a': 'ok', '1': 'lk', '001': 'lk'}list11 = [("a",'ok'),('a','lk'),("001",'lk')] #列表中嵌套元组d11 = dict(lis

2022-03-11 17:47:07 535

原创 金融数据分析与挖掘实战1.5.2-1.5.3

元组,字符串的基本操作

2022-03-09 17:41:07 236

原创 金融数据分析与挖掘实战1.4.4-1.5.1

# 1.4.4 统计L1 = [1,2,3,4,5,6]t1 = (1,2,3,4,6)s2 = 'hello word!'m1 = max(L1)print(m1)6m2 = max(t1)print(m2)6m3 = min(t1)print(m3)1m4 = sum(L1)print(m4)21m5 = max(s2)print(m5)wm6 = min(s2) # 不输出结果print(m6)J1 = {1,2,3,4,5,6

2022-03-08 11:54:26 309

原创 金融数据分析与挖掘实战1.3.1-1.3.6

Python基础

2022-03-02 17:49:29 197

原创 金融数据分析与挖掘实战1.4.1-1.4.3

2021-2022-2 (2)Python基础课程

2022-03-02 17:40:42 287

原创 关联规则mlxtend的应用

#购物篮例子,找出关联规则item_list1 = [['西红柿','排骨','鸡蛋'], ['西红柿','茄子'], ['鸡蛋','袜子'], ['西红柿','排骨','茄子'], ['西红柿','排骨','袜子','酸奶'], ['鸡蛋','茄子','酸奶'], ['排骨','鸡蛋','茄子'], ['土豆

2021-06-02 19:55:01 751 1

原创 apriori关联规则

pip install mlxtend #注意在jupyter里面操作要加!The following command must be run outside of the IPython shell: $ pip install mlxtendThe Python package manager (pip) can only be used from outside of IPython.Please reissue the `pip` command in a separate t

2021-05-31 20:32:22 635 2

原创 Python 第五章 因子分析

#相关系数矩阵import pandas as pdData=pd.read_excel('农村居民人均可支配收入来源2016.xlsx')X=Data.iloc[:,1:]R=X.corr()print(R) 工资性收入 经营净收入 财产净收入 转移净收入工资性收入 1.000000 -0.388997 0.826683 0.401917经营净收入 -0.388997 1.000000 -0.205737 -0.314542财产净收入

2021-05-10 20:42:27 1157

原创 Python 第五章 数据预处理

#缺失值填充import pandas as pdimport numpy as npdata=pd.read_excel('missing.xlsx') #数据框datac=np.array([[1,2,3,4],[4,5,6,np.nan],[5,6,7,8],[9,4,np.nan,8]]) #数组cC=pd.DataFrame(c) #数据框C# 1.均值填充策略f

2021-05-10 20:39:52 277

原创 空间计量经济学(5)---指数矩阵空间模型

一、指数矩阵空间模型(MESS)简介经典的空间回归方法通常用一个外生的 阶权重矩阵设定 个观测之间的空间关系,该处理方法存在两个问题:第一,在经济背景下,空间结构可能由外部性或溢出效应引起,假设空间权重矩阵为外生的不符合实际。例如,在经济结构中,外部性和溢出效应意味着位于空间中某点的经济单元对其他经济单元产生了影响,其影响的大小和随距离衰减的程度都是我们关注的重要问题。第二,传统的空间自回归(SAR)模型及其各种拓展模型的极大似然估计涉及一个含参数的高阶行列式,其解析解难以表达,尤其..

2021-02-04 11:08:04 1314

原创 空间计量经济学(4)---空间滞后与空间杜宾误差模型

一、空间滞后模型1.空间滞后模型的形式空间滞后模型(spatial lag model,SLM)描述的是空间相关,也称为空间自回归模型(SAR)。其模型表达式为: ????为空间矩阵,是空间计量经济学模型的核心,具体表达为: 其中 ????????????描述了第 ????个截面个体与第J个...

2021-02-03 10:49:11 21692 1

原创 空间计量经济学(3)---空间杜宾模型与广义嵌套空间模型

一、空间杜宾模型1.空间杜宾模型形式 空间杜宾模型(SDM)是空间滞后模型和空间误差项模型的组合扩展形式,可通过对空间滞后模型和空间误差模型增加相应的约束条件设立。空间杜宾模型(SDM)是一个通过加入空间滞后变量而增强的SAR模型(空间滞后模型)。即: 式中????????是因变量的空间相关关系,????????是自变量的空间相关关系,两者可以设置为相同或不...

2021-02-02 21:29:44 21166 6

原创 空间计量经济学(2)---广义空间自回归与空间误差模型

一、广义空间自回归(SAC) 1.模型形式广义空间回归模型(spatial autocorrelation,SAC)同时描述了空间实质相关和空间扰动相关,其形式是空间滞后模型(SAR)和空间误差模型(SEM)的综合,如式所示: 其中, W1和 W2分别描述不同截面个体中被解释变量间的相关性和误差项间的相关性,两者可以相同。...

2021-01-31 15:30:00 10331 1

原创 空间计量经济学(1)---空间计量简介与空间权重矩阵设置

一、空间计量学 空间计量经济学与传统计量经济学的最大区别就是引入了空间效应,空间效应是空间计量经济学的基本特征,它反映着空间因素的影响,是空间计量经济学从传统计量经济领域独立出来的根本原因。1.空间相关性 空间相关性是指空间中各变量之间存在相互影响。Goodchild(1992)指出,几乎所有的空间数据都具有空间依赖(或者称空间自相关)特征,也就是说一个地区空间单元的某种经济地理现象或者某一属性值与邻近地区空间单元上同一现象或属性值是相关的。 ...

2021-01-29 17:13:27 15145 5

原创 利用arcgis软件画地图

在实际应用中,经常需要将某个特征变量的值显示在地图上,便于观察特征的地域变化,如各省新冠疫情分布图。本文以GDP分布图为例,介绍具体操作,下图即为最终成形图(还可以细化,增加一些其它元素)。操作步骤:(操作前需要准备:arcgis软件,中国31个省的shp地图,所需特征变量(GDP)保存在Excel中)安装好arcgis软件后,首先打开软件,如下:第二步,导入shp文件。打开软件后,进入主界面,点击下图中红色圈内工具,出现添加数据功能,选择shp文件所在路径,添加,然后出现下面第三.

2020-08-21 12:03:30 1344 1

原创 政策评价效应---断点回归(RDD)

1. 断点回归基本原理断点回归分析被认为是最接近随机实验的检验方法,能够缓解参数估计的内生性问题,近来在越来越多的研究中得到使用。现有资料已经对断点回归方法的基本原理和效应识别进行了较为广泛的介绍,但对阶数选择和稳健性检验等问题的仍相对较少涉及。本文将基于Stata软件来系统介绍断点回归方法的图形观测、效应识别和有效性和稳健性检验。限于篇幅,本文将内容限定于清晰断点回归方法(Sharp Regression Discontinuity Design ),且只考虑只有一个断点和一个分配变量的问题。2.特征

2020-06-25 15:22:46 17437 6

转载 时间字符串与时间戳批量转换

原文博客地址:https://blog.csdn.net/s1164548515/article/details/100186773 时间字符串与时间戳批量转换

2020-06-20 10:01:19 962

转载 R语言实现混频数据分析实例----midas回归预测

目录原文博客地址:https://blog.csdn.net/s1164548515/article/details/101021959背景加载包数据加载数据预览数据预处理混频回归背景:基于季度GDP和月度非农就业总额预测下一季度GDP增长率加载包:library(midasr)...

2020-06-09 16:40:33 4508 1

转载 R语言实现混频数据分析

目录示例: R代码实现 加载包生成符合条件的随机数权重分配:Exponential Almon polynomial 约束一致系数低频序列模拟 (e.g. 年度)MIDAS 回归示例 月度、季度数据转化为同频基于最小二乘的线性模型基于无约束的混频回归基于midas...

2020-06-09 16:17:57 2968 1

原创 结构方程模型-调节(干扰)效应检验(一)

一、调节效应的含义 调节效应是交互效应的一种,是有因果指向的交互效应,而单纯的交互效应可以互为因果关系;调节变量一般不受自变量和因变量影响,但是可以影响自变量和因变量;调节变量一般不能作为中介变量,在特殊情况下,调节变量也可以作为中介变量。在统计回归分析中,检验变量的调节效应意味着检验调节变量和自变量的交互效应是否显著。 简单来说,就是当x对y有影响,但这种影响关系是否因为第三个变量而改变呢?如果发生改变,则这第三个变量为调节变量。二、例子 不考虑调节效应,分析驾驶车速与发生事故概率的

2020-06-07 16:44:37 11311 1

原创 线性回归(六)岭回归、lasso回归和弹性网络回归比较

预测儿童身高案例案例背景介绍理论上,一个人的身高除了随年龄变大而增长之外,在一定程度上还受到遗传和饮食习惯以及其他因素的影响。在这里我们把问题简化一下,假定一个人的身高只受年龄、性别、父母身高、祖父母身高和外祖父母身高这几个因素的影响,并假定大致符合线性关系。%config InteractiveShell.ast_node_interactivity = 'all' #同时输出多行结果import copyimport numpy as npfrom sklearn import line

2020-06-03 11:28:47 3237

中国劳动力动态调查2011-2016年

“中国劳动力动态调查” (China Labor-force Dynamics Survey,简称 CLDS)是中国社会科学调查平台(世界一流大学配套专项),是全国第一个以劳动力为主题的全国性跟踪调查。CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查,系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响,建立劳动力、家庭和社区三个层次上的追踪数据库,从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。

2023-03-05

1999-2021年全国各省在校大学生人数

1999-2021年全国各省在校大学生人数,包括本专科生人数,不包括研究生人数。

2022-11-12

市场化指数(1997-2022)

中国分省份市场化指数(简称“市场化指数”)是一个用指数形式衡量全国各省、自治区和直辖市市场化相对进程的指数体系,数据涵盖了全国31个省、自治区、直辖市(以下简称“省份”)在1997—2022年的市场化相对进程总体评分及排序、各方面指数和分项指数评分及排序(西藏个别年份数据暂缺)。市场化指数包含总指标以及各个分项:政府与市场关系、非国有经济发展、产品市场的发育程度、要素市场的发育程度、市场中介组织的发育和法律制度环境。

2022-06-10

地级市绿色全要素生产率(2000-2019).xlsx

2000-2019年 421个行政区样本,四个直辖市为区级层面数据,其他行政区为地市层面样本,在数据包络分析框架下,利用SBM模型和Malmquist生产率指数对城市全要素生产率增长进行测度,该数据通过大量计算得到。

2022-01-16

各省人均GDP(1949-2020)​​.xlsx

1949年-2020年31个内陆省份的人均GDP数据

2021-10-18

2002—2019年各省基尼系数.xls

2002年到2019年全国各省基尼系数,包括整体和分城乡基尼系数,对于收入不平衡的研究有帮助

2021-09-15

missing.xlsx Python数据预处理数据

Python数据预处理的数据

2021-05-10

data.npy规范化数据

Python第五章 数据规范化数据

2021-05-10

农村居民人均可支配收入来源2016.xlsx

Python第五章 因子分析的数据

2021-05-10

中国31省区市42部门投入产出表(1997-2017).zip

中国31省区市42部门投入产出表(1997-2017)

2021-05-05

HHI赫芬达尔指数行业集中度数据(1990-2019年数据).xlsx

是一种测量产业集中度的综合指数。按行业计算的指数

2021-05-05

市场化指数2008-2019.xlsx

2008-2019年全国31个省市场化指数数据

2021-04-05

285个地级市空间权重矩阵.xlsx

地级市空间权重矩阵(包括距离和反距离两种空间权重矩阵)

2021-04-05

CFPS数据excel.zip

Excel格式数据。CFPS重点关注中国居民的经济与非经济福利,以及包括经济活动、教育成果、家庭关系与家庭动态、人口迁移、健康等在内的诸多研究主题,是一项全国性、大规模、多学科的社会跟踪调查项目。

2021-03-15

空间计量模型(1)的数据资料

stata空间计量模型(1)数据资源

2021-01-29

05_GDP.xlsx

全国31个省的GDP数据,数据仅做学习使用,请勿做商业使用,欢迎大家共同学习画图软件,一起进步,加油!

2020-08-21

断点回归do文件.do

政策评价效应---断点回归的代码,共同学习。仅供学习使用,切勿用作其它,谢谢!欢迎大家提出宝贵意见,共同完善和学习

2020-06-25

断点回归数据.dta

政策评价效应---断点回归模拟的数据,共同学习。仅供学习使用,切勿用作其它,谢谢!欢迎大家提出宝贵意见

2020-06-25

amos training data mean center.sav

本案例中所使用的数据集,数据集仅作为学习使用,不要商用,谢谢!欢迎大家一起学习调节效应知识,共同探讨进步!

2020-06-07

一、车次上车人数统计表.xlsx

数据可视化包matplotlib包(二)数据集,用于本文各种图形的操作,仅供学习使用,请勿他用,谢谢!

2020-05-14

nerlove.dta

本案例所使用的数据,如需操作,可下载使用,谢谢! 资源仅限学习使用,勿作他用。

2019-09-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除