celine0227-CSDN博客

原创机器学习实现文本分类

word embedding文本分布式表示方法则是深度学习方法的重要基础文本的分布式表示(Distributed Representation)的基本思想是将每个词表示为n维稠密，连续的实数向量。分布式表示的最大优点在于它具有非常强大的表征能力，比如n维向量每维k个值，可以表征k的n次方个概念。事实上，不管是神经网络的影层，还是多个潜在变量的概率主题模型，都是在应用分布式表示。下图的神经网络语言模型（NNLM）采用的就是文本分布式表示。

2024-04-11 10:15:40 1082 1

原创 psm的stata实现

在经济学中，我们通常希望评估某项公共政策实施后的效应，为此，我们构建 "处理组" 和 "控制组" 以评估「处理效应 (treatment effect)」。然而，我们的数据通常来自非随机的观察研究中，处理组和控制组的初始条件不完全相同，故存在「选择偏差 ( selection bias)」问题。「倾向得分匹配 (PSM)」法使用倾向得分函数将多维向量的信息压缩到一维，然后根据倾向得分进行匹配。这样可以在既定的可观测特征变量下，使得处理组个体和控制组个体尽可能相似，因而可以缓解处理效应的选择偏差问题。

2024-02-20 17:06:24 1624

原创多时点DID

对于 Time-varying DID 来说，即使没有了统一的政策时点，由于每一个个体进入实验组的时点是确定的，我们可以通过当前年份与该个体的政策时点相比较，就可以得到该个体的前 N 期到后 N 期，从而观察动态的政策效果。换句话说，Standard DID 结合 ESA 方法所生成的时期虚拟变量是一种绝对的时间尺度，即观测政策在某个样本时期的效果，而 Time-varying DID 利用 ESA 方法所需要的是相对的时期，即观测政策效果在个体接受处理的前 N 期和后 N 期的变化。

2024-01-07 21:09:05 853

原创双变量probit模型

该模型是Probit模型的拓展，适用于模型中有两个结果变量且假定方程组的随机扰动项之间存在相关性，模型中的方程需同时进行估计。如果这两个二元变量的结果是不相关的，我们可以估计两个独立的 Probit 模型，如果这两个二元变量的结果是相关的，使用Probit 模型会导致估计结果偏差并影响结论，则需要使用 Bivariate Probit 模型。分别为标准化的二维正态分布的概率密度函数 (PDF) 和累积分布函数 (CDF), 这个标准化的二维正态分布的期望为 0 , 方差为 1 , 而相关系数为。

2024-01-07 10:47:50 1745

原创离散被解释变量

因为在两点分布的情况下，稳健标准误就等于MLE的普通标准误，如果模型设定正确，则无需使用稳健标准误。而如果模型设定存在问题，则probit 和logit并不能一致估计相关系数，采用稳健标准误的意义也不存在了。存在过度分散的情况下，但对被解释变量的方差函数并不清楚地时候，可采取泊松回归+稳健标准误的方式，但在了解方差函数的情况下，当然负二项回归能够提供更加有效的估计。总体而言，差别存在于对被解释变量的残差的前提假定不同：probit假定的是正态分布，Logit假定的是logitistic分布。

2022-12-16 11:57:27 1666 1

原创 stata的时间序列

stata的时间序列是从1960年1月1日开始的，季度数据是从1960q1开始的；第一个时间数据就是0，因此tq(1960q1)返回的是0。其中的101表示，1960q1和1985q1间隔了101个季度，我们需要优化格式来提升可读性，使用format函数。此时需要通过tsset声明时间序列的时间变量。tq函数的意义是标记时间序列的第一个时间点。1. stata中的时间序列。

2022-12-15 14:17:02 4699

原创文件的纵向合并

在进行数据最初处理我们需要合并多个excel文件。

2022-12-01 11:23:05 5585

原创追踪程序运行

set trace on命令主要功能是帮助我们追踪程序的运行过程，展示详尽的运算结果，例如：运行以下回归时加入set trace on 命令

2022-05-31 21:28:14 320

原创融资约束各指数

KZ指数借鉴Kaplan and Zingales(1997)，以中国上市公司为样本构建KZ指数，用以衡量融资约束程度。具体而言，按以下步骤构建KZ指数：1. 对全样本各个年度都按经营性净现金流/上期总资产（）、现金股利/上期总资产（）、现金持有/上期总资产（）、资产负债率（）和Tobin`s Q（）进行分类。2. 如果低于中位数，则取1，否则取0；如果低于中位数，则取1，否则取0；如果低于中位数，则取1，否则取0；如果高于中位数，则取1，否则取0；如果高于中位数，则取1，否则取0。3. 计

2022-05-23 18:34:04 19103

原创样本选择模型 & 处理效应模型

一、样本选择偏差与自选择偏差样本选择偏差样本选择偏差的非随机选择机制在于对样本的选择不随机。在样本数据的采集过程中，只对某部分群体进行调查，但这部分群体与其他群体在某些方面的特征差异较大，因此根据这样的样本做回归得到的普适性结论并不可信。体现在具体的数据集中就是，数据集中只有特定群体的样本，或者，虽然有全部群体的所有解释变量数据，但除特定群体之外的其他群体的被解释变量数据缺失，在这两种情况下进行的回归，都将直接忽视其他群体的样本信息（y缺失的样本在参与回归时将被drop掉）。实质上，样本选择偏差说的

2022-05-16 19:02:59 7355 1

原创探讨计量经济学与机器学习

一、计量经济学与机器学习的联系和区别：共通之处在于二者所使用的“原材料”和任务的形式的高度相似性。简单来说，两类方法的最终输入都是结构化数据。你有一个因变量，有一堆自变量，有好多的个案。最后的目的都是对自变量进行一通操作来去“近似”这个因变量。区别在于使用两类方法的根本目的是不一样的。使用计量经济学方法目的是进行结构分析，也就是说我们最后是想知道哪些自变量会对因变量产生影响，影响有多大；只关注变量的系数和显著性。与之不同，使用机器学习方法的目的就是用一大堆自变量去预测因变量。更关注预测的准确度。

2022-04-27 21:23:08 3599

原创 Lasso模型

Lasso是一种数据降维方法，该方法不仅适用于线性情况，也适用于非线性情况。Lasso是基于惩罚方法对样本数据进行变量选择，通过对原本的系数进行压缩，将原本很小的系数直接压缩至0，从而将这部分系数所对应的变量视为非显著性变量，将不显著的变量直接舍弃。了解Lasso之前我们需要了解的知识1.1 高维数据何谓高维数据？高维数据指数据的维度很高，甚至远大于样本量的个数。高维数据的明显的表现是：在空间中数据是非常稀疏的，与空间的维数相比样本量总是显得非常少。在分析高维数据过程中碰到最大的问题就是维数的膨胀，

2022-04-27 20:37:36 9438

原创聚类稳健标准误

一、为什么？对样本做回归分析的核心是使用最小二乘法去估计模型里的参数，比如核心解释变量前面的系数。我们通过最小二乘法使得残差平方和最小，求得样本估计系数。如果进行一次估计，由于干扰项e的存在，估计值与真实值之间一定存在差异。样本估计值与真实值之间的差别中，误差项起了关键作用。误差项是一个随机变量，每次估计都会得到不同的差异值。关于样本估计系数性质的讨论，都以误差项为核心。我们希望样本估计系数特别好，接近真实值，所以必须有良好的性质，而良好的性质需要有前提条件，也就是一些假设。比如，我们希望反复抽

2022-04-25 15:48:45 25579 4

原创三重差分模型

1. 为什么使用三重差分法？双重差分法的重要假设是对照组和实验组的时间趋势一样，而当控制组和实验组的时间趋势不同，则无法得到一致的实验估计量，需要进一步改进双重差分估计量。三重差分法的原理假设美国 B 州针对 65 岁或以上的老年人 (实验组，Treat = 1) 引入一项新的医疗保健政策，其他年龄群体不适用。考察此政策对健康状况的影响，选用 B 州 65 岁以下群体 (old = 0) 作为对照组。由于人的健康状况随时间的变化并不是线性的，而不同年年龄组的个体的健康状况变化的时间趋势也存在差异

2022-03-29 11:50:47 10466

原创工具变量检验

用IV做2SLS回归时，需要对IV进行三个方面的检验：一、不可识别检验即检验工具变量的个数是否少于内生解释变量的个数，使用的统计量是Anderson LM 统计量/Kleibergen-Paap rk LM统计量。这里p值小于0.01说明在 1%水平上显著拒绝“工具变量识别不足”的原假设，也就是要求p值不能大于0.1。检验时加robust是Kleibergen-Paap rk LM统计量；不加robust是Anderson LM 统计量。也就是说在iid情况下看Anderson LM 统

2022-03-15 17:31:20 18816

原创中介效应的问题

1. 控制变量（1）必须控制的情况如果核心解释变量是w，x会影响y，同时x和w相关，那么x必须作为控制变量。（2）不能控制x是y的结果，不能控制“事后”变量。（3）可控制可不控制的情况这是最类似于“中介效应”的一种情况，控制和不控制x都有道理，关键看我们想讲的故事是什么。比如说，如果我们希望研究教育年限（w）对于收入（y）的影响，要不要控制“是否拿到了学位证”（x）这一变量？如果不控制，那么意思是说我要看的是每多上一年学对收入的“总影响”；而如果控制了x，那就是在排

2022-02-09 09:26:45 4280

原创 heckman两阶段的stata命令

1. Heckman两阶段法作用在学术问题研究中，我们在考察因果关系时，经常会遇到因果关系考察中的内生性问题。一般而言，内生性问题主要来源于以下几个方面：（1）反向因果关系，即自变量影响因变量，因变量反过来也影响自变量，从而导致内生性。（2）测量误差；（3）遗漏变量，遗漏的该变量与自变量相关并进入误差项，从而导致自变量与误差项相关，出现内生性问题；（4）样本自选择。然而，实证研究中所产生的内生性问题，容易导致的后果是所研究结论有偏且不一致性，使得所得结论不具有稳健性。在实证研究中，我们将有多种解决方面.

2022-01-13 19:38:25 26828

原创聚类调整标准误笔记

1. 何为聚类标准误标准误在统计推断中发挥着至关重要的作用，直接影响着系数的显著性和置信区间，并最终影响到假设检验的结论。因此，正确地估计标准误在实证分析的过程中显得尤为重要。当干扰项满足「独立同分布 (iid)」条件时， OLS 所估计的标准误是无偏的。但是当误差项之间存在相关性时，OLS 所估计的标准误是有偏的，不能很好地反映估计系数的真实变异性 (Petersen, 2009)，故需要对标准误进行调整。在多种调整标准误的方式中，「聚类调整标准误 (cluster)」是一种有效的方法 (Peter

2022-01-12 08:53:45 10106

原创数据标准化处理

一、为什么进行标准化处理在多指标评价体系中，由于各评价指标的性质不同，通常具有不同的量纲和数量级。当各指标间的水平相差很大时，如果直接用原始指标值进行分析，就会突出数值较高的指标在综合分析中的作用，相对削弱数值水平较低指标的作用。因此，为了保证结果的可靠性，需要对原始指标数据进行标准化处理。数据的标准化(normalization)是将数据按比例缩放，使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到，去除数据的单位限制，将其转化为无量纲的纯数值，便于不同单位或量级的指标能够进行比较和

2021-11-06 17:36:24 21592

原创广义精确匹配-Coarsened Exact Matching (CEM)

严格来说，即使发表的论文，协变量在匹配后也不一定更加平衡，往往是某些变量的平衡性得到提升，而另一部分变量的平衡性有所下降。因此，我们介绍一种无需检查协变量平衡性、模型依赖度更低的匹配方法——Coarsened Exact Matching (广义精确匹配 \ 粗粒度精确匹配)。1. CEM原理介绍常用的 PSM 方法往往无法确保在匹配后提升平衡性，而 Coarsened Exact Matching(CEM) 可以通过控制观测数据中混杂因素对政策结果影响使处理组与控制组的协变量的分布尽可能保持平衡.

2021-10-31 16:27:38 3656 1

原创 PSM+DID

PSM-DID 模型是由倾向得分匹配模型 (Propensity Score Matching，以下简称 PSM) 和双重差分模型 (Differences-in-Differences，以下简称 DID) 结合而成。其中，PSM 负责为受处理的个体筛选对照个体，DID 负责识别政策冲击所产生的影响。PSM 适用于截面数据，而 DID 适用于面板数据。针对二者适用范围不同的问题，学者们一般有两种解决方案：一是将面板数据直接转化为截面数据进行处理；二是在面板数据的每期截面上进行逐期匹配

2021-10-31 12:01:57 36393 4

原创 PSM倾向得分匹配

1. 简要介绍我们以是否上大学() 对收入() 的影响为例来说明这个问题。这里，先讲二者的关系设定为如下线性模型：显然，在模型 (1) 的设定中，我们可能忽略了一些同时影响「解释变量」——是否上大学() 和「被解释变量」——收入() 的因素，例如，家庭背景、能力、动机、个人兴趣等。这些因素被称为「共同因素 (Common Factors)」，因为他们同时影响被解释变量和解释变量，但又往往不可观测或无法获取数据。从计量经济学的角度来讲，在模型设定中遗漏的「共同因素」都会「跑到...

2021-10-30 17:45:09 30313 2

原创常用的27个Stata命令

1. 直接导入csv格式数据insheet using name.csv, clear2. 修改变量长度format var %20.2g3. 删除重复值sort var1 var2duplicatesdrop var1 var2, force4. 数据合并use data1, clearmerge m:m var1var2 using data2drop if _merge==2drop if _merge==1drop _merge5. 生成一期滞后项

2021-10-30 12:34:49 19899

原创了解原始数据

在进行实证研究之前，我们有必要熟悉自己的原始数据。1. 查看数据 list in 1/10通过这个命令，我们可以查看该数据库第1到第10个数据，对数据有一个初步的了解。屏幕显示的结果如下：2. 查看数据类型describe通过这个命令，我们可以查看这个数据集的简要介绍，包括了样本数量(obs:100)、变量数量(vars:10)、大小(size:3800)、以及每个标量的简要介绍。屏幕显示的结果如下：3. 单变量分析3.1 Codebook Codebook这个命令适合于

2021-10-29 16:14:23 2509

原创 Heckman 两阶段法及与工具变量法的区别

一、适用范围Heckman两阶段模型适用于解决由样本选择偏差（sample selection bias）造成的内生性问题。在经济学领域，样本选择偏差的典型例子是研究女性的受教育情况对女性工资的影响。按照这个思路，一般会去问卷收集或在哪个网站下载部分女性的受教育情况，工资，及其他特征数据，例如年龄，毕业院校等级等个人特征，然后做回归。不过这样做有一个问题，就是登记的女性，都是在工作的，但是许多受教育程度较高的女性不工作，选择做家庭主妇，这部分样本就没有算在内，样本失去随机性。这就导致模型只是用到了在

2021-10-29 11:59:36 16813 1

原创 DID模型

政策评估 (Policy Evaluation) 是当前公共经济学和劳动经济学中最常用的实证方法。其目的在于评价一项既有政策的效果，此类研究关注的是该政策的处理效应 (Treatment Effect)。由于政策往往是对一类特定的人群起作用，政策评估的基本思想是将这类人群与其他人群进行比较。目前，双重差分模型 (Difference-in-Differences) 是用于政策评估的常用模型。1.1 因果识别思路对特定个体，表示第期的个体受到政策影响 (处理组)，表示第期的个...

2021-10-24 10:46:01 25977 3

原创 Tobit模型

1. Tobit模型介绍Tobit模型适用于归并数据，比如家庭娱乐消费这类数据的特点是如果y大于0，则我们可以观察到它；但是如果y小于等于0，那么我们只能观察到0，这种属于左归并。我的理解是，虽然一部分人的消费为0，但是他们不愿意参与消费的程度是不一样的，普通的模型无法反映这种特征。当然也可能存在y大于等于c，我们只能观测到c的右归并情况。最后，还存在着左右双侧归并的情况。陈强老师的书中提供了证明，这类数据使用一般的OLS估计是不一致的。需要使用Tobin1958年提出的MLE估计方法，也称Tobi

2021-10-17 10:01:40 11562

原创解决内生性问题

1. 内生性来源内生性问题 (endogeneity issue) 是指模型中的一个或多个解释变量与误差项存在相关关系。换言之，如果 OLS 回归模型中出现，则模型存在内生性问题，以致于 OLS 估计量不再是一致估计。进一步，内生性问题主要由以下四种原因导致。1.1 遗漏变量在实证研究中，研究者通常无法控制所有能影响被解释变量的变量，因此遗漏解释变量 (omitted variables) 是很常见的事情。假设 OLS 模型中解释变量为和，研究者遗漏的解释变量为如果遗漏的变量...

2021-10-14 20:27:36 21014 1

原创二值选择模型

被解释变量是离散的一、二值选择模型（两种选择）为了使y的预测值总是介于[0,1]之间，在给定x的情况下，考虑y的两点分布概率： a. 如果为标准正态的累积分布函数(cdf)，则该模型成为“Probit”b. 如果为“逻辑分布”的累计分布函数，则该模型成为“Logit”。由于逻辑分布累积分布函数有解析表达式，存在解释表达式，回归系数更好解释。Logit回归的系数，转换为or值后，表示的是p/1-p的大小。Probit模型没有经济意义，需要通过边际效应进行求值..

2021-09-16 22:45:56 7866

原创固定效应模型

一、面板数据优点1. 可以解决遗漏变量的问题：遗漏变量由于不可观测的个体差异或“异质性”造成的，如果这种个体差异“不随时间而改变”，则面板数据提供了解决遗漏变量问题的又一利器。2. 提供更多个体动态行为的信息：由于面板数据同时有横截面与时间两个维度，优势它可以解决单独的截面数据或时间序列数据所不能解决的问题。3. 样本容量较大：由于同时有截面维度与时间维度，通常面板数据的样本容量更大，从而可以提高估计的精确度。估计面板数据长假定个体的回归方程拥有相同的斜率，但可以有不同的截距，以此来捕捉异质

2021-09-16 17:36:15 61676 2

原创一行代码实现安慰剂检验

1. 什么是安慰剂检验随着「因果推断方法」在实证研究中的使用比例不断提升，越来越多的文章也会进行安慰剂检验。其检验基本原理与医学中的安慰剂类似，即使用「假的政策发生时间或实验组」进行分析，以检验能否得到政策效应。如果依然得到了政策效应，则表明基准回归中的政策效应并不可靠。进一步，经济结果可能是由其他不可观测因素导致的，而非关注的政策所产生。2. 为什么要进行安慰剂检验在实证研究中，无论是稳健性检验，还是安慰剂检验，亦或是异质性分析，其背后真实的目的只有两方面：第一，使得文章故事性更强，逻

2021-09-16 15:42:44 14461 10

原创 stata实证之前通常处理步骤

1. 剔除缺失数据在主回归文件有缺失内容时，剔除掉缺失值keep if _merge==3数据处理结束——删除因变量缺失的数据drop if missing(size, lev, growth, roa, cashflow, btom, largesthold,dyratio,dgjhold,dgjwage,ncskew,duvol,sigma,ret,ipoage,board,ind_board, yretwd,inholding,analysts,industrycode,soe

2021-09-14 22:46:27 10130 1

原创估计残差项

1. 预测值xi:areg ln_Cash_ratio1 Size FCF NWC SIGMA MB_1 Leverage i.year,absorb(stkcd)predict ln_Cash_ratio1_hat很显然，predict后面加或不加option选项xb，生成的都是线性拟合值（linear prediction），跟残差项没半点关系。你用predict u或者predict e，得到了两个模型的拟合值，区别仅仅在于一个名字叫u，一个名字叫e。2. 提取残差项（1）在截

2021-09-08 22:07:40 1384

转载 LSTM介绍

1. 传统神经网络结构的缺陷从传统的神经网络结构我们可以看出，信号流从输入层到输出层依次流过，同一层级的神经元之间，信号是不会相互传递的。这样就会导致一个问题，输出信号只与输入信号有关，而与输入信号的先后顺序无关。并且神经元本身也不具有存储信息的能力，整个网络也就没有“记忆”能力，当输入信号是一个跟时间相关的信号时，如果我们想要通过这段信号的“上下文”信息来理解一段时间序列的意思，传统的神经网络结构就显得无力了。与我们人类的理解过程类似，我们听到一句话时往往需要通过这句话中词语出现的顺序以及我们之前所学

2021-09-07 15:49:51 5238

原创 Stata字符串函数：快捷提取字符信息

1.substr()函数的用法语法：substr(s,n1,n2)a. s为需要进行提取的字符串b. n1表示提取的起始位置。c. 对于不同编码的文本，n2代表不同含义。对于纯ASCII编码的文本，n2表示要提取字符长度为n2的字符串。而对于其他非ASCII编码的文本来说，n2表示要提取字节长度为n2的字符串。(当然，对于那些纯ASCII编码的字符来说，上述两种说法是等价的。需要注意的是，所有utf-8编码中超出ASCII编码范围的字符都是两个字节以上。)dis substr('a

2021-09-05 10:40:41 40090 2

原创 Dataframe常用问题

一、Dataframe修改某一列的列名df.rename(columns={'Year_orig':'year','Quarter_orig':'quarter'},inplace=True)inplace=True修改了原数据grouped = df_state_unemployment.groupby(['year','state'])grouped['Points'].sum()二、通过pandas删除行、列（drop）：删除行drop方法中，默认是删除行。如果用ax

2021-08-25 19:35:40 149

原创 stata计量之前数据清洗的必备步骤

数据清理第一步:整体数据查看一、查看识别变量--isid、duplicates一般而言，每个数据集都有唯一一个识别每条记录的识别符(重复测量的长型数据除外)。Stata检查唯一识别符是否唯一的命令为isid(或许是is this an ID的缩写)。isid允许同时检查多个唯一识别符，如果没有返回值，就说明是唯一的(没有消息就是好消息);如果不唯一，就会出现红色提示variable *** does not uniquely identify the observations。如采用下面例子中的查重

2021-08-24 15:17:48 24639

原创区分“研发支出“、“开发支出“、“研发费用“

一、概念区分首先，区别"开发支出"和"研发费用"是报表项目，"研发支出"是会计科目。其次，"开发支出"报表项目应根据"研发支出"科目中所属的"资本化支出"明细科目期末余额填列。"研发费用"报表项目应根据"管理费用"中与研发相关的费用加上自行研发的无形资产的摊销金额来填列。补充说明:1.自行研发无形资产分为研究和开发两个阶段。研究阶段发生的支出全额计入"研发支出--费用化支出"，期末转入"管理费用"。开发阶段发生的支出符合资本化条件的计入"研发支出--资本化支出",当无形资产达到预定可使用状态

2021-08-24 11:12:43 3592

原创 Pandas常规问题汇总

一、Series1. 创建series(1) 列表创建n [1]: import pandas as pdIn [2]: list_a = [2,4,5,6]In [3]: pd.Series(list_a)Out[3]:0 21 42 53 6dtype: int64(2) 字典创建In [5]: pd.Series({'a':1,'b':3})Out[5]:a 1b 3dtype: int64#如果定义的index

2021-08-23 20:26:18 704

空空如也

空空如也