Jie Qiao-CSDN博客

原创为什么估计的参数具有渐进高斯性？M-estimateor的渐进高斯性推导

在这里我们研究一种叫M-estimators的渐进高斯性。θoargθ∈ΘminEqwθ)]比如最大似然估计就是最大化似然函数的参数，那么把样本代进去，我们就可以得到θargθminN−1i1∑Nqwiθ它表示就是从样本中估计的参数。我们也可以用其极值条件来表示这个估计量，即找到其导数为0的极值点就是我们的θN−1i1∑N∇θqwiθ0。

2023-10-16 16:02:23 258

原创解耦只是一个巧合？

本文分享一篇在IJCAI2023看到的文章：Overlooked Implications of the Reconstruction Loss for VAE DisentanglementLrecxxLregxLVAExxEqϕz∣xlogpθx∣z−DKLqϕz∣x∥pθzLrecxxLregx。

2023-09-08 16:01:48 251

原创 IJCAI 2023 | 如何从离散时间事件序列中学习因果结构？

现实中许多数据的都是以事件的形式记录的，例如系统日志，社交网络交互，购物行为，浏览行为等等都可以归结为一种事件序列，而在事件序列上学习事件类型之间的因果结构是一项重要且具有挑战的任务，也已经被广泛的应用，例如，在智能运维中的故障根因定位1，在用户购物广告点击中的归因分析2等等。

2023-06-07 22:08:03 859

原创沙普利值（Shapley value）是怎么解释机器学习模型的？

沙普利值来源于合作博弈，cooperative game (coalitional game)。区别于传统博弈认为个体之间是相互独立的并分析其纳什均衡的方法，合作博弈会考虑每个player之间的协作关系，分析合作中会出现的112的收益等情景。合作博弈中一般包含N个参与者，以及一个用于评估不同参与者合作收益的value functionv, 且vϕ0。Shapley value的目的就是解释在一次可能的合作方式每个人的贡献是多少？考虑一个打工人的例子，假设资本家是o。

2023-05-31 21:50:42 1326

原创有效提升英语论文写作的方法

这里结合我的一些经验，分享一些练习英语论文写作的方法。论文是由单词，句子，还有逻辑三部分组成，每个部分的要求都不太一样，这里分成三个部分练习讨论: 1炼词, 2 炼句,3 炼逻辑.

2023-02-18 13:42:13 553 1

原创无痛理解傅里叶变换

对于任意的一个函数f(t)：它往往可以被分解成多个不同的下sin cos 函数的组合：所以为了去捕捉每个不同频率下的sin cos的“成分”，一个直观的想法就是，对于每个频率w，我们分别计算sin(wt)函数和cos(wt)函数与目标函数的“相似度”，而这个相似度可以用内积来计算：Fsin(w)=∫f(t)sin(wt)dtFcos(w)=∫f(t)cos(wt)dt这里Fsin(w。

2022-11-04 00:09:08 3009

原创 Datalore安装使用教程

接下来我们需要去pull一个镜像，在https://hub.docker.com/r/jetbrains/datalore-agent/tags这里，我们需要找到相同版本的datalore-agent，比如上面的配置文件，我们用的版本是jetbrains/datalore-server:2022.2.3，于是就。发现一个jetbrain出的好东西，使用体验完爆jupyter notebook以及jupyter lab的软件，就是安装有点复杂，官网写得有点不清楚，这里简单介绍一下。下载完后，我们就可以直接。

2022-10-25 23:09:29 2128 2

原创理解快速离散傅里叶变换算法(FFT)

FFT是一个非常快速的离散傅里叶变换算法，他的算法复杂度是O(nlog⁡n)\displaystyle O( n\log n)O(nlogn)。在讲解FFT之前，我们先介绍普通的离散傅里叶变换的的输入和输出是什么？以及一个离散傅里叶变换的简单应用。离散傅里叶变换的输入是一个数组，比如[5,3,2,1]，输出是对应的复数，[11,3-2i,3,3+2i]，可以自己试试：这个5,3,2,1可以看做是一个多项式的系数：P(x)=5+3x+2x2+x3P( x) =5+3x+2x^{2} +x^{3}P(x)

2022-10-13 11:39:24 1780 1

原创理解Markov, Chebyshev, Chernoff概率不等式

Markov inequality若Y是非负随机变量，对于所有y>0\displaystyle y >0y>0,都有Pr{Y≥y}≤E⁡[Y]y\mathrm{Pr}\{Y\geq y\} \leq \frac{\operatorname{E}[ Y]}{y}Pr{Y≥y}≤yE[Y]如上图，yPr{Y≥y}\displaystyle y\mathrm{Pr}\{Y\geq y\}yPr{Y≥y}是阴影部分的面积，而整个曲线下的面积是均值，所以，显然yPr{Y≥y}⩽E[Y]

2022-05-29 20:36:23 1231

原创直观理解Law of Total Variance(方差分解公式)

Law of Iterated Expectations (LIE)在讲方差分解之前，我们需要先理解双期望定理。对于一个X，我们可以根据不同的Y将其任意的划分为几部分：于是经过这样的划分，X总体的均值其实是等价于每一个划分下均值的总体均值。E⁡[X]=E⁡[E⁡[X∣Y]]\operatorname{E} [X]=\operatorname{E} [\operatorname{E} [X|Y]]E[X]=E[E[X∣Y]]举个例子，假设一共划分为三部分，每部分的均值分别为70 60 80, 于

2022-04-30 23:25:05 2596

原创理解Double/debiased machine learning

基础：线性回归考虑一个经典线性高斯模型：y=ax+uy=ax+uy=ax+u其中U服从标准高斯分布，a是回归系数，那么回归的目的是找到一个a，使得x与u独立，即cov(y−ax,x)=0⟹cov(y,x)−acov(x,x)=0⟹a=cov(y,x)/cov(x,x)\begin{aligned} & cov( y-ax,x) =0\\\Longrightarrow & cov( y,x) -acov( x,x) =0\\\Longrightarrow & a

2022-04-06 21:23:39 1682 2

原创 ID algorithm: 一种快速给出计算任意干预分布p(Y|do(X))的算法

介绍在这里我会介绍一种快速地计算干预后分布的通用识别算法。举个例子，相信大家都知道back-door准则，设有因果关系X←Z→Y{\displaystyle X\leftarrow Z\rightarrow Y}X←Z→Y且X→Y{\displaystyle X\rightarrow Y}X→Y，于是p(do(x),y,z)=p(z)p(do(x)∣z)⏟=1p(y∣z,do(x))⟹∑zp(do(x),y,z)=∑zp(z)p(y∣z,do(x))⟹p(y∣do(x))p(do(x))⏟=1=∑zp(

2022-03-17 15:42:12 466

原创潜在结果框架(Potential outcomes)与工具变量(Instrumental variable)介绍

Potential outocomes framework什么是potential outcome呢？考虑在医学中，X=0表示不吃药，X=1表示吃药，那么很显然，一个人是没有办法同时吃药与不吃药的，所以我们只能够观测到其中的一个结果，即Y(0)\displaystyle Y( 0)Y(0)或Y(1)\displaystyle Y( 1)Y(1)，而X只是用于选择观测的结果。然而每个人对于吃药的结果是有可能不同的，比如有的人不管吃不吃都没法变好，有的人吃了就能恢复了，有的人吃了反而更难受了，还有的不管吃

2022-03-09 13:54:48 1084

原创统一Pearl与Rubin的因果图模型：Single-World Intervention Graphs

本文是Single World Intervention Graphs (SWIGs): Unifying the Counterfactual and Graphical Approaches to Causality论文的笔记Single World Intervention GraphsRubin的potential outcome框架和 Juder peral 的DAG的模型，一直以来都处于割裂状态，这里用一个统一框架来统一两者。我们知道在Rubin的potential outcome框架.

2022-03-01 22:59:34 928

原创用信息论玩猜数字

看到3b1b用信息论玩Wordle，这里写一个玩猜数字的简化版本.用信息论玩猜数字信息论中衡量一个事件的信息是否丰富是从概率出发，在信息论中，1bit的信息量对应着−log⁡212\displaystyle -\log_{2}\frac{1}{2}−log221，意味着，这个事情发生的概率是12\displaystyle \frac{1}{2}21，且发生之后将能够帮助我们筛选掉一半的搜索空间。直观来看，如果一个事件发生的概率越小，那么发生之后提供的信息就越多，而如果一个事件是常常发生的，那.

2022-02-28 15:42:44 3952

原创点过程的异常事件检测方法

本文是NeurIPS 2021 论文 “Detecting Anomalous Event Sequences with Temporal Point Processes” 的笔记本文需要用到点过程的一些基本性质，建议先去看看这篇文章：点过程及其性质介绍（Point Processes）Detecting Anomalous Event Sequences with Temporal Point Processes我们会在很多地方遇到事件类型的数据，比如日志，金融，用户活动等场景。在这类数据上做.

2021-12-21 22:25:02 721

原创点过程及其性质介绍（Point Processes）

我们会在很多地方遇到事件类型的数据，比如日志，金融，用户活动等场景。点过程是一类对这种事件类型建模的工具。要介绍点过程，我们可以从泊松过程，以及泊松分布讲起。泊松分布的含义该部分参考了马同学的文章：泊松分布的现实意义是什么，为什么现实生活多数服从于泊松分布？。我们可以将时间划分为一个区间，假设每个区间只会发生1次和0次，那么就服从二项分布。如果我们想知道在这个区间内，卖出3个馒头的概率，就和抛了4次硬币（4个时间段），其中3次正面（卖出3个）的概率一样了。此时概率为：C43p3(1−p)1C

2021-12-17 22:53:35 3847 4

原创直观理解万能近似定理(Universal Approximation theorem)

文本是教程"The Universal Approximation Theorem for neural networks" by Michael Nielsen 的笔记。Universal approximation theorem为什么MLP可以拟合任意的函数？我们考虑一个最简单的神经网络，最后一层是sigmoid函数：事实上这就是一个线性函数，然后经过sigmoid扭曲为一条曲线，显然，b决定了不同截距，从而导致sigmoid位置发生了平移。类似的，w决定了线的斜率，从而影响sigmo.

2021-12-09 15:55:28 1678

原创一种用几何解nonlinear ICA的方法

注：本文是gpICA: A Novel Nonlinear ICA Algorithm Using Geometric Linearization的论文笔记线性ICA考虑n个可观测的变量x=[x1,...,xn]T\displaystyle \mathbf{x} =[ x_{1} ,...,x_{n}]^{T}x=[x1,...,xn]T，以及不可观察但相互独立的n个源噪声s=[s1,...,sn]T\displaystyle \mathbf{s} =[ s_{1} ,...,s_{n}]^{T.

2021-11-19 17:17:37 1091

原创 Verma constraint简介

一个神奇的现象如图(a)所示，在这个结构中，U是隐变量，对于这样的一个分布：∑bP(d∣a,b,c)P(b∣a)=f(c,d)\sum _{b} P( d|a,b,c) P( b|a) =f( c,d)b∑P(d∣a,b,c)P(b∣a)=f(c,d)他不是一个关于a的函数！我们发现在某个神奇的边缘分布中，产生了一种额外的独立性！而我们知道独立性是一种非常有效的研究因果结构的方法，得到的独立性越多，所圈定的因果结构的范围就越小。那么这些“多出来的”独立性是能够帮助我们识别出更多的因果结构的。

2021-11-13 22:42:45 642

原创一个洗车店引发的思考：给谁发优惠券好呢？

文章目录一个洗车店的故事解决方案参考文献注：本文是论文Unit Selection Based on Counterfactual Logic的一个笔记一个洗车店的故事从前有个洗车店，洗车能赚140，打算找到一个合适的公司对其发放40元优惠券。为了决定选哪个公司，我们需要调查每个公司的情况来做出一个收益较高的选择。有两种调查的方法，一种是随机试验ab test，即在一个公司内部，随机选择一部分人发优惠券，另一部分不发，那么就能得到该公司关于优惠券的使用率的差异，从而可以计算出该公司选择发放优惠券

2021-11-03 20:56:05 174

原创物理运动方程

文章目录广义坐标最小作用量原理伽利略相对性原理自由质点的拉格朗日函数质点系的拉格朗日函数非惯性参考系中的运动参考资料本文是物理力学中的运动方程的一个笔记，大部分内容来源于朗道理论物理第一卷力学，在原本基础上加了些注释和详细推导，仅供参考。广义坐标一个坐标，我们可以简单的用X,Y,Z来表示物体的物质，然后用X˙,Y,Z˙\displaystyle \dot{X} ,Y,\dot{Z}X˙,Y,Z˙分别表示各个维度的速度，即X˙=dXdt\dot{X} =\frac{dX}{dt}X˙=dtdX

2021-10-06 00:48:47 1275

原创强化学习理论入门(Trust Region Policy Optimization介绍)

介绍本文主要介绍Trust Region Policy Optimization这篇文章，这篇文章主要回答了如下2个问题：两个不同策略的value function，他们的差异是多少？有什么办法可以保证，一个策略相比于另外一个策略一定能够提升呢？针对这两个问题，我们先定义一些基本的概念，基本定义下图是一个较为一般的强化学习MDP框架下的概率图模型注意，这个图并不一定通用，特别是reward（比如st+1s_{t+1}st+1可以不指向rt+1r_{t+1}rt+1），可能是需要考虑具

2021-08-05 20:27:01 522

原创强化学习入门

基本概念Agent : 是程序里面的决策者，他们需要根据环境交互来做出决策.Environment :agent会在里面交互.State : 环境中的状态，比如agent的位置，时间等等。不同的action会有不同的reward.环境有些是可观测的（比如reward），有些是不可观测的。强化学习的任务就是优化累计reward。state value function强化学习最重要的就是

2021-07-17 16:52:04 201

原创因果强化学习入门

文章目录Causal RL的基本settingCRL-TASK 1 GENERALIZED POLICY LEARNING (GPL)CRL-TASK 2. WHEN AND WHERE TO INTERVENE?CRL-TASK 3. COUNTERFACTUAL DECISION-MAKING参考资料本文内容是ICML 2020 Causal Reinforcement Learning tutorial的整理.阅读本文需要一点causal inference基础，可以看看Causal ef

2021-04-08 21:20:46 1384

原创反事实因果(Counterfactual)简介

Counterfactual 简介确定的反事实反事实是什么？用了例子说明，比如你去了二仙桥，走的是成华大道，但是用了很久才到，于是你就想要是当初坐地铁就好了。你会发现，“要是坐地铁就好了”这个推断只有在发生了，“走成华大道用了很久”这个事实下才成立的。什么意思呢，就是一般情况下走成华大道跟地铁是差不多的，但是当天路上发生了一个事故耽误了很久，在已知事实下，你才能推断出坐地铁更好的结论，否则这个结论是不成立的。显然，我们常用的average treatment effect都无法表达这一类推断，因此，我们

2021-03-15 11:44:12 7080

原创 Causal effect可识别的一般条件

Causal effect可识别的一般条件结论：干预后分布p(v′∣do(x))p(v'|do(x))p(v′∣do(x))，可识别的充要条件是，不存在confounder(隐的共同原因)，连接了X与X的孩子。举个例子，上图的U1,U2U_1,U_2U1,U2是隐变量，该图p(y,z1,z2∣do(x))p(y,z_1,z_2|do(x))p(y,z1,z2∣do(x))是可识别的，因为不存在隐变量UUU同时指向X与X的孩子，但是如果我们加一个U3→X,U3→Z1U_3\to X,U_3\to

2021-02-27 23:05:01 828 1

原创直观理解Neural Tangent Kernel

直观理解Neural Tangent Kernel本文是文章Some Intuition on the Neural Tangent Kernel的翻译整理.一句话总结：NTK衡量的是，在使用SGD优化参数下，其对应的随机到样本x′\displaystyle x'x′，在参数更新非常一小步η\displaystyle \etaη后，f(x)\displaystyle f( x)f(x)的变化。也就是：k(x,x′)=lim⁡η→0f(x,θ+ηdfθ(x′)dθ)−f(x,θ)ηk(x,x')=

2020-12-27 23:52:48 4565 3

原创随机傅里叶特征(Random Fourier Features)

随机傅里叶特征(Random Fourier Features)如果使用核方法来预测测试集的样本x\displaystyle xx，比如核岭回归kernel ridge regression，我们需要计算：f(x)=∑i=1Ncik(xi,x)f( x) =\sum ^{N}_{i=1} c_{i} k( x_{i} ,x)f(x)=i=1∑Ncik(xi,x)需要O(Nd)\displaystyle O( Nd)O(Nd)其中N是样本量，d是x的维度大小。当样本量特别大的时候，这个复杂度是

2020-12-22 13:54:56 4335

原创 Darmois-Skitovic定理证明

DS定理在ICA上有着很重要的作用：独立成分分析FastICA算法原理本文给出了DS定理的证明。引理1 设f1,...,fN\displaystyle f_{1} ,...,f_{N}f1,...,fN可导，并且f1(a1x+b1y)+f2(a2x+b2y)⋯+fN(aNx+bNy)=A(x)+B(y) ∀x,yf_{1} (a_{1} x+b_{1} y)+f_{2} (a_{2} x+b_{2} y)\cdots +f_{N} (a_{N} x+b_{N} y)=A(

2020-12-02 23:50:34 576

原创直观理解KKT条件

直观理解KKT条件等高线从等高线讲起。如果我们要优化f(x,y)=x2yf(x,y)=x^2yf(x,y)=x2y这个函数，给定约束为，x2+y2=1x^2+y^2=1x2+y2=1，我们希望在满足约束的情况下使得f最大。也就是说，我们希望找到一个平面z，且在可行域范围内。这个优化函数如下所示：为了更好的演示，我们一般使用等高线，等高线就是考虑俯视图：显然，随着z越来越大，他离我们的圆越来越远，而如果我们缩小z，我们就能找到一个点，恰好与圆相切，这个值就是最优值：梯度总是垂直于等高线现在

2020-11-27 23:07:21 2297 3

原创卷积与点过程和卷积神经网络和随机变量相加的关系

卷积卷积可以看做是一个在很小的一段时间内，所收到响应的加权叠加。具体来说，可以想象成一个打板子的过程，每被打一次板子，所受的痛苦是随着t增加而减少的，我们可以设g(t)\displaystyle g( t)g(t)是一个痛苦(响应)函数，他的痛苦强度是随着t增加而衰减的。那么，我们记在当前时刻的痛苦为g(0)\displaystyle g( 0)g(0)，在过了Δt\displaystyle \Delta tΔt后的痛苦记为g(Δt)\displaystyle g( \Delta t)g(Δt)。那么假设

2020-10-19 23:34:09 487

原创 MCMC算法大统一: Involutive MCMC

蒙特卡洛采样与iMCMC标准采样方法可能很多人都知道只要可以对分布函数F(x)\displaystyle F( x)F(x)求逆，并从均匀分布中采样u,并将u代进逆函数中就能得到x的样本，即x=F−1(u),u∼U(0,1)\displaystyle x=F^{-1}( u) ,u\sim U( 0,1)x=F−1(u),u∼U(0,1)。他的原理是什么？其实他的出发点是找到一个从均匀分布到目标分布的可逆变换g\displaystyle gg：x=g(u)p(x)=p(u)∣dudx∣=pu(g−1(

2020-07-22 11:40:13 429

原创 Propensity score简介

预测causal effect的标准做法是做随机试验，但是这种随机试验通常很难完成，比如要预测吸烟与肺癌的因果效应，那么就必须随机让一部分人强制抽烟（treatment=抽烟），让另一部分人强制不抽烟（treatment=不抽烟），然后这样做是不现实的。此外如果不进行随机试验，那么我们很容易得出一些莫名其妙的结论。比如，你怎么知道是吸烟导致肺癌，而不是因为喜欢吸烟的人本身就容易得肺癌呢？换句话说，这里可能存在一个协变量C（喜欢抽烟），导致了一个人选择treatment=抽烟。那这个问题怎么解决呢？直觉上，

2020-06-22 23:20:40 6049 1

用C++写的数独解题器

超级简单好用多人屏幕共享工具，永久免费

VisualAssistX_10.7.1912破解版

空空如也