- 博客(124)
- 资源 (4)
- 收藏
- 关注
原创 变分自编码器(VAE)相关证明
VAE 模型便是这样的生成模型,VAE模型的优化目标即是所谓的ELBO Loss;各向独立的假设是比较强的假设,限制了模型的假设空间;在满足以上两点要求的前提下,为了提升模型的假设空间,一类做法是提升函数。生成模型通过建模变量的联合分布,学习样本的生成过程。判别模型则是建模变量之间的映射关系。的分布已经不是高斯分布。的计算方法,并通过证明揭示函数。,但是这类做法遇到的一个问题是。等价于样本的极大似然估计。以往的研究者们提出了多种函数。因此最大化 ELBO。以上证明我吗假定函数。
2024-03-31 08:58:46 843
原创 Gumbel 重参数化相关性质证明
Gumbel 的采样过程:zargmaxigilogπi)}gi−log−logui))ui∼U01采样得到的随机变量满足一下分布:gi∼Gumble011)higilogπi∼Gumblelogπi12证明过程:PuPU≤uuu∈01)G−log−logU))u∈01)Pg。
2023-12-18 21:26:44 514
原创 图示矩阵分解
特征方程在复数范围内恒有解,解的个数为方程的次数(重根按重数计算),因此,n 阶矩阵。定理:一个 n 阶方阵 A 如果有 n 个不同的特征值,那么对应的 n 个特征向量互相线性独立。其中 P 是由 n 个正交特征向量组成的矩阵,D 是有特征值组成的对角矩阵。把一个对称正定的矩阵表示成一个下三角矩阵 L 与其转置的乘积的形式。,P 为A的特征矩阵组成的可逆矩阵,D是有A的特征值组成的对角矩阵。定理:任何 n 阶对称矩阵都有 n 个独立且正交的特征向量。都是 n 阶矩阵,若有可逆矩阵。称为 A 的相似变换。
2023-10-05 14:56:25 218
原创 评分和排名算法
排名是非常高频的需求,通常伴随着某种决策行为,比如投资行为,比赛投注行为,商品选购,等等。排名的对象五花八门,理财产品,参赛队伍,商品,网页,视频,等等。排名就是为这些对象产生一个有序的列表,可以先为对象产生一个评分,然后基于评分产生有序列表,也可以不产生评分直接产生最终的有序列表。排名问题形式简答,但解答却可能不简单,为具体场景设计合适的排名方法,是一个比较困难的问题。
2023-10-04 08:41:52 308
原创 从平均数到排名算法
平均数用更少的数字,概括一组数字。属于概述统计量、集中趋势测度、位置测度。中位数是第二常见的概述统计量。许多情况下比均值更合适。算术平均数是3中毕达哥拉斯平均数之一,另外两种毕达哥拉斯平均数是几何平均数和调和平均数。
2023-09-23 23:23:09 226
原创 AB测试结果分析
一、假设检验根据样本(小流量)的观测结果,拒绝或接受关于总体(全部流量)的某个假设,称为假设检验。假设检验的基本依据是小概率事件原理(小概率事件几乎不发生),如果小概率事件发生了,则有充分理由推翻原假设,否则接受原假设,检验的具体过程是:首先假定原假设成立,并寻找一个原假设成立条件下的发生概率微小的事件,称为检验事件,对应的统计量称为检验统计量其次是采集样本最后观测步骤 1 所定义的小概率事件是否发生若小概率事件发生,则拒绝原假设,接受备用假设若小搞错了时间未发生,则接受原假
2023-09-13 14:34:59 173
原创 bootstrap
我们具有一个从总体中采样得到的样本 D,根据格里纹科定理,样本 D 的经验分布在样本容量 时等于总体的分布,也就是说当 n 较大时,样本 D 的经验分布是总体分布的很好的近似。上面的计算步骤其实是有些问题的,因为 p 值的定义是在原假设H_0成立的条件下计算的,上面第一步从总体中采样并不能满足原假设一定成立,因此依据这里采样的样本计算的并不能近似 p 值。这是基于抽样分布定理的假设检验方法,依赖的假设是所选择的检验统计量在原假设成立的条件下服从不含参数的特定分布,比如正太分布、t分布、卡方分布等等。
2023-05-18 11:14:21 589
原创 PAC计算学习理论介绍
机器学习的过程是学习算法 $\mathcal{A}$ 依据 $E_{in}(g)\approx 0$ 为标准,从假设集合 $\mathcal{H}$ 中选择假设 g ,并期望满足 $E_{out}(g)\approx 0$,以达到获取目标函数 f 的近似函数的目标.
2023-03-29 17:51:12 771
原创 数理统计与推荐系统
社会活动或自然现象中变量之间存在着多种相互联系、相互制约的关系,对这些关系的观测,规律的研究,有利于提升对社会活动或自然现象的变化规律的理解,并进一步利用规律对活动或现象进行预测、干预。 变量之间的关系有些属于确定性的关系,也就是当其中某些变量的取值确定后,另外一些变量的取值可以完全确定。比如某商品售价 10 元一件,当销售量 x 确定后,销售额 y 可以通过方程 y=10xy = 10xy=10x 完全确定。 还有些变量之间虽然存在密切的联系,但是当其中某些变量取值确定后,另外的变量的取值并不能完
2023-03-24 10:18:18 238
原创 The Kalman Filter
n,n=x^n,n−1+α(zn−x^n,n−1)^n+1=x^n+Δtx˙^nx˙^n+1=x˙^nn=pn,n−1+rnpn,n−1n,n=(1−Kn)pn,n−1n+1,n=pn,n。
2022-11-06 19:57:42 235
翻译 Dynamic Memory based Attention Network for Sequential Recommendation
S={x1,x2,...,x∣S∣}={Sn}n=1N其中Sn={xn,1,xn,2,...,xx,T}表示第 n 个序列,T表示子序列的长度。
2022-09-21 10:45:11 149
原创 Candidate Samlping
采样训练方法则构造这样一个训练任务,对于每个训练样本。比如给定一个句子中前面的若干单词,预测接下来的单词,就是典型的多分类任务。普通训练方式(比如softmax或logistics回归)中对于每个训练样本。之间的相关性,比如给定上下文x下y的条件概率。采用神经网络表示,通过损失函数的BP算法训练。多分类任务中每个训练样本标记为。,我们只需要计算一小部分。值,大幅度减少了计算量。可能会,也可能不会越依赖。表示目标类别,目标类型。我们都需要为每个类型。
2022-09-18 22:08:43 231
原创 Flow-based Generative Model
A generator G is a network.The network defines a probability distribution pGp_GpGz∼π(z)z \sim \pi(z)z∼π(z)x=G(z)∼pG(x)x = G(z) \sim p_G(x)x=G(z)∼pG(x)pG(x)=π(z)∣det(JG−1)∣p_G(x) = \pi(z)|det(J_{G^{-1}})|pG(x)=π(z)∣det(JG−1)∣G∗=argmaxG∑i=1mlogpG(xi), {x
2022-06-01 23:05:10 234
原创 固定效应和随机效应模型
三种数据类型横截面数据:特定的时间点对若干个体采集的样本所构成的数据集。时间序列数据:同一个个体在不同时间点上所观测的数据构成的数据集。面板数据:横截面数据与时间序列数据的结合,对横截面中的观测个体在时间上进行连续观测所得到的数据。面板数据模型的基本形式:yit=f(x1it,x2it,⋯ ,xkit)+uity_{it} = f(x_{1it},x_{2it},\cdots,x_{kit}) + u_{it}yit=f(x1it,x2it,⋯,xkit)+uiti=1,2,⋯ ,
2022-05-21 13:43:27 5995
原创 MathematicalStatistics (1)
“Models of course, are never true but fortunately it is only necessary that they are useful” – Geoge BoxWe can conceptualize the data structure and our goals more precisely, begin this in the simple examples.We can derive methods of extracting userful i
2022-05-04 11:52:44 461
原创 Linear Algebra (二)
代数余子式Cofactor of aija_{ij}aij as Cij=C_{ij} =Cij= [+/-] det (n-1 matix with row i and col j erased)Positive when i+j is even.Negative when i+j is odd.通过代数余子式计算矩阵行列式:detA=a11C11+a12C12+...+a1nC1ndet A = a_{11}C_{11} + a_{12}C_{12} + ... + a_{1n
2022-05-02 10:10:40 274
原创 行列式点过程(一)
行列式点过程DPP是离散有限点集Y={1,2,...N}\mathcal{Y}=\{1,2,...N\}Y={1,2,...N}的幂集2Y2^{\mathcal{Y}}2Y上的概率分布。体积与格拉姆矩阵Lij=g⃗(i)g⃗(j),i,j∈YL_{ij}=\vec{g}(i)\vec{g}(j), i,j\in YLij=g(i)g(j),i,j∈Ydet(LY)=det(g⃗(i)g⃗(j):i,j∈Y)det(L_Y) = det(\vec{g}(i)\vec{g}(j):i,j\in Y)
2022-04-23 22:56:46 634
原创 Exploitation and Exploration
推荐系统的经典问题之一,利用(Exploitation) 与 探索(Exploration)问题Exploitation:满足已知的用户需求Exploration:探索未知的用户需求Exploitation的必要性比较容易理解,通过满足用户已知的需求,产生用户价值,这也是推荐系统存在的意义。Exploration的价值怎么理解呢?首先,对于新用户而言,系统并不知道用户的需求,这时必须通过Exploration探索和发现用户的需求。其次,对于老用户而言,兴趣点也是在不断变化中的,这时也需要通过Exp
2022-04-17 10:07:44 418
原创 高斯过程(一)
高斯分布X=[X1X2⋮Xn]∼N(μ,Σ)X = \begin{bmatrix} X_1 \\ X_2 \\ \vdots \\X_n \end {bmatrix} \sim \mathcal{N}(\mu, \Sigma)X=⎣⎢⎢⎢⎡X1X2⋮Xn⎦⎥⎥⎥⎤∼N(μ,Σ)称XXX 服从高斯分布,μ\muμ表示n维高斯分布的期望。Σ=Cov(Xi,Xj)=E[(Xi−μi)(Xj−μj)]\Sigma = Cov(X_i,X_j) = E[(X_i-\mu_i)(X_j-\mu_j)]
2022-04-17 09:28:11 560
原创 Linear Algebra (一)
MultiplyAB=CAB = CAB=C[a11⋯a1n⋮⋱⋮am1⋯amn][b11⋯b1p⋮⋱⋮bn1⋯bnp]=[c11⋯c1p⋮⋱⋮cm1⋯cmp]\begin{bmatrix} a_{11} & \cdots & a_{1n} \\ \vdots & \ddots & \vdots \\ a_{m1} & \cdots & a_{mn}\end{bmatrix}\begin{bmatrix} b_{11} & \cd
2022-03-27 16:36:19 925
原创 Deep Deterministic Policy Gradient
π:S→P(A)\pi:\mathcal{S} \rightarrow \mathcal{P(A)}π:S→P(A)at∈A=RNa_t\in\mathcal{A} = R^Nat∈A=RNS\mathcal{S}S : state spacep(st+1∣st,at)p(s_{t+1}|s_t, a_t)p(st+1∣st,at)r(st,at)r(s_t,a_t)r(st,at)Rt=∑i=tTγ(i−t)r(si,ai)R_t = \sum_{i=t}^T\gamma^{(
2022-03-27 14:57:40 146
原创 LambdaMart
Boosting Treef(x)=fM(x)=∑m=1Mh(x;θm)f(\bold{x}) = f_M(\bold{x}) = \sum_{m=1}^Mh(\bold{x};\theta_m)f(x)=fM(x)=m=1∑Mh(x;θm)其中h(x;θm)h(\bold{x;\theta_m})h(x;θm)为第m棵树,θm\theta_mθm为第m棵树的参数,M为决策树的数量。前向分步算法:首先确定初始提升树f0(x)=0f_0(\bold{x}) = 0f0(x)=0第m步的
2022-03-27 14:54:20 1771
原创 Noise Contrastive Estimation
熵统计机器学习中经常遇到熵的概念,在介绍NCE和InfoNCE之前,对熵以及相关的概念做简单的梳理。信息量用于度量不确定性的大小,熵可以看作信息量的期望,香农信息熵的定义:对于随机遍历XXX,香农信息的定义为 I(X)=−log(P(X))I(X) = -log(P(X))I(X)=−log(P(X)),香农熵的定义为香农信息的期望H(X)=E(I(X))=∑xP(x)I(x)=−∑xP(x)log(P(x))H(X) = E(I(X))= \sum_{x} P(x)I(x) = -\sum_{x} P(
2022-03-20 23:08:54 780
原创 常用不等式
Jensen不等式凸集:给定集合S以及其中任意两个元素 x1∈S,x2∈S\bold{x}_1 \in S, \bold{x}_2 \in Sx1∈S,x2∈S,若对于任意实数0<λ<10 < \lambda < 10<λ<1,恒λx1+(1−λ)x2∈S\lambda \bold{x}_1 + (1-\lambda)\bold{x}_2 \in Sλx1+(1−λ)x2∈S,则称 S 为凸集。凸函数:函数f的定义域为凸集S,若对于任意实数0<λ<
2022-03-18 09:22:47 310
原创 数据分析(一)
生存分析生存分析是研究直到发生一个或多个事件的预期时间的一系列统计分析方法。取名生存分析是最早应用于医学领域,研究病人从诊断出癌症后使用不同药物治疗后的死亡时间。TTT 表示生存时间,是非负连续的随机变量f(t)f(t)f(t)表示TTT的概率密度函数 pdfF(t)=P(T≤t)=∫0tf(x)dxF(t) = P(T\le t)=\int_0^t f(x)dxF(t)=P(T≤t)=∫0tf(x)dx表示T的累积分布函数 cdf生存分析中生存函数和风险函数S(t)=1−F(t)S(t) =
2022-03-16 11:08:48 860
原创 回归分析(一)
变量间的统计关系变量间的关系有时候密切相关,但是非确定性关系,原因可能是被研究问题的复杂性,有许多因素因为我们认识以及其他客观原因的局限性,没有包含在内,或则由于实验误差、测量误差以及种种偶然因素的影响,一些变量的取值带有一定的随机性。我们把变量间具有密切关联而又不能由某个或某些变量唯一确定另外一个变量的关系,称为变量间的统计关系或相关关系。这种统计关系的规律性是统计学中研究的主要对象,现代统计学中关于统计关系的研究形成了两个分支,分别是回归分析和相关分析。回归分析和相关分析这两种分析进场相互结合和
2022-03-14 18:53:13 2037
原创 贝叶斯推断(二)
上一篇中提到贝叶斯推断的一般步骤为:综合总体、样本和先验信息,得到参数贝叶斯后验分布π(θ∣x)\pi(\theta|\bold{x})π(θ∣x)数据后验预测分布 p(x∣x)=∫θp(x∣θ)π(θ∣x)dθp(x|\bold{x}) = \int_{\theta}p(x|\theta)\pi(\theta|\bold{x})d\thetap(x∣x)=∫θp(x∣θ)π(θ∣x)dθ ,相对先验预测分布p(x)=∫θp(x∣θ)p(θ)dθp(x) = \int_{\theta}p(x|\t
2022-03-13 13:10:06 1724
原创 贝叶斯推断(一)
贝叶斯统计学统计推断中使用的三种信息:总体信息:总体分布或总体所属的分布簇信息样本信息:容量为nnn的样本,以充分统计量T(x1,x2,...,xn)T(x_1,x_2,...,x_n)T(x1,x2,...,xn)先验信息:依据经验或历史资料,对参数先验所属的分布簇和相关参数做出判断。基于以上三种信息进行统计推断的统计学称为贝叶斯统计学。贝叶斯学派最基本的观点是:任一未知量θ\thetaθ都可看作随机变量,可用概率分布去描述,这个分布称为先验分布。而频率学派的观点是位置参数为一个固定的
2022-03-12 16:39:11 1129
原创 伯努利分布的参数估计
设事件AAA发生的概率为θ\thetaθ,为了估计θ\thetaθ,进行了nnn次独立观察,其中事件A出现的次数为mmm。统计量样本均值:x‾=1n∑i=1nxi=mn\overline{x} = \frac{1}{n}\sum_{i=1}^nx_i = \frac{m}{n}x=n1∑i=1nxi=nm样本方差:sn2=1n∑i=1n(xi−x‾)2s_n^2 = \frac{1}{n} \sum_{i=1}^n(x_i - \overline{x})^2sn2=n1∑i=1n(
2022-03-07 23:33:17 1526
原创 蒙特卡洛算法
蒙特卡洛方法,也就是统计模拟方法,以摩纳哥的著名赌城蒙特卡洛命名,该方法求解问题的基本步骤为:构造概率模型,使得待求解问题恰好是概率模型的某个参数,比如概率模型的期望依据构造的概率模型生成样本由样本建立估计量,给出问题近似解下面以圆周率和自然常数的求解为例,简单介绍模特卡洛方法圆周率 π\piπ构造概率模型给定一个边长为2的正方形和期内切圆,内切圆和正常性的面积比率$ \frac{内切圆面积}{正方形面积} = \frac{\pi * 1^2}{2 * 2} = \frac{\pi
2022-02-20 16:03:36 2503 1
原创 韦伯-费希纳定律
韦伯-费希纳定律具体来说包括韦伯定律和费希纳定律,是心理物理学领域的两个重要假设。其内容是关于人类感知的变化与物理刺激的变化之间的关系。Weber’s law人类可感知的最小物理刺激变化量,正比于初始物理刺激量:ΔI=KI\Delta I = KIΔI=KIIII是初始刺激量ΔI\Delta IΔI 被称为差别阈限(Discrimination Threshold),当物理刺激变化$ < \Delta I$时,人类会认为变化前、后的物理刺激量有差别K称为韦伯分数,同一个测试对象,同一类刺
2022-02-20 12:53:49 2092
原创 因果推断笔记(一)
PD(A)从因果分析的角度,尝试缓解流行度偏差问题。在应用因果分析解决实际问题的过程中,需要对数据的产生机制提出因果假设,或则从数据出发识别因果图结构。PD(A)首先对推荐系统中 user-item 的交互数据的产生过程提出了关键假设,PD(A)认为产生交互数据对应的因果图结构为图b:总体共包含U,I,C,ZU,I,C,ZU,I,C,Z四个随机变量:UUU表示用户,uuu表示某个具体的用户,U\mathscr{U}U表示全体用户组成的集合因为有曝光的物品才能被用户看到,III表示有曝光的物品, i
2022-02-16 21:44:10 874
原创 深度模型(十七):用户兴趣建模与多任务学习模型笔记
DIN历史行为丰富的用户,兴趣是多种多样的,在面对不同的候选商品时,用户的兴趣可以被局部激活。DIN提出固定长度向量表达用户多种兴趣的局限性,并设计了全新的深度兴趣模型,引入了兴趣局部激活单元,自适应的从用户历史行为数据中学习与目标广告相关的用户兴趣的表示。DIN极大的提高了模型的表达能力,更好的捕捉用户兴趣的多种特征。DIN中用户兴趣表示为vU(A)=f(eA,e1,e2,...,eH)=∑j=1Ha(eA,ej)ej=∑j=1Hwjej\bold{v}_U(A) = f(\bold{e}_A,
2021-02-21 21:05:05 643
翻译 特征蒸馏
最近几年中,深度模型在推荐领域里的预测任务上取得的令人满意的成果。但大部分工作的焦点放在的模型,只有有限的少数工作注意到了输入的特征,但实际上特征决定了模型效果的上限。本文的工作也关注到了特征层面,特别是商业推荐系统中的特征。为了确保离线训练和在线服务的一致性,现实的应用中我们通常采用两个环境下都可以获取的特征。只有训练期间才能获取到的一批具有识别能力的特征因此被忽略。以电商推荐中的转化率预测为例,我们的目标是预测用户点击商品之后购买的概率。描述点击后详情页内用户行为的特征可能非常有用。但是线上转化率预测
2021-02-21 18:21:58 7223 1
翻译 SIM:基于搜索的用户兴趣建模
简介点击率估计在推荐系统和广告系统中起着至关重要的作用。随着用户行为数据的快速增长,用户兴趣模型被广泛的应用与推荐系统。用户兴趣模型专注于学习用户兴趣的意图表示。受计算和存储资源的限制,大部分的兴趣模型只能利用用户少量近期的历史行为数据,数量在几百个左右。然而有证据已经证明利用更多的历史行为数据是具有巨大价值的。比如淘宝23%的用户在5个月内点击的物品超过了1000。实际可行的利用用户长期行为序列数据的方案是目前开放和热门的研究主题。很多研究工作借鉴NLP领域的思想,提出采用记忆网络建模用户长期行为序列
2021-02-12 11:54:50 1726
原创 拉格朗日乘子与KKT条件的证明
拉格朗日乘子与KKT条件1. 问题定义最优化问题在此总结一二,首先给出最优化问题的正式定义:定义:给定函数F(x),Gi(x),i∈[0,I],Hj(x),j∈[0,J],x∈RnF(\bold{x}),G_i(\bold{x}),i\in[0,I],H_j(\bold{x}),j\in[0,J],\bold{x}\in R^nF(x),Gi(x),i∈[0,I],Hj(x),j∈[0,J],x∈Rn,求满足条件Gi(x)=0,∀i∈[0,I],Hi(x)≤0,∀j∈[0,J]G_i(\bold{
2020-08-17 16:35:46 1758
原创 Isotonic Regression
模型校准模型的预估值往往存在偏差,其原因包括:模型的假设不一定完全成立,比如贝叶斯模型对事件独立同分布的假设训练样本是有偏差的,没有反应真实的分布情况训练算法的缺陷,导致并没有学习到最优的参数以点击率估计为例,某些场景下,有偏点击率是可以直接使用,比如排序场景下重要的是估计值的相对大小,点击率绝对值并不重要;另一些场景下,有偏估计值需要经过校正后才能使用,比如过滤逻辑中点击率的绝对值就会影响物品会不会被过滤掉,例如风控模型,另外将点击率作为其他模型输入的情况下,点击率的绝对值也是有意义的。模
2020-08-06 17:59:37 677
Web Information Extraction
2018-11-28
嵌入式Linux应用程序开发标准教程
2014-01-24
嵌入式系统原理与设计 中文清晰版本
2014-01-24
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人