• 等级
  • 374957 访问
  • 21 原创
  • 0 转发
  • 37787 排名
  • 275 评论
  • 353 获赞

机器学习中正则化项L1和L2的直观理解

正则化(Regularization)机器学习中几乎都可以看到损失函数后面会添加一个额外项,常用的额外项一般有两种,一般英文称作ℓ1ℓ1\ell_1-norm和ℓ2ℓ2\ell_2-norm,中文称作L1正则化和L2正则化,或者L1范数和L2范数。L1正则化和L2正则化可以看做是损失函数的惩罚项。所谓『惩罚』是指对损失函数中的某些参数做一些限制。对于线性回归模型,使用L1正则化的模型建叫做...

2019-03-02 11:15:39

Logistic Regression逻辑回归的损失函数与梯度下降训练

有一篇博文提到logisticregression的简单理解(LogisticRegression逻辑回归的简单解释)。逻辑回归实际上是odds取对数后的反函数,其函数形式也成为sigmoidfunction,sigmoid的原义为『像S的形状』。文中最后给出了逻辑回归的表达式:h(α)=11+e−αh(\alpha)=\frac{1}{1+e^{-\alpha}}h(α)=1+e...

2019-02-24 23:14:30

转化率(CTR)预测的贝叶斯平滑

概述电商领域中经常需要计算或预测一些转化率指标,如最典型的CTR(点击率,Click-ThroughRate)。这些转化率可以是模型的预测值,也可以作为模型的特征(feature)使用。以商品点击率预测为例,CTR的值等于点击量(Click)除以曝光量(Impression或Exposure)。以rr表示点击率,r=CI(1)r=\frac{C}{I}\tag{1}.但在实际应

2017-10-24 20:42:39

高斯混合模型的重叠度计算 (Overlap Rate, OLR)

简介本文章实现了HaojunSun提出的一种计算高斯混合模型(GMM)重叠率的方法(论文:MeasuringthecomponentoverlappingintheGaussianmixturemodel)。这篇文论提出的方法可以计算任意两个混合高斯分布之间的重叠度。关于高斯混合模型(GMM)的相关概念可以参考另一篇博文:高斯混合模型及其EM算法的理解使用GMM聚类或分析两个高斯混

2017-05-18 15:44:36

基于Smadja算法的搭配词自动提取

搭配词(collocation)广义而言,搭配词(collocation)是指两个或多个词一招语言习惯性结合在一起表示某种特殊意义的词汇。搭配词在不同的研究领域上又不同的解读,尚未有一致性的定义。大概的意思就是词语的习惯搭配了,就是学英语时老师一直拿来搪塞我们的那种『习惯搭配』。比如sitintraffic,表示堵车或者在通勤上花费了非常多时间的意思,那么sit_traffic就是一个搭配

2017-03-10 18:38:54

高斯混合模型(GMM)及其EM算法的理解

一个例子高斯混合模型(GaussianMixedModel)指的是多个高斯分布函数的线性组合,理论上GMM可以拟合出任意类型的分布,通常用于解决同一集合下的数据包含多个不同的分布的情况(或者是同一类分布但参数不一样,或者是不同类型的分布,比如正态分布和伯努利分布)。如图1,图中的点在我们看来明显分成两个聚类。这两个聚类中的点分别通过两个不同的正态分布随机生成而来。但是如果没有GMM,那么只能用一

2017-03-02 18:43:36

在google map上显示Instagram的照片

之前Instagram有一个在地图上显示照片的功能,可惜后来这个功能去掉了。INS的官方说法是因为这个功能的使用率很低,因此最后舍弃了这个功能。其实我觉得这个功能还蛮好的,看到自己的照片遍布全世界很有成就感啊!实验室的同学也觉得这个去掉这个功能很可惜,大家都看不到自己去过哪里了。于是同学做了一个网页用来显示Instagram的照片。大家感兴趣可以戳一下这里(需翻墙):InstagramMap.代

2017-01-01 23:33:53

贝叶斯参数估计的理解

极大似然估计贝叶斯估计是参数估计中的一种方法,以贝叶斯思想为基础,而贝叶斯思想在机器学习中经常用到。机器学习中常涉及贝叶斯网络,最终的问题都是转化为参数求解。贝叶斯参数估计是这些问题的基础版本。前方高能预警,本文的讲解比较理论。实际问题中我们会有很多数据,比如一篇文章中每个单词的词频等。我们得到的数据通常用XX表示,也称为样本。我们还会假设这些数据服从某一个分布,例如最常用的正态分布,这时可以将问题

2016-12-03 13:51:54

Python多进程库multiprocessing中进程池Pool类的使用

multiprocessing模块提供process类实现新建进程,可以在Python中實現並行的效果。

2016-09-04 18:27:21

基於MySQL+PHP的羽毛球費用查询网站设计

基于MySQL+PHP的羽球费用查询网站

2016-08-26 17:20:56

Logistic Regression逻辑回归的简单解释

LogisticRegression也叫LogitRegression,在机器学习中属于参数估计的模型。逻辑回归与普通线性回归(LinearRegression)有很大的关系。在应用上,它们有所区别:普通线性回归主要用于连续变量的预测,即,线性回归的输出yy的取值范围是整个实数区间逻辑回归用于离散变量的分类,即,它的输出yy的取值范围是一个离散的集合,主要用于类的判

2016-08-26 11:45:15

Spark在文本统计中的简单应用

一个Saprk应用是b运行包含了一个在用户定义的main函数中的驱动程序(driverprogram),然后在集群(cluster)上并行执行各种操作。driverprogram由SaprkContext对象定义,所以要使用Spark首先要用SparkContext创建一个driverprogram,然后才在该驱动程序上运行cluster.而运行cluster时Spark要先连接ClusterManage

2016-08-22 22:46:31

Multivariate Linear Regression的参数估计

多元线性回归簡介

2016-07-17 12:27:39

贝叶斯分类器用于文本分类: Multinomial Naïve Bayes

简介贝叶斯分类器是基于贝叶斯理论的分类器,在NLP(自然语言处理)领域有着广泛的应用,如垃圾邮件检测,个人邮件排序,文本分类,色情内容检测等等。由于贝叶斯分类器是基于贝叶斯理论的,因此使用该分类器时有一个基本假设,即:数据的各特征之间是条件独立的。假设数据集D={d1,d2,...,dn}D={d1,d2,...,dn}D=\{d_1,d_2,...,d_n\}的特...

2016-06-27 22:35:16

码农改代码

之前在公司工作时从事Windows下的C++开发,IDE当然就是使用MicrosoftVisualStudio,为了和VS配套,部门使用的版本控制软件是VisualSourceSafe.工作期间参与了多个项目,改了数不清的bug,拥有绝大部分代码的存取权限。下图是2011年某个假期我取到了平台代码的所有修改记录。纵轴是2011年星期数,每条记录表示每周修改的文件数,每个小方块表示一个cpp

2016-03-22 01:00:39

利用Networkx分析历年数学家间继承关系与数学学科发展

MathematicsGenealogyProject是一个面向网络收集数学家家谱资讯的网站。网站上资料来源于该项目自身搜集与网友提供。资料包括数学家的学生,数学家的导师,毕业年份,毕业学校,国籍,研究领域等。目前收集到的资料将近20万笔,并且还在不断增加中。我们从该网站上抓取所有(实际上并不是所有的)的数学家

2016-01-17 16:51:27

Python中使用PhantomJS抓取Javascript网页数据

有些网页不是静态加载的,而是通过javascirpt函数动态加载网页,比如下面这个网页,表格中的看涨合约和看跌合约的数据都是通过javascirpt函数从后台加载。仅仅使用beautifulsoup并不能抓到这个表格中的数据。查找资料,发现可以使用PhantomJS来抓取这类网页的数据。但PhantomJS主要用于Java,若要在python中使用,则要通过Selenium在python中调用P

2015-07-01 17:08:22

使用OpenExif修改jpeg图片信息

目前的手机是小米手机,使用两年多里面总共存储了将近4000张照片。拍摄时系统会记录当时拍摄的时间,这个拍摄时间会记录在jpg文件的exif数据结构中,windows系统下右键单击文件可以看到这个时间。但是不知什么原因有一些照片的拍摄时间都变成了2002年12月8日,然而照片文件的命名还是按照当时实际拍摄的时间来命名。而我的手机相册设置又是按照拍摄时间来排序,因此相册的照片排序实在太混乱,后来终于

2015-05-01 12:43:45

C++生成一个随机网络

这是社会网络管理与分析课程的作业。老师要求模拟随机网络的连接过程,画出小世界态变(大陆说的是质变?)的曲线。在随机网络生成过程中,最大连通分支结点数占所有结点数的比例会随着所有结点平均连接边数而变化。最开始,这种变化非常不明显,但是当所有结点平均连接边数达到1时,最大连通分支结点数占所有结点数的比例会突然增大。效果如下图所示。横轴表示平均连接边数,纵轴表示最大连通分支结点数与总结点数的比例。作业

2015-05-01 11:27:41

小世界网络——利用Networkx分析武汉公交网络

这是社会网络管理与分析的作业。老师要求每组各举一个小世界网络的例子。因为以前刚好下载过武汉公交路线的数据,因此我们组讲的是这个示例。小世界网络的定义和性质可以参考wiki百科:小世界网络如果一个网络满足:-其平均聚集系数远大于在同一个顶点集合中构造的随机图的平均聚集系数;-并且,其平均最短路径长度和这个随机图基本相同那么这个网络便可以称为小世界网络。公交信息通过百度地图AP

2015-04-30 10:21:14

阿拉丁吃米粉

寫什麽呢?好像什麽都寫不出來……
关注
  • 中国 台湾省 新竹