自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(24)
  • 资源 (3)
  • 收藏
  • 关注

原创 智能营销增益模型(Uplift Modeling)的原理与实践

文章目录增益模型因果与推论(Causal Inference)增益模型的表示差分响应模型(Two-Model Approach)模型优缺点差分响应模型升级版(One-Model Approach)Class Transformation MethodClass Transformation的两个假设Modeling Uplift Directly增益模型的评估uplift 柱状图Qini曲线(Qi...

2020-04-18 09:49:16 44831 10

原创 Error解决:hive中的数组越界异常IndexOutOfBoundsException

在spark中执行sql语句有时会出现IndexOutOfBoundsException的错误,如下:File "/opt/cloudera/parcels/SPARK2-2.3.0.cloudera2-1.cdh5.13.3.p0.316101/lib/spark2/python/lib/pyspark.zip/pyspark/sql/session.py", line 708, in sql...

2019-12-12 12:03:36 7806

转载 nohup后台运行以及重定向标准输出和标准异常

nohup 加&是后台运行并把stdout输出到文件nohup.out中。其实&是后台运行的命令。一般都是在linux下nohup格式:nohup command_line或者nohup command_line &不带&的命令是在前台运行,按下ctr+c时,任务中断。带&的命令时后台运行,即使terminal关闭,或者电脑死机程序依然运行(前提是...

2019-10-17 09:59:29 8355 2

原创 机器学习中正则化项L1和L2的直观理解

正则化(Regularization)机器学习中几乎都可以看到损失函数后面会添加一个额外项,常用的额外项一般有两种,一般英文称作ℓ1ℓ1\ell_1-norm和ℓ2ℓ2\ell_2-norm,中文称作L1正则化和L2正则化,或者L1范数和L2范数。L1正则化和L2正则化可以看做是损失函数的惩罚项。所谓『惩罚』是指对损失函数中的某些参数做一些限制。对于线性回归模型,使用L1正则化的模型建叫做...

2019-03-02 11:15:39 415738 190

原创 Logistic Regression逻辑回归的损失函数与梯度下降训练

有一篇博文提到logistic regression的简单理解(Logistic Regression逻辑回归的简单解释)。逻辑回归实际上是odds取对数后的反函数,其函数形式也成为sigmoid function,sigmoid的原义为『像S的形状』。文中最后给出了逻辑回归的表达式:h(α)=11+e−αh(\alpha) = \frac{1}{1+e^{-\alpha}}h(α)=1+e...

2019-02-24 23:14:30 6748

原创 点击率预测的贝叶斯平滑

概述电商领域中经常需要计算或预测一些转化率指标,如最典型的CTR(点击率,Click-Through Rate)。这些转化率可以是模型的预测值,也可以作为模型的特征(feature)使用。以商品点击率预测为例,CTR的值等于点击量(Click)除以曝光量(Impression或Exposure)。以rr表示点击率,r=CI(1)r=\frac{C}{I} \tag{1}.但在实际应

2017-10-24 20:42:39 31384 16

原创 计算高斯混合模型的可分性和重叠度(Overlap Rate, OLR)

简介本文章实现了Haojun Sun提出的一种计算高斯混合模型(GMM)重叠率的方法(论文:Measuring the component overlapping in the Gaussian mixture model)。这篇文论提出的方法可以计算任意两个混合高斯分布之间的重叠度。关于高斯混合模型(GMM)的相关概念可以参考另一篇博文:高斯混合模型及其EM算法的理解使用GMM聚类或分析两个高斯混

2017-05-18 15:44:36 10167 2

原创 基于Smadja算法的搭配词自动提取实践

搭配词(collocation)广义而言,搭配词(collocation)是指两个或多个词一招语言习惯性结合在一起表示某种特殊意义的词汇。搭配词在不同的研究领域上又不同的解读,尚未有一致性的定义。大概的意思就是词语的习惯搭配了,就是学英语时老师一直拿来搪塞我们的那种『习惯搭配』。比如sit in traffic,表示堵车或者在通勤上花费了非常多时间的意思,那么sit_traffic就是一个搭配

2017-03-10 18:38:54 4206

原创 高斯混合模型(GMM)及其EM算法的理解

一个例子高斯混合模型(Gaussian Mixed Model)指的是多个高斯分布函数的线性组合,理论上GMM可以拟合出任意类型的分布,通常用于解决同一集合下的数据包含多个不同的分布的情况(或者是同一类分布但参数不一样,或者是不同类型的分布,比如正态分布和伯努利分布)。如图1,图中的点在我们看来明显分成两个聚类。这两个聚类中的点分别通过两个不同的正态分布随机生成而来。但是如果没有GMM,那么只能用一

2017-03-02 18:43:36 311798 124

原创 在google map上显示Instagram的照片

之前Instagram有一个在地图上显示照片的功能,可惜后来这个功能去掉了。INS的官方说法是因为这个功能的使用率很低,因此最后舍弃了这个功能。其实我觉得这个功能还蛮好的,看到自己的照片遍布全世界很有成就感啊!实验室的同学也觉得这个去掉这个功能很可惜,大家都看不到自己去过哪里了。于是同学做了一个网页用来显示Instagram的照片。大家感兴趣可以戳一下这里(需翻墙):Instagram Map. 代

2017-01-01 23:33:53 4560

原创 贝叶斯参数估计的理解及其在电商算法中的应用

极大似然估计贝叶斯估计是参数估计中的一种方法,以贝叶斯思想为基础,而贝叶斯思想在机器学习中经常用到。机器学习中常涉及贝叶斯网络,最终的问题都是转化为参数求解。贝叶斯参数估计是这些问题的基础版本。前方高能预警,本文的讲解比较理论。实际问题中我们会有很多数据,比如一篇文章中每个单词的词频等。我们得到的数据通常用XX表示,也称为样本。我们还会假设这些数据服从某一个分布,例如最常用的正态分布,这时可以将问题

2016-12-03 13:51:54 19557

原创 Python多进程库multiprocessing中进程池Pool类的使用

multiprocessing模块提供process类实现新建进程,可以在Python中實現並行的效果。

2016-09-04 18:27:21 63882 8

原创 基於MySQL+PHP的羽毛球費用查询网站设计

基于MySQL+PHP的羽球费用查询网站

2016-08-26 17:20:56 1476

原创 Logistic Regression逻辑回归的简单解释

Logistic Regression也叫Logit Regression,在机器学习中属于参数估计的模型。逻辑回归与普通线性回归(Linear Regression)有很大的关系。在应用上,它们有所区别:普通线性回归主要用于连续变量的预测,即,线性回归的输出yy的取值范围是整个实数区间逻辑回归用于离散变量的分类,即,它的输出yy的取值范围是一个离散的集合,主要用于类的判

2016-08-26 11:45:15 30119 6

原创 Spark在文本统计中的简单应用

一个Saprk应用是b运行包含了一个在用户定义的main函数中的驱动程序(driver program),然后在集群(cluster)上并行执行各种操作。driver program由SaprkContext对象定义,所以要使用Spark首先要用SparkContext创建一个driver program,然后才在该驱动程序上运行cluster. 而运行cluster时Spark要先连接Cluster Manage

2016-08-22 22:46:31 6077

原创 Multivariate Linear Regression的参数估计

多元线性回归簡介

2016-07-17 12:27:39 1723

原创 贝叶斯分类器用于文本分类: Multinomial Naïve Bayes

简介贝叶斯分类器是基于贝叶斯理论的分类器,在NLP(自然语言处理)领域有着广泛的应用,如垃圾邮件检测,个人邮件排序,文本分类,色情内容检测等等。由于贝叶斯分类器是基于贝叶斯理论的,因此使用该分类器时有一个基本假设,即:数据的各特征之间是条件独立的。假设数据集 D={d1,d2,...,dn}D={d1,d2,...,dn}D = \{d_1, d_2, ... , d_n\} 的特...

2016-06-27 22:35:16 12476 2

原创 码农改代码

之前在公司工作时从事Windows下的C++开发,IDE当然就是使用Microsoft Visual Studio,为了和VS配套,部门使用的版本控制软件是Visual SourceSafe. 工作期间参与了多个项目,改了数不清的bug,拥有绝大部分代码的存取权限。下图是2011年某个假期我取到了平台代码的所有修改记录。纵轴是2011年星期数,每条记录表示每周修改的文件数,每个小方块表示一个cpp

2016-03-22 01:00:39 1107

原创 利用Networkx分析历年数学家间继承关系与数学学科发展

Mathematics Genealogy Project是一个面向网络收集数学家家谱资讯的网站。网站上资料来源于该项目自身搜集与网友提供。资料包括数学家的学生,数学家的导师,毕业年份,毕业学校,国籍,研究领域等。目前收集到的资料将近20万笔,并且还在不断增加中。我们从该网站上抓取所有(实际上并不是所有的)的数学家

2016-01-17 16:51:27 4302

原创 Python中使用PhantomJS抓取Javascript网页数据

有些网页不是静态加载的,而是通过javascirpt函数动态加载网页,比如下面这个网页,表格中的看涨合约和看跌合约的数据都是通过javascirpt函数从后台加载。仅仅使用beautifulsoup并不能抓到这个表格中的数据。 查找资料,发现可以使用PhantomJS来抓取这类网页的数据。但PhantomJS主要用于Java,若要在python中使用,则要通过Selenium在python中调用P

2015-07-01 17:08:22 9476 6

原创 使用OpenExif修改jpeg图片信息

目前的手机是小米手机,使用两年多里面总共存储了将近4000张照片。拍摄时系统会记录当时拍摄的时间,这个拍摄时间会记录在jpg文件的exif数据结构中,windows系统下右键单击文件可以看到这个时间。但是不知什么原因有一些照片的拍摄时间都变成了2002年12月8日,然而照片文件的命名还是按照当时实际拍摄的时间来命名。而我的手机相册设置又是按照拍摄时间来排序,因此相册的照片排序实在太混乱,后来终于

2015-05-01 12:43:45 6435 3

原创 C++生成一个随机网络

这是社会网络管理与分析课程的作业。老师要求模拟随机网络的连接过程,画出小世界态变(大陆说的是质变?)的曲线。在随机网络生成过程中,最大连通分支结点数占所有结点数的比例会随着所有结点平均连接边数而变化。最开始,这种变化非常不明显,但是当所有结点平均连接边数达到1时,最大连通分支结点数占所有结点数的比例会突然增大。效果如下图所示。横轴表示平均连接边数,纵轴表示最大连通分支结点数与总结点数的比例。 作业

2015-05-01 11:27:41 2904 1

原创 小世界网络——利用Networkx分析武汉公交网络

这是社会网络管理与分析的作业。老师要求每组各举一个小世界网络的例子。因为以前刚好下载过武汉公交路线的数据,因此我们组讲的是这个示例。小世界网络的定义和性质可以参考wiki百科:小世界网络如果一个网络满足: - 其平均聚集系数远大于在同一个顶点集合中构造的随机图的平均聚集系数; - 并且,其平均最短路径长度和这个随机图基本相同 那么这个网络便可以称为小世界网络。公交信息通过百度地图AP

2015-04-30 10:21:14 8544 14

原创 武汉市公交站点区域性分析

有段时间没有骑车上下班,坐公交的时候就时常想武汉一共有多少条公交线路,一共有多少个公交站点,哪些公交站点比较好转车之类的问题。刚好那时候看了一篇分析北京地铁站区域性优劣分析的帖子,于是想武汉是不是也可以顺带做一下分析呢。武汉地铁不多,可以做公交的分析。先利用百度地图API获取武汉市的公交信息,主要包括公交线路名称和坐标,公交站点名称和坐标。其实除了这两项还可以获取其他很多信息,比如运营公司,运营时间

2015-04-30 09:53:33 3082 2

计算机图形学画图程序VC

计算机图形学实习的程序。包括画线(DDA、中点画线,Bresenham),画圆(DDA、中点画线,Bresenham),画多边形;直线裁剪,多边形裁剪,区域填充,图形变换。在VC 6.0编译通过,可以运行。

2009-07-26

图幅号-经纬度转换程序VC

程序包括国家标准比例尺的图幅号至经纬度的转换和经纬度至图幅号的转换。基于MFC对话框实现。程序在VC6.0环境下编译通过。

2009-02-06

MFC高斯投影坐标转换程序

程序包括单点高斯投影坐标正算反算和批量坐标的正算。所有坐标均需手工输入。程序用VC6.0编写,后在VC2005修改,在VC2005编译通过,现只能用sln文件在VC2005内完整编译运行。

2009-02-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除