自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 Linear SVM v.s. LR

对数据分布的依赖Linear SVM:不依赖,只考虑margin附近的数据LR:受所有数据的影响Loss FunctionLinear SVM:maximum marginLR:log lossFocusLinear SVM:最大化margin,关注support vector,其他点不重要LR:最大化probability,离分离超平面越远越好

2018-01-25 10:59:24 336

原创 从LR开始

理解LR:1、函数映射:对数线性模型,将线性wx映射到sigmoid中转为概率,input和output仍是线性关系。                    2、对数几率:输出Y=1的对数几率是输入x的线性函数,log(p/(1-p))=wx。                    3、概率角度:第i个样本预测正确的概率P(y|x; theta)=(h(x)^y)(1-h(x)^(1-y)

2018-01-08 10:47:43 377

原创 XGB v.s. LGB

分裂XGB:Level-wise,一次分裂同一层的叶子,但很多叶子分裂增益低、有不必要的搜索和分裂LGB:Leaf-wise with 深度限制,从所有叶子中找增益最大的叶子分裂决策树算法XGB:exact决策树LGB:Histogram加速XGB:无LGB:直方图做差(父-兄弟)categorical featureXGB:需要one hot / dummyLGB:支持直方

2017-11-28 14:52:34 6251

原创 LightGBM中的一些tips

改进 直方图算法(Histogram) 根据直方图中的离散值,遍历寻找最优分割点: 把连续的浮点特征离散 -> k个整数 -> 宽为k的直方图 遍历,离散化的值作为索引,在直方图中累积统计量加速叶子 = 父 - 兄弟 (直方图做差)Leaf-wise带深度限制的叶子生长策略支持categorical feature并行feature parallel:每个worker中有所有fea

2017-11-24 14:06:09 1180

原创 Bagging v.s. Boosting

取样Bagging:均匀取样,随机,各轮之间独立Boosting:根据错误率预测函数权重Bagging:无Boosting:有预测函数生成顺序Bagging:并行Boosting:串行

2017-11-13 17:32:26 456

原创 Random Forest v.s. Bagging

采样方式(单次) - RF:有列采样(从d个feature中抽k个构成特征子集,再选择一个最优特征用于划分);行采样方式相同(有放回的采样,数据集包含m个样本则有放回的采m个样本,有重复和未出现的样本) - Bagging:无列采样;行采样方式相同特征选择方式: - RF:选取部分特征(列采样),随机型Decision Tree,只考察一特征子集 - Bagging:选取全部特征,确

2017-11-09 09:27:41 480

原创 CatBoost: 自动处理CAT数据的GBDT

CatBoost = Category + Boosting 2017年7月21日,俄罗斯Yandex开源CatBoost,亮点是在模型中可直接使用Categorical特征并减少了tuning的参数。建树的过程初步计算splits 对每个数值特征二值化,选择可能的分桶方式,结果用于选择树结构。binarization method (feature_border_type) 和number

2017-10-16 11:17:13 9479 1

原创 CatBoost参数解释

CatBoost参数简单中文解释。

2017-10-13 11:38:22 12209

原创 Gamma函数 & Beta分布 & Dirichlet分布 & Symmetric Dirichlet

Gamma函数实质:阶乘在实数域上的推广 即, 使用分部积分,可得 Beta分布概率密度函数 其中, (Gamma函数) 期望为 Dirichlet分布Beta分布从2到K的推广概率密度函数 其中, 简记为 期望为 分析: 是参数向量,共K个 定义在K-1维上Symmetric Dirichlet 在没有先验时,K维未知退化为2维:K, 其中,

2017-05-09 09:38:11 814

原创 提升Boost:GBDT & Xgboost & Adaboost

提升:将弱分类器进行提升,形成强分类器。 两种基本思想: 1、梯度提升(Gradient Boosting, GB) 在每一步生成弱分类器后,依据损失函数的梯度方向,迭代选择负梯度方向上的基函数,逼近局部极小值。 ->GBDT & Xgboost 2、样本加权 考虑提高分类错误样本的权值,即每次更关心做错了的部分,从而提高分类器的能力。

2017-04-17 10:49:08 932

原创 Ridge & LASSO & Elastic Net

总结来说,Ridge、LASSO、Elastic Net是线性回归的三种方法,添加了不同惩罚因子的损失函数J(θ)。首先简单介绍线性回归的相关概念。 损失函数(目标函数): 为了防止过拟合(θ过大),在目标函数J(θ)后添加复杂度惩罚因子,也就是正则项。 正则项可以使用l1-norm、l2-norm,或结合l1-norm、l2-norm。 这就分别对应Ridge(岭

2017-04-07 15:47:55 4633

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除