guochampion-CSDN博客

转载约束优化方法之拉格朗日乘子法与KKT条件——转载

约束优化方法之拉格朗日乘子法与KKT条件引言本篇文章将详解带有约束条件的最优化问题，约束条件分为等式约束与不等式约束，对于等式约束的优化问题，可以直接应用拉格朗日乘子法去求取最优值；对于含有不等式约束的优化问题，可以转化为在满足 KKT 约束条件下应用拉格朗日乘子法求解。拉格朗日求得的并不一定是最优解，只有在凸优化的情况下，才能保证得到的是最优解，所以本文称拉格朗日乘子法得到的为可行解，其...

2018-09-18 13:17:05 612

转载点击率预估综述

TwitterFacebook Google+ Pinterest Tumblr作者：张红林，腾讯高级工程师背景在计算广告系统中，一个可以携带广告请求的用户流量到达后台时，系统需要在较短时间（一般要求不超过100ms）内返回一个或多个排序好的广告列表；在广告系统中，一般最后一步的排序score=bid*pctralpha；其中alpha参数控制排序倾向，如果alpha...

2018-08-13 03:16:21 3820

转载 CTR预估的几种方式

CTR预估的几种方式2017年12月11日 20:46:55阅读数：26171.CTR预估CTR预估是计算广告中最核心的算法之一，那么CTR预估是指什么呢？简单来说，CTR预估是对每次广告的点击情况做出预测，预测用户是点击还是不点击。具体定义可以参考 CTR. CTR预估和很多因素相关，比如历史点击率、广告位置、时间、用户等。CTR预估模型就是综合考虑各种因素、特征，在大量历史数据...

2018-08-13 02:59:40 7960

转载正则化方法：L1和L2 regularization、数据集扩增、dropout

本文是《Neural networks and deep learning》概览中第三章的一部分，讲机器学习/深度学习算法中常用的正则化方法。正则化方法：防止过拟合，提高泛化能力在训练数据不够多时，或者overtraining时，常常会导致overfitting（过拟合）。其直观的表现如下图所示，随着训练过程的进行，模型复杂度增加，在training data上的error渐渐减小，但是...

2018-08-13 01:34:55 153

一、背景最近热播的反腐神剧“人民的名义”掀起来一波社会舆论的高潮，这部电视剧之所能得到广泛的关注，除了老戏骨们精湛的演技，整部剧出色的剧本也起到了关键的作用。笔者在平日追剧之余，也尝试通过机器学习算法对人民的名义的部分剧集文本内容进行了文本分析，希望从数据的角度得到一些输入。本文使用阿里云机器学习PAI，主要针对以下几个方面进行了实验：分词以及词频统计每一章的关键词提取每一章的文本摘要每一章文本...

2018-05-26 21:04:47 541

转载阿里云机器学习PAI-案列以及帮助文档

What is 机器学习机器学习指的是机器通过统计学算法，对大量的历史数据进行学习从而生成经验模型，利用经验模型指导业务。目前机器学习主要在以下一些方面发挥作用：营销类场景：商品推荐、用户群体画像、广告精准投放金融类场景：贷款发放预测、金融风险控制、股票走势预测、黄金价格预测SNS关系挖掘：微博粉丝领袖分析、社交关系链分析文本类场景：新闻分类、关键词提起、文章摘要、文本内容分析非结构化数据处理场景...

2018-05-26 19:58:20 3373

原创关于不定长数组的输入问题

由于cin>>a>>x;这种cin会对空格和换行进行忽略，仅作为分隔的识别符，但不会读取该分隔符的值，因此需要用一个能读取换行空格的函数来判断是否在cin>>x之后随之键入的字符是否为换行还是空格，如果空格则继续读键入整数值，如果是enter则跳出输入循环。cin类中的get（）函数就是这个功能。 vector <int> q; wh...

2018-05-14 12:01:38 13174

转载 STL容器是线程不安全的----以及加锁实现多线程访问安全

STL的线程安全. 说一些关于stl容器的线程安全相关的话题。一般说来，stl对于多线程的支持仅限于下列两点：(貌似Effective STL中有描述)1.多个读取者是安全的。即多个线程可以同时读取一个容器中的内容。即此时多个线程调用容器的不涉及到写的接口都可以 eg find, begin, end 等.2.对不同容器的多个写入者是安全的。即多个线程对不同容器的同时写入合法。但是对于同一容...

2018-05-09 23:07:04 5451 1

转载关于跪了两次的小知识点---字符串整行读入

C/C++如何整行读入字符串？在写代码的过程中，经常要一行一行的读入字符串进行处理，这里我总结了一些方法，供大家参考。方法一：scanf()读入char[]使用方法：char str[1024];scanf("%[^\n]",&str);getchar();说明：在scanf函数中，可以使用%c来读取一个字符，使用%s读取一个字符串, 但是读取字符串时不忽略空格，读字符串时忽略开始的空...

2018-05-09 22:50:39 256

转载 GBDT、XGBoost、LightGBM

本文主要简要的比较了常用的boosting算法的一些区别，从AdaBoost到LightGBM,包括AdaBoost,GBDT,XGBoost,LightGBM四个模型的简单介绍，一步一步从原理到优化对比。AdaBoost原理原始的AdaBoost算法是在算法开始的时候，为每一个样本赋上一个权重值，初始的时候，大家都是一样重要的。在每一步训练中得到的模型，会使得数据点的估计有对有错，我们就在每一步...

2018-04-25 15:24:51 647

原创梯度下降与GBDT

首先明确一点，gbdt 无论用于分类还是回归一直都是使用的CART 回归树。不会因为我们所选择的任务是分类任务就选用分类树，这里面的核心是因为gbdt 每轮的训练是在上一轮的训练的残差基础之上进行训练的。这里的残差就是当前模型的负梯度值。这个要求每轮迭代的时候，弱分类器的输出的结果相减是有意义的。残差相减是有意义的。如果选用的弱分类器是分类树，类别相减是没有意义的。...

2018-04-18 16:50:51 2299

转载条件随机场

理解条件随机场最好的办法就是用一个现实的例子来说明它。但是目前中文的条件随机场文章鲜有这样干的，可能写文章的人都是大牛，不屑于举例子吧。于是乎，我翻译了这篇文章。希望对其他伙伴有所帮助。原文在这里[http://blog.echen.me/2012/01/03/introduction-to-conditional-random-fields/]想直接看英文的朋友可以直接点进去了。我在翻译时并没有...

2018-04-18 16:48:44 161

转载提升树和梯度提升树的理解

GBDT是机器学习面试中的常客，但是，要准确地说出它的原理却并不容易，除了掌握DT基本知识外，还要掌握加法模型、前向分步算法、梯度提升思想，本文是对这些知识点的一个简单总结，请各路大神指正。为了提高写作效率，文中公式都是手写，美观不足，但清晰准确是没问题的。一、从加法模型说开去首先，我们需要具备一些基本的机器学习知识，这里简单列出，以作为下面讨论的基础：1、机器学习的大致流程就是确定模型集H、定义...

2018-04-18 16:46:19 4324

转载特征选择方法

1) 什么是特征选择特征选择 ( Feature Selection )也称特征子集选择( Feature Subset Selection , FSS ) ，或属性选择( Attribute Selection ) ，是指从全部特征中选取一个特征子集，使构造出来的模型更好。 (2) 为什么要做特征选择在机器学习的实际应用中，特征数量往往较多，其中可能存在不相关的特征，特征之间也可能...

2018-04-17 16:21:07 4074

转载机器学习中的优化方法网格搜素

网格搜索法是指定参数值的一种穷举搜索方法，通过将估计函数的参数通过交叉验证的方法进行优化来得到最优的学习算法。即，将各个参数可能的取值进行排列组合，列出所有可能的组合结果生成“网格”。然后将各组合用于SVM等机器学习方法训练，并使用交叉验证对表现进行评估。在拟合函数尝试了所有的参数组合后，返回一个合适的分类器，自动调整至最佳参数组合，可以通过clf.best_params_获得参数值。交叉验证与...

2018-04-17 16:17:55 1714

转载 GBDT的原理

DT有很多简称，有GBT（Gradient Boosting Tree）, GTB（Gradient Tree Boosting ）， GBRT（Gradient Boosting Regression Tree）, MART(Multiple Additive Regression Tree)，其实都是指的同一种算法，本文统一简称GBDT。GBDT在BAT大厂中也有广泛的应用，假如要选择3个最重...

2018-04-17 16:13:10 323

转载基于Python的数据可视化 matplotlib seaborn pandas

# 首先载入pandas import pandas as pd # 我们将载入seaborn,但是因为载入时会有警告出现，因此先载入warnings，忽略警告 import warnings warnings.filterwarnings("ignore") import seaborn as sns import matplotlib.pyplot as plt sns.s...

2018-04-16 22:42:56 369

原创移动推荐算法中的RF训练模型过程

首先是函数：作用：generation and splitting to training set & valid setdef valid_train_set_construct(valid_ratio = 0.5, valid_sub_ratio = 0.5, train_np_ratio = 1, train_sub_ratio = 0.5): # generation of...

2018-04-16 19:25:37 1860

转载 GBDT和xgboost面试

比赛怎么做的（先说解决的问题，属于回归还是二分类问题，KS曲线是什么含义，能优化吗（用AUC代替））KS值：用真正率和假正率的累计值分别做为纵坐标就得到两个曲线，这就是K-S曲线。GBDT与XGBoost的区别（知乎wepon大神：https://www.zhihu.com/question/41354392）传统GBDT以CART作为基分类器，xgboost还支持线性分类器，这个时候xgboos...

2018-04-16 17:08:15 1680

转载随机森林的训练使用

关于随机森林特有的参数：n_estimators=10：决策树的个数，越多越好，但是性能就会越差，至少100左右（具体数字忘记从哪里来的了）可以达到可接受的性能和误差率。bootstrap=True：是否有放回的采样。oob_score=False： oob（out of band，带外）数据，即：在某次决策树训练中没有被bootstrap选中的数据。多单个模型的参数训练，我们知道可以用cro...

2018-04-16 16:44:13 9632

guochampion的博客