10 杨步涛的博客

尚未进行身份认证

老杨,目前居住上海 微信:yangbt_6225080 qq:306591368 擅长云计算、分布式系统设计、docker容器化技术、海量数据的存储、搜索、数据挖掘。

等级
TA的排名 2k+

给研发培训资料两篇(架构设计&大数据)

互联网架构设计理念漫谈大数据平台及在推荐广告的应用

2015-09-04 15:02:56

随机森林&GBDT算法以及在MLlib中的实现

决策树的一个缺点是容易出现过拟合,可以把利用融合的方式把各个弱模型集成起来,解决过拟合,提高模型的泛化能力。决策树和bagging 、boosting的思想结合在一起,诸如随机森林、GBDT,在数据挖掘中的预测分类、推荐广告以及搜索中的排序算法模型、搜索关键词的扩展推荐等等应用的非常广泛。先讲一下bagging和boosting方式的区别。Bagging的方式算是比较简单的,训练多个模型,利用每个

2015-04-18 17:02:42

决策树在MLib中的实现解析

决策树作为一种分类回归算法,在处理非线性、特征值缺少的数据方面有很多的优势,能够处理不相干的特征,并且对分类的结果通过树的方式有比较清晰的结构解释,但是容易过拟合,针对这个问题,可以采取对树进行剪枝的方式,还有一些融合集成的解决方案,比如随机森林RandomForest、GBDT (Gradient Boost Decision Tree)等,对于随机森林、GBDT在后面的章节进行介绍模型的训练过

2015-04-17 14:59:32

Spark streaming的Exactly-once容错HA机制

Spark streaming 1.2提供的基于WAL的容错机制(参考上一篇博文http://blog.csdn.net/yangbutao/article/details/44975627),可以保证数据的计算至少被执行一次,但是不能保证只执行一次,比如在kafka receiver写数据到WAL中后,往zookeeper写offset失败,那么在driver失效恢复后,由于offset还是之前

2015-04-13 10:50:13

逻辑回归算法分析及在MLlib中的实现剖析

逻辑回归作为分类算法的一种,在互联网领域中的预测、判别中应用的非常广泛,像广告投放中的点击率预估,推荐算法中的模型融合等等。本文简要介绍逻辑回归的算法,以及在MLlib中的实现解析。逻辑回归其实是一个分类问题,此类问题的模型训练,基本上分3步骤,第一步要寻找假设预测函数h,构造的假设函数为在线性回归的函数基础上,加上一个Sigmoid函数进行Norm,把函数值输出在0到1的范围内,函数的值有特殊的

2015-04-11 15:15:33

MLlib算法简介

主要的机器学习的算法目前在MLlib中都已经提供了,分类回归、聚类、关联规则、推荐、降维、优化、特征抽取筛选、用于特征预处理的数理统计方法、以及算法的评测

2015-04-10 12:01:31

Spark streaming在可用性方面的改进

Driver的容错性和可用性,在spark1.2发布版本中,spark streaming提供了HA机制

2015-04-10 10:12:16

Spark streaming&storm流计算的相关对比

spark streaming和Storm作为当今流行的实时流计算框架,已经在实时计算方案应用的非常广泛了,其中spark streaming是基于spark的一个扩展,比storm的出现要晚一些。本章节从以下几个角度对两者进行了阐述,可以作为选型方面的一个参考。A、 数据处理方式 Spark streaming是构建在spark上的实时流计算框架,利用时间批量窗口生成spark的计算输入源RDD

2015-03-22 16:35:50

spark&yarn&storm的资源管理分配对并发性的考量

在常用的计算框架中,无论是spark、storm、yarn,如何提高并发量,提高集群的整体吞吐量是需要考虑的问题,其中资源容量规划和资源申请,对APP任务的并行执行方面有比较多的影响,下面罗列一下以上计算框架在资源规划和资源申请方面的一些类比:对于整个集群的处理能力来讲总是有限的,这个在很多资源管理调度框架中都有相应的总体容量的规划,每个APP或者JOB在申请资源执行时,也是需要提出多少资源的申请,集群再依照当前可用的资源,依据资源管理任务调度机制进行资源的分配和任务执行。资源的规划和申请一般都是以CPU

2015-03-21 22:18:14

漫谈搜素引擎的排序模型

万变不离其宗,搜索引擎的搜索结果排序算法模型,可以抽象为计算每一个doc的p(d|q),利用朴素贝叶斯算法原理,p(d|q)=p(q|d)*p(d)/p(q),p(q)对于每一个doc都是一样的,所以最终的排序打分是p(q|d)*p(d),p(q|d)是query和doc的匹配程度,p(d)是每个doc的本身的打分,而doc本身的打分可以定义的角度非常多,和诸多的因素有关。Lucene默认的排序算

2015-01-07 20:58:43

搜索推广中的查询词扩展

搜索在移动内容分发入口中占有很大的比重,相比较于搜索列表中的应用,搜索广告是在最优的位置展示推广的应用,用户的查询意图比较明显,可以进行高效的推广开发者的应用。对于广告位置的竞争排名,搜索广告一般的做法是,先对用户的query进行扩展,扩展之后再和广告的竞价词进行匹配,筛选匹配的广告,再根据质量得分*出价进行排序,质量得分一般是由很多的个因素组成,有广告应用的历史下载量、广告人气、以及query和

2015-01-07 13:43:58

大数据应用能力层次模型

画了一张在实践中的大数据应用能力层次模型草图,大数据应用的几个阶层从数据的基础平台,业务运营监控支撑,精细化的运营和营销,以及数据对外的服务和市场传播

2015-01-01 16:22:45

总结数据挖掘预测分类中的样本筛选和特征处理

基于特征化工程进行用户特征化,结合相关的机器学习算法对业务进行挖掘建模,在广告的精准投放、预测、风控等领域中应用的非常广泛。无论是有监督的学习分类算法,还是无监督的聚类也罢,都需要建立特征向量,对特征进行预处理;其中对于有监督的训练时,还需要进行样本的筛选。本章节讲解一下样本选择和特征处理方面的一些方法技巧。在做样本训练前需要挑选样本,需要注意样本不平衡的问题,比如在定向广告预估点击率二元模型中,

2015-01-01 15:44:45

内容分发平台个性化推荐系统经验简单总结

推荐在电商和互联网应用中已经应用的非常广泛,相比于根据query进行主动的搜索,推荐是更加被动的由系统自动推出商品给用户。搜索的意图比较明显,直接由query给出,而推荐需要计算猜测用户的意图,根据用户历史数据和当前行为,基于各种模型推荐合适的商品,提升用户体验,提高转化率。不过近些年来,搜索和推荐在底层模型和技术方面越来越趋于融合,利用机器学习的方式来改进搜索和推荐的质量,像搜索排序LTR等等。

2015-01-01 15:37:52

分享我在2014架构师大会演讲材料<<基于用户画像的大数据挖掘实践>>

分享我在2014架构师大会演讲材料>,猛点这里

2014-12-22 21:06:22

定向展示广告投放中的点击率预估模型简介

平台中有一些栏位是留给广告投放用的,对于平台来讲需要关注整体受益,用户需要关注用户体验,广告主需要进行精准的把广告投放给受众,提高转化率。广告投放给用用户展示,最重要的是排序,之前的排序公式是ctr*Bid,其中ctr是广告的历史点击率,Bid是广告主的出价。缺点是存在广告的冷启动和缺乏用户个性化诉求;对于新上架的广告,投放量太少,数据有偏,可以采用点击率平滑的方式,在广告投放前设置一个默认的展示

2014-12-22 20:33:05

基于NIO的长连接的实现已开放到github

长连接相对于短链接来讲,可以减少连接的建立和释放的开销,进而提高通信的效率,而长连接最大的问题是对于连接池中连接的维护。

2014-01-20 00:19:04

Yarn设计原理分析之NodeManager

1、  和其他模块之间的交互接口分析1)作为client,NodeStatusUpdater通过ResourceTracker协议和RM进行交互(NMàRM)。该API有两个方法向RM注册NodeManager,参数为httpPort、nodeId、totalResource,其中totalResource为节点的总可分配资源,包括CPU、内存。向RM心跳,NM启动后通过定期的向RM汇报Conta

2014-01-08 20:58:51

滑动窗口在storm中的实现

滑动窗口监控和统计应用的场景比较广泛,比如每隔一段时间(10s)统计最近30s的请求量或者异常次数,根据请求或者异常次数采取相应措施;这里说一下滑动窗口在storm中实现的原理。参见下图:窗口大小为30s,每10s就统计一次,那么窗口一共有3个slot,可以对窗口建立长度为3的数组;在storm的blot中在10s内通过execute(tuple)功能不停的把接收的tuple进行count个数(假

2014-01-04 22:07:56

Storm在批处理和事务方面的机制分析

1、storm事务性topology的提出对于容错机制,Storm通过一个系统级别的组件acker,结合xor校验机制判断一个msg是否发送成功,进而spout可以重发该msg,保证一个msg在出错的情况下至少被重发一次。但是在一些事务性要求比较高的场景中,需要保障一次只有一次的语义,比如需要精确统计tuple的数量等等。Storm 0.7.0引入了Transactional Topology,

2014-01-04 17:06:41

查看更多

勋章 我的勋章
  • 专栏达人
    专栏达人
    授予成功创建个人博客专栏的用户。专栏中添加五篇以上博文即可点亮!撰写博客专栏浓缩技术精华,专栏达人就是你!
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!