- 博客(0)
- 资源 (8)
- 收藏
- 关注
Storm技术内幕与大数据实践
本书意在介绍实时大数据的各个方面,分享我们在设计实时应用过程中遇到的一些问题,让一些从零开始构建实时计算平台的公司少走弯路。我们力图使不同背景的读者都能从其中获益。如果你从事基础架构方面的工作,可以着重阅读以下几章:在第1 章中,我们整理了国内主要互联网公司在Storm 应用方面的一些情况;在第2 章中,我们介绍了实时平台的总体架构,随后引入了大众点评和丨号店目前实时平台的一些基本情况;在第4 章中,我们给出了源码剖析,为了让不懂Clojure 语言的读者也能容易地理解Storm 的内部原理,我们配了很多顺序图来描述调用逻辑;在第5 章中,我们分享了一些在实践中总结出来的监控Storm 应用的常用方法:在第6 章中,我们介绍了在Storm 上如何做一些扩展,方便更好地维护和管理集群;在第10章中,我们主要分享了Storm 的一些小技巧和性能优化的经验。如果你是大数据产品的开发和架构人员,可以着重阅读后面的几章,其中分享了我们一年来遇到的一些瓶颈。如果你是算法工程师,可以着重了解第8 章和第9 章,里面的用户生命周期模型、实时推荐系统的算法和架构、千人千面架构等不少内容来自于我们的生产实践。设计严谨的模型在实时系统上往往会遇到比较大的性能问题,数据量、实时和算法的精准性是相互制约的,提高某一方面,往往不得不牺牲另外两个指标。在实际推荐系统的生产环境中,关联规则和协同过滤的推荐效果往往比较好,被广泛采用,而利用用户画像,结合地域、天气等上下文信息,可以进行一些更加精准的推荐。目前基于用户画像和上下文内容做个性化推荐和搜索、精准化运营和广告营销等提高交易额等转换率,也是很多公司尝试的方向。对于网上有的或者其他书中介绍过的内容,为适应不同读者的需求,我们会简单提及以做一点点过渡。尽管我们投入了大量的精力来写这本书,但因为水平所限,书中的内容存在不足和疏漏也在所难免,恳请读者批评指正。
2018-05-29
从零开始学Storm
storm是一个免费开源的分布式实时计算框架。storm能轻松的解决处理数据流,就行Hadoop批处理一样对数据进行实时处理;但是storm能持续运作下去,并且storm的使用也十分简单,开发人员可以使用任何编程语言对它进行操作。本书从storm诞生的背景讲起,详细讲述了storm的优势和学习方法、storm的技术。
2018-05-29
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人