蚂蚁大哥大-CSDN博客

原创 Graphx源码解析之SVD++算法

Spark Graphx中SVD++算法主要是参考论文: http://public.research.att.com/~volinsky/netflix/kdd08koren.pdf, 核心计算公式为：rui = u + bu + bi + qi*(pu + |N(u)|^^-0.5^^*sum(y)) 输入输入：user，item，score1,1,5.01,2,1.01,3,5.

2017-02-28 13:49:17 2841

原创基于spark-streaming实时推荐系统（三）

当博主在写基于spark-streaming实时推荐系统（一），基于spark-streaming实时推荐系统（二）时，心里还曾暗自窃喜：“五年多推荐系统设计研发工作，再搭一套推荐系统还不是轻松的事么！”。只有真正做了之后才知道这其中的辛酸与血泪。首先博主前期的推荐系统经验主要是基于传统电商网站，推荐的主体是用户，推荐的内容是商品。商品只要能够满足销售的基本要素便一直是众

2016-12-17 15:30:11 11873 3

原创基于spark-streaming实时推荐系统（二）

电子商务时代，商家急切的寻求着对用户展示商品达到千人千面的效果，并且实时根据用户行为去实时更新待推荐的商品集。正如百度大boos李彦宏同学在乌镇物联网大会上所说:"机器学习的时代即将到来。"博主从事推荐系统开发设计五年有余，深深的触摸到了机器学习时代的影子，从刚开始接触推荐，到先如今各大电子商务平台，甚而流媒体平台等都是搭建自己的推荐系统平台，让机器去学习用户的行为以便达到精准营销的目标。

2016-11-26 22:46:24 15059 1

前言随着互联网的飞速发展，如何能够让用户在广袤的互联网中获取到他所想要的，这时候人们有了搜索引擎。搜索引擎好比一个仓库，它需要事先储藏大量的资源，你需要什么都可以从中获取得到。这种被动索取的方式无形之中也注定了搜索引擎在某个范围内只能一家独大。科技改变着人们的生活，随着大数据时代的到来，传统被动等候来获取的方式由于其需要的前期投入较大，准确性往往也不能满足用户的真正需求，在此背景之下，推荐引擎遍广

2016-11-03 20:48:37 12885

原创 json在scala开发中的应用

最近是用scala开发了一个项目，其中有个环节需要将类似Tuple2[String, Map[String, Case class]]对象作为中间结果缓存至redis中。中间对象结构如下：case class TestDO(var id :Int = 0, var value : String = null)case class Test2DO(var arrayBuffer: ArrayBuff

2016-10-28 17:59:19 2595 1

原创 scala远程调用thrift接口

这期间博主换了工作，耽误了博客的更新~在此跟大伙说声抱歉、加入新东家一周有余，不得不感叹博主的专业技能存在着很大的漏洞，或许是因为以前的工作经历相对集中在推荐算法的实现上，从而忽略了对很多诸如thrift等RPC协议调用的了解。今天因为工作的需要，需要远程调用thrift接口，完成rec状态的更新（类似推荐结果的价格库存过滤），花费了几个小时，好在最好成功了。现将实验过程分享给大家。第一步下载thr

2016-10-24 18:29:26 2685

原创协同过滤itembase计算Spark实现(三)

针对电商推荐系统之推荐算法模块工程化，博主前期已经利用spark对基于协同过滤推荐算法进行了实践性的整理，详情见协同过滤itembase增量计算Spark实现(一) 协同过滤itembase计算Spark实现(二)随着系统工程化的逐步完善，便会开始考虑如何将系统产品化，面向算法研究人员，测试人员，产品人员甚至其他有推荐算法需求的人员能够通过拖拖拽拽自定义算法实现。这个愿景很美好也很伟大~~借着

2016-09-23 18:59:07 2807 2

原创协同过滤itembase计算Spark实现(二)

博主前期有写过协同过滤协同过滤itembase增量计算Spark实现(一)，其中已经较为基础的演示了基于欧拉距离求解相似度的过程，由于都是在一个JOB里，随着数据量的增长会出现计算耗时过长、OOM等现象，后期博主在推荐系统架构优化方面发现上述五个步骤在诸如看了还看，买了还买，相关搜索词，搜索最终购买等推荐模块存在着大量的相似，这些步骤的复用性太强，所以就开始考虑对算法模块按其计算步骤进行拆分，拆分之

2016-09-04 15:55:36 3337 2

原创大数据时代多表关联数据同步之SPARK实现（二）

前期博主有写过spark同步数据的博文，当时由于业务需求相对简单，只简单的实现了单表load功能。业务的发展驱动着技术的不段革新，猿猿们也在不断设计更加合理更加便捷更加优雅的业务模块，只是为了让你们用的爽用的简单~~~背景假设我们现在需要借助spark同步如下select t.id as id ,t.title as title ,t.created as created,t.keywords as

2016-08-23 21:31:15 6545

原创大数据时代单表数据同步之SPARK实现（一）

背景随着电子商务的发展，历史最终选择了三足鼎立的格局去稳定市场，产生了传统电子商务三强：阿里，京东，苏宁易购（阿里，京东日均PV早已是亿级别以上，苏宁易购日均PV也至少应该五千万级左右）。显然这些数据中蕴藏着无情无尽的财务，如何利用这些数据便是当下大数据开发工程师们首先需要解决的问题~既然有大数据，那必然会牵扯到集群数据的迁移，同步等类ETL工作。本文主要介绍博主最近一周实现的利用spark同步关系

2016-08-15 14:03:04 4336 1

原创 Google核心技术之——PageRank算法scala实现

PageRank算法简述常言道，看一个人怎样，看他有什么朋友就知道了。也就是说，一个人有着越多牛X朋友的人，他是牛X的概率就越大。将这个知识迁移到网页上就是“被越多优质的网页所指的网页，它是优质的概率就越大”。PageRank是Google创始人提出来的，算法的发展也经历了很多次优化。至于原理这边就不累赘了，同学们可以自行谷歌~~工程化实现 1.输入数据2,12,43,23,54,15,

2016-08-04 17:10:16 4050

原创推荐系统itembase算法scala实现

#尊重版权，转载注明地址#博主最近在学习scala，scala是面向函数编程，这与面向对象编程的java有着很大的差别，学习的第一个demo当然是声名显赫的wordcount，代码如下： val conf = new SparkConf() conf.setMaster("local[1]").setAppName("word count") val sc = new Spar

2016-08-03 13:26:31 3612 2

原创推荐系统中相似度算法介绍及效果测试

######################尊重版权，转载注明地址######################相似度算法介绍•相似度算法主要任务是衡量对象之间的相似程度，是信息检索、推荐系统、数据挖掘等的一个基础性计算。下面重点介绍几种比较常用的相似度算法。•向量表示通常假设对象X和Y都具有N维的特征，即 X=(x_1,x_2,…x_n)

2016-08-02 15:56:38 22526 10

原创 solr在酒店列表查询中的使用

背景酒店筛选条件主要包括关键词，入住地，入离开时间，价格，库存，星级，距离等查询条件系统边界solr集群根据业务需要有单机，master-salve，solrcloud三种选择单个shard数据量建议不要超过10G系统流程图索引创建主要包括增量与全量，增量建议通过接收MQ消息实现schema设计关键词：多值字段

2016-07-25 21:05:37 2357 2

原创协同过滤itembase增量计算Spark实现(一)

协同过滤itembase增量计算Spark实现Controller1. 数据统计user counts:=========>8239237itemCode count:=====>7421567 spark result distinct nums ======>5826484 2. 运行子任务倒叙 3. Spark集群

2016-07-21 14:07:48 6048 1

原创用户实时行为数据采集

用户实时行为采集数据流转如下： 1.web、wap通过埋点实时发送用户行为数据至后端server， app直接调用http接口，server通过logback直接输出日志文件 2.flume通过tail命令监控日志文件变化 3.flume通过生产者消费者模式将tail收集到日志推送至kafka集群 4.kafka根据服务分配topic，一个topic可以分配多个group，一个group可以

2016-07-21 11:32:06 4320 1

博客内容皆为原创