山猪爸-CSDN博客

原创 liblinear实践初步

在相关推荐项目的改版中，对liblinear/fm/xgboost等主流成熟算法模型的训练效果进行了尝试和对比，并在一期改造中选择了liblinear实际上线使用。本文主要从工程应用的角度对liblinear涉及的各模式进行初步介绍，并给出liblinear/fm/xgboost的实际评测结果供参考。 1. Liblinear说明考虑到训练效率，本次选用的为多线程并行版lib

2016-10-24 11:03:06 4640

原创 RBM and NADE TO Collaborative Filtering

RBM and NADE TO Collaborative Filtering最近在看深度学习在推荐算法上应用，本篇是hulu公司同事的ICML的文章A Neural Autoregressive Approach to Collaborative Filtering,介绍了利用NADE进行电影推荐的方法，在NETFX的数据集上取得了不错的结果，本文主要是学习和记录笔记，学习NADE-CF，并记录所

2016-09-26 15:54:42 1052

原创基于RNN的个性化电影推荐尝试

基于RNN的个性化电影推荐尝试随着深度学习在工业界的应用越来越多，优酷土豆尝试在视频推荐领域中利用深度学习方法，提高视频推荐的准确性，为用户提供优质的视频推荐服务。本次为大家分享在个性化电影推荐上的尝试，利用RNN的序列模型进行用户电影推荐。视频推荐问题目前常用的个性化推荐包括：基于关联规则的推荐算法、基于内容的推荐算法和基于协同过滤的推荐算法。在视频网站中的个性化推荐中，基于协同过滤的个性化推荐算

2016-09-26 15:54:16 8180 6

原创通过降级提高系统的可用性

导致系统服务不可用的有诸多因素，大多数可以由外到内归结为以下几种： 1、高并发流量； 2、系统所依赖的第三方服务（数据库、缓存、接口等）； 3、系统软件中的bug和运行过程中的不稳定因素； 4、运行系统的硬件故障。对于硬件故障导致的系统不可用，可以在负载均衡器中将该节点摘除，使流量都能在剩余节点中得到正常处理。本文中主要探讨在应用系统之中实现上述前三种情况的判定以及降级方式。

2016-08-16 10:00:00 1982

原创 HashMap与ConcurrentHashMap的内存占用与get操作性能比较

一、测试背景项目中需要提供一个单机计算视频相似度的服务，计算的方式是对视频标题进行分词，提取关键词，然后通过word2vec的方式对关键词进行embedding，最后通过向量累加得到视频的词向量，然后通过某种相似度算法（比如欧式距离）得到视频相似度。这个服务要求5ms返回，可行性预研阶段需要估算响应时间能否达到要求，需要多少台机器支撑每天50亿的请求量。这里面有两个关键内容需要

2016-07-08 17:08:11 13753 4

原创说说标签算法在视频推荐的那些事儿

这篇博客记录了个性化推荐组2015年下边年，在优酷土豆进行标签推荐算法的工作中的遇到的问题和一些方法上的尝试，另一方面也和各位分享下在做过的那些事儿和踩过的那些坑。

2016-02-03 00:02:46 18162 2

原创采用Jenkins+Tcpcopy搭建自动测试环境

作为一名软件开发人员，对软件开发过程中的每个环节都不陌生，我们的代码提交后需要经过代码建构、单元测试、软件部署才能放到线上，有时候还要进行稳定性测试和压力测试。代码构建、单元测试、软件部署这些环节都必不可少，每个环节都要我们亲历亲为，会很费时间，有没有一种自动化的方式。另外，软件长时间运行的稳定性如何，承载能力如何，有没有一种自动化方法来测试软件的稳定性和系统承载能力。针对这两个问题，本文介绍一种

2015-11-23 11:10:53 1488

原创基于用户行为的兴趣标签模型

随着网站规模的扩大，内容也相应的与日俱增，涵盖的频道也越来越繁杂，在如此海量的信息平台下，如何更好的服务用户成了各门户网站的首要任务。从用户需求的角度考虑，对内容的判断标准无疑是用户对此内容是否感兴趣。“千人千面”算法在互联网行业已经不是个新鲜的词汇，但如何做到对用户兴趣的精准匹配仍是难点，特别是对图片、视频等非文本内容来说，因为本身缺乏描述性文本，因此兴趣标签成为一种非常重要的语义素材。本文主要介

2015-10-29 11:07:29 26718 5

原创 Storm在推荐系统中的应用

Storm简介 apache开源社区项目Storm，是一款分布式实时计算系统。它之上的应用易于开发与部署。关于他们的介绍，请移步http://storm.apache.org/，那里有更官方且全面的介绍。我们利用Storm擅长基于数据流并行计算的优势，弥补Hadoop在实时计算方面的缺憾。这些使用日志采集系统（比如基于Kafka或者Scribe）作为输入源计算出来的实时结果，将为

2015-10-12 15:49:25 5189 1

原创如何做好推荐系统

现在是“互联网+”的时代、大数据的时代——至少我遇到的很多人都开始转行做大数据了，很多人在网络上学习了几个常见算法，深入些的会再学习一下斯坦福的机器学习课程，然后就去尝试跳进大数据的海洋了，很多人可能马上就被海浪拍到了沙滩上。这篇文章就是想帮助那些即将跳进数据海洋搞数据挖掘的人，给你一个游泳圈以保证安全。 1、推荐系统简介推荐系统是数据挖掘领域很重要的一个分支，其也是与搜索引擎一样，帮

2015-08-18 12:20:43 3315

原创基于Spark的用户分析系统

每天有大量的用户通过浏览器、手机app、TV访问优酷土豆网站，在优酷土豆上观看视频，并且可以对视频进行评论、顶踩、收藏、转发。我们可以通过用户的行为分析用户的偏好，给用户打上各种各样的标签，比如性别、地域、使用设备、兴趣爱好等，进而找到一群用户的整体偏好，这样可以对用户或内容进行精准营销。实际应用中，我们需要搭建一个系统，通过这个系统可以很快的知道符合某些条件的用户到底有多少，比如北京的男性用户有

2015-07-30 18:58:36 10904

优酷土豆大数据团队的博客