5 Thinkgamer_

尚未进行身份认证

《推荐系统开发实战》作者,「搜索与推荐Wiki」公号负责人,原京东算法工程师,CyanScikit科技创始人。

等级
TA的排名 843

值得收藏 |140+页文章推荐系统系列文章汇总

这里简单说下为什么要写系列的文章,虽然系列的文章很不吃香,阅读率也是惨淡的一笔,可能很多人更爱看的是「标题党」、「八卦文」、「科普文」这样的。但我觉得系列文和技术文是真的很考验作者的,首先要面临惨淡的阅读和稀里哗啦的数据统计,其次要面临的是自己内心的崩溃。但好处是坚持下来,自己写完一个系列,自己的知识体系也就更加完善了,而不是零零散散的没有重点和边际。所以后续的文章大多数还是会以系列文呈现出来,...

2020-01-17 17:16:15

浅谈企业如何正确的引入和发展AI算法

本文主要分为上下两部分,(上)部分主要介绍一下企业内部什么时候需要引入AI技术(这里的AI技术泛指机器学习、深度学习、NLP、视觉、语音、推荐等),(下)部分主要介绍一下在引入这些AI技术之后的一些情况和企业的技术方向发展。(上)部分数据积累当一个产品是以内容为主的时候,必然会积累大量的数据,在这个数据为王的时代,有了数据当前要进行分析、挖掘,然后产出更多的商业价值。这个时候必然需要引...

2020-01-04 16:22:08

2019年终总结-埋下的种子是讲给自己的故事

窗外有漆黑的夜,心中是明亮的灯。其实每个人的内心都有一颗属于自己的灯塔,不渡远方的邮轮,不引迷路的灵魂。不知不觉的,时间又过了一年,年初兴高采烈给自己2019立flag的情景还在眼前晃着,一不小心这一年就要彻底沦为过往了。回想过去这一年,许多人匆匆到来,也有很多人悄悄离去,有过好友相聚的狂欢,也有无数捧着孤独无处存放的夜晚,有过收获的满足,也有在崩溃边缘挣扎的心酸,有过山野隔绝的轻松,也有追逐...

2020-01-01 23:17:30

常见的五种神经网络(5)-生成对抗网络(上)之GAN、DCGAN、W-GAN

在上一篇文章中介绍了生成模型的基本结构、功能和变分自动编码器,在本篇文章中主要介绍一下生成对抗网络(Generative Adversaarial Networks,GAN)KL散度、JS散度、Wassertein距离KL散度KL散度又称相对熵,信息散度,信息增益。KL散度是两个概率分布P和Q差别的非对称性的度量。在经典境况下,P表示数据的真实分布,Q表示数据的理论分布,模型分布。DK...

2019-12-31 15:54:24

常见的五种神经网络(5)-生成对抗网络(上)之变分自动编码器

概率生成模型简称生成模型(Generative Model),是概率统计和机器学习中的一类重要模型,指一系列用于随机生成可观测数据的模型。生成模型的思路是根据可观测的样本学习一个参数化的模型pθ(x)p_{\theta}(x)pθ​(x)来近似未知分布pr(x)p_r(x)pr​(x),使得生成的样本和真实的样本尽可能的相似。深度生成模型就是利用深层神经网络可以近似任意函数的能力来建模一个复杂的...

2019-12-29 22:33:48

【论文】LinUCB论文的思想解读、场景应用与痛点说明

文章目录概述Disjoint LinUCBHybrid LinUCB评估算法实验说明实验位置数据选择特征选择特征降维实验结论注意点LinUCB 的重点场景应用本篇文章主要介绍一下雅虎在2012年发表的论文 【A Contextual-Bandit Approach to Personalized News Article Recommendation】,同时由于最近在做用户留存方面的工作,也涉...

2019-12-23 20:48:47

常见的五种神经网络(4)-深度信念网络(下)篇之深度信念网络的原理解读、参数学习

该系列的其他文章:常见的五种神经网络(1)-前馈神经网络常见的五种神经网络(2)-卷积神经网络常见的五种神经网络(3)-循环神经网络(上篇)常见的五种神经网络(3)-循环神经网络(中篇)常见的五种神经网络(3)-循环神经网络(下篇)常见的五种神经网络(4)-深度信念网络(上篇)常见的五种神经网络(4)-深度信念网络(下篇)常见的五种神经网络(5)-生成对抗网络在上一篇文章中介...

2019-12-07 18:02:07

Django3.0和Python3.7连接Mysql报:Error loading MySQLdb module. Did you install mysqlclient?

环境说明Python 3.7.3Django 3.0安装:pip3 install -U Django文档:https://docs.djangoproject.com/zh-hans/3.0/contents/项目说明创建项目django-admin startproject mysite 配置MysqlDATABASES = { 'default': {...

2019-12-04 15:45:02

Spark使用Libsvm格式数据构造LabeledPoint格错误:requirement failed:Index 2287 out of bounds for vector of size 27

背景使用libsvm格式的数据构造LabeledPoint格式,例如我的libsvm格式数据如下(索引下标最大值为,3000):790718 1:1 2:1 4:1 5:1 6:1 7:1 9:1 11:1 13:1 16:1 19:1 21:1 28:1 31:1 43:1 64:1 65:1 140:1 164:1 184:1 296:1 463:1 481:1 642:1 813:1 1...

2019-11-29 10:29:22

NLP实战之基于TFIDF的文本相似度计算

TFIDF算法介绍TF-IDF(Term Frequency–InverseDocument Frequency)是一种用于资讯检索与文本挖掘的常用加权技术。TF-IDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TF-IDF实际是TF*IDF,其中TF(Term Frequency)表示词条tt...

2019-11-27 20:14:01

常见的五种神经网络(4)-深度信念网络(上)篇之玻尔兹曼机和受限玻尔兹曼机

引言常见的五种神经网络系列第三篇,主要介绍深度信念网络。内容分为上下两篇进行介绍,本文主要是深度信念网络(上)篇,主要介绍以下内容:背景玻尔兹曼机受限玻尔兹曼机该系列的其他文章:常见的五种神经网络(1)-前馈神经网络常见的五种神经网络(2)-卷积神经网络常见的五种神经网络(3)-循环神经网络(上篇)常见的五种神经网络(3)-循环神经网络(中篇)常见的五种神经网络(3)-循...

2019-11-26 14:32:04

美团点评技术与算法文章汇总,设计算法、前后端、客户端、小程序等

这是一份福利贴,先看内容,再看获取方式。算法文章汇总目录:美团“猜你喜欢”深度学习排序模型实践美团大脑:知识图片的建模方法及其应用深度学习在美团搜索广告排序的应用实践美团深度学习系统的工程实践美团餐饮娱乐知识图谱——美团大脑揭秘美团在O2O场景下的广告营销美团外卖骑手背后的AI技术基于TensorFlow Serving的深度学习在线评估强化学习在美团“猜你喜欢的实践”深度...

2019-11-18 20:28:25

机器学习中非常有名的理论或定理你知道几个?

转载请注明出处:http://blog.csdn.net/gamer_gyt博主微博:http://weibo.com/234654758Github:https://github.com/thinkgamer公众号:搜索与推荐Wiki个人网站:http://thinkgamer.github.io在机器学习中,有一些非常有名的理论或定理,对理解机器学习的内在特性非常有帮助。PCA学...

2019-08-27 00:50:04

TensorFlow的逻辑回归实现

打开微信扫一扫,关注微信公众号【数据与算法联盟】 转载请注明出处:http://blog.csdn.net/gamer_gyt 博主微博:http://weibo.com/234654758 Github:https://github.com/thinkgamer 逻辑回归我们都知道是用来进行二分类处理的,里边经常用到的阶跃函数是海维塞得阶跃函数(Sig...

2018-04-24 00:46:36

模型的独立学习方式

本篇文章主要介绍一些“模型独立的学习方式”,比如:集成学习、协同学习、自学习、多任务学习、迁移学习、终身学习、小样本学习、元学习等。

2019-11-06 14:47:56

【论文】文本相似度计算方法综述

概述在信息爆炸时代,人们迫切希望从海量信息中获取与自身需要和兴趣吻合度高的内容,为了满足此需求,出现了多种技术,如:搜索引擎、推荐系统、问答系统、文档分类与聚类、文献查重等,而这些应用场景的关键技术之一就是文本相似度计算技术。因此了解文本相似度的计算方法是很有必要的。文本相似度定义文本相似度在不同领域被广泛讨论,由于应用场景不同,其内涵有所差异,故没有统一、公认的定义。Lin从信息论的角度...

2019-11-05 15:25:50

无监督学习中的无监督特征学习、聚类和密度估计

无监督学习(Unsupervised Learning)是指从无标签的数据中学习出一些有用的模式,无监督学习一般直接从原始数据进行学习,不借助人工标签和反馈等信息。典型的无监督学习问题可以分为以下几类:无监督特征学习、密度估计、聚类。

2019-11-04 09:03:43

冷启动中的多臂老虎机问题(Multi-Armed Bandit,MAB)

Thompson samplingThompson Sampling是基于Beta分布进行的,所以首先看下什么是Beta分布?Beta分布可以看作是一个概率的概率分布,当你不知道一个东西的具体概率是多少时,他可以给出所有概率出现的可能性。Beta是一个非固定的公式,其表示的是一组分布(这一点和距离计算中的闵可夫斯基距离类似)。比如:二项分布(抛n次硬币,正面出现k次的概率)P(S=k)=...

2019-10-15 08:50:27

神经网络中的网络优化和正则化(四)之正则化

谢谢

2019-09-19 19:29:16

神经网络中的网络优化和正则化(三)之超参数优化

公众号标题:神经网络中的优化方法之学习率衰减和动态梯度方向引言神经网络中的网络优化和正则化问题介绍主要分为一,二,三,四篇进行介绍。第一篇包括网络优化和正则化概述优化算法介绍第二篇包括参数初始化数据预处理逐层归一化第三篇包括超参数优化第四篇包括网络正则化无论是神经网络还是机器学习都会存在很多的超参数,在神经网络中,常见的超参数有:网...

2019-09-19 19:19:40

查看更多

CSDN身份
  • 博客专家
勋章 我的勋章
  • 图书勋章
    图书勋章
    CSDN技术图书作者专属勋章
  • 签到新秀
    签到新秀
    累计签到获取,不积跬步,无以至千里,继续坚持!
  • 技术圈认证
    技术圈认证
    博客专家完成年度认证,即可获得
  • 专栏达人
    专栏达人
    授予成功创建个人博客专栏的用户。专栏中添加五篇以上博文即可点亮!撰写博客专栏浓缩技术精华,专栏达人就是你!
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。
  • 原力计划专属勋章
    原力计划专属勋章
    参与原力计划活动,成功进入英雄榜即可获得