自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(34)
  • 资源 (15)
  • 收藏
  • 关注

原创 tf.feature_columns api

tf.feature_columns api对官方的api进行了下简单的整理,方便一次性看,内容基本都是搬自tensorflow的官方api,大家可以到tensorflow官方api上查看更加详细的内容。tensorflow的特征处理apitensorflow提供了feature_columns api来处理特征,基本上涵盖了我们所有使用到的特征类别,下面一一简单列举。Bucketized...

2019-10-19 16:06:50 746

原创 ctr预估中的评估指标及校准

ctr预估中的评估指标及校准背景最近在实际的工作中发现离线指标与线上指标并非线性吻合关系,因此对离线指标的评估产生了一些思索,因此这里复盘一下ctr预估中的常用评估指标,并附上自己的思考。为什么要做ctr预估?对于常见的推荐问题而言,并不是太关注模型输出概率的绝对值大小而更关注的相对大小,即排序。广告等ctr预估模型中,由于最终的排序还要乘以bid,因此对于ctr的准确度要求非常高,举...

2019-10-10 00:53:51 13441 7

原创 推荐系列论文九-Deep Image Ctr Model

[DICM]Image Matters: Visually modeling user behaviors using Advanced Model Server论文地址前言最近工作都比较忙,一直没更新,刚好最近在做图像特征提取方面的工作,就刚好更新一下一篇阿里发表的利用图像对用户进行视觉特征建模的文章,感觉文中价值最多的内容主要是AMS块的内容,不过本文主要说一下对图像提取的部分内容,思路...

2019-09-28 21:45:28 503

原创 推荐系列论文八-ESMM-完整空间下的多任务学习

ESMM-Entire Space Multi-Task Model: An Effective Approach for Estimating Post-Click Conversion Rate论文地址前言这次带来阿里妈妈团队于18年发表在SIGIR的一篇多任务学习的文章,主要基于多任务学习的思想对CVR问题进行优化预估。背景首先说一下广告收费的形式,包括多种:cpt的广告按...

2019-08-23 00:18:44 1856

原创 Word2vec-tensorflow版实现

Word2vec-tf版实现word2vec思想cbow的核心思想是利用上下文单词预测当前单词,skip-gram的核心思想是利用当前中心词预测上下文,HS的核心思想是为每个单词构建一棵huffman树,树上每个节点都拥有对应的隐向量,从而根据路径来计算单词的概率,NG的核心思想是每个单词都对应一个隐向量,然后进行负采样从而构建正负样本来进行预测。skip-gram这里主要说一下skip-...

2019-08-15 22:55:33 500

原创 推荐系列论文七-FNN与实践

Deep Learning over Multi-field Categorical Data – A Case Study on User Response Prediction论文地址前言该篇论文于2016年发表,提出了基于FM预训练获取离散特征embedding表示,结合DNN来进行CTR的预估,因为思想比较简洁,放在2019年来看已经不算特别新奇了,因此简单地过一下论文内容,然后再做...

2019-08-11 22:56:43 1740

原创 推荐系列论文六:Wide & Deep Learning for Recommender Systems

论文地址Wide & Deep Learning for Recommender Systems前言上一篇更新了DCN,觉得还是有必要更新一下Wide&Deep,毕竟这是许多企业实际落地使用的算法(可能不少使用的是DeepFM,但是思想都是一致的),这篇就给了google2016年发表的Wide&Deep,下面来看一下Wide&Deep的主要内容与思想。Ab...

2019-07-05 00:17:11 428

原创 推荐系列论文五:Deep & Cross Network for Ad Click Predictions

论文地址Deep & Cross Network for Ad Click Predictions前言这次分享一下来自Standford和google联合发表的Deep&Cross Network,该篇文章主要工作是提出了Cross的结构来进行高阶的特征组合并且引入线性时间复杂度,模型的结构与Wide&Deep类似,不同的地方主要在于在Wide&Deep中,W...

2019-07-04 00:18:33 555 5

原创 推荐系列论文四:Real-time Personalization using Embeddings for Search Ranking at Airbnb(下)

前言在上篇里介绍了这篇论文中对于listing的Embedding方式,通过对于objective的调整使得Embedding结果更加符合Airbnb的场景,从而将Embedding用于相似推荐以及提高搜索性能。上述的Embedding主要针对用户的短时兴趣,因为利用的是用户的click session形成的序列,这种Embedding均是基于用户短时偏好的连续性并且借助总体的用户群来对每个l...

2019-06-24 01:09:11 416

原创 AUC到底是什么?

前言上一篇单值AUC计算优化里,提到了AUC,AUC的全名是Area Under Curve,就是ROC曲线下的面积,上一篇文中提到了AUC是评估模型整体排序能力的,但是具体是什么没有进行展开介绍,考虑到可能很多人对这么个玩意都不是那么理解,因为网上大部分都是从ROC怎么画,AUC怎么算,AUC代表什么,但是为什么代表这些含义却都没有提到,所以这次就专门写了一篇来介绍什么是AUC。ROC首先...

2019-06-21 00:52:55 43045 4

原创 推荐系列论文四:Real-time Personalization using Embeddings for Search Ranking at Airbnb(上)

Real-time Personalization using Embeddings for Search Ranking at Airbnb前言这篇论文是KDD2018的best paper,来自Airbnb在搜索排序中利用Embedding进行实时个性化推荐的实践应用,和之前的Embedding一样均是以word2vec为基础技术(w2v大法好),但是这次Airbnb在实践中根据自己的业务...

2019-06-20 02:01:46 720

原创 单值AUC的计算优化

单值AUCAUC主要用于评估当前模型的排序能力,假设一共有m条正样本和n条负样本,模型为model,那么通过model可以对其中每一条记录进行预测并获得概率值。对于m条正样本和n条负样本,一共可以有mn中二元组合方式,每个二元组包括一条正样本和一条负样本,对所有的二元组使用model进行预测,倘若正样本的概率值大于负样本则加1,统计所有的和,将该和除以mn就是AUC值。这种说法并不那么的...

2019-06-19 22:56:14 4859

原创 推荐系列论文三:Word2vec

前言前面提到过在Embedding这块,绕不开的就是Word2vec,今天就简单为大家介绍一下Word2vec,现在网络上有许多写的很多的介绍Word2vec的文章,因此本文也主要是引用这些文章来对Word2vec进行介绍(主要是懒),参考的内容见文末。什么是Word2vec?Word2vec由来自google的Mikolov于2013年发表的《Efficient estimation o...

2019-06-18 00:42:23 4082

原创 推荐系列论文二:Deep Walk

DeepWalk: Online Learning of Social Representations本系列分享论文的第二篇是DeepWalk,下面从头开始一起读一下这篇论文。什么是DeepWalk?用论文中的话来说:“DeepWalk takes a graph as input and produces a latent representation as an output.”。也就...

2019-06-14 00:29:20 2127

原创 推荐系列论文一:Item2vec

前言之前开了一个CTR预估系列,目前仅更新了一篇FM的文章,想再开一个论文系列,记录一下一些经典的论文在实际中的应用。最近工作在做Embedding相关的一些工作所以开始的几篇主要围绕一些经典的Embedding来做。Embedding第一个问题,什么是Embedding?Embedding中文是嵌入,最重要的作用是将一些离散的特征嵌入到另一个维度空间利用一串向量进行表示,并且...

2019-06-12 23:52:44 2832

原创 CTR预估模型1-FM

前言很久没更新过东西了,想记录一下学习过程,开一个CTR预估的系列,希望可以一直坚持更新吧~FM背景LR的缺点:线性模型无法学习特征间的交互信息特征组合对于实际的效果显著人为进行特征交叉由于用户行为的稀疏导致参数无法有效更新特征组合的有效性举个简单的例子,在预测一个用户是否会对剃须刀感兴趣时,性别男+剃须刀的组合特征相应权重可能更大,意味着二者共同出现时感兴趣的可能性...

2019-05-23 00:22:13 462

原创 在jupyter notebook上引用pyspark

最近都是直接使用pyspark shell或者用pycharm来写spark的代码,但是在处理数据或者看训练结果的时候还是jupyter notebook方便太多太多,但是在jupyter中没办法引入pyspark,导致不太方便,这里记录一下在jupyter notebook引入pyspark的方法。环境:anaconda(推荐所有人都装,非常的方便)python3.6,spark2.0,操作...

2018-06-22 17:31:12 8066 1

原创 使用sklearn进行数据预处理之Binarizer,LabelEncoder,LabelBinarizer,OneHotEncoder

前言数据预处理的过程中经常需要对数据进行数值化等处理,比如将性别男女转换为计算机可以理解的1和0,还有将数值化的1,2,3,4,5按照阈值3转换为0,0,0,1,1等,下面介绍一下sklearn提供的类。Binarizer这个就是根据阈值将数值型转变为二进制型,阈值可以进行设定,另外只能对数值型数据进行处理,且传入的参数必须为2D数组,也就是不能是Series这种类型,shape为...

2018-04-19 19:19:19 12885 3

转载 SVM详细讲解

转自:https://blog.csdn.net/myarrow/article/details/512619711. 目标     SVM是一个二类分类器,它的目标是找到一个超平面,使用两类数据离超平面越远越好,从而对新的数据分类更准确,即使分类器更加健壮。     支持向量(Support Vetor):就是离分隔超平...

2018-04-15 20:02:51 72182 5

原创 Pandas库中进行DataFrame的合并(pd.merge())和连接(pd.concat())方法

引言如果小伙伴使用过mysql,那么肯定知道mysql有join查询来连接多个表,这在数据处理中有时非常有用,对于强大的Pandas库来说,当然也有这种功能,而且Pandas也提供了将不同的DataFrame进行连接的操作,下面挨个介绍,并会加上实例pd.merge() | pd.join()merge和join方法都可以用于DF的合并,不过有些区别。 先看一下pd.merge(...

2018-04-15 15:24:56 25690 1

原创 pandas库中DataFrame对象的索引方式总结

DataFrame对象有多种比较方便的索引方式,以下一一进行总结DataFrame对象为df1. df[val]这边注意,返回的是DataFrame的副本,而不是视图其中val可以是1. 列名,也就是columns名,可以是单个列或者是由列名组成的列表,如果是单个列名则返回Serie对象,如果是列表则返回DataFrame对象2. 分片,用来进行行切片,比如df[:]...

2018-04-12 19:39:25 6748

原创 决策树特征分裂为何不选择最小化训练误差?

在博客上看到有博主说是因为使用最小化训练误差可能会导致过拟合,所以没有选择,感觉理解的似乎有点问题,这边给出自己的一些理解。1.首先一点,线性回归,逻辑回归等都是要基于最小化训练误差来做,应该是基本所有的分类算法都是要最小化训练误差的,只是损失函数的不同导致选择的目标函数不同的原因,不太会因为可能过拟合而不选择最小化训练误差。2.第二点,决策树的生成是递归生成,并且是贪心地生成的,无法保证...

2018-04-09 15:14:01 2751 1

原创 k折验证中k值对偏差和方差的影响

csdn上看到有个标题党,进去什么都没说,这里给一下k值对偏差和方差的影响。当k值很小时,这里不妨假设为2,那么每次训练集大小为n/2,每次训练的数据量会偏小,那么毫无疑问会导致模型训练的偏差会偏大,方差偏小。当k值很大时,假设为n折,那么每次训练集的大小为n-1,几乎等于原始数据集的大小了,那么很明显更容易学习到样本的原始分布并且很可能过拟合,这种结果将导致模型的偏差偏小,但是方差偏大。...

2018-04-07 22:38:35 3499 5

原创 numpy中stack()的方法的作用

np.stack()np.stack()方法大家肯定经常遇到,但是对于stack()的具体作用可能不一定非常明确,这里结合实例以及官方文档作用解释。Parameters: arrays : sequence of array_likeEach array must have the same shape.axis : int, optionalThe axis in the...

2018-03-31 12:56:12 35728 6

转载 numpy与pandas常用函数

一、常用链接:1.Python官网:https://www.python.org/2.各种库的whl离线安装包:http://www.lfd.uci.edu/~gohlke/pythonlibs/#scikit-learn3.数据分析常用库的离线安装包(pip+wheels)(百度云):http://pan.baidu.com/s/1dEMXbfN 密码:bbs2二、...

2018-03-08 16:42:03 3045 1

原创 macos下安装pyspider出现ImportError: pycurl错误

错误准确提示为:ImportError: pycurl: libcurl link-time ssl backend (openssl) is different from compile-time ssl backend (none/other) 解决方法如下:pip uninstall pycurlexport PYCURL_SSL_LIBRARY=opensslexport L...

2018-03-04 14:24:06 1137 1

原创 eclipse中科大镜像地址

在官网上下载时速度过慢,然后也没有跳到选择镜像地址的网页,所以网上找到了中科大镜像的地址,大家可以从这个网址上进行下载 http://mirrors.ustc.edu.cn/eclipse/technology/epp/downloads/release/

2017-11-22 20:55:05 19259

原创 wordcount任务FileInputFormat.addInputPath()要求jobconf与job不匹配问题

这个问题涉及到了新老api的问题,出现这个的问题的同学是因为FileInputFormat导入错误,导入了org.apache.hadoop.mapred中的FileInputFormat类,该类要求jobconf参数,实际上应该导入的是import org.apache.hadoop.mapreduce.lib.input.FileInputFormat这个类,出现该问题的同学可以好好检查一下。...

2017-11-16 20:41:15 2818 1

原创 什么是数据库的事务?MySql中哪些存储引擎支持事务?

什么是事务?事务由一个或多个sql语句组成一个整体,如果所有的语句执行成功那么修改将会全部生效,如一条sql语句将销量+1,下一条再+1,倘若第二条失败,那么销量将撤销第一条sql语句的+1操作,只有在该事务中所有的语句都执行成功才会将修改加入到数据库中。事务的特性事务具体四大特性,也就是经常说的ACID 1. 原子性(Atomicity)   原子性是指事务包含的所有操作要么全部成功,要么全部

2017-11-15 22:16:58 14233 1

转载 离线安装CM5和CDH5.13完全教程

安装过程较为详细,需要安装的同学可以好好查看—关于CDH和Cloudera ManagerCDH (Cloudera’s Distribution, including Apache Hadoop),是Hadoop众多分支中的一种,由Cloudera维护,基于稳定版本的Apache Hadoop构建,并集成了很多补丁,可直接用于生产环境。Cloudera Manager则是为了便于在集...

2017-11-15 14:43:36 15378

原创 HIVE中LIKE和RLIKE的区别

看书的过程中发现hive有两个用于通配的操作符,LIKE和RLIKE,查了些资料总结一点二者的区别LIKE语法格式为A [NOT] LIKE B,B是sql下的简单正则表达式,也叫通配符模式,如_匹配一个字符,%可以匹配任意多个字符,A会对表达式B做匹配,如果通过返回TRUE,如果不通过则返回FALSE,举个栗子 SELECT name LIKE ‘%Alice’ FROM table1,表示选择

2017-11-09 16:19:45 20329

转载 Hadoop MapReduce中如何处理跨行Block和inputSplit

Hadoop MapReduce中如何处理跨行Block和inputSplit http://www.aboutyun.com/forum.php?mod=viewthread&tid=7704 (出处: about云开发)Hadoop的初学者经常会疑惑这样两个问题: 1.Hadoop的一个Block默认是64M,那么对于一个记录行形式的文本,会不会造成一行记录被分到两个Block当中? 2

2017-11-09 10:03:44 473

原创 hadoop fs,hadoop dfs以及hdfs dfs区别

该文由本人于网上查阅资料所得,如有错误希望帮忙评论指正谢谢。hadoop fs: FS relates to a generic file system which can point to any file systems like local, HDFS etc. So this can be used when you are dealing with different file sys

2017-11-09 09:21:43 23059 2

原创 对信号卷积的理解

信号卷积卷积主要分为离散函数的卷积以及连续函数的卷积,理解其中一种后对另外一个也基本就了解了大致的定义,官方化的定义难以理解,简单地说在信号领域,卷积就是求给定输入以及相应信号后得出的输出信号。我介绍一下自己的理解。主要分为两步:进行卷积的两个信号一个我们称之为输入信号,也就是我们给系统的输入,另一个信号我们称之为响应信号。下一步则是进行卷积,这里我们以连续信号来进行举例说明。倘若输入...

2017-10-19 15:07:01 8992 2

摄影笔记-摄影笔记-摄影入门必备.pdf

摄影笔记-摄影笔记-摄影入门必备.pdf

2020-07-20

计算机常见笔试题

计算机常见笔试题,适合需要进行学习的同学下载学习。

2017-11-09

数据库笔试题及答案

数据库笔试题及答案,需要找工作的同学可以下载进行学习

2017-11-09

海量大数据技术的创新与时间

浙江大学刘仁义老师,关于海量大数据技术的创新和实践

2017-11-07

对于死锁的处理

对于死锁的处理,希望对其进行学习的同学可以下载阅读了解

2017-11-07

unix操作系统设计

本书内容包括, UNIX内核体系结构, 磁盘高速缓冲机制, 文件系统内部数据结构与算法, 控制进程上下文的系统调用与进程调度, 存储管理,包括对换和请求调页系统, 通用驱动程序接口,包括磁盘驱动程序和终端驱动程序, 进程间通信与网络,包括系统V消息、共享存储和信号量, 紧密耦合的多处理机UNIX系统和松散耦合的分布式UNIX系统, , 本书可作为大学计算机科学系高年级学生和研究生的教材或参考书,也为从事UNIX系统研究与实用程序开发人员提供了一本极有价值的参考资料。

2017-11-07

死锁的定义

死锁的定义,来自于2003-levine,有兴趣了解的可以下载阅读

2017-11-07

spark编程指南

spark编程指南,来自spark官方文档翻译,适合新入门的进行学习

2017-11-06

深入理解java虚拟机第二版,有目录

深入理解java虚拟机第二版,带目录,对于熟悉java基本使用希望深入了解的同学,此书是不二之选。

2017-11-01

idea使用教程

idea入门教程,idea使用起来十分方便,学习java,scala等都很便利,推荐学习

2017-11-01

java编程思想第四版带标签

java编程思想第四版,加入了书签功能更翻遍翻阅,适合学习java入门使用。

2017-11-01

spark快速数据处理,带目录完整版

spark快速数据处理,适合用来认识spark以及简单的使用

2017-10-17

AndrewNg机器学习笔记

来自于互联网,感谢作者的贡献,主要对coursera上machine learning的课程进行了笔记处理,按章节划分,和课程内容相匹配,很适合复习使用,正在进行课程的学习的同学可以下载一份配合课程来进行学习。

2017-09-11

Andrew Ng机器学习笔记

吴恩达老师的机器学习笔记,课程在coursera上搜索machine learning即可,详细记录了老师的课堂内容,用来做复习笔记十分合适,希望学习该课程的同学可以进行下载。该笔记从互联网下载,感觉原作者的贡献。

2017-09-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除