7 东南枝DP

尚未进行身份认证

我要认证

4年一线大厂经验,高级算法工程师

等级
TA的排名 2w+

浅析Attention在推荐系统中的应用(3)AutoInt模型

欢迎关注本人公众号: petertalks专栏目录:浅析Attention在推荐系统中的应用(1)Attention简介浅析Attention在推荐系统中的应用(2)阿里Deep Interest Network模型浅析Attention在推荐系统中的应用(3)AutoInt模型浅析Attention在推荐系统中的应用(4)Transformer与阿里BST模型前言...

2020-03-23 10:24:50

浅析Attention在推荐系统中的应用(2)阿里Deep Interest Network模型

欢迎关注本人公众号: petertalks目录:浅析Attention在推荐系统中的应用(1)Attention简介浅析Attention在推荐系统中的应用(2)阿里Deep Interest Network模型浅析Attention在推荐系统中的应用(3)AutoInt模型浅析Attention在推荐系统中的应用(4)Transformer与阿里BST模型阿里妈妈算...

2020-03-17 17:19:22

浅析Attention在推荐系统中的应用(1)Attention简介

欢迎关注本人公众号: petertalks前言Attention最早应用于图像领域,而后大面积用于seqs2seqs类型的任务如机器翻译等。随着17年google《Attention is all you need》的发表更是将attention推向热点。近几年无论是在nlp、还是推荐领域。attention机制可谓是大放异彩,从nlp领域的transformer、bert,xlne...

2020-03-17 17:14:29

jieba源码阅读与思考

jieba源码阅读笔记由于在做模型的时候需要对切词这块做些优化,jieba切词目前主要融合了基于词典的分词和HMM两种方法,阅读了一下jieba的源码,思考了几个优化方案,在此mark一下,欢迎各位大牛前来交流,如果有谬误欢迎指正~ 正常使用切词方法:# 模式一 精确模式:import jiebas = "我们都是好孩子"jieba.cut(s)# re: 我们 都 ...

2018-07-09 10:44:15

LDA漫游指南阅读笔记--Gibbs采样

Gibbs采样公式:LDA并行考虑:列 某文章的单词A依赖于另外一个文章相同单词A采样后修改的nw,nwsum行 同一篇文章的后一个单词依赖于前一个单词修改后的nd,ndsum主题 同一个主题后一次采样依赖于同一个主题前一次采样的nwsum解决方案:1. AD-LDA 按行进行拆分,nd,ndsum拆分到各台机器, nw,nwsum被完全copy到各台机器.各个节点一轮执行完毕后,进行一次merg...

2018-06-10 22:03:38

从一段代码浅谈pyspark性能优化

问题引出我们在日常的特征工程中,常常需要将多张表进行关联操作,也就是所谓的join。现在有三张表A,B,C,其中A表数据总大小约300M, B表总数据大小约15G,C表数据总大小约400G,现在的需求是对这三张表做join,该如何实现?常规做法最简单的一种实现,就是先将其中的两张表join,再将剩下的一张表做join,代码如下:sc = SparkSession\ .builder...

2018-03-14 17:36:51

关于分布式一致性算法一些总结

最近看了看区块链的基本原理,特地又复习了下分布式一致性算法相关的东西,画了个简单的思维导图。

2018-03-02 17:34:36

记一次spark mllib stackoverflow踩坑

以前做als相关的东西的时候,都是用的公司的内部工具居多,今天第一次用了下spark的mlib,拿了个几M的小数据集试了个水。。结果一跑,我擦。。。居然stackoverflow了。。源码如下:from pyspark.mllib.recommendation import ALSfrom numpy import arrayfrom pyspark import Spar

2017-11-24 17:30:32

xgboost/gdbt/randomforest + lr入门实践

最近在调研gdbt + lr相关的东西,这方面的东西最早是从facebook发表的一篇论文(https://pdfs.semanticscholar.org/daf9/ed5dc6c6bad5367d7fd8561527da30e9b8dd.pdf)开始的。大意就是利用gdbt模型的叶子节点作为lr模型的输入,起到了自动组合特征,简化lr特征工程的作用(如下图)。不多说,具体看代码。#

2017-11-22 17:53:13

centos7安装python机器学习相关环境numpy,scipy,sklearn,lda

最近在学习LDA,打算用python去做些练习,在安装的时候遇到了一些坑,查了不少资料才明白原因,于是在下面做些简单的步骤总结跟大家分享下。1,首先安装pip    yum -y install python-pip    pip install --upgrade pip(更新pip)2, 安装numpy和scipy    yum -y install gcc gcc

2017-04-30 16:34:52

UDT协议学习笔记(一)UDT概述

UDT协议学习笔记(一)UDT概述本人近来就职于国内某著名互联网血汗工厂,从事分布式后台相关的工作,最近的项目主要是网络相关。我们有许多海外的proxy节点,为了加速海外proxy与国内某机房的通信速率及抢占更多的带宽,于是开始调研一些udp based的应用层协议,如udt,quic等等。目前还处于调研状态中,尚未投入使用,这里算是分享下一些学到的东西,欢迎大家一起讨论~

2017-02-26 17:05:41

leetcode Super Ugly Number

题目地址:https://leetcode.com/problems/super-ugly-number/Super Ugly NumberMy SubmissionsQuestionTotal Accepted: 2812 Total Submissions: 9622 Difficulty: MediumWrite a p

2015-12-18 17:02:58

redis学习笔记-关于redis服务器的理解

最近一边在学习《Redis设计与实现》,一边在研究Redis的源码。正巧学习了Redis单机服务器端设计这一块,感觉受益良多。下面谈一下关于redis的理解。redis服务器端,本质上就是用C++写的一个后台server程序。Redis服务器将所有的数据库都保存在服务器状态redis.h/redisServer结构的db数组中。每个redisDb结构代表一个数据库,dbnum代表有多少个数据库

2015-12-08 18:26:35

随机森林的简单实现

近日听了七月天空周博的课。现在对随机森林进行一下,简单的实现。随机森林(randomforest)是一种利用多个分类树对数据进行判别与分类的方法,它在对数据进行分类的同时,还可以给出各个变量(基因)的重要性评分,评估各个变量在分类中所起的作用。随机森林是一个最近比较火的算法,它有很多的优点:a. 在数据集上表现良好,两个随机性的引入,使得随机森林不容易陷入过拟合b. 在当前的很

2015-11-08 16:51:31

一个ACM渣渣关于找工作的胡扯

先做个自我介绍。本人开学大四,从大一下开始玩acm,无奈能力有限,智商拙计,打铁无数,最好成绩也不过烂铜一个。伤心之余,大三开始一脚踩入互联网企业的浪潮之中,开始翘课奔波于各种面试,实习,项目,工作之间。从实习到校招先后面了百度,腾讯,阿里,360搜索,知乎,敦煌网等n多家公司,最终拿到百度复合搜索部与腾讯即通平台校招等几个offer。至于最后是去哪家企业,还是说选择保研,目前还没有完全做决定。。

2015-09-03 21:09:24

Spark实践之join优化

join优化应该是spark相关岗位面试必考的内容。 join其实常见的就分为两类: map-side join 和  reduce-side join。当大表和小表join时,用map-side join能显著提高效率。。/** * Created by shenjiyi on 2015/7/8. */package com.testimport com.test.uti

2015-07-08 10:57:05

Ubuntu上搭建Hadoop环境(单机模式+伪分布模式)

挺好的一篇文章,补充两个我在按照下面的方法部署时遇到的坑1.由于hdfs的data文件权限不对,而导致datanode无法启动。chmod g-w /opt/data/hadoop/hdfs/data解决方法参考:http://blog.csdn.net/caoshichaocaoshichao/article/details/158115752,由于多次hadoop df

2015-06-24 16:57:44

Linear_regression与 Logistic_regression简单比较与python实现

Linear_regression与 Logistic_regression简单比较与实现好久没写博客了,在度厂实习期间更是天天累成了狗的节奏,最近有幸蹭到隔壁组老大小黑黑关于machine learning这块的培训(以下图片均摘自小黑黑的PPT),甚是感动,决定好好学习下这块的东西。Linear_regression 和 Logistic_regression 其实是非常相似的两种算法。

2015-05-31 23:33:06

大端小端区别与判断

原文地址:http://blog.csdn.net/zhaoshuzhaoshu/article/details/376008571. 什么是大端,什么是小端:所谓的大端模式,是指数据的低位保存在内存的高地址中,而数据的高位,保存在内存的低地址中;所谓的小端模式,是指数据的低位保存在内存的低地址中,而数据的高位保存在内存的高地址中。2.为什么会有大小端:为什

2015-03-28 16:45:29

[转]C++中sizeof(struct)怎么计算?

[转]C++中sizeof(struct)怎么计算?版权属于原作者,我只是排版。1、 sizeof应用在结构上的情况请看下面的结构:struct MyStruct{ double dda1; char dda; int type;};对结构MyStruct采用sizeof会出现什么结果呢?sizeof(MyStruct)为多少呢?也许

2015-03-21 23:10:29

查看更多

勋章 我的勋章
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。
  • 学习力
    学习力
    《原力计划【第二季】》第一期主题勋章 ,第一期活动已经结束啦,小伙伴们可以去参加第二期打卡挑战活动获取更多勋章哦。