东南枝DP-CSDN博客

原创浅析Attention在推荐系统中的应用（3）AutoInt模型

欢迎关注本人公众号： petertalks专栏目录：浅析Attention在推荐系统中的应用（1）Attention简介浅析Attention在推荐系统中的应用（2）阿里Deep Interest Network模型浅析Attention在推荐系统中的应用（3）AutoInt模型浅析Attention在推荐系统中的应用（4）Transformer与阿里BST模型前言...

2020-03-23 10:24:50 1087

原创浅析Attention在推荐系统中的应用（2）阿里Deep Interest Network模型

欢迎关注本人公众号： petertalks目录：浅析Attention在推荐系统中的应用（1）Attention简介浅析Attention在推荐系统中的应用（2）阿里Deep Interest Network模型浅析Attention在推荐系统中的应用（3）AutoInt模型浅析Attention在推荐系统中的应用（4）Transformer与阿里BST模型阿里妈妈算...

2020-03-17 17:19:22 530

原创浅析Attention在推荐系统中的应用（1）Attention简介

欢迎关注本人公众号： petertalks前言Attention最早应用于图像领域，而后大面积用于seqs2seqs类型的任务如机器翻译等。随着17年google《Attention is all you need》的发表更是将attention推向热点。近几年无论是在nlp、还是推荐领域。attention机制可谓是大放异彩，从nlp领域的transformer、bert，xlne...

2020-03-17 17:14:29 1619

原创从一段代码浅谈pyspark性能优化

问题引出我们在日常的特征工程中，常常需要将多张表进行关联操作，也就是所谓的join。现在有三张表A,B,C，其中A表数据总大小约300M, B表总数据大小约15G，C表数据总大小约400G，现在的需求是对这三张表做join，该如何实现？常规做法最简单的一种实现，就是先将其中的两张表join，再将剩下的一张表做join，代码如下：sc = SparkSession\ .builder...

2018-03-14 17:36:51 6294 2

原创关于分布式一致性算法一些总结

最近看了看区块链的基本原理，特地又复习了下分布式一致性算法相关的东西，画了个简单的思维导图。

2018-03-02 17:34:36 471

原创 jieba源码阅读与思考

jieba源码阅读笔记由于在做模型的时候需要对切词这块做些优化，jieba切词目前主要融合了基于词典的分词和HMM两种方法，阅读了一下jieba的源码，思考了几个优化方案，在此mark一下，欢迎各位大牛前来交流，如果有谬误欢迎指正~ 正常使用切词方法：# 模式一精确模式：import jiebas = "我们都是好孩子"jieba.cut(s)# re: 我们都 ...

2018-07-09 10:44:15 1081

Gibbs采样公式：LDA并行考虑：列某文章的单词A依赖于另外一个文章相同单词A采样后修改的nw,nwsum行同一篇文章的后一个单词依赖于前一个单词修改后的nd,ndsum主题同一个主题后一次采样依赖于同一个主题前一次采样的nwsum解决方案：1. AD-LDA 按行进行拆分,nd,ndsum拆分到各台机器, nw,nwsum被完全copy到各台机器.各个节点一轮执行完毕后,进行一次merg...

2018-06-10 22:03:38 1488

原创记一次spark mllib stackoverflow踩坑

以前做als相关的东西的时候，都是用的公司的内部工具居多，今天第一次用了下spark的mlib，拿了个几M的小数据集试了个水。。结果一跑，我擦。。。居然stackoverflow了。。源码如下：from pyspark.mllib.recommendation import ALSfrom numpy import arrayfrom pyspark import Spar

2017-11-24 17:30:32 3111 6

原创 xgboost/gdbt/randomforest + lr入门实践

最近在调研gdbt + lr相关的东西，这方面的东西最早是从facebook发表的一篇论文（https://pdfs.semanticscholar.org/daf9/ed5dc6c6bad5367d7fd8561527da30e9b8dd.pdf）开始的。大意就是利用gdbt模型的叶子节点作为lr模型的输入，起到了自动组合特征，简化lr特征工程的作用（如下图）。不多说，具体看代码。#

2017-11-22 17:53:13 3532

原创 centos7安装python机器学习相关环境numpy,scipy,sklearn,lda

最近在学习LDA，打算用python去做些练习，在安装的时候遇到了一些坑，查了不少资料才明白原因,于是在下面做些简单的步骤总结跟大家分享下。1，首先安装pip yum -y install python-pip pip install --upgrade pip（更新pip）2, 安装numpy和scipy yum -y install gcc gcc

2017-04-30 16:34:52 2979 2

原创 UDT协议学习笔记（一）UDT概述

UDT协议学习笔记（一）UDT概述本人近来就职于国内某著名互联网血汗工厂，从事分布式后台相关的工作，最近的项目主要是网络相关。我们有许多海外的proxy节点，为了加速海外proxy与国内某机房的通信速率及抢占更多的带宽，于是开始调研一些udp based的应用层协议，如udt，quic等等。目前还处于调研状态中，尚未投入使用，这里算是分享下一些学到的东西，欢迎大家一起讨论~

2017-02-26 17:05:41 20497 1

原创 leetcode Super Ugly Number

题目地址：https://leetcode.com/problems/super-ugly-number/Super Ugly NumberMy SubmissionsQuestionTotal Accepted: 2812 Total Submissions: 9622 Difficulty: MediumWrite a p

2015-12-18 17:02:58 521

原创 redis学习笔记-关于redis服务器的理解

最近一边在学习《Redis设计与实现》，一边在研究Redis的源码。正巧学习了Redis单机服务器端设计这一块，感觉受益良多。下面谈一下关于redis的理解。redis服务器端，本质上就是用C++写的一个后台server程序。Redis服务器将所有的数据库都保存在服务器状态redis.h/redisServer结构的db数组中。每个redisDb结构代表一个数据库,dbnum代表有多少个数据库

2015-12-08 18:26:35 784

原创随机森林的简单实现

近日听了七月天空周博的课。现在对随机森林进行一下，简单的实现。随机森林（randomforest）是一种利用多个分类树对数据进行判别与分类的方法，它在对数据进行分类的同时，还可以给出各个变量（基因）的重要性评分，评估各个变量在分类中所起的作用。随机森林是一个最近比较火的算法，它有很多的优点：a. 在数据集上表现良好，两个随机性的引入，使得随机森林不容易陷入过拟合b. 在当前的很

2015-11-08 16:51:31 3828

原创一个ACM渣渣关于找工作的胡扯

先做个自我介绍。本人开学大四，从大一下开始玩acm，无奈能力有限，智商拙计，打铁无数，最好成绩也不过烂铜一个。伤心之余，大三开始一脚踩入互联网企业的浪潮之中，开始翘课奔波于各种面试，实习，项目，工作之间。从实习到校招先后面了百度，腾讯，阿里，360搜索，知乎，敦煌网等n多家公司，最终拿到百度复合搜索部与腾讯即通平台校招等几个offer。至于最后是去哪家企业，还是说选择保研，目前还没有完全做决定。。

2015-09-03 21:09:24 6372 5

原创 Spark实践之join优化

join优化应该是spark相关岗位面试必考的内容。 join其实常见的就分为两类： map-side join 和 reduce-side join。当大表和小表join时，用map-side join能显著提高效率。。/** * Created by shenjiyi on 2015/7/8. */package com.testimport com.test.uti

2015-07-08 10:57:05 6922

转载 Ubuntu上搭建Hadoop环境（单机模式+伪分布模式）

挺好的一篇文章，补充两个我在按照下面的方法部署时遇到的坑1.由于hdfs的data文件权限不对，而导致datanode无法启动。chmod g-w /opt/data/hadoop/hdfs/data解决方法参考：http://blog.csdn.net/caoshichaocaoshichao/article/details/158115752，由于多次hadoop df

2015-06-24 16:57:44 521

原创 Linear_regression与 Logistic_regression简单比较与python实现

Linear_regression与 Logistic_regression简单比较与实现好久没写博客了，在度厂实习期间更是天天累成了狗的节奏，最近有幸蹭到隔壁组老大小黑黑关于machine learning这块的培训（以下图片均摘自小黑黑的PPT），甚是感动，决定好好学习下这块的东西。Linear_regression 和 Logistic_regression 其实是非常相似的两种算法。

2015-05-31 23:33:06 1249 1

转载大端小端区别与判断

原文地址：http://blog.csdn.net/zhaoshuzhaoshu/article/details/376008571. 什么是大端,什么是小端:所谓的大端模式，是指数据的低位保存在内存的高地址中，而数据的高位，保存在内存的低地址中；所谓的小端模式，是指数据的低位保存在内存的低地址中，而数据的高位保存在内存的高地址中。2.为什么会有大小端:为什

2015-03-28 16:45:29 988

转载 [转]C++中sizeof（struct）怎么计算？

[转]C++中sizeof（struct）怎么计算？版权属于原作者，我只是排版。1、 sizeof应用在结构上的情况请看下面的结构：struct MyStruct{ double dda1; char dda; int type;};对结构MyStruct采用sizeof会出现什么结果呢？sizeof(MyStruct)为多少呢？也许

2015-03-21 23:10:29 625

转载函数式编程扫盲篇

函数式编程扫盲篇1. 概论在过去的近十年的时间里，面向对象编程大行其道。以至于在大学的教育里，老师也只会教给我们两种编程模型，面向过程和面向对象。孰不知，在面向对象产生之前，在面向对象思想产生之前，函数式编程已经有了数十年的历史。那么，接下来，就让我们回顾这个古老又现代的编程模型，让我们看看究竟是什么魔力将这个概念，将这个古老的概念，在21世纪的今天再次拉入了我们的

2015-03-03 16:08:08 474

原创 Codeforces Round #295 C. DNA Alignment

C. DNA Alignmenttime limit per test2 secondsmemory limit per test256 megabytesinputstandard inputoutputstandard outputVasya became interested in bioinformatics.

2015-03-02 19:17:30 803

原创 Codeforces Round #295 B. Two Buttons

B. Two Buttonstime limit per test2 secondsmemory limit per test256 megabytesinputstandard inputoutputstandard outputVasya has found a strange device. On the fro

2015-03-02 19:12:58 963

原创 Codeforces Round #295 A. Pangram

A. Pangramtime limit per test2 secondsmemory limit per test256 megabytesinputstandard inputoutputstandard outputA word or a sentence in some language is called

2015-03-02 19:05:24 1157

原创利用AC自动机进行关键字的提取和过滤

昨天看了meituan.com的AC算法在美团上单系统的应用一文，深受启发，原来ACM算法在工程中也能有这样赤裸裸的运用~~~ 于是便复习了AC自动机，并把代码用java重新搞了一遍~~AC自动机整体的结果大概是长这样的，其实就是在trie树上做KMP ：AC自动机里面比较难理解的应该是它的失配指针的计算过程。这个计算过程从本质上讲就是进

2015-02-01 15:50:27 3001

转载 C++ 虚函数表解析

C++ 虚函数表解析陈皓http://blog.csdn.net/haoel 前言 C++中的虚函数的作用主要是实现了多态的机制。关于多态，简而言之就是用父类型别的指针指向其子类的实例，然后通过父类的指针调用实际子类的成员函数。这种技术可以让父类的指针有“多种形态”，这是一种泛型技术。所谓泛型技术，说白了就是试图使用不变的代码来实现可变的算法。比如：模板技术，R

2014-11-09 22:26:50 520

原创 hdu 5073 Galaxy（2014acm亚洲赛区鞍山 C）

题目链接：http://acm.hdu.edu.cn/showproblem.php?pid=5073GalaxyTime Limit: 2000/1000 MS (Java/Others) Memory Limit: 262144/262144 K (Java/Others)Total Submission(s): 768 Accepted Submission(

2014-10-23 15:52:40 1071

原创 hdu 5073 Galaxy（2014acm亚洲赛区鞍山 D）

题目链接：http://acm.hdu.edu.cn/showproblem.php?pid=5073GalaxyTime Limit: 2000/1000 MS (Java/Others) Memory Limit: 262144/262144 K (Java/Others)Total Submission(s): 768 Accepted Submiss

2014-10-23 15:48:43 926

原创 hdu 5078 Osu! （2014 acm 亚洲区域赛鞍山 I）

题目链接：http://acm.hdu.edu.cn/showproblem.php?pid=5078Osu!Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 262144/262144 K (Java/Others)Total Submission(s): 180 Accepted Submissio

2014-10-23 15:44:51 971

原创 hdu 5071 Chat-----2014acm亚洲区域赛鞍山 B题

题目链接：http://acm.hdu.edu.cn/showproblem.php?pid=5071ChatTime Limit: 2000/1000 MS (Java/Others) Memory Limit: 262144/262144 K (Java/Others)Total Submission(s): 476 Accepted Submissio

2014-10-23 15:40:35 1786

原创 ZOJ 3829 Known Notation (2014牡丹江H题)

题目链接：http://acm.zju.edu.cn/onlinejudge/showProblem.do?problemId=5383Known NotationTime Limit: 2 Seconds Memory Limit: 65536 KBDo you know reverse Polish notation (RPN)? It is a

2014-10-20 22:00:36 785

原创 ACdream 1431 Sum vs Product

题目链接：http://115.28.76.232/problem?pid=1431Sum vs ProductTime Limit: 4000/2000MS (Java/Others)Memory Limit: 128000/64000KB (Java/Others)SubmitStatisticNext ProblemProblem Descri

2014-10-06 19:35:12 1120

原创 ACdream 1427 Nice Sequence

题目链接：http://115.28.76.232/problem?pid=1427Nice SequenceTime Limit: 12000/6000MS (Java/Others)Memory Limit: 128000/64000KB (Java/Others)SubmitStatisticNext ProblemProblem Descri

2014-10-06 19:33:59 1180

原创 hdu 5045 Contest--2014acm上海赛区网络赛

题目链接：http://acm.hdu.edu.cn/showproblem.php?pid=5045ContestTime Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/65536 K (Java/Others)Total Submission(s): 171 Accepted Submissi

2014-09-27 20:40:16 1132

原创 hdu 5047 Sawtooth--2014acm上海赛区邀请赛（附java模板）

题目链接：http://acm.hdu.edu.cn/showproblem.php?pid=5047SawtoothTime Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/65536 K (Java/Others)Total Submission(s): 377 Accepted Submission(

2014-09-27 20:33:13 1478

原创 hdu 5050 Divided Land---2014acm上海赛区网络赛

题目链接：http://acm.hdu.edu.cn/showproblem.php?pid=5050Divided LandTime Limit: 8000/4000 MS (Java/Others) Memory Limit: 65536/65536 K (Java/Others)Total Submission(s): 115 Accepted Sub

2014-09-27 20:05:49 1091

原创 hdu 5053 the Sum of Cube---2014acm上海赛区网络赛

题目链接：http://acm.hdu.edu.cn/showproblem.php?pid=5053the Sum of CubeTime Limit: 2000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others)Total Submission(s): 140 Accepted

2014-09-27 20:03:08 1154

原创 ZOJ 3673 1729

题目链接：http://acm.zju.edu.cn/onlinejudge/showProblem.do?problemCode=3673

2014-08-26 20:49:48 501

原创 ZOJ 3672 Gao The Sequence

题目链接：Gao The SequenceTime Limit: 2 Seconds Memory Limit: 65536 KBYou are given a sequence of integers, A1,A2,...,An. And you are allowed a manipulation on the sequence to transf

2014-08-26 20:33:47 608

原创 ZOJ 3671 Japanese Mahjong III

题目链接：http://acm.zju.edu.cn/onlinejudge/showProblem.do?problemCode=3671Japanese Mahjong IIITime Limit: 2 Seconds Memory Limit: 65536 KBMahjong is a game of skill, strategy and ca

2014-08-26 20:25:28 878

2014NOI冬令营讲者PPT

操作系统原理课件

2013acm模板

空空如也