自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

黑暗之神

Fighting in the dark

  • 博客(146)
  • 资源 (3)
  • 收藏
  • 关注

原创 浅析Attention在推荐系统中的应用(3)AutoInt模型

欢迎关注本人公众号: petertalks专栏目录:浅析Attention在推荐系统中的应用(1)Attention简介浅析Attention在推荐系统中的应用(2)阿里Deep Interest Network模型浅析Attention在推荐系统中的应用(3)AutoInt模型浅析Attention在推荐系统中的应用(4)Transformer与阿里BST模型前言...

2020-03-23 10:24:50 1083

原创 浅析Attention在推荐系统中的应用(2)阿里Deep Interest Network模型

欢迎关注本人公众号: petertalks目录:浅析Attention在推荐系统中的应用(1)Attention简介浅析Attention在推荐系统中的应用(2)阿里Deep Interest Network模型浅析Attention在推荐系统中的应用(3)AutoInt模型浅析Attention在推荐系统中的应用(4)Transformer与阿里BST模型阿里妈妈算...

2020-03-17 17:19:22 527

原创 浅析Attention在推荐系统中的应用(1)Attention简介

欢迎关注本人公众号: petertalks前言Attention最早应用于图像领域,而后大面积用于seqs2seqs类型的任务如机器翻译等。随着17年google《Attention is all you need》的发表更是将attention推向热点。近几年无论是在nlp、还是推荐领域。attention机制可谓是大放异彩,从nlp领域的transformer、bert,xlne...

2020-03-17 17:14:29 1614

原创 从一段代码浅谈pyspark性能优化

问题引出我们在日常的特征工程中,常常需要将多张表进行关联操作,也就是所谓的join。现在有三张表A,B,C,其中A表数据总大小约300M, B表总数据大小约15G,C表数据总大小约400G,现在的需求是对这三张表做join,该如何实现?常规做法最简单的一种实现,就是先将其中的两张表join,再将剩下的一张表做join,代码如下:sc = SparkSession\ .builder...

2018-03-14 17:36:51 6290 2

原创 关于分布式一致性算法一些总结

最近看了看区块链的基本原理,特地又复习了下分布式一致性算法相关的东西,画了个简单的思维导图。

2018-03-02 17:34:36 470

原创 jieba源码阅读与思考

jieba源码阅读笔记由于在做模型的时候需要对切词这块做些优化,jieba切词目前主要融合了基于词典的分词和HMM两种方法,阅读了一下jieba的源码,思考了几个优化方案,在此mark一下,欢迎各位大牛前来交流,如果有谬误欢迎指正~ 正常使用切词方法:# 模式一 精确模式:import jiebas = "我们都是好孩子"jieba.cut(s)# re: 我们 都 ...

2018-07-09 10:44:15 1079

原创 LDA漫游指南阅读笔记--Gibbs采样

Gibbs采样公式:LDA并行考虑:列 某文章的单词A依赖于另外一个文章相同单词A采样后修改的nw,nwsum行 同一篇文章的后一个单词依赖于前一个单词修改后的nd,ndsum主题 同一个主题后一次采样依赖于同一个主题前一次采样的nwsum解决方案:1. AD-LDA 按行进行拆分,nd,ndsum拆分到各台机器, nw,nwsum被完全copy到各台机器.各个节点一轮执行完毕后,进行一次merg...

2018-06-10 22:03:38 1488

原创 记一次spark mllib stackoverflow踩坑

以前做als相关的东西的时候,都是用的公司的内部工具居多,今天第一次用了下spark的mlib,拿了个几M的小数据集试了个水。。结果一跑,我擦。。。居然stackoverflow了。。源码如下:from pyspark.mllib.recommendation import ALSfrom numpy import arrayfrom pyspark import Spar

2017-11-24 17:30:32 3109 6

原创 xgboost/gdbt/randomforest + lr入门实践

最近在调研gdbt + lr相关的东西,这方面的东西最早是从facebook发表的一篇论文(https://pdfs.semanticscholar.org/daf9/ed5dc6c6bad5367d7fd8561527da30e9b8dd.pdf)开始的。大意就是利用gdbt模型的叶子节点作为lr模型的输入,起到了自动组合特征,简化lr特征工程的作用(如下图)。不多说,具体看代码。#

2017-11-22 17:53:13 3531

原创 centos7安装python机器学习相关环境numpy,scipy,sklearn,lda

最近在学习LDA,打算用python去做些练习,在安装的时候遇到了一些坑,查了不少资料才明白原因,于是在下面做些简单的步骤总结跟大家分享下。1,首先安装pip    yum -y install python-pip    pip install --upgrade pip(更新pip)2, 安装numpy和scipy    yum -y install gcc gcc

2017-04-30 16:34:52 2978 2

原创 UDT协议学习笔记(一)UDT概述

UDT协议学习笔记(一)UDT概述本人近来就职于国内某著名互联网血汗工厂,从事分布式后台相关的工作,最近的项目主要是网络相关。我们有许多海外的proxy节点,为了加速海外proxy与国内某机房的通信速率及抢占更多的带宽,于是开始调研一些udp based的应用层协议,如udt,quic等等。目前还处于调研状态中,尚未投入使用,这里算是分享下一些学到的东西,欢迎大家一起讨论~

2017-02-26 17:05:41 20481 1

原创 leetcode Super Ugly Number

题目地址:https://leetcode.com/problems/super-ugly-number/Super Ugly NumberMy SubmissionsQuestionTotal Accepted: 2812 Total Submissions: 9622 Difficulty: MediumWrite a p

2015-12-18 17:02:58 520

原创 redis学习笔记-关于redis服务器的理解

最近一边在学习《Redis设计与实现》,一边在研究Redis的源码。正巧学习了Redis单机服务器端设计这一块,感觉受益良多。下面谈一下关于redis的理解。redis服务器端,本质上就是用C++写的一个后台server程序。Redis服务器将所有的数据库都保存在服务器状态redis.h/redisServer结构的db数组中。每个redisDb结构代表一个数据库,dbnum代表有多少个数据库

2015-12-08 18:26:35 783

原创 随机森林的简单实现

近日听了七月天空周博的课。现在对随机森林进行一下,简单的实现。随机森林(randomforest)是一种利用多个分类树对数据进行判别与分类的方法,它在对数据进行分类的同时,还可以给出各个变量(基因)的重要性评分,评估各个变量在分类中所起的作用。随机森林是一个最近比较火的算法,它有很多的优点:a. 在数据集上表现良好,两个随机性的引入,使得随机森林不容易陷入过拟合b. 在当前的很

2015-11-08 16:51:31 3819

原创 一个ACM渣渣关于找工作的胡扯

先做个自我介绍。本人开学大四,从大一下开始玩acm,无奈能力有限,智商拙计,打铁无数,最好成绩也不过烂铜一个。伤心之余,大三开始一脚踩入互联网企业的浪潮之中,开始翘课奔波于各种面试,实习,项目,工作之间。从实习到校招先后面了百度,腾讯,阿里,360搜索,知乎,敦煌网等n多家公司,最终拿到百度复合搜索部与腾讯即通平台校招等几个offer。至于最后是去哪家企业,还是说选择保研,目前还没有完全做决定。。

2015-09-03 21:09:24 6363 5

原创 Spark实践之join优化

join优化应该是spark相关岗位面试必考的内容。 join其实常见的就分为两类: map-side join 和  reduce-side join。当大表和小表join时,用map-side join能显著提高效率。。/** * Created by shenjiyi on 2015/7/8. */package com.testimport com.test.uti

2015-07-08 10:57:05 6920

转载 Ubuntu上搭建Hadoop环境(单机模式+伪分布模式)

挺好的一篇文章,补充两个我在按照下面的方法部署时遇到的坑1.由于hdfs的data文件权限不对,而导致datanode无法启动。chmod g-w /opt/data/hadoop/hdfs/data解决方法参考:http://blog.csdn.net/caoshichaocaoshichao/article/details/158115752,由于多次hadoop df

2015-06-24 16:57:44 521

原创 Linear_regression与 Logistic_regression简单比较与python实现

Linear_regression与 Logistic_regression简单比较与实现好久没写博客了,在度厂实习期间更是天天累成了狗的节奏,最近有幸蹭到隔壁组老大小黑黑关于machine learning这块的培训(以下图片均摘自小黑黑的PPT),甚是感动,决定好好学习下这块的东西。Linear_regression 和 Logistic_regression 其实是非常相似的两种算法。

2015-05-31 23:33:06 1249 1

转载 大端小端区别与判断

原文地址:http://blog.csdn.net/zhaoshuzhaoshu/article/details/376008571. 什么是大端,什么是小端:所谓的大端模式,是指数据的低位保存在内存的高地址中,而数据的高位,保存在内存的低地址中;所谓的小端模式,是指数据的低位保存在内存的低地址中,而数据的高位保存在内存的高地址中。2.为什么会有大小端:为什

2015-03-28 16:45:29 984

转载 [转]C++中sizeof(struct)怎么计算?

[转]C++中sizeof(struct)怎么计算?版权属于原作者,我只是排版。1、 sizeof应用在结构上的情况请看下面的结构:struct MyStruct{ double dda1; char dda; int type;};对结构MyStruct采用sizeof会出现什么结果呢?sizeof(MyStruct)为多少呢?也许

2015-03-21 23:10:29 625

转载 函数式编程扫盲篇

函数式编程扫盲篇1. 概论在过去的近十年的时间里,面向对象编程大行其道。以至于在大学的教育里,老师也只会教给我们两种编程模型,面向过程和面向对象。孰不知,在面向对象产生之前,在面向对象思想产生之前,函数式编程已经有了数十年的历史。那么,接下来,就让我们回顾这个古老又现代的编程模型,让我们看看究竟是什么魔力将这个概念,将这个古老的概念,在21世纪的今天再次拉入了我们的

2015-03-03 16:08:08 473

原创 Codeforces Round #295 C. DNA Alignment

C. DNA Alignmenttime limit per test2 secondsmemory limit per test256 megabytesinputstandard inputoutputstandard outputVasya became interested in bioinformatics.

2015-03-02 19:17:30 803

原创 Codeforces Round #295 B. Two Buttons

B. Two Buttonstime limit per test2 secondsmemory limit per test256 megabytesinputstandard inputoutputstandard outputVasya has found a strange device. On the fro

2015-03-02 19:12:58 963

原创 Codeforces Round #295 A. Pangram

A. Pangramtime limit per test2 secondsmemory limit per test256 megabytesinputstandard inputoutputstandard outputA word or a sentence in some language is called

2015-03-02 19:05:24 1157

原创 利用AC自动机进行关键字的提取和过滤

昨天看了meituan.com的AC算法在美团上单系统的应用一文,深受启发,原来ACM算法在工程中也能有这样赤裸裸的运用~~~ 于是便复习了AC自动机,并把代码用java重新搞了一遍~~AC自动机整体的结果大概是长这样的,其实就是在trie树上做KMP :AC自动机里面比较难理解的应该是它的失配指针的计算过程。这个计算过程从本质上讲就是进

2015-02-01 15:50:27 3000

转载 C++ 虚函数表解析

C++ 虚函数表解析 陈皓http://blog.csdn.net/haoel  前言 C++中的虚函数的作用主要是实现了多态的机制。关于多态,简而言之就是用父类型别的指针指向其子类的实例,然后通过父类的指针调用实际子类的成员函数。这种技术可以让父类的指针有“多种形态”,这是一种泛型技术。所谓泛型技术,说白了就是试图使用不变的代码来实现可变的算法。比如:模板技术,R

2014-11-09 22:26:50 520

原创 hdu 5073 Galaxy(2014acm亚洲赛区鞍山 C)

题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=5073GalaxyTime Limit: 2000/1000 MS (Java/Others)    Memory Limit: 262144/262144 K (Java/Others)Total Submission(s): 768    Accepted Submission(

2014-10-23 15:52:40 1070

原创 hdu 5073 Galaxy(2014acm亚洲赛区鞍山 D)

题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=5073GalaxyTime Limit: 2000/1000 MS (Java/Others)    Memory Limit: 262144/262144 K (Java/Others)Total Submission(s): 768    Accepted Submiss

2014-10-23 15:48:43 926

原创 hdu 5078 Osu! (2014 acm 亚洲区域赛鞍山 I)

题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=5078Osu!Time Limit: 2000/1000 MS (Java/Others)    Memory Limit: 262144/262144 K (Java/Others)Total Submission(s): 180    Accepted Submissio

2014-10-23 15:44:51 971

原创 hdu 5071 Chat-----2014acm亚洲区域赛鞍山 B题

题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=5071ChatTime Limit: 2000/1000 MS (Java/Others)    Memory Limit: 262144/262144 K (Java/Others)Total Submission(s): 476    Accepted Submissio

2014-10-23 15:40:35 1785

原创 ZOJ 3829 Known Notation (2014牡丹江H题)

题目链接:http://acm.zju.edu.cn/onlinejudge/showProblem.do?problemId=5383Known NotationTime Limit: 2 Seconds      Memory Limit: 65536 KBDo you know reverse Polish notation (RPN)? It is a

2014-10-20 22:00:36 785

原创 ACdream 1431 Sum vs Product

题目链接:http://115.28.76.232/problem?pid=1431Sum vs ProductTime Limit: 4000/2000MS (Java/Others)Memory Limit: 128000/64000KB (Java/Others)SubmitStatisticNext ProblemProblem Descri

2014-10-06 19:35:12 1118

原创 ACdream 1427 Nice Sequence

题目链接:http://115.28.76.232/problem?pid=1427Nice SequenceTime Limit: 12000/6000MS (Java/Others)Memory Limit: 128000/64000KB (Java/Others)SubmitStatisticNext ProblemProblem Descri

2014-10-06 19:33:59 1179

原创 hdu 5045 Contest--2014acm上海赛区网络赛

题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=5045ContestTime Limit: 2000/1000 MS (Java/Others)    Memory Limit: 65536/65536 K (Java/Others)Total Submission(s): 171    Accepted Submissi

2014-09-27 20:40:16 1132

原创 hdu 5047 Sawtooth--2014acm上海赛区邀请赛(附java模板)

题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=5047SawtoothTime Limit: 2000/1000 MS (Java/Others)    Memory Limit: 65536/65536 K (Java/Others)Total Submission(s): 377    Accepted Submission(

2014-09-27 20:33:13 1478

原创 hdu 5050 Divided Land---2014acm上海赛区网络赛

题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=5050Divided LandTime Limit: 8000/4000 MS (Java/Others)    Memory Limit: 65536/65536 K (Java/Others)Total Submission(s): 115    Accepted Sub

2014-09-27 20:05:49 1090

原创 hdu 5053 the Sum of Cube---2014acm上海赛区网络赛

题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=5053the Sum of CubeTime Limit: 2000/1000 MS (Java/Others)    Memory Limit: 32768/32768 K (Java/Others)Total Submission(s): 140    Accepted

2014-09-27 20:03:08 1154

原创 ZOJ 3673 1729

题目链接:http://acm.zju.edu.cn/onlinejudge/showProblem.do?problemCode=3673

2014-08-26 20:49:48 501

原创 ZOJ 3672 Gao The Sequence

题目链接:Gao The SequenceTime Limit: 2 Seconds      Memory Limit: 65536 KBYou are given a sequence of integers, A1,A2,...,An. And you are allowed a manipulation on the sequence to transf

2014-08-26 20:33:47 608

原创 ZOJ 3671 Japanese Mahjong III

题目链接:http://acm.zju.edu.cn/onlinejudge/showProblem.do?problemCode=3671Japanese Mahjong IIITime Limit: 2 Seconds      Memory Limit: 65536 KBMahjong is a game of skill, strategy and ca

2014-08-26 20:25:28 878

2014NOI冬令营讲者PPT

2014NOI的冬令营讲者PPT,一个不错的讲义讲得不错,希望大家喜欢!

2014-02-23

操作系统原理课件

本校的操作系统原理课件,讲得算是比较详细,希望大家喜欢!

2014-02-09

2013acm模板

2013年的acm模板,里面涵盖各种高效算法,都能运行,参加比赛或者搞算法的同学可以研究一下

2013-12-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除