自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

哆啦咪~fo

无名的菜虫

  • 博客(105)
  • 资源 (2)
  • 问答 (2)
  • 收藏
  • 关注

原创 基于点击图模型Query和Document相关性的计算

参考论文:Learning Query and Document Relevance from a Web-scale Click Graph背景:用户的点击日志蕴含丰富的信息,在信息检索领域具有着重要的地位。用户点击行为数据通常用来生成训练数据用户机器学习提高ranking performance,或者是在ranking fuction中作为特征来计算ranking score.但是点击数据存在...

2018-06-03 20:49:07 3408 4

原创 Attention based models

Attention mechanism在深度学习中就像是万金油般的存在,涉及领域广泛,深受练丹师的喜爱。推荐一篇综述 -> An Attentive Survey of Attention Models我会大体介绍attention发展过程中几篇经典的paper,从机器翻译领域萌芽再到各个领域遍地开花.Neural Machine Translation by Jointly L...

2020-05-08 10:57:10 579

原创 GCN 论文英语表达总结

!猫在家里看论文,写论文的日子真爽!我常常自嘲自己的英文写的很像老太太的裹脚布,又臭又长!主要是将一些GCN的英文表达方式记录下来,收藏起来慢慢学习!会给出论文题目,还有一些小小的note整合图神经网络的英文表达Aspect-based Sentiment Classification with Aspect-specific Graph Convolutional Ne...

2020-04-05 12:27:31 940 2

原创 GPT : Improving Language Understanding by Generative Pre-Training

参考论文:Improving Language Understanding by Generative Pre-Training论文链接:https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf这篇论文是基于文...

2019-08-16 11:37:33 7365

原创 Layer Normalization

在学习Layer Normalization之前建议大家先自行学习Batch Normalization.鉴于BN存在一些问题,LayerNormalzation才得以提出,并且LayerNormalization可以直接应用于recurrent neural networks,并且也解决了BN当batch size=1不能进行在线学习,在线预测的问题。layer normalizatio...

2019-08-01 10:59:30 861

原创 Elasticsearch(五)

在文档在加入倒排索引之前,会对数据进行一系列的分析。基本分为以下几个步骤。概述*字符过滤---使用字符过滤器转变字符。*文本切分为分词---将文本切分为单个或多个分词。*分词过滤---使用分词过滤器转变每个分词。*分词索引---将这些分词存储到索引中。以上几个步骤可以参考下图:字符过滤器可以将 特定的的字符序列转变为其他的字符序列,比如将 I love u 2 转换为I...

2019-07-30 17:41:18 214

原创 离京

北京从来没有属于过我,而我也将不再属于北京。这种感受夹杂着莫名的难过,我不明白这种心塞塞的感受到底是从何而来,但我知道我真的要走了,得走了。生活就是这样,我们没有顺理成章的勇气去离开一个貌似熟悉的城市,因为那座城市里面有我们熟悉的朋友,熟悉的美食,熟悉的生活节奏,离开对我们来说,意味开始新的everything, restart life.18.1.25我拖着两大行李箱来到北京,那时候...

2019-07-08 15:23:04 467 4

原创 Elasticsearch(四) 安全性

待续参考链接https://blog.51cto.com/chenhao6/2113873

2019-06-03 19:03:26 807

原创 Elasticsearch(三) 查询与过滤

这里使用的场景是在子文档中匹配object字段spu_info.spu_name,brand_info.brand_name,过滤子文档的is_hidden和state的字段,并且在父文档也过滤is_hidden和state字段。search_obj = { "query": { "filtered": { "query...

2019-06-01 16:14:32 826

原创 Elasticsearch(二) 文档关系分析

关系型数据库中往往存在关系,包括1对1,1对多,多对多,通过连接,可以进行多表查询。elasticsearch作为数据存储,搜索,分析的框架,在存储上采用文档式的存储方式,因此再把关系型数据库比如mysql的数据导入elasticsearch时,需要根据数据关系设计索引映射。数据关系,数据特点以及在性能上需求都会影响着我们如何设计索引映射。对象类型(最擅长处理一对一关系)将对象作为文档的一...

2019-05-17 16:48:35 379

原创 Elasticsearch(一) 安装与配置--Centos7

Elasticsearch 作为最受欢迎的开源搜索框架之一,能够满足数据存储,数据搜索和数据分析的功能,在最近的几个月里我会慢慢地深入了解和学习elasticsearch。Elasticsearch参考链接https://www.cnblogs.com/shifu204/p/6370682.html安装下载并安装ES的yum公钥rpm --import https://p...

2019-05-12 14:35:30 263

原创 未来想做的几件事

最近想的有点多,多到可怕,想做的事情太多,担心现在的自己会像是在高速公路行驶的车辆一样,可能找不到下高速的出口会一直漫无目的的跑下去,所以心情变得很烦躁。1. 把驾照学学下来,应该能在1~2个月搞定。(7-8月)2. 考雅思,为以后出国读博士做准备,即便是不读博士,英语好点也是不错的。(12月份)3. 报一个绘画班开始学习,开始发展自己的第二事业,争取把兴趣培养成职业(日常)。4....

2019-05-05 14:49:46 1309 1

原创 Universal Language Model Fine-tuning for Text Classification

参考论文:Universal Language Model Fine-tuning for Text Classification 迁移学习最早是应用于机器视觉方向的,迁移学习是从general到specific的过程,在general过程中在大型语料库中进行预训练(pre-training),在specific过程中在specific task领域中进行微调(fine-tunn...

2019-04-14 18:58:11 769

原创 C++ string实现,vector扩容

C++ stringstring 的C++代码实现class string{//构造函数string(char* data) {if(m_data == null || strlen(data) == 0) {m_data = new char[1];*m_data = ‘\0’;} else {int len = strlen(data);m_dat...

2019-04-06 21:50:59 1220

原创 Batch Normation

之前花费了比较长的时间在论文阅读上,导致最近的博客都没有产出~~参考论文:Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift可以理解为对深层神经网络每个隐层神经元的激活值做简化版本的白化操作为什么要提出Batch Normation1. 深度网络的训...

2019-04-06 11:52:15 724

原创 git 将多个commit id 打包成一个或者是多个commit id

我们有时候会出现频繁提交代码的问题,可能多个commit id 实际上一个作用,为了让git log看起来更清晰,我们会将多个commit id 合并成若干个commit id. 这就涉及到git rebase -i. 通过这条命令,我们可以修改git 提交的顺序, 或者是删除某个commit , 修改某个commit 信息, 下面就详细介绍git rebase -i。git log //假...

2018-10-26 16:16:09 2134

原创 Git diff 忽略某些文件

我们在使用git diff时总是希望忽略一些文件, 比如一些非代码的改动我们希望看到的是no diff的。下面将简单介绍下如果配置某些文件在git diff时被忽略。自定义 git diff driver.在项目的根目录下运行:git config diff.nodiff.command /usr/bin/true这里需要注意的是, 在/usr/bin/目录下创建文件名为true...

2018-10-26 15:49:32 3752

原创 C++ 智能指针(unique_ptr, shared_ptr)的源码分析

在博文https://blog.csdn.net/qq_27717921/article/details/82940519已经介绍了unique_ptr和shared_ptr的使用,但是这两类的智能指针是如何做到管理指针的呢?shared_ptr头文件template <typename T>class SharedPointer {public: SharedPo...

2018-10-14 13:36:25 3589 6

原创 RDD分区理解

RDD分区的作用一个HDFS文件的RDD将文件的每个文件块表示为一个分区,并且知道每个文件块的位置信息。这些对应着数据块的分区分布到集群的节点中,因此,分区的多少涉及对这个RDD进行并行计算的粒度。首先,分区是一个逻辑概念, 变换前后的新旧分区在物理上可能是同一块内存或者是存储。需要注意的是,如果没有指定分区数将使用默认值,而默认值是该程序所分配到CPU核数,如果是从HDFS文件创建,默认...

2018-10-05 21:39:16 8571

原创 C++ 动态内存

在c++的内存上我碰到很多很多坑~,特此来记一笔。什么是动态内存程序中所使用的对象都有着严格的生存期,全局对象在程序启动时分配,在程序结束时销毁;局部对象在进入其定义所在的程序块时被创建,在离开块时销毁。局部的static对象只在第一次使用前进行分配,在程序结束时销毁。但是除了自动和static对象之外,C++还支持动态分配对象。比较特殊的是,动态分配的对象的生存期与它在哪里创建是无关...

2018-10-05 17:35:55 1421

原创 PageRank算法和HITS算法

楼楼刚才想了一个特别骚情的标题,叫PageRank算法和HITS算法的“前世今生”,特别像之前写头条号的套路,然后就想起来去年6月份自己有在经营一个技术型的头条号,后来因为做不到一天一篇的更新频率被我弃坑了,现在手机号换了,登陆不了,去主页看了看之前写的文章,竟然被一直这么努力的自己感动到了。:)PageRank算法和HITS算法都属于比较著名的链接链接分析方法,作为经典方法,由此也衍生出一些...

2018-10-02 22:30:37 7699

原创 YARN的两种运行模式

YARN是一种资源管理机制,可以基于这种资源管理机制运行多种计算框架,比如mapreduce和storm,任何框架与YARN的结合,都必须遵循YARN的开发模式,下图为YARN框架的基本原理。其中,ResourceManager和NodeManagers是整个计算框架的核心部分,ResourceManager负责资源的分配,将集群的资源分配给各个应用使用,而资源分配和调度的基本单位是Con...

2018-10-02 19:58:55 4137

原创 Netural Machine Translation By Joinly Learning To Align And Translate

参考论文:Netural Machine Translation By Joinly Learning To Align And Translate这篇论文应该是attention系列论文的鼻祖论文了, 引用量已经超多了吧!背景机器翻译方面的模型一般都会采用encoder-decoder的框架,对source sentence 编码成固定长度的vector,这个vector作为deco...

2018-09-02 00:25:41 455

原创 Attention Is All You Need

参考论文:Attention is all you need这篇论文超火的, 楼楼也过来凑个热闹。背景:主流的Seq-Seq的模型通常采用RNN或者是CNN,一般在网络结构中都会用到encoder和decoder, 效果比较好的模型会通过attention(注意力机制)连接encoder和decoder。但是这种网络结构也存在一些问题:1. RNN网络结构:  递归框架...

2018-08-26 20:00:40 14312 7

原创 倒排索引(一)

毕业以后在网页搜索组,所以抽空就看看了《这就是搜索引擎--核心技术详解》,书比较白话文,对于我这样的入门小白再合适不过了,还有一本《信息检索导论》比较系统和专业化,感兴趣的可以买来看看。海量的网页数据,如何快速的找到包含用户查询的所有网页至关重要,如同我们拿到一本很厚的书时,如果没有目录,我们可能要花费很长的时间找自己需要的内容,但是有了目录,我们就能快速定位,这里的目录就相当于索引的功能。常见的...

2018-07-08 21:55:03 5898 1

原创 Spark 的作业执行原理

参见书籍 《图解Spark:核心技术与案例实战》要点概述** 作业(Job)提交后由行动操作触发作业执行,根据RDD的依赖关系构建DAG图,由DAGSheduler(面向阶段的任务调度器)解析** DAGSheduler在解析DAG图时是以RDD的依赖是否为宽依赖,当遇到宽依赖就划分为一个新的调度阶段。每个调度阶段都包含一个或者是多个任务(Task),多个Task组成任务集,提交给TaskShed...

2018-07-07 22:43:38 665

原创 Spark系列(五)共享变量累加器

累加器(accumulator)累加器是共享变量的一种,它提供了信息聚合的一种方法,提供了将工作节点中的值聚合到驱动器程序中的简单语法,累加器常常被作为Rdd的map,filter操作的副产品,这仍然是由于行动操作之前的转化操作仍然是惰性的,只有进行了行动操作之后,才会触发累加器的求值操作。spark快速大数据分析只有在执行了saveAsTextFile之后,累加器blankLines才能保存正确...

2018-03-23 21:30:34 1151

原创 Scala学习(二)groupByKey和reduceByKey

大数据处理中有一个典型的例子WordCount,类似与Hello World的作用,map阶段主要是将单词转换为(word,1)的形式,在reduce阶段则是将Key值相同的1累加求和,最终得到的结果就是单词的count数。假设map的结果为(word,(m,n))如果按照key值将对应的列累加起来呢?比如经过map的数据集是这样的("happy",1,3),("hello",2,6),("hap...

2018-03-18 21:25:41 18192

原创 Scala学习(一)Scala特性解析

在很多地方Scala都很像Java,但是比Java更为函数式编程,这句话主要从三句话就可以理解“一切都是对象”,“一切都是函数”以及“一切都是表达式”三方面理解。首先是一切都是对象,这大概和Python很像,因为即便是数字1都有一系列的方法,所以我们可以调用1.toDouble将Int类型的1转换为Double类型的1。然后是一切都是函数,表现为可以重载操作符,Python很像,在一定程度上我总觉...

2018-03-18 00:23:20 3026

原创 Spark系列(四)RDD编程

Spark大数据处理的核心是RDD,RDD的全称为弹性分布式数据集,对数据的操作主要涉及RDD的创建、转换以及行动等操作,在Spark系列(二)中主要介绍了RDD根据SparkContext的textFile创建RDD的方法,本小节将介绍RDD编程之转换(Transform)和行动(Action)两种操作。RDD是分布式数据集的抽象RDD是不可变的数据集合,每个RDD都被分成多个分区,这些分区运行...

2018-03-17 21:46:31 388

原创 Spark系列(三)Spark的工作机制

什么时候才能回归到看论文,写感想的日子呀~刚刚交完房租的我血槽已空。看了师妹关于Spark报告的PPT,好怀念学生时代开组会的时光啊,虽然我已经离开学校不长不短两个月,但我还是非常认真的翻阅了,并作为大自然的搬运工来搬运知识了。Spark的执行模式1、Local,本地执行,通过多线程来实现并行计算。2、本地伪集群运行模式,用单机模拟集群,有多个进程。3、Standalone,spark做资源调度,...

2018-03-11 22:47:43 5364

原创 Spark系列(二)Spark的数据读入

真的是超级忙碌的一周,所幸的是我们迎来了新的家庭成员一只小猫咪--大王。取名为大王的原因竟然是因为之前作为流浪猫的日子总是被其他猫所欺负,所以希望他能做一只霸气的霸王猫啦。言归正传,在周一见的悲伤中唯有写一篇博客才能缓解我的忧伤吧。Spark读取文本文件--textFile()def textFile(        path: String,        minPartitions: Int ...

2018-03-11 21:10:59 4683 2

原创 Spark系列(一) 认识Spark

怀念看论文的日子~/打算写一个Spark系列,主要以Scala代码实现,请赐予我力量吧!!!Spark的特点运行速度:Spark拥有DAG执行引擎,支持在内存中对数据进行迭代计算。官方提供的数据表明,如果数据由磁盘读取,速度是Hadoop MapReduce的10倍以上,如果数据从内存中读取,速度可以高达100多倍。适用性强:能够读取HDFS、Cassandra、HBase、S3和Techyon为...

2018-03-04 18:07:56 753

原创 毕业季--写给未来的自己

即将离开学校的那几天,我才意识到曾经的我多么糟糕。我舍不得我的导师,会带着丝丝牵挂想起她,临走我送了老师一瓶眼药水,据说那是眼药水界的爱马仕,我把对老师所有的祝福和关心统统写在了贺卡上的几行字里,愿时光对她温柔以待。老师说我是男孩子的性格,我反驳说我不是男孩子的性格,因为我是个内心极为敏感和细腻的人。后来才知道老师可能再用一种极为委婉的方式告诉我,我做的PPT太糙了,老师说我论文太糙时

2018-01-01 21:30:04 4009 5

原创 关于词向量

参考论文:Efficient Estimation of Word Representations in Vector SpaceOne-hot Represention在深度学习没有如此如火如荼之前,语言模型的建立依靠的一般还是SVM,CRF等算法,为了将自然语言符号、数值化,One-hot Represention 成为了当时不错简单粗暴的词向量表示方法。 每个词

2017-12-01 14:13:36 1808

原创 基于协同过滤的SVD的推荐系统

参考论文:Using Singular Value Decomposition Approximation For Collaborative Filtering 背景:m-n矩阵是一个打分矩阵,m是用户的数量,n为项目的数量,Ai,j表示用户i对项目j的评分情况。矩阵A一般存在两个问题。 1> 矩阵A通常非常的庞大,m、n可能有上百万或者是上亿的数量级 2> 矩阵A是一个非常稀疏的矩阵 所以

2017-10-20 15:44:27 9943

原创 基于矩阵分解的推荐系统

关于矩阵分解矩阵分解活跃在推荐领域,基于SVD的推荐系统也是矩阵分解的一种。给定一个用户评分表,通常这个是个很大的矩阵,m行n列,m代表用户的个数,n代表项目的个数。并且这个矩阵在实际情况中是非常稀疏的,用户只能评价少部分的项目,因而矩阵中会存在很多?,用户并没有对对应的项目打分或者是评价过,所以我们很难对了解用户对相应项目的偏好情况。 而我们推荐矩阵分解就是希望能通过用户已有的评分来预测用户

2017-10-17 10:17:16 12785

原创 关于SVD的应用详解

关于SVDSVD (Sigular Value Decomposition)奇异值分解,主要用于降维、压缩、隐性语义以及推荐系统上。要了解奇异值分解,首先要了解特征值分解,通过求解一个矩阵的特征值,我们可以把一个矩阵通过映射、拉伸或者压缩投射到一个新的空间中,相对于原空间来讲,投射到的新空间的维度会增加(一般是从一个二维空间向高维空间转换)在高维空间中的维度我们就能提取到一个矩阵的主要特征。奇异值也

2017-10-13 21:45:01 3508

原创 BPR:个性化排名推荐系统

BPR 推荐模型基于贝叶斯理论在先验知识下极大化后验概率,实现从一个用户-项目矩阵训练出多个矩阵,且一个矩阵表示一个用户的项目偏好情况。目前比较主流的推荐系统模型k近邻的协同过滤:传统的相似矩阵的计算会根据启发式的计算方法,比如皮尔逊相关系数,但是近些年研究,相似矩阵作为模型参数并且根据大量数据训练得出。矩阵分解:矩阵分解在显式反馈和隐式反馈中都是推荐系统中很热门的方法。在近些年研究中,奇异值分解(

2017-10-10 21:15:24 20175 10

原创 二分查找--查找重复有序数组中最左边的target

二分查找是在面试中经常会遇到的面试题,根据普通的二分查找还衍生出了二分查找的其他情况,比如有序数组中的目标出现多次,利用二分查找返回在最左边出现的目标值或者是最右边出现的目标值。 查找最左边出现的目标值public static int binarySearchLeft(int[] arr,int target){ if(arr==null||arr.length==0){

2017-10-06 16:08:10 3845 3

招聘信息系统的设计与实现

自己做的招聘信息系统,用VS2010做的,数据库是SQL2008,运行没有问题,可以实现发布职位,申请职位,审核职位和其他的基本职能

2015-07-30

网上书城图书管理系统

设计了一个图书管理系统,主要采用的是.NET的开发语言,用vs2010制作

2015-04-26

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除