5 qq280929090

尚未进行身份认证

暂无相关描述

等级
TA的排名 4w+

KDD 2019 Accepted Paper (Title, Author, Abstract, Download)

本博客致力于整理出KDD/SIGKDD2019接收的所有论文,包括题目、作者、摘要等重要信息,能够方便广大读者迅速找到自己领域相关的论文。

2019-07-26 08:45:56

ICML 2019 Accepted Paper (Title, Author, Abstract, Code)

Title:Author:Abstract:Title:Author:Abstract:Title:Author:Abstract:Title:Author:Abstract:Title:Author:Abstract:Title:Author:Abstract:Title:Author:Abstract:Title:Author:Abstract:...

2019-07-14 08:14:27

ACL 2018接受论文集(题目、作者、摘要)

题目:作者:摘要:

2018-08-18 07:28:01

lambda函数详细介绍(Python)

待。。。

2018-08-12 15:08:02

损失函数总结(理论原理、使用场景)

待。。。

2018-07-15 11:13:15

经典的文本数据预处理流程(转)

首先对文本进行分词,因为可以直接用NLTK的分词器,中文的可以用结巴分词在英文中,往往还需要对单词进行词干提取和词形归一化。在词形归一的过程中如果结合POSTag可以更好的进行词形归一。去除停用词,得到最终的词列表本文转自:https://blog.csdn.net/yc1203968305/article/details/79062182...

2018-06-25 14:48:07

文本挖掘预处理的流程总结(转)

最近半年一直忙于项目,博客也很少更新咯。有几个项目做了不少JS相关的工作,基本都可以利用现成的开源方案,诸如angularJs、requireJs、bootstrap、knockoutJs、TypeScript、Jquery等等;之后也有项目是无UI的,纯后端的内容,主要就是考虑并行、性能、模块化等;之后的很长一段时间便主要在处理文本挖掘相关的项目(英文项目)。今天正好有空也准备对文本挖掘预处理的...

2018-06-25 14:40:07

文本分类的数据预处理流程介绍

  在进行文本分类时,毫无疑问会涉及到对文本数据进行预处理,包括文档切分、文本分词、去停用词(包括标点、数字、单字和其它一些无意义的词)、文本特征提取、词频统计、文本向量化等操作。下面就这几方面作一个概括性的介绍,具体的实现还有待慢慢的研究。文档切分  文档切分这个操作是可选的,取决于你获取到的文档集合的形式。如果你得到的文档集合本身就是一篇一篇文章分开的,那么这一步就可以省略了。反之,如...

2018-06-25 13:01:07

英文文本挖掘预处理流程总结(转)

特点  英文文本的预处理方法和中文的有部分区别。首先,英文文本挖掘预处理一般可以不做分词(特殊需求除外),而中文预处理分词是必不可少的一步。第二点,大部分英文文本都是uft-8的编码,这样在大多数时候处理的时候不用考虑编码转换的问题,而中文文本处理必须要处理unicode的编码问题。这两部分我们在中文文本挖掘预处理里已经讲了。  而英文文本的预处理也有自己特殊的地方,第三点就是拼写问题,很...

2018-06-25 12:54:05

中文文本挖掘预处理流程总结(转)

  在对文本做数据分析时,我们一大半的时间都会花在文本预处理上,而中文和英文的预处理流程稍有不同,本文就对中文文本挖掘的预处理流程做一个总结。中文文本挖掘预处理特点  中文文本挖掘预处理和英文文本挖掘预处理相比的一些特殊点。  第一,中文文本是没有像英文的单词空格那样隔开的,因此不能直接像英文一样可以直接用最简单的空格和标点符号完成分词。所以一般我们需要用分词算法来完成分词,在文本...

2018-06-24 16:44:57

Sigmoid函数

Sigmoid函数是一个有着优美S形曲线的数学函数,在逻辑回归、人工神经网络中有着广泛的应用。Sigmoid函数的数学形式是: f(x)=11+e−x其函数图像如下: 可以看出,sigmoid函数连续,光滑,严格单调,以(0,0.5)中心对称,是一个非常良好的阈值函数。当x趋近负无穷时,y趋近于0;趋近于正无穷时,y趋近于1;x=0时,y=0.5。当然,在x超出[-6,6]的范围后,函数值基本上没...

2018-06-01 21:07:08

【自然语言处理】英文开源工具汇总()

本博客主要是对网络上的一些关于英文自然语言处理开源工具的博客进行整理、汇总,如果有涉及到您的知识产权等,请联系本人已进行修改,也欢迎广大读者进行指正以及补充。本博客将尽量从工具的使用语言、功能等方面进行汇总介绍。1斯坦福大学语言:Java功能:分词、词性标注、命名实体识别、语法解析、分类。介绍:StanfordNLPGroup是斯坦福大学自然语言处理的团队,开发了多个NLP工具,官网网址。由...

2018-03-24 10:17:06

【自然语言处理】中文开源工具汇总(7种)

本博客主要是对网络上的一些关于中文自然语言处理开源工具的博客进行整理、汇总,如果有涉及到您的知识产品等,请联系本人已进行修改,也欢迎广大读者进行指正以及补充。本博客将尽量从工具的使用语言、功能等方面进行汇总介绍。1IKAnalyzer语言:Java功能:支持细粒度和智能分词两种切分模式;支持英文字母、数字、中文词汇等分词处理,兼容韩文、日文字符;支持用户自定义的词典,通过配置IKAnalyzer...

2018-03-24 09:35:10

【Python学习】Counter()计数工具

classcollections.Counter([iterable-or-mapping])Counter 是实现的 dict 的一个子类,可以用来方便地计数。例子举个计数的例子,需要统计一个文件中,每个单词出现的次数。实现方法如下#普通青年d={}withopen('/etc/passwd')asf:forlineinf:forwordi...

2018-03-22 15:09:25

【深度学习】batch size详解

谈谈深度学习中的Batch_SizeBatch_Size(批尺寸)是机器学习中一个重要参数,涉及诸多矛盾,下面逐一展开。首先,为什么需要有Batch_Size这个参数?Batch的选择,首先决定的是下降的方向。如果数据集比较小,完全可以采用全数据集(FullBatchLearning)的形式,这样做至少有2个好处:其一,由全数据集确定的方向能够更好地代表样本总体,从而更准确地...

2018-03-22 14:45:42

【深度学习】多任务学习概览(An Overview of Multi-task Learning in Deep Neural Networks)

1.前言在机器学习中,我们通常关心优化某一特定指标,不管这个指标是一个标准值,还是企业KPI。为了达到这个目标,我们训练单一模型或多个模型集合来完成指定得任务。然后,我们通过精细调参,来改进模型直至性能不再提升。尽管这样做可以针对一个任务得到一个可接受得性能,但是我们可能忽略了一些信息,这些信息有助于在我们关心的指标上做得更好。具体来说,这些信息就是相关任务的监督数据。通过在相关任务间共享表示信...

2018-03-22 09:28:02

【Python学习】标准库--pathlib

导入Path类frompathlibimportPath1创建Path对象p=Path('C:\Windows\System32')#用C:\Windows\System32创建Path对象1打印p中路径print(p)1p的父路径p.parent1所有p的祖辈路径p.parents#返回一个列表,序号越大离p越远1p目录下的所有文件p.iterdir()#返回一个迭代器...

2018-03-20 00:39:42

【Python学习】特殊函数 __call__()

__call__在Python中,函数其实是一个对象:>>>f=abs>>>f.__name__'abs'>>>f(-123)123由于f可以被调用,所以,f被称为可调用对象。所有的函数都是可调用对象。>>>p=Person('Bob','male')>>>p('T

2018-03-18 20:45:57

【Python学习】函数参数:必选参数、默认参数、可变参数、关键字参数、参数组合

定义函数的时候,我们把参数的名字和位置确定下来,函数的接口定义就完成了。对于函数的调用者来说,只需要知道如何传递正确的参数,以及函数将返回什么样的值就够了,函数内部的复杂逻辑被封装起来,调用者无需了解。Python的函数定义非常简单,但灵活度却非常大。除了正常定义的必选参数外,还可以使用默认参数、可变参数和关键字参数,使得函数定义出来的接口,不但能处理复杂的参数,还可以简化调用者的代码。必选参数我...

2018-03-18 20:34:36

【Python学习】collections模块的Counter类

1.collections模块collections模块自Python2.4版本开始被引入,包含了dict、set、list、tuple以外的一些特殊的容器类型,分别是:OrderedDict类:排序字典,是字典的子类。引入自2.7。namedtuple()函数:命名元组,是一个工厂函数。引入自2.6。Counter类:为hashable对象计数,是字典的子类。引入自2.7。deque:双向队列...

2018-03-18 12:46:44

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!