自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 资源 (2)
  • 收藏
  • 关注

原创 spark报错:java反序列化

scheduler.TaskSetManager: Lost task 1.0 in stage 1.0 (TID 3, m103): com.esotericsoftware.kryo.KryoException: Error during Java deserialization解决方法:SparkConf sc = new SparkConf().setApp

2016-08-01 18:23:07 1050

转载 xml小于号问题

当我们需要通过xml格式处理sql语句时,经常会用到,,>,>=等符号,但是很容易引起xml格式的错误,这样会导致后台将xml字符串转换为xml文档时报错,从而导致程序错误。这样的问题在iBatiS中或者自定义的xml处理sql的程序中经常需要我们来处理。其实很简单,我们只需作如下替换即可避免上述的错误:原符号        >   >=    & 

2016-07-29 15:27:00 965

转载 maven pom.xml详解

pom.xml:通过xml表示maven项目,使用pom.xml来实现。主要描述项目的配置文件,该描述具有一定的规则project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLoca

2016-07-25 14:54:46 368

转载 初识DataFrames

源:http://www.csdn.net/article/2015-02-17/2823997在spark中,DataFrames是一个以命名列方式组织的分布式数据集,等同于关系型数据库中的一个表,也相当于R/Python中的dataFrames(但是进行了更多的优化)。dataFrames可以由结构化数据文件转换而来,也可以从hive中的表得来,以及可以转换自外部数据库或现有的RDD。

2016-07-20 14:45:02 766

转载 hive变量传递

源:http://caiguangguang.blog.51cto.com/1652935/1541758hive 可以通过在cli向hive传递参数,变量等,其实是通过下面两个类实现1、org.apache.hadoop.hive.ql.processors.SetProcessor类2、org.apache.hadoop.hive.ql.parse.VariableSubstitu

2016-07-20 10:50:20 1332

原创 没事看看

http://www.cnblogs.com/wentingtu/archive/2012/03/10/2389430.html

2016-07-11 15:18:50 303

原创 细粒度命名实体识别

简介对于一个已识别出的命名实体,可能属于多个不同粒度的类别,比如“高加索牧羊犬”可能属于的类别包括“狗”、“犬科动物”、“动物”等。命名实体的上位词(Hypernym)指示了其类别,上述的“狗”、“犬科动物”、“动物”都是“高加索牧羊犬”的上位词。目前被广泛使用人工构建的语义词典中就有这样的上下位关系,比如英文的WordNet、汉语的知网、同义词词林(扩展版)。但是这些词典资源有限,很多研

2016-07-07 18:58:40 4719

原创 基于统计的命名实体识别特征选择

参考论文:中文命名实体识别力度和特征选择研究---哈工大201006

2016-07-07 15:52:43 1207

原创 找资料

百度云盘搜索引擎雅虎搜索引擎csdn知乎VeryDemo

2016-07-07 14:42:36 321

原创 命名实体识别调研01

简介命名实体识别是信息提取、问答系统、句法分析、机器翻译、面向Semantic Web的元数据标注等应用领域的重要基础工具,在自然语言处理中走向实用化过程中占有重要地位。一般来说,命名实体识别的任务就是识别出待处理文本中三大类(实体、时间、数字)、七小类(人名、地名、机构名、时间、日期、货币和百分比),其中人名、地名、组织机构是最常用到的三种。命名实体的过程通常包括两部分:1)实体

2016-07-07 09:20:32 2922

转载 布朗聚类

算法布朗聚类是一种自底层向上的层次聚类算法,基于n-gram模型和马尔科夫链模型。布朗聚类是一种硬聚类,每一个词都在切只在唯一的一个类中。布朗聚类的输入是一个语料库,这个语料库是一个词序列,输出是一个二叉树,树的叶子节点是一个个词,树的中间节点是类别(中间节点作为根节点的子树上的所有叶子为类中的词)。初始的时候,将每一个词独立分成一类,然后,将两个类合并,使得合并之后评价函数最

2016-07-06 15:21:43 2689

原创 NLP学习笔记01

简介NLP就是计算机使用自然语言作为输入和输出,让电脑与人进行沟通的中间步骤,大致可分为:机器翻译,信息提取,文本归纳,对话系统...语言模型我们有有限个数的词汇无限个数的句子,有词汇自由组成,而语言模型就是判断这个句子是否像人说的话,对于计算机来讲很难,所以用概率分布来体现一个句子的正确性:其中是所有句子的集合比较典型的有马尔科夫模型、隐马尔可夫模型、条件随机场等

2016-07-06 14:32:11 287

转载 汉语命名实体识别训练语料自动构建

一、基于双语平行语料的命名实体训练数据生成1.1 利用现有的高质量的英语命名实体识别系统在篇章级对齐的双语语料的英语端识别出英文命名实体,然后通过词对齐信息将英文命名实体边界和标签映射到汉语端,生成汉语的命名实体标注候选,最后过滤生成汉语命名实体训练语料。(1) 双语对齐:包括句对齐和词对齐a、使用Champollion对篇章级对齐的英汉双语语料进行句子级对齐b、使用G

2016-07-05 10:27:45 6641 2

原创 摘自命名实体识别类论文

一、简介1995年命名实体识别由第六届消息理解会议第一次引入,主要任务是自动识别出文本中出现的命名性指称和有意义的数量短语并加以归类,包括三大类(实体类、时间类、数字类)、七小类(人名、地名、机构名、时间、日期、货币、和百分比),其中时间、日期、货币和百分比的构成有明显的规律,相对容易识别和分类,因此主要针对人名、地名、机构名这三类命名实体开展研究工作。1、命名实体识别在信息抽取中的作用

2016-07-04 15:31:46 4286

原创 文本相似度计算

一、简介文本相似度是进行文本聚类的基础,和传统的结构化数值数据的聚类方法相似,文本聚类是通过计算文本之间的“距离”来表示文本之间的相似度,并产生聚类。文本相似度的常用计算反法有余弦定理。但是文本数据和普通的数据不同,它是一种半结构化的数据,在进行聚类之前必须要对文本数据源进行处理,如分词、向量化表示等,其目的就是使用向量化的数值来表达这些半结构化的文本数据。使其适用于文本分析。二、TF-I

2016-07-04 10:18:18 1556

转载 词权重公式

公式的定义

2016-07-04 10:10:26 405

转载 word2vec

原创:http://blog.sina.com.cn/s/blog_66a6172c0102v1k9.html在较早的论文“Efficient Estimation of Word Representations in Vector Space”中,Mikolov讨论了Feedforward Neural Net Language Model (NNLM)、Recurrent

2016-07-01 17:11:52 339

转载 Softmax函数

刚看到一片自然语言模型的文章中提到了Softmax函数,不甚理解,刚好找到一个解释比较好的,转存下!!!相关链接:http://ufldl.stanford.edu/wiki/index.php/Softmax_Regressionsoftmax模型是logistic模型在多分类问题上的推广,logistic 回归是针对二分类问题的,类别标记为{0,1}。假设函数为:代价函数:

2016-07-01 15:19:56 480

原创 IKAnalyzer解读

一、IKanalyzer简介IK analyzer是lucence的中文分词部件。主要才用了正向最大匹配算法(词典 + 文法分析),即从左到右进行最大匹配,支持中、日、韩、英文处理。其处理流程如下图所示。预处理主要是对输入文本进行必要的处理,比如大小写转换,全、半角转换。它主要有三个分词器:CJK分词器(处理中、韩文)、量词分词器(处理数字与量词单位的组合,如“一丈”)、英文分词器(处理英文及

2016-07-01 10:24:16 3362

转载 遗忘算法:算法概述

一、遗忘算法原理能够从未知的事物中发现关联、提炼规律才是真正智能的标志,而遗忘正是使用智能生物具备这一能力的工具,也是适应变化的利器,“遗忘”这一颇具负能量特征的家伙是如何实现发现这么个神奇魔法的呢?让我们从巴甫洛夫的狗说起:狗听到了铃声就知道开饭了。铃声和开饭之间并不存在必然的联系,我们知道之所以狗会将两者联系在一起,是因为巴甫洛夫有意的将两者一次次在狗那儿重复出现。所以,重

2016-06-30 14:32:54 8883

多语种词性标注

词性标注工具有一个models文件夹,该文件夹下有两种类型的问价:.tagger类型和.props类型。其中.tagger类型的文件是词性标注训练出来的模型文件,.props类型是其对应的properties文件,也可给中文等其他语种标注

2015-08-21

jar解析工具

很好用的jar解析工具,可以将封装好的jar包泛解析成java文件

2015-08-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除