奋斗的小笨狗-CSDN博客

原创 nlp(一)用tgrocery实现文本分类

       随着深度学习的兴起，很多文本分类都转向用cnn这样的网络来处理。但是使用神经网络模型进行文本分类是有一定前提条件的，那就是要有足够的样本来训练模型中的参数。但是很多情况下，我能能够搜集到的样本不会太多，而且分类的个数是不一定的。比如，原先我有一个新闻集，要求分为“政治”，“经济”，“文化”三种。但是那一天有要求我们再分出一个“体育”分类来。由于...

2018-11-11 21:28:29 1311 2

原创 Spark Mlib(二)k-menas

spark官网给出的k-means的实现方式，原地址http://spark.apache.org/docs/latest/ml-clustering.htmlpackage algimport org.apache.spark.ml.clustering.KMeansimport org.apache.spark.ml.evaluation.ClusteringEvaluatorimpo...

2018-11-08 14:24:48 223

原创 elasticSearch(一)java链接elasticsearch

1.pom配置 &lt;!-- https://mvnrepository.com/artifact/org.elasticsearch.client/transport --&gt; &lt;dependency&gt; &lt;groupId&gt;org.elasticsearch.client&lt;/groupId&gt;

2018-11-08 14:03:54 187

原创 tensorflow(一)regression

tensoflow官网预测房价的例子from __future__ import absolute_import,division,print_functionimport tensorflow as tffrom tensorflow import kerasimport numpy as npimport pandas as pd#1.load databoston_ho...

2018-11-08 11:49:17 231

原创 mongodb与lbs（一）查找附近的点

在移动端普及的今天，LBS应用需求也越来越大。比如查找附近的人，最近的餐厅等。面对这些需求，MongoDB提供了功能完备的解决方案。下面通过一个案例讲诉如何用mongoDB做位置搜索。在这个图片中，有A B C D E F G,假如我是搜索点A。我想查找离自己最近的点。下面是具体的操作步骤：1.建立集合和索引。sp为建立索引的字段名，我们建立的索引类型是2dsphere #创建2dsphe...

2018-11-02 11:59:04 812

SVM(Support Vector Machine)指的是支持向量机，是常见的一种判别方法。在机器学习领域，是一个有监督的学习模型，通常用来进行模式识别、分类以及回归分析。下面是spark官网给出的例子。原网址为http://spark.apache.org/docs/latest/mllib-linear-methods.html#classificationimport org.apach...

2018-11-02 11:39:00 325

原创知识图谱（一）简介

在智能对话领域，现在工业界应用最多的还是用相似度算法来匹配知识库的做法。以这种思想构建的聊天机器人一般都不具备真正的智能，聊天的效果在很大程度上依赖于人工编辑的知识库的质量和数量。多轮对话更是没有效果。今天介绍的知识图谱将能够进一步挖掘出用户的聊天意图，具备一定联想和推理能力。将改善人机的对话效果。一知识图谱是什么知识图谱用一句话说就是用图的形式去存储和表示知识。它...

2018-04-17 16:00:43 671

原创 tensorflow(三)用tensorflow实现词嵌入

一为什么用向量来对单词进行表示以前对单词的表示都是离散的，比如用one-hot方式来表示单词。这种方式的表示不利于计算，也无法揭示单词之间的关联性。假如我们计算两个句子的相似度，简单的方式是，计算出两个句子中单词之间最高的相似度然后累加，可计算出句子的相似度。那么，单词的相似度如何计算呢。从语义的角度来讲可以用语义树来进行语义的计算。但是这种方式存在一定缺陷，词的语义关系需要一定的人工确认。对...

2018-11-12 14:10:07 1212

原创 Spark Mlib(七)用spark实现LogisticRegression

logistic回归又称logistic回归分析，是一种广义的线性回归分析模型，常用于数据挖掘，疾病自动诊断，经济预测等领域.以下是spark中该算法的实现方式，原地址为http://spark.apache.org/docs/latest/mllib-linear-methods.html#classificationpackage algimport org.apache.spark.{...

2018-11-10 15:51:58 758

原创 tensorflow(二)文本分类

文本分类是自然语言处理中的一个重要领域。在神经网络未兴起之前，svm在分类方面独领风骚。j即使在现在，svm在很多场景下也很有用。但是神经网络提高了准确率，使其迅速火了起来。下面是tensorflow官网给出的例子（https://tensorflow.google.cn/tutorials/keras/basic_text_classification）import tensorflow as...

2018-11-09 15:37:28 1534

原创 rabbitmq无法入队和消费

项目上线却发现队列中的消息无法消费，检查代码无异常，rabbitmq的控制台也能打开。消息无法入队更无法消费。郁闷了很久，打开日志发现如下信息。大概意思是由于磁盘空间满了，导致消息阻塞。办法：将磁盘空间清理后队列可正常运转。日志名称为rabbit@主机名.log。假如我的主机名交xbg。那么日志的名称叫[email protected]。主机名可用hostname来查看，查找文件命令find /...

2018-11-09 10:22:15 828

原创 Spark Mlib(六)用spark实现贝叶斯分类器

贝叶斯分类器是各种分类器中分类错误概率最小或者在预先给定代价的情况下平均风险最小的分类器。下面是spark官网（http://spark.apache.org/docs/latest/mllib-naive-bayes.html）给出的例子package algimport org.apache.spark.{SparkConf, SparkContext}import org.apache...

2018-11-08 20:20:14 542

原创 Spark Mlib(五)用spark n元模型

通常在NLP中，人们基于一定的语料库，可以利用N-Gram来预计或者评估一个句子是否合理。另外一方面，N-Gram的另外一个作用是用来评估两个字符串之间的差异程度。下面是spark官网（http://spark.apache.org/docs/latest/ml-features.html#tokenizer）给出的例子def main(args:Array[String]):Unit={...

2018-11-08 18:52:02 151

原创 Spark Mlib(四)用spark计算tf-idf值

tf-idf算法是用统计的手法衡量一个元素在一个集合中的重要程度。在自然语言处理中，该算法可以衡量一个词在语料中的重要程度。其本思想很简单，字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。下面是spark官网（http://spark.apache.org/docs/latest/ml-features.html#tf-idf）给出的例子packag...

2018-11-08 18:17:33 1315

原创 Spark Mlib(三)用spark训练词向量

自然语言处理中，在词的表示上，向量的方式无疑是最流行的一种。它可以作为神经网络的输入，也可直接用来计算。比如计算两个词的相似度时，就可以用这两个词向量的距离来衡量。词向量的训练需要大规模的语料，从而带来的是比较长的训练时间。spark框架基于内存计算，有忘加快词向量的训练速度。以下是spark官网的代码（http://spark.apache.org/docs/latest/ml-feature...

2018-11-08 17:44:46 1072

fightingdog的博客