vs412237401-CSDN博客

原创 Tensorflow学习系列(三): tensorflow mnist数据集如何跑出99+的准确率

如需转载，请注明出处，欢迎加入深度学习群 255568483mnist数据集基本上可以算做是数据科学里的hello world程序。tensorflow官方文档有一个例子可以对mnist数据集做分析，对于刚入门者，可以通过简单的模型达到92%的准确率。以下代码分析是对应所做的分析，请看对应的中文注释#!/usr/bin/env python# encoding: utf-

2017-03-17 10:25:32 8097 2

原创 Tensorflow学习系列(二): tensorflow基础

如需转载，请注明出处，欢迎加入深度学习群 255568483Graph basics由nodes(结点)和Edges(边缘)组成。用一个简单的例子来讲解：数据从左到右，请参见箭头的方向1.在开始的时候，有两个值5和3，他们可能来自其它的Graph 或者从文件中或者是用户直接输入的。2.这两个初始化的值被传到input结点，在graph中被标记为a和b，a被传给了结

2017-03-14 11:31:51 2343

原创 Tensorflow学习系列(一): tensorflow解决问题的思路

如需转载，请注明出处，欢迎加入深度学习群 255568483Tensorflow的介绍请各位自行google，就不做多的介绍了。Tensorflow是一个深度学习框架，他和机器学习一样，有其固定的解决问题的方式。其训练过程有固定的模式，一般如下：1.初始化模型参数2.输入训练数据3.在训练数据上验证模型4.计算损失5.调整模型参数重复第2步操作。解释：1.在

2017-03-13 15:53:27 6531 1

原创 ElasticSearch5.0使用记录

因公司项目要求,需要将搜索数据从以前的solr切换到ElasticSearch,我们采用的是ElasticSearch5.0,在数据的切换中遇到一些问题,以下为相关记录.ElasticSearch2.x和5.x在java api接口上有很大的变化.1.如何取ElasticSearch客户端修改pom文件,加入如下依赖 org.elasti

2016-12-13 15:06:56 8172

原创 linux下theano/tensorflow安装cuda支持gpu

本人在安装过程中碰到很多问题，一一记录下来1.theano运行gpu，测试代码如下vlen = 10 * 30 * 768 # 10 x #cores x # threads per coreiters = 1000rng = numpy.random.RandomState(22)x = shared(numpy.asarray(rng.rand(vlen), config

2016-09-10 10:14:33 20014 1

转载使用深度学习打造智能聊天机器人

聊天机器人（也可以称为语音助手、聊天助手、对话机器人等）是目前非常热的一个人工智能研发与产品方向。很多大的互联网公司重金投入研发相关技术，并陆续推出了相关产品，比如苹果Siri、微软Cortana与小冰、Google Now、百度的“度秘”、亚马逊的蓝牙音箱Amazon Echo内置的语音助手Alexa、Facebook推出的语音助手M、Siri创始人推出的新型语音助手Viv…….为何

2016-09-02 16:42:18 3224

原创使用aiml/lsh实现在线聊天机器人

你需要了解的相关知识，eliza（nltk实现的一个简单的聊天应用），aiml（人工智能标记语言），短文本相似性匹配，大部分在线的机器人基本都是通过question-anwser匹配的方式来实现人与机器之间的交互，目前来说效果并不好。本文实现的在线聊天机器人程序采用以下几种方式，aiml+短文件匹配+第三方调用。实现思路：先定义aiml匹配的规则，准备qa样本数据通过lsh来生成模型，对于用户

2016-09-01 10:52:09 3382 5

原创用docsim/doc2vec/LSH比较两个文档之间的相似度

在我们做文本处理的时候，经常需要对两篇文档是否相似做处理或者根据输入的文档，找出最相似的文档。幸好gensim提供了这样的工具，具体的处理思路如下，对于中文文本的比较，先需要做分词处理，根据分词的结果生成一个字典，然后再根据字典把原文档转化成向量。然后去训练相似度。把对应的文档构建一个索引，原文描述如下：The main class is Similarity, which bui

2016-08-18 10:27:40 21693 18

原创使用keras对mnist数据集做分类

只贴代码：原始数据集下载：http://yann.lecun.com/exdb/mnist/代码说明：http://keras.io/getting-started/sequential-model-guide/#examples"""@version:@author: vinsin@license: Apache Licence@software: PyCharm

2016-07-21 15:42:17 9369 4

原创在spark下用pyhton写worldCount

worldCount是经典的mapreduce程序环境：linux+spark1.6.2+pycharm相关文档如下：http://spark.apache.org/docs/1.6.2/api/python/pyspark.html准备工作：先安装java,maven等环境，下载最新的spark安装文件解压到/data/work/spark-1.6.2目录（我下载的安装文件为spar

2016-07-04 19:57:43 6609 1

原创 Redhat spark安装笔记

在安装之前，请安装好jdk，hadoop。需要下载的软件如下：scala-2.11.8.tgzspark-1.6.1-bin-without-hadoop.tgz先解压scala，spark到home目录。编辑spark(安装目录)/conf/spark-env.sh在最后面新加如下内容：JAVA_HOME=/home/jdk1.7SPARK_HOME=/ho

2016-03-30 14:29:03 1470

原创 Redhat hadoop2.7.2 eclipse配置

下载hadoop2.7 eclipse插件，并放到eclipse plugins目录。重启eclipse，设置hadoop安装路径。配置Map/Reduce Locations 打开Windows—Open Perspective—Other点击Map/Reduce Location选项卡，点击右边小象图标，打开Hadoop Location配置窗口：输入Location

2016-03-29 17:50:37 765

原创 Redhat hadoop2.7.2安装笔记

本次安装是在windows7环境下安装redhat虚拟机进行的，所需要的软件如下：VirtualBox-5.0.16-105871-Win.exerhel-server-5.4-x86_64-dvd.iso首先安装虚拟机软件，然后在此基础上安装redhat，安装redhat的时候记得关闭防火墙还有其它的一些服务都disabled掉。首先在windows7上开一个共享目录，将如下软件放入

2016-03-29 13:20:13 2794

原创从泰坦尼克来做数据分类预测

泰坦尼克空难简介：1912年4月15日，载着1316号乘客和891名船员的豪华巨轮“泰坦尼克号”与冰山相撞而沉没，这场海难被认为是20世纪人间十大灾难之一。1985年，“泰坦尼克号”的沉船遗骸在北大西洋两英里半的海底被发现。美国探险家洛维特（比尔·帕克斯顿饰演）亲自潜入海底，在船舱的墙壁上看见了一幅画，洛维持的发现立刻引起了一位老妇人（格劳瑞亚·斯图尔特饰演）的注意。已经是101岁高龄的露丝称

2016-03-03 15:04:56 3726

原创文本分析实例---QQ聊天记录分析

对QQ聊天记录进行分析，因为每天产生的聊天记录比较多，所以选取的是从2月份整月的聊天记录数据，分析要产生的结果有三个，聊天记录中发消息的人前top15，统计24小时时间段那个时间段发贴人最多，还有对消息中的热词进行抽取。对QQ用户发贴次数进行统计，需要注意QQ导出的聊天记录格式，【年月日时分秒 QQ账号相关信息】，需要对聊天记录做解析。另外对聊天内容也要做解析。具体思路不做详细

2016-03-01 11:10:44 13606 5

聚类主要是一种无监督学习，用来发现未标注数据的隐藏结构，主要是用来给数据分组，聚类算法一般有硬聚类（k-means，k-means++）和软聚类FCM（fuzzy c-means）。聚类目前广泛应用于文档，音乐，电影的分组，以及基于用户的行为对用户分组等。聚类一般有如下分类，基于层级（hierarchical）的聚类，基于密度（density-based）的聚类还有基于原型（prototype-b

2016-02-24 10:32:37 4782

原创 LDA论文学习笔记

以下内容节选自David M. Blei的论文《Latent Dirichlet Allocation》主要是选自LDA的处理流程部分，可能理解上有很大的偏差，或者表达上有问题，如有误导还想大家多多指教。 LDA原始论文链接为：http://www.jmlr.org/papers/volume3/blei03a/blei03a.pdfLDA中关于词，文档，语料的定义：1．词

2016-02-04 11:18:56 3478 1

原创文本分析之TFIDF/LDA/Word2vec实践

写在最前面的话，最好的学习材料是官方文档及API:http://radimrehurek.com/gensim/tutorial.htmlhttp://radimrehurek.com/gensim/apiref.html 以下内空有部分是出自官方文档。使用TFIDF/LDA来对中文文档做主题分类，TFIDF scikit-learn也有实现，中文的先做分词处理，然后生成

2016-02-03 10:35:44 38685 14

原创文本分析之中文分词

在处理文本分析时，我们经常需要面临的一个问题就是分词，特别是在中国当前的IT环境下，大部分文本数据都是中文，中文和英文有一些不一样，中文字与字之间没有明显的分隔符，而英文单词与单词之间有自然的空格符来分隔。中文分词属于自然语言处理的范畴，中文分词广泛应用于搜索引擎，在线机器翻译等领域。分词常用的方法主要有以下三类，一个是基于字典匹配的分词方法，一个是基于语义分析的分词算法，还有一个是基于概率统计模型

2016-02-02 13:21:02 8558 1

原创文本分析之数据收集

做文本分析时，在很多情况下，需要我们自己去爬外部网站的数据，由于不同的网站有不同的网页结构，所以处理起来就需要根据网页不同去做解析。解析网页使用的语言为python，因为他们提供了很多的类似插件的工具包，最终比较一下，使用的是requests包和soupy包，网页爬的数据做为以后文本分析处理的基础，关于本篇文章使用的工具包的相关参考文档如下：http://www.python-reques

2016-02-01 12:00:05 3202 2

原创文本分析个人理解

文本分析是在机器学习数据挖掘中经常要用到的一种方法，主要是指对文本处理，并对文本建模取得有用的信息。文本分析主要用在如垃圾邮件分类，搜索词聚类等等。文本分析中主要面临的一个问题就是对文本做向量转换以后，数据的维度会很高，也就是所谓的维度灾难。文本分析的主要步骤为：文本分析一般主要由三步组成，解析数据，搜索检索，文本挖掘。解析数据主要是为了将非格式化的数据处理成格式化的数据以方便以后的分析。非

2016-01-28 17:10:41 13099 1

原创推荐系统个人理解（实践部分）

前一篇文章简单介绍了推荐系统，并列出了常用的推荐算法，这篇主要就如何实现推荐做说明。本来最开始打算用movielens的电影数据来做推荐，数据集下载地址如下，http://grouplens.org/datasets/movielens/，我下的是1m左右的数据，用户6040个，电影3952个，我在构建用户相似度矩阵的时候居然从下午4:00一直跑到晚上2：30，用户相似度需要构建一个6040*604

2016-01-27 14:31:16 1723

原创推荐系统个人理解（理论部分）

推荐系统是随着互联网的发展而形成的一个系统，他主要是为了解决信息过载的一些问题。随着互联网的深入发展，越来越多的信息在互联网上传播，产生了严重的信息过载，如果不采取一定的手段用户很难从如此多的信息中找到对自己有价值的信息。推荐系统的任务就是联系用户和信息，一方面帮助用户发现对自己有价值的信息，另外一方面让信息能够展现在对它感兴趣的用户面前，推荐系统不需要用户提供明确的需求，而是通过分析用户的历史行为

2016-01-26 09:28:44 1893 2

原创关于我和机器学习

首次接触到机器学习是和一个朋友有关，这个是我在上海认识的一个群友，线下我们也见过面，四川大学的博士，现在在USA求学，当时他推荐了吴恩达的机器学习公开课。因为时差的关系，他偶尔出来冒个泡。另外一个对我机器学习有很大帮助的一个人也是一个群友，搜狗商业搜索部的广告专家，正是因为他才让我真正的去了解和学习机器学习，他也推荐了很多材料及书籍、视频。我和此君还有一个共同的话题就是跑步，此君跑步很历害，跑过超

2016-01-25 13:02:53 1228 2

vs412237401的博客