自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

macb007的博客

专注自然语言处理(updating...)

  • 博客(53)
  • 资源 (2)
  • 收藏
  • 关注

转载 GridSearchCV 超参调优

http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html

2018-09-07 16:51:47 915

原创 LDA

#-*- coding:utf8 -*-from nltk.tokenize import RegexpTokenizerfrom stop_words import get_stop_wordsfrom nltk.stem.porter import PorterStemmerfrom gensim.models.ldamodel import LdaModelfrom gensim ...

2018-07-06 10:05:32 1097

转载 seq2seq英法翻译

'''# Data downloadEnglish to French sentence pairs.http://www.manythings.org/anki/fra-eng.zipLots of neat sentence pairs datasets can be found at:http://www.manythings.org/anki/# References- Se...

2018-06-19 17:25:42 937

原创 基于编辑距离的单词纠错算法

class Candidate(object):    # WORDS_dict={word:freq} def __init__(self,WORDS_dict): self.WORDS=WORDS_dict def P(self,word): "Probability of `word`." # print(word,WORD...

2018-06-01 15:51:24 1650

转载 基于互信息+信息熵的新词发现

from nltk.probability import FreqDistf = open(r"C:\Users\machuanbin\Desktop\santi.txt",encoding='utf-8')text = f.read()stop_word = ['【', '】', ')', '(', '、', ',', '“', '”', '。', '\n', '《', '》', ' ...

2018-06-01 15:47:52 2693

转载 英文单词词干抽取算法

import sysclass PorterStemmer: def __init__(self): """The main part of the stemming algorithm starts here. b is a buffer holding a word to be stemmed. The letters are in b[k0],...

2018-05-26 14:58:19 624

转载 关于欠拟合和过拟合问题

       在我们机器学习或者训练深度神经网络的时候经常会出现欠拟合和过拟合这两个问题,但是,一开始我们的模型往往是欠拟合的,也正是因为如此才有了优化的空间,我们需要不断的调整算法来使得模型的表达能拿更强。但是优化到了一定程度就需要解决过拟合的问题了,这个问题也在学术界讨论的比较多。       首先就是我们在进行模型训练的时候会出现模型不能够很好地拟合数据的情况,这个时候就需要我们来判断究竟现...

2018-03-27 10:01:14 1600

原创 BiLSTM+CRF

import numpy as npimport os, time, sysimport tensorflow as tffrom tensorflow.contrib.rnn import LSTMCellfrom tensorflow.contrib.crf import crf_log_likelihoodfrom tensorflow.contrib.crf import vit...

2018-03-26 16:01:48 807

原创 tf实现word2Vec(skip-Gram)

#!/usr/bin/python3# -*-coding:utf-8 -*-# @Time :2018/3/16# @Author :machuanbinimport collectionsimport mathimport osimport randomimport zipfileimport numpy as npimport urllibimport tenso...

2018-03-20 14:47:36 386

原创 加载config文件方式

从开源项目学来的,config.ini[strings]# Mode : train, test, servemode = traintrain_enc = data/train.enctrain_dec = data/train.dectest_enc = data/test.enctest_dec = data/test.dec# folder where checkpoints...

2018-03-17 13:51:48 765

原创 自编码网络实现Mnist

#!/usr/bin/python3# -*-coding:utf-8 -*-# @Time :2018/3/16 # @Author :machuanbinimport tensorflow as tffrom tensorflow.examples.tutorials.mnist import input_dataimport numpy as npimport mat...

2018-03-16 14:25:07 893

原创 MultiLSTM预测Mnist

#!/usr/bin/python3# -*-coding:utf-8 -*-# @Time :2018/3/14 # @Author :machuanbin"""tensorflow :1.3.0pandas: 0.19.2"""import tensorflow as tfimport osfrom tensorflow.examples.tutorials....

2018-03-14 11:22:59 918 2

原创 【基础技能】pandas 操作csv方法 &&StratifiedShuffleSplit

#read CSV read_csv读取的数据类型为Dataframe# obj_2=pd.read_csv('f:/ceshi.csv',header=0,names=range(2,5))#表示文件第0行(即第一行,索引从0开始)为列索引,这样加names会替换原来的列索引。# header=None 原始文件数据没有列索引sample = pd.read_csv(file_dir +...

2018-02-09 09:50:41 693

原创 XGBoost Demo2

from pymongo import MongoClientfrom sklearn.linear_model import LinearRegressionfrom sklearn.externals import joblibimport timeimport numpy as npimport pandas as pdimport xgboost as xgbfrom skl...

2018-02-08 11:31:41 225

原创 XGBoost Demo

import numpy as npimport pandas as pdimport xgboost as xgbfrom sklearn.cross_validation import train_test_splitimport osimport csv#from xgboost.sklearn import XGBClassifier#from sklearn import

2018-02-02 10:28:36 1272

原创 GBDT 分类与回归

print("====================================================")print("===============Demo1===GBDT 分类=====================")print("====================================================")from sklearn.en

2018-01-31 12:22:51 1368

原创 【tf系列5】tf-Demo

import tensorflow as tfimport numpy as npimport os"""神经网络Demo,构造一个一元二次方程y=ax^2+b""""""构造一个-1到1之间300个点,并将其转化为300×1的二维数组"""x_data=np.linspace(-1,1,300)[:,np.newaxis]"""加入一些噪声点,使它与x_data具有相同的维度,

2018-01-17 09:44:53 331

原创 neo4j实例教程(python版)

# coding: utf-8 -*-from py2neo import Graph,Node,Relationshipgraph = Graph("http://localhost:7474", username="neo4j", password="neo4j")test_node_1 = Node(label = "Person",name = "test_node_1")test

2018-01-12 15:19:40 8307 4

原创 闲聊机器人API实现

基于图灵机器人实现API实现def tulingChat(self,question): KEY = '8afba6fdc75544f0bebc465615da1e0b' # change to your API KEY url = 'http://www.tuling123.com/openapi/api' req_info = question.encode(

2018-01-10 13:33:59 4573

原创 百度NLP词 语相似度接口Demo

def similirity(word1,word2): token_url = "https://openapi.baidu.com/oauth/2.0/token?grant_type=client_credentials&client_id=%s&client_secret=%s" # 1.获取token api_key='hGs3TEt3sN3XcI3VyIAyuT

2018-01-10 12:47:48 3561 1

转载 【tf系列4】Bi-LSTM中文分词

该项目GitHub:https://github.com/rockyzhengwu/FoolNLTK根据该项目所述,这个中文工具包的特点有如下几点:可能不是最快的开源中文分词,但很可能是最准的开源中文分词基于 BiLSTM 模型训练而成包含分词,词性标注,实体识别, 都有比较高的准确率用户自定义词典如该项目

2017-12-29 21:32:20 2232 1

原创 【tf系列3】tfLearn案例

import numpy as npimport tflearn# Download the Titanic datasetfrom tflearn.datasets import titanicimport numpy as nptitanic.download_dataset('titanic_dataset.csv')# Load CSV file, indicate th

2017-12-29 14:28:15 587 1

转载 SVM:如何判断线性可分

支持向量机(SVM),介绍都说了假设数据要是线性可分。如果数据不是线性可分的,我们就必须要采用一些特殊的方法,比如SVM的核技巧把数据转换到更高的维度上,在那个高维空间数据更可能是线性可分的(Cover定理)。现在的问题是,如何判断数据是线性可分的?最简单的情况是数据向量是一维二维或者三维的,我们可以把图像画出来,直观上就能看出来。比如Håvard

2017-12-24 20:58:52 4248 1

转载 【tf系列2】参数说明

参考文章:http://blog.csdn.net/u014595019/article/details/52759104init_scale =0.1# 相关参数的初始值为随机均匀分布,范围是[-init_scale,+init_scale]learning_rate =1.0# 学习速率,在文本循环次数超过max_epoch以后会逐渐降低max_grad_n

2017-12-21 16:09:33 733

原创 基于TextRank API写的测试

import picklefrom textrank4zh import TextRank4Keyword, TextRank4Sentenceimport osfrom snownlp import SnowNLPimport jiebaimport jieba.analysefrom bosonnlp import BosonNLP#http://www.cnblo

2017-12-20 10:57:44 284

原创 【tf系列1】常用函数说明

发现有个写的比较好的博客,方便以后可以查阅,也没必要重新粘一次了,留个链接作为入口。初识tf:http://blog.csdn.net/u014595019/article/details/52677412tensorFlow常用函数,参考笔记:http://blog.csdn.net/u014595019/article/details/52805444;

2017-12-10 18:48:29 255

原创 【百度语音rest API】文本转换成语音,以及语音转化成文本

通过rest API,调用百度语音接口,将其接入智能客服。百度语音:http://ai.baidu.com/docs/#/ASR-API/top#!/usr/bin/python3import urllib.requestimport urllibimport jsonimport base64class BaiduRest: def __init__(self

2017-12-08 08:48:37 4940

原创 【学习路线图】涵盖主要算法

2017-12-07 13:11:50 363

转载 【机器学习】常用算法PK

KNN算法一、KNN算法的优点 1、KNN是一种在线技术,新数据可以直接加入数据集而不必进行重新训练2、KNN理论简单,容易实现二、KNN算法的缺点1、对于样本容量大的数据集计算量比较大。2、样本不平衡时,预测偏差比较大。如:某一类的样本比较少,而其它类样本比较多。3、KNN每一次分类都会重新进行一次全局运算。4、k值大小的选

2017-12-07 11:08:15 472

原创 哈工大LTP部署及测试Demo

#coding: utf-8import osfrom pyltp import SentenceSplitterfrom pyltp import Segmentorfrom pyltp import Postaggerfrom pyltp import NamedEntityRecognizerfrom pyltp import Parserfrom pyltp import S

2017-12-07 09:13:17 3073 1

翻译 【keras总结】

Keras是由纯python编写的基于theano/tensorflow的深度学习框架。         Keras是一个高层神经网络API,支持快速实验,能够把你的idea迅速转换为结果,如果有如下需求,可以优先选择Keras:             a)简易和快速的原型设计(keras具有高度模块化,极简,和可扩充特性)             b)支持CNN和RNN,或二者的结

2017-12-04 13:16:44 294

原创 【python爬虫】抓取炒股概念

非常感谢https://www.cnblogs.com/xin-xin/p/4297852.html。该系列讲解很详细。另附上我写的抓取炒股概念代码。采用火狐浏览器,F12,选取Network,解析一下传送的地址。import urllib.requestimport reimport requests# def main():# # url = "htt

2017-11-29 13:26:57 4741

原创 智能纠错【优化版】

import jiebafrom pypinyin import pinyin, lazy_pinyinfrom common.basicInfo import BasicInfo"""纠错模块"""class ErrorRecovery(object): def __init__(self, dataSever): self.dataServer = d

2017-11-28 08:45:25 740 3

原创 浅谈 Dropout防止过拟合

发生过拟合的主要原因可以有以下三点:(1)数据有噪声(2)训练数据不足,有限的训练数据(3)训练模型过度导致模型非常复杂Dropout是通过修改神经网络本身来实现的,它是在训练网络时用的一种技巧(trike)。它的流程如下:假设我们要训练上图这个网络,在训练开始时,我们随机地“删除”一半的隐层单元,视它们为不存在,得到如下的网络:

2017-11-28 08:43:17 1541

转载 【gensim--dictionary】使用方法

import jieba, os  import codecs  from gensim import corpora, models, similarities  from pprint import pprint  from collections import defaultdict  import sys  import pickle  reload(sys) 

2017-11-22 17:05:33 3698

原创 【构建知识图谱neo4j】

通过neo4j,构建知识图谱

2017-11-17 11:31:42 4311

原创 【word2vec实例2】加载模型

current_dir = os.path.abspath('.')w2v_file = os.path.join(current_dir, 'w2v_file_sg')self.dic = gensim.models.Word2Vec.load(w2v_file)for word in word_list: if word not in self.dic.wv.vocab

2017-09-15 09:57:34 1577

原创 【word2vec实例1】

# coding = utf8import wordcutimport create_dictimport vectorizeimport classifyimport pickleimport psutilimport parametersimport osfrom collections import dequeimport gensimimport numpy as

2017-09-15 09:56:16 702

原创 python csv写入多列

import csvimport osdef main(): current_dir = os.path.abspath('.') file_name = os.path.join(current_dir, "csss.csv") csvfile = open(file_name, 'wt' ,encoding="UTF8") # writer=csv.

2017-09-08 12:32:40 20935

原创 LSTM 实例

环境:python3.5,tensorflow1.1代码如下:import tensorflow as tffrom tensorflow.examples.tutorials.mnist import input_data# set random seed for comparing the two result calculationstf.set_random_seed(

2017-09-06 08:20:17 1519

词云生成Demo

NLP中词云的实例,python代码实现。

2017-09-06

LSTM实例,可以运行

可以运行的LSTM实例,python代码实现,如有问题,可以随时联系我,希望可以和人工智能盆友多多交流,,,,,,,,,,,,,,,,,,,,,,,,,,,

2017-09-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除