macb007-CSDN博客

转载 GridSearchCV 超参调优

http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html

2018-09-07 16:51:47 915

原创 LDA

#-*- coding:utf8 -*-from nltk.tokenize import RegexpTokenizerfrom stop_words import get_stop_wordsfrom nltk.stem.porter import PorterStemmerfrom gensim.models.ldamodel import LdaModelfrom gensim ...

2018-07-06 10:05:32 1097

转载 seq2seq英法翻译

'''# Data downloadEnglish to French sentence pairs.http://www.manythings.org/anki/fra-eng.zipLots of neat sentence pairs datasets can be found at:http://www.manythings.org/anki/# References- Se...

2018-06-19 17:25:42 937

原创基于编辑距离的单词纠错算法

class Candidate(object): # WORDS_dict={word:freq} def __init__(self,WORDS_dict): self.WORDS=WORDS_dict def P(self,word): "Probability of `word`." # print(word,WORD...

2018-06-01 15:51:24 1650

转载基于互信息+信息熵的新词发现

from nltk.probability import FreqDistf = open(r"C:\Users\machuanbin\Desktop\santi.txt",encoding='utf-8')text = f.read()stop_word = ['【', '】', ')', '(', '、', '，', '“', '”', '。', '\n', '《', '》', ' ...

2018-06-01 15:47:52 2693

转载英文单词词干抽取算法

import sysclass PorterStemmer: def __init__(self): """The main part of the stemming algorithm starts here. b is a buffer holding a word to be stemmed. The letters are in b[k0],...

2018-05-26 14:58:19 624

转载关于欠拟合和过拟合问题

在我们机器学习或者训练深度神经网络的时候经常会出现欠拟合和过拟合这两个问题，但是，一开始我们的模型往往是欠拟合的，也正是因为如此才有了优化的空间，我们需要不断的调整算法来使得模型的表达能拿更强。但是优化到了一定程度就需要解决过拟合的问题了，这个问题也在学术界讨论的比较多。首先就是我们在进行模型训练的时候会出现模型不能够很好地拟合数据的情况，这个时候就需要我们来判断究竟现...

2018-03-27 10:01:14 1600

原创 BiLSTM+CRF

import numpy as npimport os, time, sysimport tensorflow as tffrom tensorflow.contrib.rnn import LSTMCellfrom tensorflow.contrib.crf import crf_log_likelihoodfrom tensorflow.contrib.crf import vit...

2018-03-26 16:01:48 807

原创 tf实现word2Vec（skip-Gram）

#!/usr/bin/python3# -*-coding:utf-8 -*-# @Time :2018/3/16# @Author :machuanbinimport collectionsimport mathimport osimport randomimport zipfileimport numpy as npimport urllibimport tenso...

2018-03-20 14:47:36 386

原创加载config文件方式

从开源项目学来的，config.ini[strings]# Mode : train, test, servemode = traintrain_enc = data/train.enctrain_dec = data/train.dectest_enc = data/test.enctest_dec = data/test.dec# folder where checkpoints...

2018-03-17 13:51:48 765

原创自编码网络实现Mnist

#!/usr/bin/python3# -*-coding:utf-8 -*-# @Time :2018/3/16 # @Author :machuanbinimport tensorflow as tffrom tensorflow.examples.tutorials.mnist import input_dataimport numpy as npimport mat...

2018-03-16 14:25:07 893

原创 MultiLSTM预测Mnist

#!/usr/bin/python3# -*-coding:utf-8 -*-# @Time :2018/3/14 # @Author :machuanbin"""tensorflow :1.3.0pandas: 0.19.2"""import tensorflow as tfimport osfrom tensorflow.examples.tutorials....

2018-03-14 11:22:59 918 2

原创【基础技能】pandas 操作csv方法 &&StratifiedShuffleSplit

#read CSV read_csv读取的数据类型为Dataframe# obj_2=pd.read_csv('f:/ceshi.csv',header=0,names=range(2,5))#表示文件第0行（即第一行，索引从0开始）为列索引，这样加names会替换原来的列索引。# header=None 原始文件数据没有列索引sample = pd.read_csv(file_dir +...

2018-02-09 09:50:41 693

原创 XGBoost Demo2

from pymongo import MongoClientfrom sklearn.linear_model import LinearRegressionfrom sklearn.externals import joblibimport timeimport numpy as npimport pandas as pdimport xgboost as xgbfrom skl...

2018-02-08 11:31:41 225

原创 XGBoost Demo

import numpy as npimport pandas as pdimport xgboost as xgbfrom sklearn.cross_validation import train_test_splitimport osimport csv#from xgboost.sklearn import XGBClassifier#from sklearn import

2018-02-02 10:28:36 1272

原创 GBDT 分类与回归

print("====================================================")print("===============Demo1===GBDT 分类=====================")print("====================================================")from sklearn.en

2018-01-31 12:22:51 1368

原创【tf系列5】tf-Demo

import tensorflow as tfimport numpy as npimport os"""神经网络Demo，构造一个一元二次方程y=ax^2+b""""""构造一个-1到1之间300个点，并将其转化为300×1的二维数组"""x_data=np.linspace(-1,1,300)[:,np.newaxis]"""加入一些噪声点，使它与x_data具有相同的维度，

2018-01-17 09:44:53 331

原创 neo4j实例教程（python版）

# coding: utf-8 -*-from py2neo import Graph,Node,Relationshipgraph = Graph("http://localhost:7474", username="neo4j", password="neo4j")test_node_1 = Node(label = "Person",name = "test_node_1")test

2018-01-12 15:19:40 8307 4

原创闲聊机器人API实现

基于图灵机器人实现API实现def tulingChat(self,question): KEY = '8afba6fdc75544f0bebc465615da1e0b' # change to your API KEY url = 'http://www.tuling123.com/openapi/api' req_info = question.encode(

2018-01-10 13:33:59 4573

原创百度NLP词语相似度接口Demo

def similirity(word1,word2): token_url = "https://openapi.baidu.com/oauth/2.0/token?grant_type=client_credentials&client_id=%s&client_secret=%s" # 1.获取token api_key='hGs3TEt3sN3XcI3VyIAyuT

2018-01-10 12:47:48 3561 1

转载【tf系列4】Bi-LSTM中文分词

该项目GitHub：https://github.com/rockyzhengwu/FoolNLTK根据该项目所述，这个中文工具包的特点有如下几点：可能不是最快的开源中文分词，但很可能是最准的开源中文分词基于 BiLSTM 模型训练而成包含分词，词性标注，实体识别, 都有比较高的准确率用户自定义词典如该项目

2017-12-29 21:32:20 2232 1

原创【tf系列3】tfLearn案例

import numpy as npimport tflearn# Download the Titanic datasetfrom tflearn.datasets import titanicimport numpy as nptitanic.download_dataset('titanic_dataset.csv')# Load CSV file, indicate th

2017-12-29 14:28:15 587 1

转载 SVM：如何判断线性可分

支持向量机（SVM），介绍都说了假设数据要是线性可分。如果数据不是线性可分的，我们就必须要采用一些特殊的方法，比如SVM的核技巧把数据转换到更高的维度上，在那个高维空间数据更可能是线性可分的（Cover定理）。现在的问题是，如何判断数据是线性可分的？最简单的情况是数据向量是一维二维或者三维的，我们可以把图像画出来，直观上就能看出来。比如Håvard

2017-12-24 20:58:52 4248 1

转载【tf系列2】参数说明

参考文章:http://blog.csdn.net/u014595019/article/details/52759104init_scale =0.1# 相关参数的初始值为随机均匀分布，范围是[-init_scale,+init_scale]learning_rate =1.0# 学习速率,在文本循环次数超过max_epoch以后会逐渐降低max_grad_n

2017-12-21 16:09:33 733

原创基于TextRank API写的测试

import picklefrom textrank4zh import TextRank4Keyword, TextRank4Sentenceimport osfrom snownlp import SnowNLPimport jiebaimport jieba.analysefrom bosonnlp import BosonNLP#http://www.cnblo

2017-12-20 10:57:44 284

原创【tf系列1】常用函数说明

发现有个写的比较好的博客，方便以后可以查阅，也没必要重新粘一次了，留个链接作为入口。初识tf:http://blog.csdn.net/u014595019/article/details/52677412tensorFlow常用函数，参考笔记：http://blog.csdn.net/u014595019/article/details/52805444；

2017-12-10 18:48:29 255

原创【百度语音rest API】文本转换成语音，以及语音转化成文本

通过rest API，调用百度语音接口，将其接入智能客服。百度语音:http://ai.baidu.com/docs/#/ASR-API/top#!/usr/bin/python3import urllib.requestimport urllibimport jsonimport base64class BaiduRest: def __init__(self

2017-12-08 08:48:37 4940

原创【学习路线图】涵盖主要算法

2017-12-07 13:11:50 363

转载【机器学习】常用算法PK

KNN算法一、KNN算法的优点 1、KNN是一种在线技术，新数据可以直接加入数据集而不必进行重新训练2、KNN理论简单，容易实现二、KNN算法的缺点1、对于样本容量大的数据集计算量比较大。2、样本不平衡时，预测偏差比较大。如：某一类的样本比较少，而其它类样本比较多。3、KNN每一次分类都会重新进行一次全局运算。4、k值大小的选

2017-12-07 11:08:15 472

原创哈工大LTP部署及测试Demo

#coding: utf-8import osfrom pyltp import SentenceSplitterfrom pyltp import Segmentorfrom pyltp import Postaggerfrom pyltp import NamedEntityRecognizerfrom pyltp import Parserfrom pyltp import S

2017-12-07 09:13:17 3073 1

翻译【keras总结】

Keras是由纯python编写的基于theano/tensorflow的深度学习框架。 Keras是一个高层神经网络API，支持快速实验，能够把你的idea迅速转换为结果，如果有如下需求，可以优先选择Keras： a）简易和快速的原型设计（keras具有高度模块化，极简，和可扩充特性） b）支持CNN和RNN，或二者的结

2017-12-04 13:16:44 294

原创【python爬虫】抓取炒股概念

非常感谢https://www.cnblogs.com/xin-xin/p/4297852.html。该系列讲解很详细。另附上我写的抓取炒股概念代码。采用火狐浏览器，F12，选取Network，解析一下传送的地址。import urllib.requestimport reimport requests# def main():# # url = "htt

2017-11-29 13:26:57 4741

原创智能纠错【优化版】

import jiebafrom pypinyin import pinyin, lazy_pinyinfrom common.basicInfo import BasicInfo"""纠错模块"""class ErrorRecovery(object): def __init__(self, dataSever): self.dataServer = d

2017-11-28 08:45:25 740 3

原创浅谈 Dropout防止过拟合

发生过拟合的主要原因可以有以下三点：（1）数据有噪声（2）训练数据不足，有限的训练数据（3）训练模型过度导致模型非常复杂Dropout是通过修改神经网络本身来实现的，它是在训练网络时用的一种技巧（trike）。它的流程如下：假设我们要训练上图这个网络，在训练开始时，我们随机地“删除”一半的隐层单元，视它们为不存在，得到如下的网络：

2017-11-28 08:43:17 1541

转载【gensim--dictionary】使用方法

import jieba, os import codecs from gensim import corpora, models, similarities from pprint import pprint from collections import defaultdict import sys import pickle reload(sys)

2017-11-22 17:05:33 3698

原创【构建知识图谱neo4j】

通过neo4j,构建知识图谱

2017-11-17 11:31:42 4311

原创【word2vec实例2】加载模型

current_dir = os.path.abspath('.')w2v_file = os.path.join(current_dir, 'w2v_file_sg')self.dic = gensim.models.Word2Vec.load(w2v_file)for word in word_list: if word not in self.dic.wv.vocab

2017-09-15 09:57:34 1577

原创【word2vec实例1】

# coding = utf8import wordcutimport create_dictimport vectorizeimport classifyimport pickleimport psutilimport parametersimport osfrom collections import dequeimport gensimimport numpy as

2017-09-15 09:56:16 702

原创 python csv写入多列

import csvimport osdef main(): current_dir = os.path.abspath('.') file_name = os.path.join(current_dir, "csss.csv") csvfile = open(file_name, 'wt' ,encoding="UTF8") # writer=csv.

2017-09-08 12:32:40 20935

原创 LSTM 实例

环境：python3.5，tensorflow1.1代码如下：import tensorflow as tffrom tensorflow.examples.tutorials.mnist import input_data# set random seed for comparing the two result calculationstf.set_random_seed(

2017-09-06 08:20:17 1519

词云生成Demo

LSTM实例,可以运行

空空如也