binglingzy666-CSDN博客

转载 sklearn.feature_extraction.text.TfidfVectorizer函数说明

转载自：http://blog.csdn.net/hutao1101175783/article/details/74618205class sklearn.feature_extraction.text.TfidfVectorizer（input = u'content'，encoding = u'utf-8'，decode_error = u'strict'，strip_acc

2018-02-02 17:25:41 7382

转载 Kaggle机器学习之模型融合（stacking）心得

作者：思颖此文道出了本人学习Stacking入门级应用的心路历程。在学习过程中感谢@贝尔塔的模型融合方法，以及如何在 Kaggle 首战中进入前 10%这篇文章（作者是章凌豪）。对于两位提供的信息，感激不尽。同时还有Kaggle上一些关于ensemble的文章和代码，比如这篇。本文适用于被stacking折磨的死去活来的新手，在网上为数不多的stacking内容里，我已经假

2017-11-09 14:50:35 2130

原创 .tar.xz解压方式

$xz -d ***.tar.xz$tar -xvf ***.tar

2017-06-22 09:56:17 420

转载 Linux显示文件前几行、拷贝文件前几行、删除文件前几列

ll -lrth:按照更改时间倒序排列，最新文件在下边ll -lrSh:按照文件大小倒序排列，最大文件在下边grep --color :高亮查询关键字grep -A 10 xxx : 显示关键字后10行，查异常栈时很有用grep -B 10 xxx : 显示关键字前10行grep -C 10 xxx : 显示关键字前后10行grep -i :不区分大小写egrep ‘aaa|bbb’:可以统计aa

2017-05-08 21:37:07 13913

转载深度学习和自然语言处理中的attention和memory机制

神经网络里的attention机制是（非常）松散地基于人类的视觉注意机制。人类的视觉注意机制已经被充分地研究过了，而且提出了多个不同的模型，所有的模型归根结底都是按照“高分辨率”聚焦在图片的某个特定区域并以“低分辨率”感知图像的周边区域的模式，然后不断地调整聚焦点。

2017-05-04 17:44:20 471

转载 Paragraph Vector学习文章特征及其在Gensim和Tensorflow上的编写以及应用

原文Paragraph2vec 是一种非监督学习方式，输入为文本，输出则是文本对应的向量表示。连续分布式向量表示。文本可以是可变的长度（对应于 sentence 及 documents）。向量表示可以用来预测文章中的 word。可以连接 paragraph vector和 word vector，预测给定的 context 下将要出现的 word。 word 向量和 para

2017-04-25 20:45:17 4091

转载 Sentiment Analysis Using Doc2Vec

Sentiment Analysis using Doc2VecWord2Vec is dope. In short, it takes in a corpus, and churns out vectors for each of those words. What’s so special about these vectors you ask? Well, similar words a

2017-04-25 20:28:58 1111

转载 word2vec中的数学原理详解

word2vec 中的数学原理详解转载自：http://blog.csdn.net/itplus/article/details/37969519 word2vec 是 Google 于 2013 年开源推出的一个用于获取 word vector 的工具包，它简单、高效，因此引起了很多人的关注。由于 word2vec 的作者 Tomas Mikolov 在两篇相关的

2017-04-24 21:33:26 1503

转载 Python的collections模块及namedtuple详解

转载自：http://www.jb51.net/article/88144.htmnamedtuple顾名思义,就是名字+元组的数据结构,下面就来看一下Python的collections模块中namedtuple结构使用示例namedtuple 就是命名的 tuple，比较像 C 语言中 struct。一般情况下的 tuple 是 (item1, item2, item3

2017-04-21 16:21:21 4199

转载调用python的sklearn实现Logistic Reression算法

先说如何实现，其中的导入数据库和类、方法的关系，之前不是很清楚，现在知道了。。。 from numpy import * from sklearn.datasets import load_iris # import datasets# load the dataset: irisiris = load_iris() samples = iris.da

2017-04-20 20:54:20 3201

转载 xgboost

1、xgboost简介全称为eXtreme Gradient Boosting，作者是华盛顿大学的陈天奇博士，由GBDT延伸而来，主要用于分类和回归算法，属于报省厅迭代型和树类算法。它是Gradient Boosting Machine的一个c++实现。创建之由为受制于现有库的计算速度和精度，xgboost最大的特点在于，它能够自动利用CPU的多线程进行并行，同时在算法上加以改进提

2017-04-20 09:13:27 811

转载几种基本的数字正则表达式[转]

几种基本的数字正则表达式[转]只能输入1个数字表达式 ^\d$ 描述匹配一个数字匹配的例子 0,1,2,3 不匹配的例子只能输入n个数字表达式 ^\d{n}$ 例如^\d{8}$ 描述匹配8个数字匹配的例子 12345678,22223334,12344321 不匹配的例子只能输入至少n个

2017-04-19 17:58:35 1044

转载 Pyhton 编辑错误

一、问题： TabError: Inconsistent use of tabs and spaces in indentation解决方法：把Tab都换成空格转载：http://www.th7.cn/Program/c/201508/521552.shtml

2017-04-19 17:04:09 298

转载 Python数据分析几个比较常用的方法

原文地址：http://blog.sina.com.cn/s/blog_be2f16060102vkaw.html1，表头或是excel的索引如果是中文的话，输出会出错解决方法：python的版本问题！换成python3就自动解决。2，如果有很多列，如何输出指定的列？需求情况：有的时候，数据很多，但是只要仅仅对部分列的数据进行分析的话，要怎么做？解决方法：d

2017-04-18 11:11:10 861

转载 python：pandas模块中的DataFrame结构及常用操作

转载：http://blog.csdn.net/u014607457/article/details/512905821. 介绍DataFrame unifies two or more Series into a single data structure.Each Series then represents a named column of the DataFrame, a

2017-04-18 10:56:58 21019

转载 python：strip()、rstrip()、lstrip()

转载自：http://www.cnblogs.com/starof/p/4651288.htmlPython中strip用于去除字符串的首位字符，同理，lstrip用于去除左边的字符，rstrip用于去除右边的字符。这三个参数都可以传入一个参数，指定要去除的首尾字符。需要注意的是，传入的是一个字符数组，编译器去除两端所有匹配的字符，直到没有匹配的字符，比如：

2017-04-18 10:33:36 356

转载 Python scikit-learn机器学习工具包学习笔记：cross_validation模块

转载地址：http://blog.sina.com.cn/s/blog_6a90ae320101a5rc.htmlsklearn.cross_validation模块的作用顾名思义就是做cross validation的。cross validation大概的意思是：对于原始数据我们要将其一部分分为train data，一部分分为test data。train data

2017-04-17 17:38:57 1005

笔记铺子