- 博客(17)
- 收藏
- 关注
转载 sklearn.feature_extraction.text.TfidfVectorizer函数说明
转载自:http://blog.csdn.net/hutao1101175783/article/details/74618205class sklearn.feature_extraction.text.TfidfVectorizer(input = u'content',encoding = u'utf-8',decode_error = u'strict',strip_acc
2018-02-02 17:25:41 7382
转载 Kaggle机器学习之模型融合(stacking)心得
作者:思颖此文道出了本人学习Stacking入门级应用的心路历程。在学习过程中感谢@贝尔塔的模型融合方法,以及如何在 Kaggle 首战中进入前 10%这篇文章(作者是章凌豪)。对于两位提供的信息,感激不尽。同时还有Kaggle上一些关于ensemble的文章和代码,比如这篇。本文适用于被stacking折磨的死去活来的新手,在网上为数不多的stacking内容里,我已经假
2017-11-09 14:50:35 2130
转载 Linux显示文件前几行、拷贝文件前几行、删除文件前几列
ll -lrth:按照更改时间倒序排列,最新文件在下边ll -lrSh:按照文件大小倒序排列,最大文件在下边grep --color :高亮查询关键字grep -A 10 xxx : 显示关键字后10行,查异常栈时很有用grep -B 10 xxx : 显示关键字前10行grep -C 10 xxx : 显示关键字前后10行grep -i :不区分大小写egrep ‘aaa|bbb’:可以统计aa
2017-05-08 21:37:07 13913
转载 深度学习和自然语言处理中的attention和memory机制
神经网络里的attention机制是(非常)松散地基于人类的视觉注意机制。人类的视觉注意机制已经被充分地研究过了,而且提出了多个不同的模型,所有的模型归根结底都是按照“高分辨率”聚焦在图片的某个特定区域并以“低分辨率”感知图像的周边区域的模式,然后不断地调整聚焦点。
2017-05-04 17:44:20 471
转载 Paragraph Vector学习文章特征及其在Gensim和Tensorflow上的编写以及应用
原文Paragraph2vec 是一种非监督学习方式,输入为文本,输出则是文本对应的向量表示。连续分布式向量表示。文本可以是可变的长度(对应于 sentence 及 documents)。向量表示可以用来预测文章中的 word。可以连接 paragraph vector和 word vector,预测给定的 context 下将要出现的 word。 word 向量和 para
2017-04-25 20:45:17 4091
转载 Sentiment Analysis Using Doc2Vec
Sentiment Analysis using Doc2VecWord2Vec is dope. In short, it takes in a corpus, and churns out vectors for each of those words. What’s so special about these vectors you ask? Well, similar words a
2017-04-25 20:28:58 1111
转载 word2vec中的数学原理详解
word2vec 中的数学原理详解转载自:http://blog.csdn.net/itplus/article/details/37969519 word2vec 是 Google 于 2013 年开源推出的一个用于获取 word vector 的工具包,它简单、高效,因此引起了很多人的关注。由于 word2vec 的作者 Tomas Mikolov 在两篇相关的
2017-04-24 21:33:26 1503
转载 Python的collections模块及namedtuple详解
转载自:http://www.jb51.net/article/88144.htmnamedtuple顾名思义,就是名字+元组的数据结构,下面就来看一下Python的collections模块中namedtuple结构使用示例namedtuple 就是命名的 tuple,比较像 C 语言中 struct。一般情况下的 tuple 是 (item1, item2, item3
2017-04-21 16:21:21 4199
转载 调用python的sklearn实现Logistic Reression算法
先说如何实现,其中的导入数据库和类、方法的关系,之前不是很清楚,现在知道了。。。 from numpy import * from sklearn.datasets import load_iris # import datasets# load the dataset: irisiris = load_iris() samples = iris.da
2017-04-20 20:54:20 3201
转载 xgboost
1、xgboost简介全称为eXtreme Gradient Boosting,作者是华盛顿大学的陈天奇博士 ,由GBDT延伸而来,主要用于分类和回归算法,属于报省厅迭代型和树类算法。 它是Gradient Boosting Machine的一个c++实现。创建之由为受制于现有库的计算速度和精度,xgboost最大的特点在于,它能够自动利用CPU的多线程进行并行,同时在算法上加以改进提
2017-04-20 09:13:27 811
转载 几种基本的数字正则表达式[转]
几种基本的数字正则表达式[转]只能输入1个数字 表达式 ^\d$ 描述 匹配一个数字 匹配的例子 0,1,2,3 不匹配的例子 只能输入n个数字 表达式 ^\d{n}$ 例如^\d{8}$ 描述 匹配8个数字 匹配的例子 12345678,22223334,12344321 不匹配的例子 只能输入至少n个
2017-04-19 17:58:35 1044
转载 Pyhton 编辑错误
一、问题: TabError: Inconsistent use of tabs and spaces in indentation解决方法:把Tab都换成空格 转载:http://www.th7.cn/Program/c/201508/521552.shtml
2017-04-19 17:04:09 298
转载 Python数据分析几个比较常用的方法
原文地址:http://blog.sina.com.cn/s/blog_be2f16060102vkaw.html1,表头或是excel的索引如果是中文的话,输出会出错解决方法:python的版本问题!换成python3就自动解决。2,如果有很多列,如何输出指定的列?需求情况:有的时候,数据很多,但是只要仅仅对部分列的数据进行分析的话,要怎么做?解决方法:d
2017-04-18 11:11:10 861
转载 python:pandas模块中的DataFrame结构及常用操作
转载:http://blog.csdn.net/u014607457/article/details/512905821. 介绍DataFrame unifies two or more Series into a single data structure.Each Series then represents a named column of the DataFrame, a
2017-04-18 10:56:58 21019
转载 python:strip()、rstrip()、lstrip()
转载自:http://www.cnblogs.com/starof/p/4651288.htmlPython中strip用于去除字符串的首位字符,同理,lstrip用于去除左边的字符,rstrip用于去除右边的字符。这三个参数都可以传入一个参数,指定要去除的首尾字符。需要注意的是,传入的是一个字符数组,编译器去除两端所有匹配的字符,直到没有匹配的字符,比如:
2017-04-18 10:33:36 356
转载 Python scikit-learn机器学习工具包学习笔记:cross_validation模块
转载地址:http://blog.sina.com.cn/s/blog_6a90ae320101a5rc.htmlsklearn.cross_validation模块的作用顾名思义就是做cross validation的。cross validation大概的意思是:对于原始数据我们要将其一部分分为train data,一部分分为test data。train data
2017-04-17 17:38:57 1005
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人