6 搬砖小工053

尚未进行身份认证

我要认证

暂无相关简介

等级
TA的排名 1w+

Numpy加速的关键 -- 使用优化的方法

# -*- coding: utf-8 -*-"""Created on Sun Oct 23 20:05:57 2016@author: zang"""import timeitnormal_py_sec = timeit.timeit('sum(x*x for x in xrange(1000))', number=10000)naive_np_sec = timeit.timeit('

2016-10-23 20:18:00

IntelliJ IDEA中快捷键一览

转自:http://blog.csdn.net/w_basketboy24/article/details/8249571Alt+回车 导入包,自动修正 Ctrl+N 查找类 Ctrl+Shift+N 查找文件 Ctrl+Alt+L 格式化代码 Ctrl+Alt+O 优化导入的类和包 Alt+Insert 生成代码(如get,set方法,构造函数等) Ctrl+E或者Alt+Shi

2016-09-07 13:30:48

常用的自然语言处理分词工具

中科院ICTCLAS分词东北大学NIUPARSER清华大学THULAC复旦大学FUNLP HanLP MMSEG JCSEG Ansj LTPLingPipeWORDMMSEG4JIK-ANALYZERSMARTCNJIEBAStanford parserBerkeley parsernltk

2016-09-06 23:07:32

国内外有哪些自然语言处理的团队?

清华大学自然语言处理与社会人文计算实验室 清华大学智能技术与系统国家重点实验室信息检索组 北京大学计算语言学教育部重点实验室 北京大学计算机科学技术研究所语言计算与互联网挖掘研究室哈工大社会计算与信息检索研究中心 哈工大机器智能与翻译研究室 哈尔滨工业大学智能技术与自然语言处理实验室中科院计算所自然语言处理研究组 中科院自动化研究所语音语言技术研究组 南京大学自然

2016-09-06 22:03:25

Centos7 安装sklearn gcc: error: ‘-Qunused-arguments’

1. 在centos7上安装sklearn各种报错gcc: error: unrecognized command line option ‘-Qunused-arguments’gcc: error: unrecognized command line option ‘-Qunused-arguments’gcc: error: unrecognized command line option

2016-09-05 16:31:22

随机采样方法整理与讲解(MCMC、Gibbs Sampling等)

原文地址:http://www.cnblogs.com/xbinworld/p/4266146.html说明本文是对参考资料中多篇关于sampling的内容进行总结+搬运,方便以后自己翻阅。其实参考资料中的资料写的比我好,大家可以看一下!好东西多分享!PRML的第11章也是sampling,有时间后面写到PRML的笔记中去:)背景随机模拟也可以叫做蒙特卡罗模拟(Monte Carlo Simulat

2016-08-24 22:02:32

特征工程中常用的技术

原文:https://mp.weixin.qq.com/s?__biz=MjM5MTQzNzU2NA==&mid=2651643693&idx=1&sn=e386759cc1cd3d1f690f57f1a0250689复杂的模型不易解释,难以调整。简单的算法配合更好的特征或者更多的数据,比脆弱的假设配合复杂的算法会得到更好的结果。◆ ◆ ◆ 什么是好?好的特征代表了灵活性、更简单的模型和更好的结果

2016-08-24 10:02:24

迁移学习简介

迁移学习,简单的说,就是能让现有的模型算法稍加调整即可应用于一个新的领域和功能的一项技术。这个概念目前在机器学习中其实比较少见,但其实它的潜力可以相当巨大。杨强教授在刚刚结束的CCF-GAIR上的演讲中曾提到一个愿景——利用迁移学习,即使是自身没有条件获得大量训练数据的小公司也可以按照自己的需要应用大公司训练出来的模型,从而普及AI的应用。在目前大家都在努力提高人工智能应用通用性的大背景下,迁移学习

2016-08-18 16:37:10

minepy 包——基于最大信息的非参数估计

简介minepy 提供 ANSI C 库的基于最大信息的非参数估计的实现(Maximal Information-based Nonparametric Exploration,MIC and MINE family). 特点APPROX-MIC (the original algorithm, DOI: 10.1126/science.1205438) and MIC_e (DOI: arXiv

2016-08-11 17:09:09

mysql导入、导出文件

这里的导出和mysqldump不同,只是导出表里的纯数据,而不是导出为sql语句。select 列1,列2, ....... 列n from tbname [where 条件] into outfile "C:\backup\data.txt"导出的数据是每列用tab 分开的具体数据,就好像一个矩阵一样。load data local infile "C:\backup\data.txt"

2016-08-09 21:45:59

Linux 解压命令大全

.tar解包:tar xvf FileName.tar打包:tar cvf FileName.tar DirName(注:tar是打包,不是压缩!).gz解压1:gunzip FileName.gz解压2:gzip -d FileName.gz压缩:gzip FileName.tar.gz 和 .tgz解压:tar zxvf FileName.tar.gz压缩:tar zcvf FileNa

2016-08-01 19:56:12

sklearn 数据加载工具(1)

简介sklearn.datasets 包提供了一些小的toy数据集。为了评估数据特征(n_samples,n_features)的影响,可以控制数据的一些统计学特性,产生人工数据。这个包提供一些接口,来获取真实的机器学习社区常用于基准算法的大数据集。常见的dataset APIsklearn对于不同的数据类型提供三种数据接口。 - sample images是最简单的接口dataset 产生函数

2016-08-01 19:42:35

Anaconda version `GFORTRAN_1.4' not found

错误信息:[root@biostacs /]# ipythonPython 2.7.11 |Anaconda 4.0.0 (64-bit)| (default, Dec 6 2015, 18:08:32)Type "copyright", "credits" or "license" for more information.IPython 5.0.0 -- An enhanced Inter

2016-08-01 11:21:36

【5】使用结巴分词对分类语料库分词

转自 NLP论坛 http://www.threedweb.cn/thread-1295-1-1.html 工作空间(workspace)路径:X:\WorkSpace\text_mining X为Windows硬盘盘符 项目主目录:text_mining |-- text_corpus_small 目录:未分词训练语料库路径,子目录名称为语料库的分类,该类所属文本就位于子目录中

2016-08-01 10:19:31

【4】构建基于scikit-learn的文本挖掘学习系统

转自 NLP论坛 http://www.threedweb.cn/thread-1293-1-1.html配置开发环境构建基于scikit-learn的文本挖掘学习系统1. 下载和安装 python-2.7.8 for win322. 下载和安装 numpy-1.9.0-win32-superpack-python2.73. 下载和安装 scipy-0.14.0-win32-superpack-

2016-08-01 10:14:12

【3】 文本挖掘方法论

转自 NLP论坛 http://www.threedweb.cn/thread-1284-1-1.html http://www.threedweb.cn/thread-1285-1-1.html http://www.threedweb.cn/thread-1286-1-1.html文本挖掘流程第1阶段:确定研究目的像任何其他项目一样,文本挖掘的研究开始于研究目的的决策。这需要深入了解业务情况

2016-08-01 10:06:19

【2】广义向量空间模型

转自 NLP论坛 http://www.threedweb.cn/thread-1283-1-1.html文本最流行的结构化表示就是向量空间模型,它把文本表示为一个向量,其中该向量的每个元素表示为文本中出现的单词。这会导致极高维的空间;通常,文本文档的集合中出现的每一个不同的字符串都是一个维度,包括常用英语词和其他类型字符串,如电子邮件地址和URL。对于合理大小的文本文件集合,向量很容易就包含数十万

2016-08-01 09:22:01

【1】文本挖掘的主要概念

转自 NLP论坛 http://www.threedweb.cn/thread-1281-1-1.html什么是文本挖掘文本挖掘可以广义地定义知识密集的处理过程,其中用户使用一套分析工具与文档集合动态(随着时间的推移)交互。在类似于数据挖掘的方式,文本挖掘旨在通过识别令人感兴趣的模式来提取和搜索数据源中有用信息。在文本挖掘中,数据来源是文档集合,发现令人感兴趣的模式不是来自形式化的数据库记录,而是非

2016-08-01 08:56:44

pip 安装matplotlib报错 png can not be built

matplotlib安装的时候报如下错误[root@biostacs /]# pip install matplotlib --upgradeCollecting matplotlib Downloading matplotlib-1.5.1.tar.gz (54.0MB) 100% |████████████████████████████████| 54.0MB 12kB/s

2016-07-31 22:30:12

sklearn Pipeline使用

简介Pipeline按顺序构建一系列转换和一个模型,最后的一步是模型。Pipeline中间的步骤必须是转换过程,它们必须包含fit和transform方法。最后一步模型只要有fit方法。Pipeline的目的是能组合好几个步骤,当设置不同参数的时候,可以在一起做交叉验证。可以通过【pipeline的名称+ “_” + 参数名称】的方式设置多个步骤的参数。参数 名称 类型 说明 step

2016-07-31 17:03:00

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!