搬砖小工053-CSDN博客

原创 Numpy加速的关键 -- 使用优化的方法

# -*- coding: utf-8 -*-"""Created on Sun Oct 23 20:05:57 2016@author: zang"""import timeitnormal_py_sec = timeit.timeit('sum(x*x for x in xrange(1000))', number=10000)naive_np_sec = timeit.timeit('

2016-10-23 20:18:00 5594

转载 IntelliJ IDEA中快捷键一览

转自：http://blog.csdn.net/w_basketboy24/article/details/8249571Alt+回车导入包,自动修正 Ctrl+N 查找类 Ctrl+Shift+N 查找文件 Ctrl+Alt+L 格式化代码 Ctrl+Alt+O 优化导入的类和包 Alt+Insert 生成代码(如get,set方法,构造函数等) Ctrl+E或者Alt+Shi

2016-09-07 13:30:48 868

原创常用的自然语言处理分词工具

中科院ICTCLAS分词东北大学NIUPARSER清华大学THULAC复旦大学FUNLP HanLP MMSEG JCSEG Ansj LTPLingPipeWORDMMSEG4JIK-ANALYZERSMARTCNJIEBAStanford parserBerkeley parsernltk

2016-09-06 23:07:32 1846

转载国内外有哪些自然语言处理的团队？

清华大学自然语言处理与社会人文计算实验室清华大学智能技术与系统国家重点实验室信息检索组北京大学计算语言学教育部重点实验室北京大学计算机科学技术研究所语言计算与互联网挖掘研究室哈工大社会计算与信息检索研究中心哈工大机器智能与翻译研究室哈尔滨工业大学智能技术与自然语言处理实验室中科院计算所自然语言处理研究组中科院自动化研究所语音语言技术研究组南京大学自然

2016-09-06 22:03:25 5322

原创 Centos7 安装sklearn gcc: error: ‘-Qunused-arguments’

1. 在centos7上安装sklearn各种报错gcc: error: unrecognized command line option ‘-Qunused-arguments’gcc: error: unrecognized command line option ‘-Qunused-arguments’gcc: error: unrecognized command line option

2016-09-05 16:31:22 2422

转载随机采样方法整理与讲解（MCMC、Gibbs Sampling等）

原文地址：http://www.cnblogs.com/xbinworld/p/4266146.html说明本文是对参考资料中多篇关于sampling的内容进行总结+搬运，方便以后自己翻阅。其实参考资料中的资料写的比我好，大家可以看一下！好东西多分享！PRML的第11章也是sampling，有时间后面写到PRML的笔记中去：)背景随机模拟也可以叫做蒙特卡罗模拟(Monte Carlo Simulat

2016-08-24 22:02:32 4442 1

转载特征工程中常用的技术

原文：https://mp.weixin.qq.com/s?__biz=MjM5MTQzNzU2NA==&mid=2651643693&idx=1&sn=e386759cc1cd3d1f690f57f1a0250689复杂的模型不易解释，难以调整。简单的算法配合更好的特征或者更多的数据，比脆弱的假设配合复杂的算法会得到更好的结果。◆ ◆ ◆ 什么是好？好的特征代表了灵活性、更简单的模型和更好的结果

2016-08-24 10:02:24 1470

转载迁移学习简介

迁移学习，简单的说，就是能让现有的模型算法稍加调整即可应用于一个新的领域和功能的一项技术。这个概念目前在机器学习中其实比较少见，但其实它的潜力可以相当巨大。杨强教授在刚刚结束的CCF-GAIR上的演讲中曾提到一个愿景——利用迁移学习，即使是自身没有条件获得大量训练数据的小公司也可以按照自己的需要应用大公司训练出来的模型，从而普及AI的应用。在目前大家都在努力提高人工智能应用通用性的大背景下，迁移学习

2016-08-18 16:37:10 6322

转载 minepy 包——基于最大信息的非参数估计

简介minepy 提供 ANSI C 库的基于最大信息的非参数估计的实现（Maximal Information-based Nonparametric Exploration,MIC and MINE family). 特点APPROX-MIC (the original algorithm, DOI: 10.1126/science.1205438) and MIC_e (DOI: arXiv

2016-08-11 17:09:09 15028 1

转载 mysql导入、导出文件

这里的导出和mysqldump不同，只是导出表里的纯数据，而不是导出为sql语句。select 列1,列2, ....... 列n from tbname [where 条件] into outfile "C:\backup\data.txt"导出的数据是每列用tab 分开的具体数据，就好像一个矩阵一样。load data local infile "C:\backup\data.txt"

2016-08-09 21:45:59 613

转载 Linux 解压命令大全

.tar解包：tar xvf FileName.tar打包：tar cvf FileName.tar DirName（注：tar是打包，不是压缩！）.gz解压1：gunzip FileName.gz解压2：gzip -d FileName.gz压缩：gzip FileName.tar.gz 和 .tgz解压：tar zxvf FileName.tar.gz压缩：tar zcvf FileNa

2016-08-01 19:56:12 610

原创 sklearn 数据加载工具(1)

简介sklearn.datasets 包提供了一些小的toy数据集。为了评估数据特征(n_samples,n_features)的影响,可以控制数据的一些统计学特性，产生人工数据。这个包提供一些接口，来获取真实的机器学习社区常用于基准算法的大数据集。常见的dataset APIsklearn对于不同的数据类型提供三种数据接口。 - sample images是最简单的接口dataset 产生函数

2016-08-01 19:42:35 12730

原创 Anaconda version `GFORTRAN_1.4' not found

错误信息:[root@biostacs /]# ipythonPython 2.7.11 |Anaconda 4.0.0 (64-bit)| (default, Dec 6 2015, 18:08:32)Type "copyright", "credits" or "license" for more information.IPython 5.0.0 -- An enhanced Inter

2016-08-01 11:21:36 2570

转载【5】使用结巴分词对分类语料库分词

转自 NLP论坛 http://www.threedweb.cn/thread-1295-1-1.html 工作空间（workspace）路径：X:\WorkSpace\text_mining X为Windows硬盘盘符项目主目录：text_mining |-- text_corpus_small 目录：未分词训练语料库路径，子目录名称为语料库的分类，该类所属文本就位于子目录中

2016-08-01 10:19:31 4929

转载【4】构建基于scikit-learn的文本挖掘学习系统

转自 NLP论坛 http://www.threedweb.cn/thread-1293-1-1.html配置开发环境构建基于scikit-learn的文本挖掘学习系统1. 下载和安装 python-2.7.8 for win322. 下载和安装 numpy-1.9.0-win32-superpack-python2.73. 下载和安装 scipy-0.14.0-win32-superpack-

2016-08-01 10:14:12 1394

转载【3】文本挖掘方法论

转自 NLP论坛 http://www.threedweb.cn/thread-1284-1-1.html http://www.threedweb.cn/thread-1285-1-1.html http://www.threedweb.cn/thread-1286-1-1.html文本挖掘流程第1阶段：确定研究目的像任何其他项目一样，文本挖掘的研究开始于研究目的的决策。这需要深入了解业务情况

2016-08-01 10:06:19 2517

转载【2】广义向量空间模型

转自 NLP论坛 http://www.threedweb.cn/thread-1283-1-1.html文本最流行的结构化表示就是向量空间模型，它把文本表示为一个向量，其中该向量的每个元素表示为文本中出现的单词。这会导致极高维的空间；通常，文本文档的集合中出现的每一个不同的字符串都是一个维度，包括常用英语词和其他类型字符串，如电子邮件地址和URL。对于合理大小的文本文件集合，向量很容易就包含数十万

2016-08-01 09:22:01 1304

转载【1】文本挖掘的主要概念

转自 NLP论坛 http://www.threedweb.cn/thread-1281-1-1.html什么是文本挖掘文本挖掘可以广义地定义知识密集的处理过程，其中用户使用一套分析工具与文档集合动态（随着时间的推移）交互。在类似于数据挖掘的方式，文本挖掘旨在通过识别令人感兴趣的模式来提取和搜索数据源中有用信息。在文本挖掘中，数据来源是文档集合，发现令人感兴趣的模式不是来自形式化的数据库记录，而是非

2016-08-01 08:56:44 3643

原创 pip 安装matplotlib报错 png can not be built

matplotlib安装的时候报如下错误[root@biostacs /]# pip install matplotlib --upgradeCollecting matplotlib Downloading matplotlib-1.5.1.tar.gz (54.0MB) 100% |████████████████████████████████| 54.0MB 12kB/s

2016-07-31 22:30:12 4271 2

原创 sklearn Pipeline使用

简介Pipeline按顺序构建一系列转换和一个模型，最后的一步是模型。Pipeline中间的步骤必须是转换过程，它们必须包含fit和transform方法。最后一步模型只要有fit方法。Pipeline的目的是能组合好几个步骤，当设置不同参数的时候，可以在一起做交叉验证。可以通过【pipeline的名称+ “_” + 参数名称】的方式设置多个步骤的参数。参数名称类型说明 step

2016-07-31 17:03:00 10044

原创 sklearn 快速入门

简介sklearn自带了一些标准数据集，用于分类问题的 iris 和 digits。用于回归问题的boston房价数据集。导入数据集from sklearn import datasets自带的数据都放在datasets里面iris = datasets.load_iris()digits = datasets.load_digits()datasets 是dict类型的对象，包含数据和元数据信息

2016-07-31 16:19:00 3079

翻译 sklearn:选择正确的模型

解决一个机器学习问题最难的一步是找到一个合适的模型，不同模型的选择与数据类型和问题类型息息相关。下面的流程图就是设计来给使用者一个简单的指导，让使用者知道怎么去看待问题，并根据自己的数据选择合适的模型。点击下面图中的每个模型可以看到相关的文档说明。原文链接：http://scikit-learn.org/dev/tutorial/machine_learning_map/index.html这里做一

2016-07-31 11:11:11 2469

转载 RDD Transformation——takeSample

原理takeSample()函数和sample函数是一个原理，但是不使用相对比例采样，而是按设定的采样个数进行采样，同时返回结果不再是RDD，而是相当于对采样后的数据进行collect()，返回结果的集合为单机的数组。图中，左侧的方框代表分布式的各个节点上的分区，右侧方框代表单机上返回的结果数组。通过takeSample对数据采样，设置为采样一份数据，返回结果为V1。源码/** * Return

2016-07-30 17:45:07 4747 2

原创排序算法总结

先放在这里，后面慢慢整理

2016-07-30 17:44:38 155

原创排序算法之堆排序 HeapSort

介绍堆排序在 top K 问题中使用比较频繁。堆排序是采用二叉堆的数据结构来实现的，虽然实质上还是一维数组。二叉堆是一个近似完全二叉树。二叉堆具有以下性质： - 父节点的键值总是大于或等于（小于或等于）任何一个子节点的键值。 - 每个节点的左右子树都是一个二叉堆（都是最大堆或最小堆）。步骤构造最大堆（Build_Max_Heap）：若数组下标范围为0~n，考虑到单独一个元素是大根堆，则从下标

2016-07-30 17:41:11 437

原创排序算法之快速排序 QuickSort

介绍快速排序通常明显比同为 O(nlogn)Ο(nlogn) 的其他算法更快，因此常被采用，而且快排采用了分治法的思想，所以在很多笔试面试中能经常看到快排的影子。可见掌握快排的重要性。步骤从数列中挑出一个元素作为基准数。分区过程，将比基准数大的放到右边，小于或等于它的数都放到左边。再对左右区间递归执行第二步，直至各区间只有一个数。代码# -*- coding: utf-8 -*-"""C

2016-07-30 17:31:45 469

原创排序算法之归并排序 MergeSort

介绍归并排序是采用分治法的一个非常典型的应用。归并排序的思想就是先递归分解数组，再合并数组。先考虑合并两个有序数组，基本思路是比较两个数组的最前面的数，谁小就先取谁，取了后相应的指针就往后移一位。然后再比较，直至一个数组为空，最后把另一个数组的剩余部分复制过来即可。再考虑递归分解，基本思路是将数组分解成left和right，如果这两个数组内部数据是有序的，那么就可以用上面合并数组的方法将这两个数组合

2016-07-30 17:22:44 604

原创排序算法之希尔排序ShellSort

介绍希尔排序，也称递减增量排序算法，实质是分组插入排序。由 Donald Shell 于1959年提出。希尔排序是非稳定排序算法。希尔排序的基本思想是：将数组列在一个表中并对列分别进行插入排序，重复这过程，不过每次用更长的列（步长更长了，列数更少了）来进行。最后整个表就只有一列了。将数组转换至表是为了更好地理解这算法，算法本身还是使用数组进行排序。例如，假设有这样一组数[ 13 14 94 33 8

2016-07-30 17:12:28 741

原创排序算法之插入排序InsertionSort

介绍插入排序的工作原理是，对于每个未排序数据，在已排序序列中从后向前扫描，找到相应位置并插入。步骤从第一个元素开始，该元素可以认为已经被排序取出下一个元素，在已经排序的元素序列中从后向前扫描如果被扫描的元素（已排序）大于新元素，将该元素后移一位重复步骤3，直到找到已排序的元素小于或者等于新元素的位置将新元素插入到该位置后重复步骤2~5代码# -*- coding: utf-8 -*-

2016-07-30 17:01:50 604

原创排序算法之选择排序SelectionSort

介绍选择排序无疑是最简单直观的排序。它的工作原理如下。步骤在未排序序列中找到最小（大）元素，存放到排序序列的起始位置。再从剩余未排序元素中继续寻找最小（大）元素，然后放到已排序序列的末尾。以此类推，直到所有元素均排序完毕。这两个图中都是选择小的数字放前面。代码# -*- coding: utf-8 -*-"""Created on Tue Apr 26 16:55:14 2016选择排

2016-07-30 16:45:18 562

原创排序算法之冒泡排序 BubbleSort

介绍冒泡排序的原理非常简单，它重复地走访过要排序的数列，一次比较两个元素，如果他们的顺序错误就把他们交换过来。步骤比较相邻的元素。如果第一个比第二个大，就交换他们两个。对第0个到第n-1个数据做同样的工作。这时，最大的数就“浮”到了数组最后的位置上。针对所有的元素重复以上的步骤，除了最后一个。持续每次对越来越少的元素重复上面的步骤，直到没有任何一对数字需要比较。代码# -*- coding

2016-07-30 16:32:06 678

原创字符串匹配算法之 Aho-Corasick

简介首先简要介绍一下AC自动机：Aho-Corasick automation，该算法在1975年产生于贝尔实验室，是著名的多模匹配算法之一。一个常见的例子就是给出n个单词，再给出一段包含m个字符的文章，让你找出有多少个单词在文章里出现过。要搞懂AC自动机，先得有模式树（字典树）Trie和KMP模式匹配算法的基础知识。AC自动机算法分为3步：构造一棵Trie树，构造失败指针和模式匹配过程。多模匹配A

2016-07-30 16:03:57 4922

原创字符串匹配之 RK(Rabin-Karp)

背景Rabin-Karp字符串匹配算法和前面介绍的《朴素字符串匹配算法》类似，也是对应每一个字符进行比较，不同的是Rabin-Karp采用了把字符进行预处理，也就是对每个字符进行对应进制数并取模运算，类似于通过某种函数计算其函数值，比较的是每个字符的函数值。预处理时间O(m)，匹配时间是O((n-m+1)m)。Rabin-Karp算法的思想：假设待匹配字符串的长度为M，目标字符串的长度为

2016-07-29 20:13:49 924

原创字符串匹配算法之 Sunday

基本思想Sunday算法由Daniel M.Sunday在1990年提出，它的思想跟BM算法很相似。只不过Sunday算法是从前往后匹配，在匹配失败时关注的是主串中参加匹配的最末位字符的下一位字符。- 如果该字符没有在模式串中出现则直接跳过，即移动位数 = 模式串长度 + 1；- 否则，其移动位数 = 模式串长度 - 该字符最右出现的位置(以0开始) = 模式串中该字符最右出现的位置到尾部的距离

2016-07-29 19:45:01 519

原创字符串匹配算法之（Horspool ）Boyer-Moore-Horspool

简介Horspool是后缀搜索，大家都从左往右匹配，它反着来。也就是搜索已读入文本中是否含有模式串的后缀；如果有，是多长，显然，当后缀长度等于模式串的长度时，我们就找到了一个匹配。Horspool算法思想：模式串从右向左进行匹配。对于每个文本搜索窗口，将窗口内的最后一个字符与模式串的最后一个字符进行比较。如果相等，则继续从后向前验证其他字符，直到完全相等或者某个字符不匹配。然后，无论匹配与否，都将根

2016-07-29 19:15:32 2899

原创字符串匹配算法之 KMP(Knuth-Morris-Pratt)

KMP简介Knuth-Morris-Pratt算法简称KMP算法。是常用的字符串匹配算法，这个算法由Donald Knuth、Vaughan Pratt、James H. Morris三人于1977年联合发表，故取这3人的姓氏命名此算法。KMP算法流程算法流程如下：pattern 表示模式串，text表示文本串1. pattern第一个字符和text第一个字符对齐，开始逐个字符匹配2. 如果pat

2016-07-29 17:10:29 880

转载 Linux htop命令

简介htop是Linux系统下一个基本文本模式的、交互式的进程查看器，主要用于控制台或shell中，可以替代top，或者说是top的高级版。 htop命令优点: 1) 快速查看关键性能统计数据，如CPU（多核布局）、内存/交换使用； 2) 可以横向或纵向滚动浏览进程列表，以查看所有的进程和完整的命令行； 3) 杀掉进程时可以直接选择而不需要输入进程号； 4) 通过鼠标

2016-07-29 12:52:10 1128

转载 [转载]字符串匹配的Boyer-Moore算法

但是，它并不是效率最高的算法，实际采用并不多。各种文本编辑器的”查找”功能（Ctrl+F），大多采用Boyer-Moore算法。Boyer-Moore算法不仅效率高，而且构思巧妙，容易理解。1977年，德克萨斯大学的Robert S. Boyer教授和J Strother Moore教授发明了这种算法。下面，我根据Moore教授自己的例子来解释这种算法。假定text为”HERE IS A SIM

2016-07-29 12:18:46 423

原创字符串匹配算法之 BM(Boyer-Moore)

背景各种文本编辑器的”查找”功能（Ctrl+F），大多采用Boyer-Moore算法。大家所熟知的GNU grep命令使用的就是该算法，这也是GNU grep比BSD grep快的一个重要原因。 1977年，德克萨斯大学的Robert S. Boyer教授和J Strother Moore教授发明了这种效率高，构思巧妙，容易理解的字符串匹配算法。算法特征假设文本串text长度为n，模式串p

2016-07-29 11:52:14 1386

转载 ndarray 矢量化（vectorization）

矢量化（vectorization）使得你不用编写循环就可以对数据进行批量运算。大小相等的数组之间的任何算术运算都会将运算应用到元素级。数组和标量运算import numpy as nparr = np.array([[1.,2.,3.,4.],[5,6,7,8]])1/arrarray([[ 1. , 0.5 , 0.33333333, 0.25 ],

2016-07-28 12:25:17 1155

空空如也

空空如也