itgeeks-CSDN博客

最近在做文本聚类和用kd－tree关联文档，头疼于所谓的文本处理的高维诅咒，决定写一个降维算法。从降维算法最常见的入手，which is PCA，又叫出成分分析。PCA是利用了协方差的概念，将多维度的矩阵之间维度建立一个关系，然后拉伸原有的多维度，组合成新的低维度空间，投影原有的多维矩阵到低维空间中，尽量的保证原有的各个样本间关系损失小。步骤：将数据建立一个M＊

2014-05-13 17:39:23 1128

原创 [算法4]TF-IDF算法

TF-IDF（term frequency–inverse document frequency）是一种用于资讯检索与资讯探勘的常用加权技术。

2014-05-05 16:48:34 1417

原创 [算法3]Kmeans算法

面试中，经常问面试者，你熟悉神马算法，然后得到的回复普遍就是，

2014-05-04 14:42:28 999

原创 [算法2]相似度度量算法

相似度算法是机器学习算法的最基础

2014-05-03 20:39:35 1646

原创 [算法1]皮尔逊相关系数

皮尔逊相关系数，（pearson correlation co）

2014-05-02 18:17:29 4048

原创基于质心的聚类算法

文本聚类文本聚类

2014-04-29 17:12:40 6092

原创 python处理utf-16 le格式中文文本

python做中文什么的，编码一向很头疼，dang r

2014-04-16 14:22:55 11890

原创 python调用C联合编译

因为最近要做个比较复杂的算法，感觉python的性能不够处理，速度也会慢，准备使用ctype将算法用c处理之前有调研过，但是没有实操，今天开始动手做，机器是mac osx10.9.2首先，先安装ctypes包，然后用xcode生成一个command line tool，选择了C++，因为我要用类，如果不用可以直接C//// main.cpp// newW

2014-03-19 18:05:47 689

转载 python编程进阶

转自：http://blog.jobbole.com/61171/，留文自看本文展示一些高级的Python设计结构和它们的使用方法。在日常工作中，你可以根据需要选择合适的数据结构，例如对快速查找性的要求、对数据一致性的要求或是对索引的要求等，同时也可以将各种数据结构合适地结合在一起，从而生成具有逻辑性并易于理解的数据模型。Python的数据结构从句法上来看非常直观，并且提供了大量的可选操作

2014-03-14 11:32:56 1658

原创 mysql在mac 10.9下不能用的问题

手欠升级了10.9以后，mysql就不能用了，心烦意乱，试了好久才调通，赶紧记录分享一下试了dmg的安装和brew还有源代码，最后还是dmg的安装解决的问题，不过应该都可以dmg安装三个包之后，设置my.cnfvi /etc/my.cnf加上socket = /var/mysql/mysql.sock注释#

2014-03-05 09:38:36 850

原创计算相似度方法

都不敢用算法来取名了。。。欧式距离余弦相似度皮尔森相关系数即

2014-02-24 12:09:00 822

原创 MAC安装python的mysqldb包

下载MySQLdb：http://sourceforge.net/projects/mysql-python/下载最新的以后，解压，进入文件夹，sudo python setup.py build如果出现，EnvironmentError: mysql_config not found在当前路径下，vi site.cfg，进入，将mysql的config改成

2014-02-20 17:29:09 681

原创用github写blog

因为用python，不会ruby的原因，我采用的是pelican这个python的框架安装好github客户端之后，配置pelican和markdownpip install pelicanpip install Markdown在ubuntu，安装了retext来编辑markdown在git的文件夹下我新建了一个blog的文件夹，cd进入后

2014-01-23 16:24:43 776

原创转用github同步代码

新建一个github账户，然后在本地(Ubuntu)安装git，绑定ssh key，成功后，即可实现同步。感谢git普及好文字，http://rogerdudler.github.io/git-guide/index.zh.html在github上新建一个repository，然后在本地clone下来，git clone [email protected]:whzhcahzx

2014-01-23 11:56:52 683

转载 web.py处理url

转载：@小五义http://www.cnblogs.com/xiaowuyiURL 处理任何网站最重要的部分就是它的URL结构。你的URL并不仅仅只是访问者所能看到并且能发给朋友的。它还规定了你网站运行的心智模型。在一些类似del.icio.us的流行网站 , URL甚至是UI的一部分。 web.py使这类强大的URL成为可能。urls = ( '/', 'in

2014-01-09 16:51:21 3466

原创 coreseek配置

Ubuntu上使用coreseek建立索引/usr/local/coreseek/bin/indexer -c csft_demo_python.conf --all查询索引/usr/local/coreseek/bin/search -c csft_demo_python.conf -a 性能启动服务进程：/usr/local/coreseek/bin

2014-01-07 16:24:38 949

原创 coreseek通过python读取mongoDB数据

coreseek的资料真少啊，不人性化mongoDB不是coreseek/sphinx支持的格式，因此我用python读入mongoDB数据，然后转成python数据源，用coreseek建立索引# -*- coding:utf-8 -*-# author: Haoimport pymongoclass MainSource(object): def __in

2014-01-03 17:44:59 2316 4

原创 coreseek搭配使用python源

网络资料真少啊，官方给的文档还算详细，但是没有交流就没有成功，开源的意义Ubuntu环境下使用：不知道为啥，搭配好环境后，原本在cmd栏下直接运行python的脚本命令找不到了，只能用运行python2.7来执行相同操作，求解下载的coreseek自己提供的测试数据和conf文件，配置主要是将 path = /usr/bin/python2设定为电脑装有py

2013-12-30 14:55:12 1395

原创 TF-IDF提取关键词并用余弦算法计算相似度

TF-IDF算法是一个很易懂的关键词提取算法，算法易实现，易懂且易操作，缺陷是将词频作为唯一考虑因素，且对于位置没有敏感性，位置的问题可以通过人为添加权重的方式改善，比如给第一段最后一段，或者每一段的第一句话加高权重。。。（类似于总分，总分总啥的文本结构吧）TF-IDF算法简单描述：TF是Term Frequency的缩写，即单纯的计算词频，比如，两句话分别是“我最喜欢吃我做的土豆

2013-12-25 12:08:07 7851

原创 ubuntu 12.04安装coreseek 4.1beta

coreseek安装需要预装的软件：shell>apt-get install make gcc g++ automake libtool m4 autoconf mysql-client libmysqlclient15-dev libxml2-dev libexpat1-dev 一、基础安装：（此时尚不支持MySQL，完成第二步数据源支持后就支持）

2013-12-24 17:25:27 1800

原创 gensim做主题模型

作为python的一个库，gensim给了文本主题模型足够的方便，像他自己的介绍一样，topic modelling for humans具体的tutorial可以参看他的官方网页，当然是全英文的，http://radimrehurek.com/gensim/tutorial.html由于这个链接打开速度太慢太慢，我决定写个中文总结：（文章参考了52nlp的博客，参看h

2013-12-24 15:28:00 25248 12

转载对Python中文分词模块结巴分词算法过程的理解和分析

转载原因：52nlp等链接中深入挖掘内容很多，值得一看结巴分词是国内程序员用python开发的一个中文分词模块, 源码已托管在github, 地址在: https://github.com/fxsjy/jieba作者的文档写的不是很全, 只写了怎么用, 有一些细节的文档没有写.以下是作者说明文件中提到的结巴分词用到的算法:基于Trie树结构实现高效的词图扫描，生成句

2013-12-24 10:16:23 5916

转载 mongoDB存java object

转自：http://blog.csdn.net/laigood12345/article/details/7556144mongodb有三种方法来保存java对象，一种是通过类实现DBObject接口，一种是利用spring-mongodb工具的对象映射功能，把java对象转换成mongodb的BSON文档，一种是通过序列化类实例，转成二进制存储，mongodb是支持二进制的数据格式的

2013-12-12 09:39:07 1782

转载生成R语言包的方法

转自：http://cos.name/2013/11/building-r-packages-easily/前言最近想试一下捣腾一个 R 包出来，故参考了一些教程。现在看到的最好的就是谢益辉大大之前写过的开发R程序包之忍者篇，以及 Hadley 大神（ggplot2 devtools 等一系列包的作者）的教程。但是前者有一些过时，后者是全英文的，所以我这里记录一下比较简单的过程，

2013-12-10 14:03:49 3719

转载 RWeka的使用

转载自：http://blog.sina.com.cn/s/blog_551d7bff01016qa1.html背景介绍： #此前在首页部分显示#1）Weka：Weka有两种意思：一种不会飞的鸟的名字，一个机器学习开源项目的简称（Waikato Environment for Knowledge Analysis，http://www.cs.waikato.ac.nz/

2013-12-10 11:38:25 2162

原创 R语言解决MongoDB中文编码问题

R语言的中文支持不好，采用的编码方式常常优先考虑西方语言，http://developer.r-project.org/Encodings_and_R.html中有介绍而MongoDB中储存的中文采用的是UTF-8格式编码，因此p 读出的数据中，中文无法显示操作temp将中文改变编码格式的函数是Encoding(temp)temp

2013-12-09 14:24:24 3894

转载 rmongodb的使用

转自：http://blog.fens.me/nosql-r-mongodb/2. rmongodb函数库文字说明部分：rmongodb的开发了一大堆的函数，对应mongo的操作。比起别的NoSQL来说，真是工程浩大啊。但我总觉得封装粒度不够，写起代码来比较复杂。下面列出了所有rmongodb函数库，我只挑选几个常用的介绍。建立mongo连接

2013-12-09 11:57:11 1899

原创 lucene配置IKanalyzer词典

在java工程中，src文件夹下放置IKAnalyzer.cfg.xml在IKAnalyzer.cfg.xml中配置 IK Analyzer 扩展配置ext.dic;chengyusuyu.dic;dilidizhicihuidaquan.dic;dianshijumingdaquan.dic;huaxuehuagongcihuidaquan.dic;

2013-12-05 10:27:00 1123

innovation management and new product development

空空如也