- 博客(54)
- 资源 (1)
- 收藏
- 关注
原创 python解析gbk编码的xml
python解析xml,由于某些协会规定的原因,只能解析utf8和utf16的格式,而gbk和gb2312等解析的时候都会报错,但是对于某些
2014-06-23 15:34:49 5730 2
原创 [算法5]PCA降维
最近在做文本聚类和用kd-tree关联文档,头疼于所谓的文本处理的高维诅咒,决定写一个降维算法。从降维算法最常见的入手,which is PCA,又叫出成分分析。PCA是利用了协方差的概念,将多维度的矩阵之间维度建立一个关系,然后拉伸原有的多维度,组合成新的低维度空间,投影原有的多维矩阵到低维空间中,尽量的保证原有的各个样本间关系损失小。步骤:将数据建立一个M*
2014-05-13 17:39:23 1128
原创 [算法4]TF-IDF算法
TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。
2014-05-05 16:48:34 1417
原创 python调用C联合编译
因为最近要做个比较复杂的算法,感觉python的性能不够处理,速度也会慢,准备使用ctype将算法用c处理之前有调研过,但是没有实操,今天开始动手做,机器是mac osx10.9.2首先,先安装ctypes包,然后用xcode生成一个command line tool,选择了C++,因为我要用类,如果不用可以直接C//// main.cpp// newW
2014-03-19 18:05:47 689
转载 python编程进阶
转自:http://blog.jobbole.com/61171/,留文自看本文展示一些高级的Python设计结构和它们的使用方法。在日常工作中,你可以根据需要选择合适的数据结构,例如对快速查找性的要求、对数据一致性的要求或是对索引的要求等,同时也可以将各种数据结构合适地结合在一起,从而生成具有逻辑性并易于理解的数据模型。Python的数据结构从句法上来看非常直观,并且提供了大量的可选操作
2014-03-14 11:32:56 1658
原创 mysql在mac 10.9下不能用的问题
手欠升级了10.9以后,mysql就不能用了,心烦意乱,试了好久才调通,赶紧记录分享一下试了dmg的安装和brew还有源代码,最后还是dmg的安装解决的问题,不过应该都可以dmg安装三个包之后,设置my.cnfvi /etc/my.cnf加上socket = /var/mysql/mysql.sock注释#
2014-03-05 09:38:36 850
原创 MAC安装python的mysqldb包
下载MySQLdb:http://sourceforge.net/projects/mysql-python/下载最新的以后,解压,进入文件夹,sudo python setup.py build如果出现,EnvironmentError: mysql_config not found在当前路径下,vi site.cfg,进入,将mysql的config改成
2014-02-20 17:29:09 681
原创 用github写blog
因为用python,不会ruby的原因,我采用的是pelican这个python的框架安装好github客户端之后,配置pelican和markdownpip install pelicanpip install Markdown在ubuntu,安装了retext来编辑markdown在git的文件夹下我新建了一个blog的文件夹,cd进入后
2014-01-23 16:24:43 776
原创 转用github同步代码
新建一个github账户,然后在本地(Ubuntu)安装git,绑定ssh key,成功后,即可实现同步。感谢git普及好文字,http://rogerdudler.github.io/git-guide/index.zh.html在github上新建一个repository,然后在本地clone下来,git clone [email protected]:whzhcahzx
2014-01-23 11:56:52 683
转载 web.py处理url
转载:@小五义http://www.cnblogs.com/xiaowuyiURL 处理 任何网站最重要的部分就是它的URL结构。你的URL并不仅仅只是访问者所能看到并且能发给朋友的。它还规定了你网站运行的心智模型。在一些类似del.icio.us的流行网站 , URL甚至是UI的一部分。 web.py使这类强大的URL成为可能。urls = ( '/', 'in
2014-01-09 16:51:21 3466
原创 coreseek配置
Ubuntu上使用coreseek建立索引/usr/local/coreseek/bin/indexer -c csft_demo_python.conf --all查询索引/usr/local/coreseek/bin/search -c csft_demo_python.conf -a 性能启动服务进程:/usr/local/coreseek/bin
2014-01-07 16:24:38 949
原创 coreseek通过python读取mongoDB数据
coreseek的资料真少啊,不人性化mongoDB不是coreseek/sphinx支持的格式,因此我用python读入mongoDB数据,然后转成python数据源,用coreseek建立索引# -*- coding:utf-8 -*-# author: Haoimport pymongoclass MainSource(object): def __in
2014-01-03 17:44:59 2316 4
原创 coreseek搭配使用python源
网络资料真少啊,官方给的文档还算详细,但是没有交流就没有成功,开源的意义Ubuntu环境下使用:不知道为啥,搭配好环境后,原本在cmd栏下直接运行python的脚本命令找不到了,只能用运行python2.7来执行相同操作,求解下载的coreseek自己提供的测试数据和conf文件,配置主要是将 path = /usr/bin/python2设定为电脑装有py
2013-12-30 14:55:12 1395
原创 TF-IDF提取关键词并用余弦算法计算相似度
TF-IDF算法是一个很易懂的关键词提取算法,算法易实现,易懂且易操作,缺陷是将词频作为唯一考虑因素,且对于位置没有敏感性,位置的问题可以通过人为添加权重的方式改善,比如给第一段最后一段,或者每一段的第一句话加高权重。。。(类似于总分,总分总啥的文本结构吧)TF-IDF算法简单描述:TF是Term Frequency的缩写,即单纯的计算词频,比如,两句话分别是“我最喜欢吃我做的土豆
2013-12-25 12:08:07 7851
原创 ubuntu 12.04安装coreseek 4.1beta
coreseek安装需要预装的软件:shell>apt-get install make gcc g++ automake libtool m4 autoconf mysql-client libmysqlclient15-dev libxml2-dev libexpat1-dev 一、基础安装:(此时尚不支持MySQL,完成第二步数据源支持后就支持)
2013-12-24 17:25:27 1800
原创 gensim做主题模型
作为python的一个库,gensim给了文本主题模型足够的方便,像他自己的介绍一样,topic modelling for humans具体的tutorial可以参看他的官方网页,当然是全英文的,http://radimrehurek.com/gensim/tutorial.html由于这个链接打开速度太慢太慢,我决定写个中文总结:(文章参考了52nlp的博客,参看h
2013-12-24 15:28:00 25248 12
转载 对Python中文分词模块结巴分词算法过程的理解和分析
转载原因:52nlp等链接中深入挖掘内容很多,值得一看结巴分词是国内程序员用python开发的一个中文分词模块, 源码已托管在github, 地址在: https://github.com/fxsjy/jieba作者的文档写的不是很全, 只写了怎么用, 有一些细节的文档没有写.以下是作者说明文件中提到的结巴分词用到的算法:基于Trie树结构实现高效的词图扫描,生成句
2013-12-24 10:16:23 5916
转载 mongoDB存java object
转自:http://blog.csdn.net/laigood12345/article/details/7556144mongodb有三种方法来保存java对象,一种是通过类实现DBObject接口,一种是利用spring-mongodb工具的对象映射功能,把java对象转换成mongodb的BSON文档,一种是通过序列化类实例,转成二进制存储,mongodb是支持二进制的数据格式的
2013-12-12 09:39:07 1782
转载 生成R语言包的方法
转自:http://cos.name/2013/11/building-r-packages-easily/前言最近想试一下捣腾一个 R 包出来,故参考了一些教程。现在看到的最好的就是谢益辉大大之前写过的开发R程序包之忍者篇,以及 Hadley 大神(ggplot2 devtools 等一系列包的作者)的 教程。但是前者有一些过时,后者是全英文的,所以我这里记录一下比较简单的过程,
2013-12-10 14:03:49 3719
转载 RWeka的使用
转载自:http://blog.sina.com.cn/s/blog_551d7bff01016qa1.html背景介绍: #此前在首页部分显示#1)Weka:Weka有两种意思:一种不会飞的鸟的名字,一个机器学习开源项目的简称(Waikato Environment for Knowledge Analysis,http://www.cs.waikato.ac.nz/
2013-12-10 11:38:25 2162
原创 R语言解决MongoDB中文编码问题
R语言的中文支持不好,采用的编码方式常常优先考虑西方语言,http://developer.r-project.org/Encodings_and_R.html中有介绍而MongoDB中储存的中文采用的是UTF-8格式编码,因此p 读出的数据中,中文无法显示操作temp将中文改变编码格式的函数是Encoding(temp)temp
2013-12-09 14:24:24 3894
转载 rmongodb的使用
转自:http://blog.fens.me/nosql-r-mongodb/2. rmongodb函数库文字说明部分:rmongodb的开发了一大堆的函数,对应mongo的操作。比起别的NoSQL来说,真是工程浩大啊。但我总觉得封装粒度不够,写起代码来比较复杂。下面列出了所有rmongodb函数库,我只挑选几个常用的介绍。建立mongo连接
2013-12-09 11:57:11 1899
原创 lucene配置IKanalyzer词典
在java工程中,src文件夹下放置IKAnalyzer.cfg.xml在IKAnalyzer.cfg.xml中配置 IK Analyzer 扩展配置ext.dic;chengyusuyu.dic;dilidizhicihuidaquan.dic;dianshijumingdaquan.dic;huaxuehuagongcihuidaquan.dic;
2013-12-05 10:27:00 1123
innovation management and new product development
2012-12-26
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人