自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(54)
  • 资源 (1)
  • 收藏
  • 关注

原创 python操作redis

redis作为内存数据库,常被用于shishixiangy缓存

2014-11-17 17:44:46 767

原创 [算法9]shuffle算法

洗牌算法是一个

2014-08-28 12:13:25 959

原创 mac osx系统g++编译c++

在macosx下安装了xcode之后会自动安装gcc/g++,

2014-08-20 10:19:31 16343 1

原创 [算法8]union find算法

最近在抽空看看coursera那个普林斯顿的算法课,有点意思,讲的很清楚。

2014-07-24 22:33:31 1007

原创 [算法7]page rank算法

最近刚刚给女朋友讲了讲page rank算法的原理,思虑再三,写个

2014-07-23 16:29:34 1010

原创 [算法6]fast-sort算法

最近工作项目忙的是焦头烂额,不得不停止了算法的更新,在xiang'mu'xiu'zheng

2014-07-21 10:17:31 770

原创 pymongo进阶文档

mongodb作为一个新型数据库,功能远比想象中的qi

2014-07-10 16:01:40 1009

原创 在Centos上安装python及其附属环境

记录:

2014-07-05 21:06:46 2144

原创 mysql的缓存机制

mysql进行查询时候,如果反复查询同一个请求,

2014-06-30 17:42:14 698

原创 python解析gbk编码的xml

python解析xml,由于某些协会规定的原因,只能解析utf8和utf16的格式,而gbk和gb2312等解析的时候都会报错,但是对于某些

2014-06-23 15:34:49 5730 2

原创 mrjob和pymongo的互斥

最近做的事情是用mrjob写mapreduce程序,从mongo读取数据。

2014-06-09 16:23:23 1549

原创 mrjob文档

mrjob的最简单sample是一个计数的程序

2014-05-22 18:28:51 2376

原创 [算法5]PCA降维

最近在做文本聚类和用kd-tree关联文档,头疼于所谓的文本处理的高维诅咒,决定写一个降维算法。从降维算法最常见的入手,which is PCA,又叫出成分分析。PCA是利用了协方差的概念,将多维度的矩阵之间维度建立一个关系,然后拉伸原有的多维度,组合成新的低维度空间,投影原有的多维矩阵到低维空间中,尽量的保证原有的各个样本间关系损失小。步骤:将数据建立一个M*

2014-05-13 17:39:23 1128

原创 [算法4]TF-IDF算法

TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。

2014-05-05 16:48:34 1417

原创 [算法3]Kmeans算法

面试中,经常问面试者,你熟悉神马算法,然后得到的回复普遍就是,

2014-05-04 14:42:28 999

原创 [算法2]相似度度量算法

相似度算法是机器学习算法的最基础

2014-05-03 20:39:35 1646

原创 [算法1]皮尔逊相关系数

皮尔逊相关系数,(pearson correlation co)

2014-05-02 18:17:29 4048

原创 基于质心的聚类算法

文本聚类文本聚类

2014-04-29 17:12:40 6092

原创 python处理utf-16 le格式中文文本

python做中文什么的,编码一向很头疼,dang r

2014-04-16 14:22:55 11890

原创 python调用C联合编译

因为最近要做个比较复杂的算法,感觉python的性能不够处理,速度也会慢,准备使用ctype将算法用c处理之前有调研过,但是没有实操,今天开始动手做,机器是mac osx10.9.2首先,先安装ctypes包,然后用xcode生成一个command line tool,选择了C++,因为我要用类,如果不用可以直接C//// main.cpp// newW

2014-03-19 18:05:47 689

转载 python编程进阶

转自:http://blog.jobbole.com/61171/,留文自看本文展示一些高级的Python设计结构和它们的使用方法。在日常工作中,你可以根据需要选择合适的数据结构,例如对快速查找性的要求、对数据一致性的要求或是对索引的要求等,同时也可以将各种数据结构合适地结合在一起,从而生成具有逻辑性并易于理解的数据模型。Python的数据结构从句法上来看非常直观,并且提供了大量的可选操作

2014-03-14 11:32:56 1658

原创 mysql在mac 10.9下不能用的问题

手欠升级了10.9以后,mysql就不能用了,心烦意乱,试了好久才调通,赶紧记录分享一下试了dmg的安装和brew还有源代码,最后还是dmg的安装解决的问题,不过应该都可以dmg安装三个包之后,设置my.cnfvi /etc/my.cnf加上socket          = /var/mysql/mysql.sock注释#

2014-03-05 09:38:36 850

原创 计算相似度方法

都不敢用算法来取名了。。。欧式距离余弦相似度皮尔森相关系数即

2014-02-24 12:09:00 822

原创 MAC安装python的mysqldb包

下载MySQLdb:http://sourceforge.net/projects/mysql-python/下载最新的以后,解压,进入文件夹,sudo python setup.py build如果出现,EnvironmentError: mysql_config not found在当前路径下,vi site.cfg,进入,将mysql的config改成

2014-02-20 17:29:09 681

原创 用github写blog

因为用python,不会ruby的原因,我采用的是pelican这个python的框架安装好github客户端之后,配置pelican和markdownpip install pelicanpip install Markdown在ubuntu,安装了retext来编辑markdown在git的文件夹下我新建了一个blog的文件夹,cd进入后

2014-01-23 16:24:43 776

原创 转用github同步代码

新建一个github账户,然后在本地(Ubuntu)安装git,绑定ssh key,成功后,即可实现同步。感谢git普及好文字,http://rogerdudler.github.io/git-guide/index.zh.html在github上新建一个repository,然后在本地clone下来,git clone [email protected]:whzhcahzx

2014-01-23 11:56:52 683

转载 web.py处理url

转载:@小五义http://www.cnblogs.com/xiaowuyiURL 处理    任何网站最重要的部分就是它的URL结构。你的URL并不仅仅只是访问者所能看到并且能发给朋友的。它还规定了你网站运行的心智模型。在一些类似del.icio.us的流行网站 , URL甚至是UI的一部分。 web.py使这类强大的URL成为可能。urls = ( '/', 'in

2014-01-09 16:51:21 3466

原创 coreseek配置

Ubuntu上使用coreseek建立索引/usr/local/coreseek/bin/indexer -c csft_demo_python.conf --all查询索引/usr/local/coreseek/bin/search -c csft_demo_python.conf -a 性能启动服务进程:/usr/local/coreseek/bin

2014-01-07 16:24:38 949

原创 coreseek通过python读取mongoDB数据

coreseek的资料真少啊,不人性化mongoDB不是coreseek/sphinx支持的格式,因此我用python读入mongoDB数据,然后转成python数据源,用coreseek建立索引# -*- coding:utf-8 -*-# author: Haoimport pymongoclass MainSource(object): def __in

2014-01-03 17:44:59 2316 4

原创 coreseek搭配使用python源

网络资料真少啊,官方给的文档还算详细,但是没有交流就没有成功,开源的意义Ubuntu环境下使用:不知道为啥,搭配好环境后,原本在cmd栏下直接运行python的脚本命令找不到了,只能用运行python2.7来执行相同操作,求解下载的coreseek自己提供的测试数据和conf文件,配置主要是将 path = /usr/bin/python2设定为电脑装有py

2013-12-30 14:55:12 1395

原创 TF-IDF提取关键词并用余弦算法计算相似度

TF-IDF算法是一个很易懂的关键词提取算法,算法易实现,易懂且易操作,缺陷是将词频作为唯一考虑因素,且对于位置没有敏感性,位置的问题可以通过人为添加权重的方式改善,比如给第一段最后一段,或者每一段的第一句话加高权重。。。(类似于总分,总分总啥的文本结构吧)TF-IDF算法简单描述:TF是Term Frequency的缩写,即单纯的计算词频,比如,两句话分别是“我最喜欢吃我做的土豆

2013-12-25 12:08:07 7851

原创 ubuntu 12.04安装coreseek 4.1beta

coreseek安装需要预装的软件:shell>apt-get install make gcc g++ automake libtool m4 autoconf mysql-client libmysqlclient15-dev libxml2-dev libexpat1-dev  一、基础安装:(此时尚不支持MySQL,完成第二步数据源支持后就支持)

2013-12-24 17:25:27 1800

原创 gensim做主题模型

作为python的一个库,gensim给了文本主题模型足够的方便,像他自己的介绍一样,topic modelling for humans具体的tutorial可以参看他的官方网页,当然是全英文的,http://radimrehurek.com/gensim/tutorial.html由于这个链接打开速度太慢太慢,我决定写个中文总结:(文章参考了52nlp的博客,参看h

2013-12-24 15:28:00 25248 12

转载 对Python中文分词模块结巴分词算法过程的理解和分析

转载原因:52nlp等链接中深入挖掘内容很多,值得一看结巴分词是国内程序员用python开发的一个中文分词模块, 源码已托管在github, 地址在: https://github.com/fxsjy/jieba作者的文档写的不是很全, 只写了怎么用, 有一些细节的文档没有写.以下是作者说明文件中提到的结巴分词用到的算法:基于Trie树结构实现高效的词图扫描,生成句

2013-12-24 10:16:23 5916

转载 mongoDB存java object

转自:http://blog.csdn.net/laigood12345/article/details/7556144mongodb有三种方法来保存java对象,一种是通过类实现DBObject接口,一种是利用spring-mongodb工具的对象映射功能,把java对象转换成mongodb的BSON文档,一种是通过序列化类实例,转成二进制存储,mongodb是支持二进制的数据格式的

2013-12-12 09:39:07 1782

转载 生成R语言包的方法

转自:http://cos.name/2013/11/building-r-packages-easily/前言最近想试一下捣腾一个 R 包出来,故参考了一些教程。现在看到的最好的就是谢益辉大大之前写过的开发R程序包之忍者篇,以及 Hadley 大神(ggplot2 devtools 等一系列包的作者)的 教程。但是前者有一些过时,后者是全英文的,所以我这里记录一下比较简单的过程,

2013-12-10 14:03:49 3719

转载 RWeka的使用

转载自:http://blog.sina.com.cn/s/blog_551d7bff01016qa1.html背景介绍: #此前在首页部分显示#1)Weka:Weka有两种意思:一种不会飞的鸟的名字,一个机器学习开源项目的简称(Waikato Environment for Knowledge Analysis,http://www.cs.waikato.ac.nz/

2013-12-10 11:38:25 2162

原创 R语言解决MongoDB中文编码问题

R语言的中文支持不好,采用的编码方式常常优先考虑西方语言,http://developer.r-project.org/Encodings_and_R.html中有介绍而MongoDB中储存的中文采用的是UTF-8格式编码,因此p 读出的数据中,中文无法显示操作temp将中文改变编码格式的函数是Encoding(temp)temp

2013-12-09 14:24:24 3894

转载 rmongodb的使用

转自:http://blog.fens.me/nosql-r-mongodb/2. rmongodb函数库文字说明部分:rmongodb的开发了一大堆的函数,对应mongo的操作。比起别的NoSQL来说,真是工程浩大啊。但我总觉得封装粒度不够,写起代码来比较复杂。下面列出了所有rmongodb函数库,我只挑选几个常用的介绍。建立mongo连接

2013-12-09 11:57:11 1899

原创 lucene配置IKanalyzer词典

在java工程中,src文件夹下放置IKAnalyzer.cfg.xml在IKAnalyzer.cfg.xml中配置    IK Analyzer 扩展配置ext.dic;chengyusuyu.dic;dilidizhicihuidaquan.dic;dianshijumingdaquan.dic;huaxuehuagongcihuidaquan.dic;

2013-12-05 10:27:00 1123

innovation management and new product development

Innovation Management and New Product Development原版书

2012-12-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除