自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(53)
  • 资源 (4)
  • 收藏
  • 关注

原创 keras使用稀疏矩阵输入

Keras的数据存储是Numpy系的方式,本身不支持稀疏矩阵的输入输出。这个问题就很尴尬,高维数据就难在小内存的机器上运行。解决方案也是有的,Keras内部是Theano或Tensorflow的,这两个都支持稀疏矩阵的输入输出,所以就是可以解决的。解决方案主要是参考这里:http://www.jianshu.com/p/bf1b637acf5a1. 数据维数不算太高:用稀疏矩阵

2017-01-09 11:26:27 5345 1

原创 Thrift框架中函数栈的大小对程序的影响

写一套程序,WebService的用了Thrift,还有一个单

2014-07-31 12:02:26 1234

原创 JoinableQueue 用于Python多进程生产者消费者问题的注意事项

参考文献:Queue是Python标准库的队列实现。在网上经常看到示例代码是这样实现的: url = queue.get()queue.task_done()...思路本身没什么问题——从队列中取一个数据,然后通知队列取成功了。但有些人代码是这样写的: url = queue.get()queue.task_done()try: s

2014-04-23 18:11:33 11913

转载 Linux下使用rsync最快速删除海量文件的方法

转了篇文章遇到了要在Linux下删除海量文件的情况,需要删除数十万个文件。这个是之前的程序写的日志,增长很快,而且没什么用。这个时候,我们常用的删除命令rm -fr * 就不好用了,因为要等待的时间太长。所以必须要采取一些非常手段。我们可以使用rsync来实现快速删除大量文件。1、先安装rsync:yum install rsync2、建立一个空的文件夹:mkdir /tm

2014-03-20 11:40:01 3350

原创 php imagemagick 配置

最近需要在项目中用到ImageMagick来对上传的图片做多图处理,在配置上遇到些问题,Windows7与Ubuntu上均不可能一次完美安装,不过在Linux下调来调去的比较有意思,所以在Ubuntu下查了不少东西,记录了其中几个比较关键的问题。1. 先装ImageMagick下载ImageMagick http://www.imagemagick.org/wget ftp://ftp

2014-02-23 01:39:59 2052

原创 linux 与 windows下配VHOST

Apache,PHP将php.ini中设置short_open_tag = On Windows:在httpd.conf下加入代码:NameVirtualHost *:80    DocumentRoot "D:/Program Files/xampps/htdocs/autorule"    ServerName autorule.dmy.com从项目

2013-11-14 11:30:47 2337

转载 C++fstream文件流处理对中文字符不支持的解决办法

转载一篇C++文件流处理中文路径问题的方法。http://www.cnblogs.com/upendi/archive/2013/05/10/3072195.html【以下内容转自:我住包子山 让VS2005中的fstream支持中文路径文件打开 】  前几天发了这篇《用fstream对二进制文件的读写》,有朋友指出了VS2005的fstream对于中文路径支持不好的bug。我

2013-07-26 00:20:50 2060

转载 Thrift 的各项传输协议和Socket方式及各种Server的特性

Thrift 的各项传输协议和Socket方式及各种Server的特性(1).支持的传输格式TBinaryProtocol   二进制格式TCompactProtocol  压缩格式TJSONProtocol     JSON格式TSimpleJSONProtocol 提供JSON只写协议,生成的文件很容易通过脚本语言解析TDebugProtocol     使用易懂的可读

2013-07-09 16:17:16 11013

转载 计算机字符编码问题总析(基于Python)

本篇文章是一篇转载文章,阅读后使我对文本编码问题有了更清晰的认识,特征收藏分享之,感谢原作者。转自:http://www.iteye.com/topic/560229 编程综合 http://blog.minidx.com/2008/10/22/1570.htmlhttp://blog.minidx.com/2008/11/06/1607.htmlhttp://blog

2013-05-09 17:37:13 3152

原创 键盘输入 + 当天总结

在键盘输入的应用中,最常用的就是做网上的编程题目了,北大的,百度的等。1.用scanf比cin快;2.用scanf("%s%*c",c);过滤分割符是好的方法;3.gets用于接收一行的字符,若在gets之前用到了scanf接收了一些变量,而且没有用%*c来过滤最后分割符,在gets前就需要用fflush(stdin)来刷一下,但就全局而言,没有在scanf时就用了%*c好;---

2013-04-08 16:43:55 764

原创 thrift shows CLOSE_WAIL error

常用Thrift搭建WebService,对于线程池的应用,之前一直采用TThreadPoolServer类的实现,本次对垃圾过滤的应用中,在对该类的使用中出现了运行进程的客户端请求链接以增量的方式出现了CLOSE_WAIT状态,当增长到一定程度后,系统不再处理请求(线程池中已无链接可用)。具体错误为:TThreadPoolServer: TServerTransport died on ac

2013-02-26 18:32:05 5063

转载 C++ UTF8编码转换 CChineseCode

一 预备知识 1,字符:字符是抽象的最小文本单位。它没有固定的形状(可能是一个字形),而且没有值。“A”是一个字符,“€”(德国、法国和许多其他欧洲国家通用货币的标志)也是一个字符。“中”“国”这是两个汉字字符。字符仅仅代表一个符号,没有任何实际值的意义。 2,字符集:字符集是字符的集合。例如,汉字字符是中国人最先发明的字符,在中文、日文、韩文和越南文的书写中使用。这也说明了字符和字符集之

2013-01-08 22:21:23 999

转载 编码与工具

1、使用UltraEdit修改当前编辑的文本的编码    第一种方式:File -> Conversion    第二种方式:View -> Set Code Page  如果要在十六进制模式下编辑可以按Ctrl+H 2、对GBK编码的一个普遍误解    根据维基百科上的说明,GBK编码字符的方式包括一字节和双字节编码,00–7F范围内是一位,和ASCII保持一致,此范围

2013-01-08 22:02:02 965

转载 字符编码

1. 概述本文主要包括以下几个方面:编码基本知识,java,系统软件,url,工具软件等。在下面的描述中,将以"中文"两个字为例,经查表可以知道其GB2312编码是"d6d0 cec4",Unicode编码为"4e2d 6587",UTF编码就是"e4b8ad e69687"。注意,这两个字没有iso8859-1编码,但可以用iso8859-1编码来"表示"。2. 编码基本知识最早

2013-01-08 17:32:25 514

原创 再谈文本分析系统移植

这两天做了件前段时间想做而没有空做的事,将上半年搭建的文本分析扩展之后进行各种方式的打包发布。该系统是基于CRF++的,分别经过了分词阶段,词性标注阶段,实习识别阶段,而从实现方式上也经过了单线程,多线程,线程池,线程安全,本地执行,Thrift 服务,控制台接收,文本处理等阶段,其中所含内容甚多,虽在本地可以完美执行,但以静态库或动态库的方式移植至其他服务器却会出现问题,当然代码移植还是完美的。

2013-01-07 18:49:16 874 1

原创 2012.11.15

今天为了在C++平台上调用问题Tag标注签的接口,学用了C++  创建与解析的模块类,和C++ 调用CURL的封装模块类。这两个抽空分析一下,可加到Utility库中。

2012-11-15 19:20:13 598

原创 2012.11.7

这几天一直在做在线的语音识别Demo,核心的识别器是基于Google的的开放接口,使用十分方便,输入为flac格式的文件,输出了JSON格式的结果。但外围框架十分繁琐,大部分在于使用了MIT的Wami网页录音接口。整个的框架涉及的模块较多,有首先是HTML调用了PHP写的录音程序,生成Wav文件,由外围工具flac将其转换为flac格式的文件,再由Python写的识别程序进行识别,并最终将结果返回

2012-11-07 15:18:05 1274

原创 sort自定义类型排序

一个很简单的问题,不过也磨了我好一会,在些总结记录。1. 对于不用写自定义数据结构的情况:static int cmp(const pair& x, const pair& y){if (x.second != y.second)return x.second > y.second;elsereturn x.first > y.first;}

2012-09-21 14:58:40 735

原创 CRF 移植

Part 1.前些天把词性标注的接口与分词的接口全并在一起,终于达到了足够稳定的程度(小数据量自己测试)。为在线上作为服务提供之用,而必须改装为线程安全的版本,就编程习惯而言问题不大:1.将strtok 的使用换成strtok_r ;2. 非线程间共享的全局变量封类进终端管理类,而全局共享的依然可以写成全局变量的形式,比如配置文件类CConfig config("res.config")。但其

2012-08-24 17:20:31 977

原创 SecureCRT rz 上传文件失败问题

在把Windows上的文件传至Linux端时用到SecureCRT,一般小文件都没有问题,文件太大时则出现了上传后的文件只有几K大小,当然大于2个G的是不可能传的上去的了。对于几百M到1G多的大文件要如下处理。单独用rz会有两个问题:上传中断、上传文件变化(md5不同),解决办法是上传是用rz -be,并且去掉弹出的对话框中“Upload files as ASCII”前的勾选。

2012-05-09 10:59:08 44040 2

原创 搭建thrift服务

前两天需要把分词系统做成上线的版本,于是要把分词系统做成服务的形式,这种做服务的方式以前一直用Soeket编程的方式,但这次用了个新的技术。服务器端:Linux+C++客户羰:PHP最初的版本当然是直接用PHP调用外部程序,用的是PHP中system函数,在上一篇文章已有介绍。之后的版本是基本Thrift框架的。Thrift框架很炫,是Facebook的一个技术

2012-04-27 18:50:45 2129

原创 2012.4.24 PHP调用外部函数问题

用PHP调用之前写的分词程序:crf_test:input: 一串字符output: 分好词的字符在用PHP调用crf_test时遇到很蛋疼的权限问题。首先,crf_test在home目录内,导致/var/www/html/dai/demo4seg.php 无权访问该目录下的程序。将crf_test项目移至外目录中,可行。但用Root编译程序后,还需要用chown -R m

2012-04-24 18:44:14 1976

转载 Windows 7下笔记本无线网络共享

1、请却仍您使用的操作系统是微软的Windows 7或者Windows server 2008 R2,正版盗版皆可。(此方法只在Windows 7和Windows server 2008 R2下验证通过,VISTA下未验证,请安装VISTA的朋友也验证一下)2、以管理员身份运行命令提示符(用快捷键WIN+R调出运行然后输入CMD打开命令提示符的非是管理员权限),右击“命令提示符”,选择以“管理

2012-04-22 14:36:12 1042

转载 从A点开始到B点通过最短的路一共有多少条

如果P点和Q点发生事故,不能通行, 有多少条?正常情况:从A到B最短要走6次向右,3次向上,一共9次。这9次中选取3次向上的,其余是向右的,每种选法对应一条路。因此一共有C(9,3)=9!/(3!6!)=84种P,Q发生事故:设P下面的点为C,P上面的点为D。从A到C最短要走2右1上,因此共有C(3,1)=3种。从D到B最短要走4右1上,因此共有C(5,1)=5种。

2012-04-13 11:05:10 6713

转载 只能进入grub,无法启动windows

GRUB支持直接和链式装载的引导方法。GRUB能用于几乎所有操作系统,绝大多数流行的文件系统,以及几乎所有的系统BIOS所能识别的硬盘。 GRUB的特性 注意:如果LILO已经被安装,并且是当前的系统引导装载程序,那并没有必要为了使用GRUB而删除它。清除GRUB在MBR的残留信息- Linux系统相关- ELM’s Blog估计大部分Linux初学者会遇到把Grub安装到MBR 上去

2012-03-26 21:05:34 12182 2

转载 linux下编写动态链接库文件

类似Windows系统中的动态链接库,Linux中也有相应的共享库用以支持代码的复用。Windows中为*.dll,而Linux中为*.so,我来详细的告诉你如何在linux下编写动态库,以及如何使用它.在linux下编写动态链接库的步骤: 1.      编写库的头文件和源文件.2.      把所有涉及到的源文件用如下方式编译为目标文件: g++

2012-03-24 12:48:25 888

原创 Linux 多线程模板

pData是ThreadCalRecomdResult的参数,用一个结构表示 pthread_t* pThreadId = new pthread_t[iThreadCount]; for(int i = 0 ;i         if(pthread_create(pThreadId+i, NULL, (void* (*)(void*))ThreadCalRecomdResu

2012-03-21 19:30:12 569

转载 vc 保存界面上控件为图片

void CDlgDlg::OnSave() {// TODO: Add your control notification handler code hereCRect rect;HBITMAP hBmp;GetDlgItem(IDC_PIC)->GetWindowRect(rect);ScreenToClient(rect);CString strFilte

2012-02-27 22:35:48 641

转载 UTF-8 GBK UTF8 GB2312之间的区别和关系

UTF-8:Unicode TransformationFormat-8bit,允许含BOM,但通常不含BOM。是用以解决国际上字符的一种多字节编码,它对英文使用8位(即一个字节),中文使用24为(三个字节)来编码。UTF-8包含全世界所有国家需要用到的字符,是国际编码,通用性强。UTF-8编码的文字可以在各国支持UTF8字符集的浏览器上显示。如,如果是UTF8编码,则在外国人的英文IE上也能显示

2012-02-24 13:55:16 528

转载 Linux与Windows间的编码

在 Debian Linux 中用 VirtualBox 虚拟了一个 Windows XP。但遗憾的是,Windows XP 的默认编码格式是 GBK,而我的 Linux 编码格式是 UTF-8。这就给两者的中文操作形成困扰。不过VIM编辑器可以很平滑地解决这个问题,具体做法是在Windows和Linux下分别设置两者的VIM配置,设置如下:A) Windows XP 下VIM配置:

2012-02-14 17:29:53 2658 1

原创 CRF条件随机场简介

CRF(Conditional Random Field) 条件随机场是近几年自然语言处理领域常用的算法之一,常用于句法分析、命名实体识别、词性标注等。在我看来,CRF就像一个反向的隐马尔可夫模型(HMM),两者都是用了马尔科夫链作为隐含变量的概率转移模型,只不过HMM使用隐含变量生成可观测状态,其生成概率有标注集统计得到,是一个生成模型;而CRF反过来通过可观测状态判别隐含变量,其概率亦通过标...

2012-02-02 15:28:04 58234 14

转载 CRF++使用小结(转)

1. 简述    最近要应用CRF模型,进行序列识别。选用了CRF++工具包,具体来说是在VS2008的C#环境下,使用CRF++的windows版本。本文总结一下了解到的和CRF++工具包相关的信息。    参考资料是CRF++的官方网站:CRF++: Yet Another CRF toolkit,网上的很多关于CRF++的博文就是这篇文章的全部或者部分的翻译,本文也翻译了一些。2

2012-02-02 15:09:22 35196 6

转载 十月百度,阿里巴巴,迅雷搜狗最新面试十一题

http://blog.csdn.net/v_july_v/article/details/6855788引言   当即早已进入10月份,十一过后,招聘,笔试,面试,求职渐趋火热。而在这一系列过程背后浮出的各大IT公司的笔试/面试题则蕴含着诸多思想与设计,细细把玩,思考一番亦能有不少收获。    上个月,本博客着重整理九月腾讯,创新工场,淘宝等公司最新面试十三题,此次重点整

2012-01-26 01:01:36 2434

转载 深入理解const char*p,char const*p,char *const p,const char **p,char const**p,char *const*p,char**const p

深入理解const char*p,char const*p,char *const p,const char **p,char const**p,char *const*p,char**const p一、可能的组合:(1)const char*p(2)char const*p(3)char *const p(4)const char **p(5)char const**p

2012-01-21 23:10:38 660

原创 2012.1.18

工作内容:调研并整理Murmurhash算法与Cityhash算法,比较其碰撞率,耗时等性能。结果如下: 测试数据量:13584385  Murmurhash2Murmurhash2ACityhash种子长度=40碰撞率0.0137590.0122196

2012-01-18 16:39:57 885

原创 linux命令积累

---------------------------------------------------------------------------------------查看某 文件夹 下文件的个数ls -l |grep "^-"|wc -l 或 find ./company -type f | wc -l 查看某 文件夹 下 文件 的个数,包括 子文件夹 里的。 ls

2012-01-18 15:15:39 576

转载 眼睛直观感受几种常用排序算法

1 快速排序介绍:  快速排序是由东尼·霍尔所发展的一种排序算法。在平均状况下,排序n 个项目要Ο(n logn)次比较。在最坏状况下则需要Ο(n2)次比较,但这种状况并不常见。事实上,快速排序通常明显比其他Ο(n logn) 算法更快,因为它的内部循环(inner loop)可以在大部分的架构上很有效率地被实现出来,且在大部分真实世界的数据,可以决定设计的选择,减少所需时间的

2012-01-16 16:21:32 424

转载 SEO基础: 提高站点在搜索引擎中的排名

您已经创建了一个很棒的站点,接下来该做什么呢?无论这个 Web 站点的目的是销售产品还是提供信息,如果没有人浏览它,您的努力就白费了。让站点受到关注的方法是让它对搜索引擎和实际受众友好。向搜索引擎 “推销” Web 站点本身已经成了一种业务,许多顾问、工具和搜索引擎优化(SEO)站点都可以帮助您的站点吸引搜索引擎的注意。或许现在的信息和资源已经太多了。但是,如果您建立了一个可访问且有用的站点,

2011-12-22 13:36:22 717

转载 笔试面试题

此微软100题V0.2版的前60题,请见这:微软、谷歌、百度等公司经典面试100题[第1-60题]。关于本人整理微软100题的一切详情,请参见这:横空出世,席卷Csdn [评微软等数据结构+算法面试100题]。声明    1、下面的题目来不及一一细看,答案大部是摘自网友,且个人认为比较好一点的思路,对这些思路和答案本人未经细细验证,仅保留意见。    2、为尊重作者劳动成果,凡

2011-12-15 21:44:02 1024

转载 寻找满足条件的两个或多个数

程序员编程艺术:第五章、寻找满足条件的两个或多个数     作者:July,yansha,zhouzhenren。    致谢:微软100题实现组,编程艺术室。    微博:http://weibo.com/julyweibo   。    出处:http://blog.csdn.net/v_JULY_v  。    wiki:http://tctop.wikispaces

2011-12-15 21:30:17 1250

Linux进程控制

讲Linux的进程原理,很明白。进程控制是操作系统对进程进行管理所提供的控 制操作。进程控制至少应该包括进程创建、进程撤销、进程睡眠、进程唤醒、进程执行等操作,它们都使用原语实现。所谓原语是指在执行过程中不允许中断,它属于操作系统内核的一部分,以系统调用的形式提供给用户和操作系统使用。

2013-04-22

简明Python教程

python入门很好的教材,不管有没有编程功底都值得一看

2012-09-25

Linux内核注释

通过对linux 0.11代码的详细注释讲述操作系统的工作原理,不管是需要自己写系统还是想了解系统,都是很好的参考资料

2012-09-25

全过程输出的最大公共子序列算法

带全过程输出的最大公共子序列算法,C++实现。

2012-04-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除