自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(45)
  • 资源 (1)
  • 收藏
  • 关注

原创 Sina Weibo API 10006 错误

最近在爬新浪微博的数据,遇到了这个错误:400:The request was invalid.  An accompanying error message will explain why. This is the status code will be returned during rate limiting. error:source paramter(appkey) i

2014-02-28 09:45:26 7484 3

原创 win7+thinkpad t400

昨天下午笔记本莫名出现问题。启动后停留在用户登陆界面,屏幕狂闪,无法通过指纹识别进行用户验证,也无法输入密码进行用户验证。几番重启,并进入安全模式修复,问题依然存在。猜测指纹识别的驱动出现了问题。于是又进入安全模式,将此驱动卸载,果然此问题解决。正常启动后,又发现无法上网,插入网线后无法识别网络,也搜不到任何无线信号。去service里一看,发现DHCP等几个服务都无法启动。最初怀疑是系统

2013-04-21 10:10:54 1277

原创 OpenCV+VS2010+JavaCV+Eclipse+Win7

今天花了下午加晚上的时间,终于配置好了OpenCV的环境,总结一下。1. OpenCV 2.4.2 Windows版下载:    http://opencv.org/downloads.html安装解压到某一个路径环境变量设置:%opencv%\build\x86\vc10\bin”和”%opencv%\build\common\tbb\ia32\vc10”  (%opencv

2012-10-04 00:17:43 5321 8

原创 Some Useful Corpora

Suggested Corpora and Resources in English if not stated otherwise(not all of them are free of charge)Genre-specific corpora:- Genre: SMS Messages = NUS SMS corpus:http://wing.comp.nus.edu.s

2012-01-17 14:25:02 890

原创 How To Choose a Good Scientific Problem

作者: Uri Alon1,* 1Department Molecular Cell Biology, Weizmann Institute of Science, Rehovot 76100, Israel作者的研究领域是生物方面的,但给的建议也使用语其他领域。 记录几点,

2011-10-08 11:49:53 794

原创 创建Symbolic Link

今天在linux服务其上创建一个symbolic link,使用的命令是:ln -s "path/source file" "path/target file"  遇到一个错误:ln: creating symbolic link "path/target file": No s

2011-07-26 23:25:05 3459

原创 How to Succeed in Graduate School

原文: How to Succeed in Graduate School: A Guide for Students and Advisors作者:Marie desJardins (AI方向的女大牛)这篇文章是帮助PhD学生如何做研究,帮助导师如何更好地指导学生。读后记录几点

2011-07-09 11:50:40 1144

原创 暑假计划

<br />回国3周,现在已经是第4天了,要好好规划一下时间。<br /> <br />第一周(读书):<br />1、重新阅读Struts和Hibernate基础教程<br />2、阅读Scientific Writing<br />3、写读书笔记,学Latex的用法<br /> <br />第二周(看Paper):<br />1、读SMS相关的论文,写Related Work<br />2、继续读Scientific Writing<br /> <br /> <br />第三周(写Paper)<br /

2011-05-19 09:46:00 460

原创 Quote of Richard Hamming

<br /> <br /> An email from maillist sent by supervisor.<br /> <br /> It's a quote from Richard Hamming.<br />http://en.wikipedia.org/wiki/Richard_Hamming<br /> <br />--------------------------------------------------------------<br /><br />A quote from th

2010-12-29 13:15:00 480

原创 Mechanical Turk

<br /> <br />Amazon's Mechancial Turk 是一个在线的marketplace。在该平台上,requester可以发布任务,worker(turker)可以完成一些任务并得到相应的报酬。以下这个图可以简单表示该平台的功能,是为上次group meeting的presentation做的。<br /> <br /><br /> <br />今天读了一个关于AMT的帖子,有些感触,为正在做的AMT HIT更加担心。<br /> <br />http://www.technolog

2010-12-29 13:01:00 1561

原创 数据库项目小结

<br />上周几乎一整周都在做数据库的项目,最后周日晚还全组通宵。人生第三次通宵,明显感觉体力不支,今天头还晕晕的。<br /> <br />下午去给老师做demo演示,不知什么原因,一个复杂的query就是出不来结果。反正整个过程有一些纠结,算是做的project中,演示最为纠结的一次。<br /> <br />我除了完成安排的任务外,还额外编了个用户界面。好久没有用swing写界面了。人生第一个图形界面,就是用java swing写的,那是java课程的project。居然这次还参考了下当时的代码。发

2010-11-09 19:14:00 876

原创 POS-tagger程序总结

<br />晚饭后的food coma,不能高效地做其他事情,利用这个时间总结一下上一周编代码的收获。<br /> <br />上上周周末以及上周一、二,都在调试POS-tagger的程序,这是一个老师布置的project。代码量不大,思路也不复杂。做Natural Language Processing的肯定都熟悉Part-Of-Speech是什么。 <br /> <br />POS简单说来,对于给定的一些句子/文章进行处理,给每个单词添加标签。比如简单的: I want to race. 程序经过处理后

2010-10-25 19:10:00 4139 6

原创 Working on your thesis: how to get started and how to keep it going?

9.8号去听了学校CDTL举办的一场session,由学院IS的一个A/P主讲的,听了受到的一些启发。整理了一下笔记,写成日志。1、The first step of academic: choose supervisor     ask senior student to recommend:    1) two supervisors to choose (can be list as candidate prof)    2) two supervisors not to choose( exclud

2010-09-19 13:51:00 562

原创 养成让自己进步的26个习惯

<br />养成让自己进步的26个习惯<br />  一. 永远不说三个字“不可能”。<br />  二. 凡事第一反应是找方法,而非是找借口<br />  三. 遇到挫折时大声对自己说:“太棒了,我终于有机会成长了。”<br />  四. 不说消极的话,不落入消极的情绪当中,一旦出现问题应正面处理。<br />  五. 凡事先定订目标,并尽量制作梦想版。<br />  六. 凡事预先做计划,尽量将目标视觉化。<br />  七. 是工作和学习的时间,就要全部的用在工作和学习上,不要盗用工作和学习的时间。<

2010-09-16 12:28:00 442

原创 How to Read a CS Research Paper

这篇文章不知道是在哪里下载的,作者是Philip W. L. Fong。读后很有感触,翻译并且记录一下。读一篇学术论文分为3个层次:理解,评估和综合。1、Comprehension理解误区:仅仅关注技术实现(算法等)读论文时,要不断地问自己以下4个问题。好论文在摘要部分就概括性地回答了这些问题。1)论文试图解决的问题-》论文的适用范围    研究的动机?论文研究的领域是否有分歧(criss)? 克服了已有方法的缺点?置疑已有的经典研究方法?2)文章宣称的贡献-》创新点    提出新的问题? 对研究问题有新的

2010-09-06 11:30:00 905

原创 Productivity tips, tricks and hacks for academics

http://matt.might.net/articles/productivity-tips-hints-hacks-tricks-for-grad-students-academics/在英文原文的基础上,进行了翻译和整理,写下了是为了更好地督促自己不断地改进。1、Optimize transaction costs优化事物代价1)对于自己最有成效的行为,要减少做这些事的代价。      每天听英语对于提高听力很有效,那么就要努力创造听英语的条件。如前一晚上,把60s scientific news放

2010-09-04 16:16:00 792

原创 Drago Radev's skill list for Ph.D. students

potential supervisor的主页推荐phd学生看的,看过后根据自己的理解,对各种要求进行了分类。希望自己在未来能够达到以下的要求。http://mblog.lib.umich.edu/ScholarZen/archives/2007/10/drago_radevs_sk.htmlProf. Dragomir Radev's Advice for Ph.D. Students(with contributions from Jahna Otterbacher...)List of skills

2010-09-01 19:25:00 739

原创 Interview with Dean

今天下午去见了大boss,也就是学院的院长。去之前做了一些功课,看了他的论文,还心存一丝希望。此刻,心情非常的复杂。虽然之前已经设想过多种场景,但这样的场景还是没有料到。见到Dean,他停下手中的事,让我坐下。然后不说话,我只好主动做自我介绍: My name is XX, graduating from XX university. And I am very interested in databae…… Dean马上问,你的mathematics怎么样?我答:A or A-。他继续问:programm

2010-08-31 16:21:00 593

转载 (转载)PhD 的误区与生存法则

<br /> (转载)PhD 的误区与生存法则<br />误解一:PhD是继续学习新的知识。<br />错,PhD不是知识的消费者,而是知识的生产者。如果你对此没有胆量与长期的学术承诺,及早读个master,去产业界吧!<br />1、    中国的本科、研究生教育不提倡独创性,提高学生的自主思维能力,造成很多PhD学生读死书,背概念,造成在北美生存困难。首先,要破除对PhD的误解,在4-7年的PhD生涯内,重要的是提出原创的理论与验证方法。<br />2、    兴趣是最好的导师,PhD是漫长的人生生涯,

2010-08-28 13:18:00 914

原创 论文笔记——Making Database Systems Usable

Making Database Systems UsableH. V. Jagadish Adriane Chapman Aaron ElkissMagesh Jayapandian Yunyao Li Arnab Nandi Cong YuIntroduction数据库得到了很大的发展,但还远远不够:比如很多数据存在数据库外,维护数据库的成本高,普通用户无法直接使用数据库。原因:数据库的usability不够(schema过于复杂,SQL语句编写query不容易等等)。本文讨论的是基于用户角色的usabi

2010-08-27 16:02:00 739

原创 计划

要列个学习的计划:编程语言:    学习python继续找导师:1、等待prof kan的回复2、看usability方面的论文,想idea3、去见prof leow,了解computer vision4、继续找其他老师上课:1、database复习,看教程,project做计划2、nlp学习,看ppt3、旁听introduction to AI4、旁听computer vision的课5、旁听Algorithm的课(好难)复习:1、高等数学(微积分)2、概率论和数理统计3、线性代数QE:1、制定复习计划2

2010-08-24 18:28:00 436

原创 论文笔记——Creating Speech and Language DataWith Amazon’s Mechanical Turk

Creating Speech and Language DataWith Amazon’s Mechanical TurkChris Callison-Burch and Mark DredzeIntroduction本文主要介绍 NAACL-2010 workshopAmazon’s Mechanical Turk是一个crowdsouring site,能够为researcher提供大量的data。疑问:1)  获取training data的cost降低后,能够做一些什么研究2)  获取新的trai

2010-08-17 17:11:00 734

原创 论文笔记——CrowdFlow: Integrating Machine Learning with Mechanical Turk for Speed-Cost-Quality Flexibility

CrowdFlow: Integrating Machine Learning with Mechanical Turk for Speed-Cost-Quality Flexibility Alexander J. Quinn1, Benjamin B. Bederson1,2,3, Tom Yeh3, Jimmy Lin1,2IntroductionNLP等领域的问题,可由人或者机器来完成,各自特点为:1)  人:准确率高,但耗时、耗钱,代价高2)  机器:速度快,但准确率低,机器学习需要大量的trai

2010-08-17 15:59:00 1337

原创 论文笔记——How to ConQueR Why-Not Questions

How to ConQueR Why-Not QuestionsQuoc Trung Tran and Chee-Yong ChanBackground数据库查询时,常常出现一些非用户预期的结果。如果系统提供:1)why操作(为什么某一些结果会出现?)2)why not操作(为什么某些结果没有出现)这两种操作,为用户解释查询结果,就能消除用户的疑惑,也能更好地帮助用户改进查询语句。Related Work1.  Why操作一般的数据源工具就能解释。         2.Why not操作          

2010-08-08 15:28:00 822

原创 Mysql使用总结

      毕业设计的程序主体编好了,运行少量数据没有任何问题,一旦数据量增加到22w,运行时间就长得令人发指。导师建议,程序中尽可能地减少与数据库交互的次数,尽可能地把工作丢给数据库完成。在这一思想的指导下,我三天大幅修改程序,部分代码几乎是翻新了一遍。总的来说,运行时间确实得到了很大的改善,把这三天的经验总结一下。      1、update操作          使用prepar

2010-04-12 21:01:00 746

原创 mysql随机数据生成并插入

      dblp数据库中引用信息很少,平均一篇论文引用0.2篇。使用dblp做实验数据集的某篇论文提到,可以随机添加引用信息。受此启发,我打算为每一篇论文都添加20篇随机引用,于是就写出了如下的sql语句:      String sql = "insert into citation(pId1,pId2) values( (select pId from papers limit ?

2010-04-10 18:38:00 5545

原创 Mysql存储Java BitSet(转)

Storing and Retrieving java Bitset in MySQL databaseBy nfitzgerald Leave a Comment Categories: java and programming Tags: coding, java, mysql, programmingI had one of those frustrati

2010-03-20 12:03:00 2839

原创 实践出真知

     Mysql中,可以使用: RENAME {DATABASE | SCHEMA} db_name TO new_db_name; 来修改database的名字。(database和schema的含义一样)。      比较疑惑的是,网上的某些方法是修改data目录下的文件名(文件名和数据库名相同),说这种方法只适合引擎为MyISAM的。对于INNODB,有一些方法:    1、

2010-01-18 18:40:00 444

原创 建立inex,优化sql

     昨天下午,一直都在解决去除重复元组和数据过大sql无法执行成功的问题。网上找到了多种去除重复元组的方法,对于数据量较小时,都是可以顺利执行的。可当数据量上升到几十万条时,sql执行就直接当掉了。不断地变换新的sql语句,但问题依然没有解决。     今天上午,顺利解决了问题。总结如下:     1、show processlist         查询当前sql执行的

2010-01-15 11:12:00 497

原创 Sql在Mysql的执行

     昨天解析了dblp.xml,存入数据库,生成了若干张临时表。今天上午,对这些临时表进行处理,然后存入实验设计的表中。数据库的数据量比较大,50多M,80多万条记录。因而执行sql时,就遇到了很多问题。 1、去除重复tuple     原始dblp.xml中,同一论文的存在几个完全相同的,所以要对数据库中的数据进行处理。网上搜到一段代码:   1) 查询某些属性相同tupl

2010-01-14 11:50:00 867 3

原创 DBLP数据解析

因为参考论文使用的实验数据是dblp,所以我的论文也打算使用dblp的数据。在网上没有找到解析dblp.xml,然后存入数据库的例子。所以只能自己动手,丰衣足食。dblp官方网站提供了一个简单的使用sax解析的例子(http://dblp.uni-trier.de/db/about/simpleparser/),在例子的启发下,我写出了自己的xml解析版本。  一、dbl

2010-01-13 19:07:00 16510 155

原创 Effective keyword-based Selection of Relational Databases(未完成)

第一篇论文小结,估计只能以翻译为主了。 作者:Bei Yu、Guoliang Li、Karen Sollins、Anthony K.H. Tung发表会议:sigmod 08 一、简介      基于关键词的关系数据库信息检索成为一个热点技术,结合了数据库技术和信息检索(IR)。用户不需了解数据库的结构和SQL等数据库操纵语言,像使用搜索引擎一样,只需要输入关键字的信息,就

2010-01-09 18:44:00 977

原创 论文初始

       新年,生病,休息了几天。病好,没有片刻的停息,开始研究毕业论文。毕业论文很难,暂且不说要自己设计算法,就是验证算法的部分,也是难度大得惊人。我要根据2篇论文,做出2个系统。然后2个系统将嵌在一起,成为我的测试环境。想想,都觉得恐怖。       论文很早之前就看过了,模模糊糊地有一点印象,但要具体地描述,却又说不出来。大概是记忆系统的问题,中国人大脑擅长记忆的是中文字符。外国

2010-01-08 18:35:00 649

原创 DBInputFormat+DBOutputFormat

      今天晚上研究了一下DBInputFormat和DBOutputFormat。在cloudera的说明下,最终跑通了2个例子程序http://www.cloudera.com/blog/2009/03/06/database-access-with-hadoop/。虽然理论部分还没有完全清楚,但总算有了一点收获。cloudera上没有完整的代码,尤其是DBOutputFormat部分只有

2009-12-24 23:07:00 4422 2

原创 hadoop+cygwin+eclipse+vista

     终于在vista上配好hadoop了,总结一下 。   一、软件下载    1、下载hadoop_0.19.2: http://hadoop.apache.org    2、下载cygwin_1.7: http://www.cygwin.com/ (在线安装时,选择http://www.cygwin.cn站点进行下载,下载速度比较快)    3、下载eclipse_3

2009-12-12 15:59:00 3745

原创 wordcount例子程序

      hadoop-0.20.1里的wordcount源代码与0.19.2已经有较大的区别了。在新版本的hadoop中,org.apache.hadoop.mapred包被org.apache.hadoop.mapreduce所取代。不过为了保持兼容性,org.apache.hadoop.mapred还是存在于core里。      ibm的技术文章(http://www.ibm.c

2009-12-09 11:43:00 1381

原创 Vista下卡巴斯基无法更新

      hp电脑彻底崩溃了,需要换主板,又出了保质期,我一狠心换了一台thinkpad,于是有需要装很多软件。新电脑的操作系统是vista business,以前hp是vista home basic,所以在vista下安装软件总归有了一点心得。       我使用的杀毒软件是卡巴斯基2010反病毒软件,在以前的hp上运行没有任何问题。但是在thinkpad上遇到了无法更新的问题,错误

2009-12-01 14:26:00 1106

原创 计划

      周四下午收到了nus的preliminary  offer,总算尘埃落定了。正在苦苦研究的rp也不用写了,很是开心。接下来,空闲时间很多很多。没有课了,每一天都是周末。要好好地计划一下,光阴一旦逝去就会懊恼不已。       1、学英语。在上GRE寒假班前,要把单词背2遍。第一遍用17天背词法,第二遍背一遍细节。修改背单词的计划,每天都要填写计划。背一遍时会比较痛苦,预计每天会

2009-11-08 13:32:00 477

原创 第10章音频——Hack70~78

    决定不再按照章节顺序了,先挑自己感兴趣的看。        java.awt.Toolkit.beep()只能发出一个音频嘟嘟声,好像我以前编程时用过。     Java为播放内存中的简单音频提供了两种内置方法:applet中的AudioClips和JavaSound。(顺便可以复习下applet)。这一章后面介绍2中扩展方法:Java Media Framework(JMF)

2009-10-19 21:39:00 1273

原创 第一章JComponent——hack1~12

1、有动态效果的图像按钮     核心代码就是设置按钮在按下、滑过等动作时的图像。         button.setPressedIcon(new ImageIcon("images/button-down.png"));        button.setRolloverIcon(new ImageIcon("images/button-over.png"));        b

2009-10-18 13:57:00 784

Java参数传递PPT

关于Java参数传递的PPT,详细介绍参数传递的类型。彻底理解Java只有唯一传递方式——值传递。

2008-04-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除