自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

mingyuan's workspace

点滴记录我的学习历程...

  • 博客(277)
  • 资源 (8)
  • 问答 (1)
  • 收藏
  • 关注

转载 理工科专业混得不如其他人的四大原因

作为一个理工科毕业的人,我常常纳闷为什么,身边一个个呆头呆脑,知识毫无系统性可言的职人能爬得那么快、赚地那么多、位置那么好……    痛定思痛,在对自我做出一番反省之后,我发现,理工科专业所训练出来的理工科思维,在以下四个方面,反而形成了阻碍而不是促进作用,从而影响了人生一些重要的规划步骤,现列如下,望与理工科人士共勉:    1、大部分理工科行业知识对于人际交往无用 理工科大

2013-06-12 23:40:30 2203 1

原创 新网站:http://www.searchufo.org开张

新网站:http://www.searchufo.org开张,也可访问如下链接:http://searchufo.org本网站致力于不明飞行物相关网络信息的搜集与展示,为UFO探索方面积累资源。

2013-05-31 12:31:32 2950 2

原创 致青春--观后感

忍不住来吐个槽。 里面的情节和我的大学生活几乎没什么交集。要说有的话,那真是。。。不知道。。想不起来。或许是时间过去的太久了。 观影过程中,觉得影片太长,期间看了大概4-5次时间。第一次是9:05左右,第二次是9:20左右。。。最后一次要看时间,手机死机了。真是不好意思。 总的来说,情节不曲折,故事不感人,但个人觉得很真实。例如:最后曾和阳两个人成了。这就是世事无常

2013-05-06 00:21:25 2051

原创 使用httpclient、htmlcleaner 、xpath 采集新浪微博3G站点数据

0、背景原来对新浪微博的采集主要靠对weibo.com这个入口进行,但是最近发现有人使用weibo.cn这个入口操作。应为weibo.cn对应的是微博的3g版本,基本没有广告,页面小,这样下载数据量会小很多,并且3g版本的采集比较简单。于是就有了这个3g版本的采集程序。写出来,分享给大家,希望对有需要的朋友有所帮助。使用到的类库:httpclient、htmlcleaner

2013-02-15 23:48:39 7896 2

原创 toomanyopenfiles.com

申请的新域名:toomanyopenfiles.com www.toomanyopenfiles.com

2012-11-17 18:19:50 1887

原创 工欲善其事,必先利其器 2012-10-17夜

近期负责一个项目的开发与实施,协调多人参与此项目。在项目开发过程中,对期间亲历的一些事情做了一些思考与总结,归纳为一句话:工欲善其事,必先利其器。             先说一下项目背景。项目是在一个断绝互联网的环境中进行部署,开发(在公司)与部署环境(在客户单位)相互隔离。服务器为Linux,IDE为Eclipse,web容器使用tomcat。只有一个终端机可供部署程序,平时大家都是排

2012-10-18 00:52:25 1846

原创 使用内部线程维护变量持久更新

1.需求    多个线程需要不间断的访问同一个资源,访问方式是只读。该资源需要不断更新,如果资源由访问线程更新会很不方便,比如:访问资源的线程需要通过接口访问改资源,并且需要考虑多个线程同时访问的情况。但如果资源由一个特定线程来维护,而只暴露在外一个提供资源的接口,这样会方便很多。基于这个想法,有了下面的设计。2.实现package Test;import java.util.conc

2012-08-16 20:08:06 1983

原创 一点随想

1、常看、常发微博导致博客荒废。其实,写长篇文章更有助于整理思路;2、工作将近一年,较学生时代有所改变;3、随着工作积累,已经很少遇到特别难以克服的技术问题,面临的问题已经转向业务问题。需要对业务更加熟悉;写作能力逐步提高,这点很重要。4、表达、交流、沟通能力十分重要,需要重点提升;5、社交礼仪需要重点学习;6、新技术需要持续跟进,不然现在的三板斧以后会落伍。怕找不到工作。

2012-07-09 00:43:20 1602

原创 读《文案的力量》有感

微博上看到了Fenng的文章《文案的力量》,深以为然。首先,文案的作用是帮助人理解产品,并将自己的产品推销出去。而文案的创作过程则是一个人思考的过程。如果写不出东西,可以表示对某种产品、某件事的处理方式或许只有一个大概的认识,但还没有达到将思路理顺的一个高度。我自己有一种感觉,就是在写东西的时候并不是现在脑子里面想,然后才写出来的。而是一个惯性的过程,打字的速度跟思维的速度一致。这就像

2012-02-27 23:14:13 2103

原创 HBase配置以及在Windows下连接HBase设置

本文介绍了在Linux环境下以单机模式安装HBase,并在Windows下使用Eclipse进行开发时连接HBase的相关设置。1、  安装Linux系统(ubuntu 10.04server)安装时请安装上附加的open ssh-server。机器名字:ubuntu(cat /etc/hostname,结果是ubuntu)2、  安装java,设置环境变量。在/etc/profile末尾

2011-12-12 01:40:26 19597 6

原创 Ant打可执行jar包指南

笔者以前在项目中使用的最多的打包工具要数fatjar了。打包的时候习惯于先指定可执行类,然后将所有引用的jar包以及源码生成的class一起打到一个包里面,运行程序的时候直接运行命令:java –jar jarname.jar。看似很方便。但是,这样做有两个缺点:1.将所有jar包都整合到一起,导致jar包太大,一般最小几百k,最大十几MB都有,上传至服务器时,耗时较长。2.每次更新jar包,引用

2011-11-27 01:22:49 37354 2

原创 Hadoop 伪分布式下更换默认hadoop.tmp.dir路径

hadoop.tmp.dir是hadoop文件系统依赖的基础配置,很多路径都依赖它。它默认的位置是在/tmp/{$user}下面,但是在/tmp路径下的存储是不安全的,因为linux一次重启,文件就可能被删除。按照hadoop Getting Start中Single Node Setup一节中的步骤走下来之后,伪分布式已经运行起来了。怎么更改默认的hadoop.tmp.dir路径,并使其生效

2011-11-20 17:17:44 31645 4

原创 eclipse+tomcat+solr开发环境配置

由于最近电脑几乎革了windows的命,换成了Linux+虚拟机的配置,在Linux环境下只安装了Eclipse的JEE版本,没有安装MyEclipse。原来熟悉的环境没有了,只能一点一点摸索着配置solr与tomcat的接合。考虑到可能有许多兄弟与我一样习惯了使用MyEcl

2011-08-25 01:39:15 7495 1

原创 在线给solr增加core的方法

步骤:1、下载tomcat、solr、并解压它们2、将solr.war拷贝至tomcat/webapps下面3、将solr/example下面的multicore拷贝至tomcat下面,并改名为solr4将solr/solr.xml中的改为了5、cd tomc

2011-08-24 00:30:38 12851

原创 redis使用初探

第一部分 安装首先访问redis.io下载最新稳定版2.2.12,接着按照下面步骤进行操作0,tar -xvzf redis-2.2.12.tar.gz1,cd redis-2.2.122,make3,edit redis/redis.conf,set

2011-08-20 20:15:57 8108

原创 aaa

\\pP|\\pS

2011-08-05 10:45:18 1669

原创 终于毕业了

7月13号入职,19号办完所有手续。正式脱离学校了。以后的精力主要会放在工作上面,燃烧起大学时学技术的激情。

2011-07-23 00:30:31 1696

原创 关于迷失

本话题将与您共同探讨有关迷失的相关话题。 迷失。什么是迷失?在我看来迷失是一种生活状态,生活在这种状态下的人或许会感觉到非常忙碌但不知究竟为何、为谁而忙;也可能整天闲的发慌,想做点事情又静不下心来,并且不知道自己想做些什么事情。在我看来,这两种情况均非常可怕。 第一种可称之为瞎忙。第二种可称之为浮躁。 瞎忙是没有目标的具体体现。在工作中,我们往往被接踵而至的各种繁杂事物

2011-06-08 00:56:00 1950

原创 Lucene Collector使用例子

<br />Lucene的Collector是一项高级功能,涉及到搜索过程的详细步骤,通过定制Collector可以改变默认搜索,也可以在此阶段收集命中的文档的信息。<br /> <br />下面用一个例子演示如何自定义Collector以及如何在自定义的Collector中实现数据收集功能。<br /> <br />package test;import java.io.IOException;import java.util.Map;import java.util.Set;import

2011-04-28 01:19:00 6849

原创 毕业倒计时

<br />前天,也就是周四,2011年4月21日,硕士毕业论文盲审版+130RMB+两份保密审查表+导师评语已交。<br />正式开始一个月的盲审期。<br /> <br />在这一个月里,又得提心吊胆了…………

2011-04-23 22:41:00 1946

原创 mysql的innodb与myism对on duplicate key update的支持情况

<br />在主键自增的时,对系统插入重复数据,使用on duplicate key update语句更新重复的数据,操作完成之后,得到的主键值不同。<br /> <br />innodb得到的主键是跳跃的,跳过了重复的比如原来id为<1,2>,插入一条数据,跟2重复。之后再插入不重复的数据,得到id不是3,而是4。<br />myism则得到的是3.

2011-04-06 09:46:00 1442

原创 明天

<br />明天,也就是2011年4月6日,硕士毕业论文要正式提交送审。这意味着毕业离我越来越近。

2011-04-05 00:19:00 693

原创 Solr1.4如何不使用默认的复合文件结构(CompoundFile)

Solr1.4在建索引的时候默认使用复合文件格式,在索引较大时无疑会增加索引创建的时间以及系统的IO。对于没有使用master/slave架构的应用来说,这样做鸭梨很大。 本文将阐述如何改变这一默认策略。

2011-02-18 16:59:00 1095

原创 Lucene获取没有存储的排序字段的值

<br /> <br />Lucene索引时字段可以设置为存储(Store.YES)或者不存储(Store.NO)。一般情况下,搜索完成之后会得到一个TopDocs对象,用它去获取ScoreDoc之后取出Document。使用Document获取存储在索引中的值。但有些排序字段是不存储的,在构造Document时使用的下面的方式:<br />doc.add(new Field("time", "2001", Store.NO, Index.NOT_ANALYZED_NO_NORMS));<br />这样在获

2011-02-16 10:41:00 4055

原创 搜索速度问题:本地索引与hdfs平台索引,中文搜索与英文搜索速度不一致

<br />晚上在oschina上看见有人发帖,大概意思如下:<br /> <br />1.在Nutch+hdfs平台进行搜索,hdfs存放索引的时候搜索速度比索引存放在本地的时候慢。<br />2.中文搜索速度比英文搜索速度慢(或者搜英文比搜中文慢,作者没详细描述,但肯定是速度不一致,呵呵)<br /> <br />分析了一下,觉得<br /> <br /><br />大概两方面的问题:<br />1.搜索不提倡在hdfs上面进行。因为在hdfs上面的索引可能不在同一节点,搜索可能需要请求n个节点才能完成

2011-01-15 23:40:00 2336

转载 10 Common Hadoop-able Problems Webinar——十个适用Hadoop的场合

10 Common Hadoop-able Problems WebinarView more presentations from Cloudera, Inc..

2011-01-12 00:08:00 1063

原创 日记-2011-01-02

昨晚十点半接到张旭辉电话,问第二天有事没,没事去他那儿吃饭,并顺便通知钊哥与王栋强。电话一通之后,确认钊哥第二天见导师,我跟小强一块过去。不知不觉已三点。一觉醒来已是10点。在床上赖到12点才起床做了点饭,1.30出门,2.30左右跟小强回合,将近4点到了老张那里。其实,这是一堆程序员的聚会。搞什么的都有,java,.net,oracle,andriod。其中有几位还在国内知名公司就职。想想,本科毕业将近三年后,付出基本都有了还不错的回报。晚上大伙做了一桌吃的,20分钟搞定晚饭,开始扯淡。。今天接触的人基本

2011-01-02 23:59:00 677

原创 Lucene V3.0.2分词、高亮

Lucene版本升级到3.0以后,原来的分词方式(token=tokenStream.next())的方式已经被抛弃,转而使用TermAttribute,本例使用SmartChineseAnalyzer演示如何分词,此外,本例还演示了如何对命中文档域进行高亮显示。

2010-12-13 17:24:00 3367 3

原创 Lucene V3.0.2搜索例子

Lucene3.0开始已经完全抛弃了2.x使用的Hits类,转而使用TopDocs,TopFieldDocs。本例演示了如何使用这两个类进行搜索。

2010-12-13 17:11:00 3374 7

原创 怎样用正则表达式去除文本中的标点符号

近期从事检索工作,需要相应用户的输入请求,返回搜索结果。由于难以预料用户的输入内容,如果不加过滤处理,在检索阶段很可能抛出异常。用户的输入可能风格迥异,最常见的可能算是夹杂各种标点符号的输入了。怎样过滤?下面的 正则表达式可能会帮助你解决问题://pP|//pS 我们用一个例子演

2010-11-28 19:50:00 33334 1

转载 Facebook每月1350亿条海量信息的存储方案

<br /><br />也许你已经在一些地方看到这个消息,Facebook 已经开发一款新的社会化收件箱,集成了电子邮件、即时通讯、短信、文本信息、Facebook站内信息。最重要的是,他们需要每个月存储 1350 亿条信息。他们在哪里存储这些信息?Facebook的Kannan Muthukkaruppan 在《信息背后的技术》一文中给出一个令人惊奇的答案:HBase。HBase 击败了MySQL、Cassandra和其他一些选项,成为了Facebook的选择。<br /><br /><br />  为什

2010-11-21 10:07:00 1636

转载 Linux 环境变量的设置、查看方法

<br />转载自 kisscooler最终编辑 kisscooler<br />1.Linux的变量种类<br />    按变量的生存周期来划分,Linux变量可分为两类:<br />    1.1 永久的:需要修改配置文件,变量永久生效。<br />    1.2 临时的:使用export命令声明即可,变量在关闭shell时失效。<br />2.设置变量的三种方法<br />    2.1 在/etc/profile文件中添加变量【对所有用户生效(永久的)】<br />    用VI在文件/etc/p

2010-11-18 16:01:00 815

原创 Java RMI初探

rmi初步,rmi与Eclipse联合调试

2010-11-18 15:59:00 2385

原创 https下载文件http header 设置

<br />使用https协议和使用http协议 在下载文件方面有些不同<br />项目中一个一套代码兼具了http与https协议 在文件下载方面遇到了问题,弹出窗口提示<br /><br />Internet Explorer 无法下载95_1277800039580.doc来自222.2.2.2<br />Internet Explorer无法打开该Internet站点。请求的站点不可用,或找不到。请以后再试.<br /><br />参考了帖子http://zprill.javaeye.com/blo

2010-11-18 15:52:00 6499

原创 就要搬家了

<br />2010年05月11日 星期二 下午 11:55<br />从去年10月来北京之后就一直住在现在的地方,已经半年有余了。<br />由于时至初夏,房间里面总感觉湿湿潮潮的。另外有一点是我住在一线天,门的对面是别人的房子,这个地方阳光永远照射不到,是一个阴暗的角落;每次睡觉之前都要将窗帘拉上,以免开灯的时候影响别人睡觉。等到要睡觉得时候再把窗帘拉开,希望第二天早晨阳光能漫射进来一点点,好让我感觉到不是黑夜。<br />每次洗完衣服我的房间总是湿湿潮潮,闲出来的空间能湿掉1/4,有时候第二天晚上回来

2010-11-18 15:51:00 697

转载 【ZT】java中相对路径,绝对路径问题总结

<br /><br />FROM:http://www.blogjava.net/simie/archive/2007/07/29/133094.html<br />1.基本概念的理解<br />  绝对路径:绝对路径就是你的主页上的文件或目录在硬盘上真正的路径,(URL和物理路径)例如:<br />C:/xyz/test.txt 代表了test.txt文件的绝对路径。http://www.sun.com/index.htm也代表了一个<br />URL绝对路径。<br />  相对路径:相对与某个基准目录

2010-11-18 15:49:00 817

原创 linux shell 格式化时间

shell 格式化日期echo `date +%Y-%m-%d/ %H:%M:%S` 效果:2010-05-07 00:22:22

2010-11-18 15:46:00 3744

原创 从百度空间到CSDN——博客搬家源码

1.CSDN的博客使用的是MetaWeblog Api,可以使用xml-rpc进行操作。下面的代码演示了怎样使用api发布博客package cn.mingyuan.baidu2csdn.core;import java.io.FileOutputStream;import java.io.IOException;import java.net.MalformedURLExcept

2010-05-04 16:48:00 2582 3

原创 终于把博客搬回到csdn了

写了个小程序,终于把在百度空间的博客搬到csdn了。中午补补程序的注释、说明下午上源码

2010-05-04 12:16:00 614

转载 惠普前总裁孙振耀指点职业规划

2009年01月20日 星期二 下午 04:01我有个有趣的观察,外企公司多的是25-35岁的白领,40岁以上的员工很少,二三十岁的外企员工是意气风发的,但外企公司40岁附近的经理人是很尴尬的。我见过的40岁附近的外企经理人大多在一直跳槽,最后大多跳到民企,比方说,唐骏。外企员工的成功很大程度上是公司的成功,并非个人的成功,西门子的确比国美大,但并不代表西门子中国经理比

2010-05-04 12:11:00 640

C++ Boost Thread 编程指南

C++ Boost Thread 编程指南 pdf整理版

2009-09-10

MSXML6.0 SDK

安装之后文档在C:\Program Files\MSXML 6.0\Docs目录 不想在此下载的可到如下地址下载: http://www.microsoft.com/downloads/details.aspx?FamilyID=993c0bcf-3bcf-4009-be21-27e85e1857b1&displaylang=en

2009-08-30

计算机程序设计技巧,第一卷:算法

计算机程序设计技巧,第一卷:算法 pdf格式

2009-08-27

linux命令详解

linux的命令详解

2008-04-20

linux命令详解

linux的命令详解

2008-04-20

Linux - Teach Yourself Shell Programming in 24 Hours

Linux - Teach Yourself Shell Programming in 24 Hours

2008-04-20

面向对象软件工程的软件过程改进

介绍了软件工程、面向对象技术、统一建模语言UML 等概念,分析了以往软件开发过程中存在的弊端,阐述了统一软件过程在现今软件开发中的作用.

2008-03-24

RUP_BestPractics_Chinese(统一开发过程)

rational统一开发软件开发队伍的最佳实践

2008-03-24

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除