自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(52)
  • 收藏
  • 关注

原创 多个Slave数据库Master库负责数据更新

上传漏洞0xx1 上传漏洞简介如何确定web应用程序是否存在上传漏洞呢?比如,有些网站,用户可以上传自己的个性头像,即图片文件,但是文件上传时并没有做验证,导致用户可以上传任意文件,这就是上传漏洞 0xx2 解析漏洞2.1 什么是解析漏洞?攻击者利用上传漏洞时,通常会与web容器的额解析漏洞配合使用,常见的web容器为iis nginx Apache tomcat,下面具体说下常见容器的解

2016-07-21 11:19:24 207

原创 将该程序打包成wordcount.jar下MapReduce编程模型

WordCount示例及MapReduce程序框架  首先通过一个简单的程序来实际运行一个MapReduce程序,然后通过这个程序我们来哦那个结一下MapReduce编程模型。 下载源程序:/Files/xuqiang/WordCount.rar,将该程序打包成wordcount.jar下面的命令,随便写一个文本文件,这里是WordCountMrtrial,并上传到hdfs上W

2016-07-21 02:59:03 301

转载 主要分析jdk1.5的3种并发集合类型中的ConcurrentHashMap

集合是编程中最常用的数据结构。而谈到并发,几乎总是离不开集合这类高级数据结构的支持。比如两个线程需要同时访问一个中间临界区(Queue),比如常会用缓存作为外部文件的副本(HashMap)。这篇文章主要分析jdk1.5的3种并发集合类型(concurrent,copyonright,queue)中的ConcurrentHashMap,让我们从原理上细致的了解它们,能够让我们在深度项目开发中

2016-07-21 02:57:52 202

原创 在SQLite中直接使用“DELETE FROM TableName

SQL标准中有TRUNCATE TABLE语句,用来清空表的所有内容。但SQLite不支持这个语句。在SQLite中直接使用“DELETE FROM TableName”就可以了。对于大多数DBMS来说,用DELETE不如用TRUNCATE 速度快,因为TRUNCATE 不用访问整个表,不用记录数据的变动。 SQLite虽然不支持TRUNCATE,但它对DELETE做了优化:“When t

2016-07-21 02:56:17 1010

原创 SQLite虽然不支持TRUNCATE不用访问整个表

SQL标准中有TRUNCATE TABLE语句,用来清空表的所有内容。但SQLite不支持这个语句。在SQLite中直接使用“DELETE FROM TableName”就可以了。对于大多数DBMS来说,用DELETE不如用TRUNCATE 速度快,因为TRUNCATE 不用访问整个表,不用记录数据的变动。 SQLite虽然不支持TRUNCATE,但它对DELETE做了优化:“When t

2016-07-21 02:55:17 475

原创 在线商城商品价格监控软件PriceCIS技术要点

悟空的购物助手给比较购物带来了很好的用户体验,新近发布的有道购物助手如出一辙,通过走浏览器插件路线,大大提高了使用的便利性,用户感觉到比价具有更高的智能,自动化程度更高。由于在线商城的商品价格是透明的,即便京东、新蛋等用图片显示价格,现有的软件技术,要识别价格图片仅仅是举手之劳。

2011-07-12 22:34:12 1935 2

原创 企业竞争情报分析工具--Mozenda研究

<br />企业竞争情报分析和报告系统是一个复杂的企业IT系统,而且根据不同企业的部署和使用目标,企业竞争情报系统需要数量可观的定制开发功能部件。但是,离不开两大基石:数据采集和数据挖掘。此前,大量博文针对不同项目需求讲解了怎样组合使用网络信息采集工具MetaSeeker和企业竞争情报分析工具SliceProfile,本文将讲述一个竞争产品Mozenda,下面的内容主要来自Mozenda的一篇商业软文,该商业软文主要用作推广网络信息采集工具Mozenda,所以,文章透漏的有价值的信息不多;另外,

2011-03-15 20:32:00 2189

原创 怎样采集淘宝宝贝的用户评价信息

AJAX网站内容使用Javascript编程语言动态显示,给普通网络爬虫造成很大障碍,而网站采集器MetaSeeker嵌入了一个完整的web浏览器,理论上说,网页上能够看到的内容都能够采集下来。但是,Javascript是一个强大的编程语言,AJAX网页内容显示技巧千变万化,在不定制的情况下,几乎不可能存在一个能够应对所有AJAX情形的网站采集器。这也是MetaSeeker快速升级的原因:将最新出现的 AJAX开发模式纳入其中。2010年5月,MetaSeeker再次为提升AJAX网站采集能力进行了升级,主

2011-03-15 20:13:00 2465

原创 什么是协同决策(Collaborative Decision-Making)

<br />Collaborative Decision-Making,简写为CDM,翻译成协同决策。这是多种决策方式(styles)中的一种新方式,例如,《Decision Making Styles will influence your decisions!》列举了下面几种决策方式:Collaborative Decision MakingEmotional Decision MakingIntuitive Decision Making<br />因为决策过程是大脑运行过程,必然

2011-01-30 11:15:00 1848

原创 什么是Web数据挖掘

<br />今天读了一篇长E文Web Content Mining,从题目看好像没有什么特别,也许是普通的商业软文,但是,看了第一段后发现是关于Dr. Bing Liu of the University of Illinois Chicago的,所以打足精神一句一句把它读完。第一次遇到Bing Liu这个名字是在一年前,华中科技大学一博士朋友推荐给我《Sentiment Analysis and Subjectivity》这篇综述,就是Bing Liu写的,然后又阅读了《Opinion

2011-01-30 10:50:00 1263

原创 怎样设计网站信息采集方案

<br />前面大部分博文是关于怎样用MetaSeeker完成网站信息采集任务,本文推荐一篇文章,关于新闻调查公司ProPublica怎样DIY网站信息采集方案。这篇文章是Scraping for Journalism: A Guide for Collecting Data,详细讲解了ProPublica使用哪些开源和免费软件DIY网站信息采集方案,怎样为新闻调查任务采集信息,怎样解决网站采集的难题。<br />这个案例的采集目标:从美国7家制药公司的网站上采集受赞助医生的姓名和赞助费

2011-01-23 17:16:00 1708

原创 360doc文档内容的拷贝和粘贴

<br />本文重点说明怎样抓取HTML网页的片断,也就是说,不只是文字内容,还需要保留HTML标签,相当于将一段HTML文档完整切下来。本文使用了一个实际案例,所以,在讲解MetaSeeker操作方法之前先费点笔墨讲讲项目的来龙去脉。<br />目前互联网上充斥着大量垃圾信息,垃圾信息的范畴很广,广义上讲,非法盗版、为商业推广目的的热文转载等等都算作垃圾信息,参见《什么是社会性媒体》中关于垃圾信息的解释。这就导致互联网内容重复率极高,不利于搜索引擎将本源网站呈现给用户(根据我的体验Google在识别原

2011-01-21 16:57:00 2035

原创 抓取京东商城商品价格

《抓取当当网商品价格》一文讲解了怎样使用MetaStudio的基本功能,GooSeeker拥有多项发明专利,其中一项有关怎样提高网站抓取规则的适应性,也就是说当网站的网页结构变化了,对抓取规则的影响尽量降到最低。GooSeeker称其为FreeFormat技术。本文讲解怎样使用这个技术。

2011-01-01 16:36:00 4148 2

原创 基于工作流引擎的网页数据抽取原理

网页数据抽取的原理十分简单,达到目的的途径十分直接,所以,寥寥几行程序代码就可以实现一个特定的网页数据抽取程序,编程语言可以是所有流行语言,例如,Python、Java、PHP、Delphi、Javascript、Ruby以及微软技术体系,当前的境况是:存在大量的分散开发的网页数据抽取程序片断;这些程序片断都是专门针对特定网站开发的;无法适应目标网页结构的变化。

2010-05-17 22:52:00 1533 2

原创 解决翻页提取Web数据中断问题

主题demo_comment_list_dangdang的翻页操作用javascript代码实现的,Web数据提取软件工具包MetaSeeker能够模拟用户点击行为,执行翻页操作,这是利用网页URL提取Web数据的普通网络爬虫和提取软件无法做到的。 MetaSeeker一般从用于翻页的那个超链接上提取线内线索(in-thread clue),这类线索不在MetaSeeker

2010-05-12 21:55:00 1277

转载 什么是词性标注(POS tagging)

转自[1] 词性标注也叫词类标注,POS tagging是part-of-speech tagging的缩写。维基百科对POS Tagging的定义:In corpus linguistics, part-of-speech tagging (POS tagging or POST), also called grammatical tagging or

2010-04-19 18:39:00 3366

原创 加载数据抽取样本页面

样本页面的结构代表了同一主题下的所有页面结构,所以,为样本页面定义的数据抽取规则可以普遍用于所有同一主题的页面数据抽取任务。当前互联网处于Web2.0时代,典型的网站都是以数据库为后盾,而HTML页面是以特定模板动态生成的,样本页面结构反映了网页模板结构,因此,为样本页面定义的数据抽取规则并推广应用于同一主题的所有页面的思路是可行的。当然,当前仍然有大量的手工编写的静态HTML网页

2010-04-08 09:20:00 1166

原创 网络信息采集软件重大升级

免费网络信息采集软件工具包MetaSeeker V4.3.2稳定运行了三个多月,由外界看来,这段时间是GooSeeker的沉默期,事实上,GooSeeker开发团队集中所有骨干成员,对MetaSeeker进行了一次重大改进,主要的改进目标是提高信息采集性能和可靠性。所有核心代码都改用C++编写,直接调用Mozilla底层API,这三个月是一个极其痛苦的历程,代码量超5倍增加,遇到问题无人可

2010-04-07 10:37:00 1159

原创 活用网页抓取软件

网页抓取软件同普通的搜索引擎的网络爬虫不同,需要定题网络爬虫,而且需要将抓取到的网页数据进行格式化,也就是将网页上的大量的无关内容过滤掉,只抓取与主题有关的数据,所以,需要准确定位被抓取的数据,要应对各种各样的网站和网页内容结构,评价网页抓取软件的一个重要指标是适应性,可以从两方面考量:给定一个目标网站,网页抓取软件能否快速定制网页抓取规则并启动网页抓取操作,当需要广泛地从互联

2010-01-08 09:28:00 1332

原创 网页内容抓取在市场营销调研分析领域的地位走势

Next Gen Market Research刚刚发布了一个调查报告概要,关于当前和今后使用的市场营销调研分析技术,数据挖掘及其相关技术仍然是最主流技术,下面两图引自原文当前按重要性从高到低排序数据挖掘——Data MiningWeb流量分析学——Web Analytics数据分析可视化——Data VisualizationCRM分析学——CRM A

2010-01-05 10:56:00 1200

原创 基于语义结构标注的网页信息提取原理

书摘: 网页信息提取软件工具包MetaSeeker虽然使用专利FreeFormat技术和独特的网页信息定位技术以提高网页信息提取规则的适应性,但是,也不能确保先前定义的信息结构和网页信息提取规则总是能够适用目标网站,也许目标网站会进行彻底改版,不仅仅改变CSS风格和页面显示样式,而是改变HTML网页结构,对内容重新进行组织,MetaSeeker能够有效地自主应对前者,但是,

2010-01-03 21:31:00 1172

原创 增强AJAX/Javascript/JS网页文字抓取能力

本文是对《AJAX动态网页信息提取原理》的补充,前文总结了两种AJAX网页文字的抓取方法:网页文字在加载HTML文档(document)的时候用Javascript代码获取和展现,此Javascript代码在发送load事件之前运行,那么接收到load事件表示所有的内容都加载完了网页文字在加载完HTML文档(document)后在某个时刻用Javascript代码获取和展现,此

2009-12-28 11:49:00 1658

原创 怎样设置Vista用户环境变量

怎样设置Vista用户环境变量?也许有人觉得这是一个好搞笑的问题,但是我为了配置网页信息抓取软件MetaSeeker的开发环境,愣是折腾了一上午,以前用Windows XP等版本一弄就好,咋就无法配置Vista的用户环境变量呢?Java环境变量怎么配呢。做了无数试验,Google了无数遍,后来google英文网站,发现微软的技术支持页面,才知道世界变得快。错误做法控制面板-

2009-12-04 13:09:00 1338

原创 网站数据采集软件MetaSeeker技术基础

 网站数据采集软件MetaSeeker强大的技术基础造就了卓越的快且准的数据采集能力,牢固确立了在商业情报采集(商业智能 BI)、垂直搜索、手机互联网领域的地位。同其它网站数据采集软件不同,MetaSeeker有坚实的技术基础:FreeFormat、语义标注、语义结构知识库,以多项基础专利为后盾,从而塑造了无与伦比的“三快、三准”的网站数据采集特性: 三快:

2009-11-28 16:36:00 1373

原创 网页抓取/网站内容采集与著作权/知识产权

网页抓取和网站内容采集是否会触犯著作权或其它知识产权相关的法律?这是一个很难讲清楚的问题,好像也没有明确的法律条文规定,当前的状态就像一个网友说的:  This(controversy) comes up regularly, but since there arent any defining court cases for "fair use", you have to se

2009-10-13 22:23:00 1170

原创 MetaSeeker确保电子政务和服务型政府网站向语义网络时代跨越

电子政务以及服务型政府网站已经建设了多个阶段,例如,第一阶段、网上发布政务信息;第二阶段、网上信息非实时交互,主要提供表格和邮件方式;第三阶段、网上办事服务,可以下载表格,进行简单的流程操作(参见谈“E告”与电子政务、政府门户网站建设的创新)。即将迈入的全面的数字生活和数字城市时代展现了别开生面的景象,通过数字媒体等数字手段,个人、社会团体、政府部门等将进行前所未有的和谐的协同的互动和沟通,原

2009-10-10 09:42:00 4150

原创 用XSLT实现网页内容抓取软件

编了20年程序,感觉比较难用的编程语言是Perl和XSL,XSL学起来很容易,但是用起来陷阱很多,即使想作一个菜鸟级程序员,都得了解它的原理,下面重点总结几个必须要了解的XSL原理和使用技巧。此前,网页抓取/数据抽取/信息提取工具包MetaSeeker为什么没有使用正则表达式提取内容?一 文对比了DOM + XPath + XSLT 和正则表达式应用在提取网页数据信息和屏幕抓取领域的优缺点

2009-10-06 22:18:00 724 1

原创 使用Javascript XMLHttpRequest模拟表单(Form)提交上传文件

很长时间没有遇到一个两天两夜调不通的问题了,值得花时间好好总结一下。 客户端用Javascript XMLHttpRequest在Mozilla平台上实现,服务器环境是Tomcat +Spring,以前实现过多次文件上载功能,但是以前的实现有个特点:要么客户端手工编程,要么服务器侧手工编程,但是从来没有两边都手工编程的。例如,在客户端,直接用浏览器的Form提交,不用管底层是怎样将

2009-09-26 17:44:00 1087

原创 网页内容提取软件工具MetaSeeker用于产品定价和竞争指数计算(competitor indexing)

竞争指数计算(competitor indexing)是市场营销人员用于产品定价的技巧,是营销组合(marketing mix)中的4P之一(中文解释可以参见营销组合和4P)。可见竞争指数计算既有悠久的历史,又是市场营销广泛使用的技巧。 通俗的讲,竞争指数计算就是根据竞争者的产品价格计算出自己的产品价格,计算中需要根据竞争策略采用合适原则,例如,采用与竞争者一致

2009-09-24 19:52:00 681

原创 观察语义搜索引擎的走向

采用网页抓取/数据抽取/异构数据对象搜索软件工具包MetaSeeker的搜索引擎SliceSearch建设的威客任务、招标项目、外包项目搜索引擎上线几个月了,用户点击量逐日上升。文章MetaSeeker工具包适合做垂直搜索和产品比价服务概括地解释了基于语义结构知识库建立的异构数据对象搜索引擎的独特的优点和用户体验:基于语义推荐的搜索结果提炼(drill down),突破了以数据库查

2009-09-21 17:22:00 452

原创 为网络营销采集email地址

在互联网(web)上,email营销是一个很有效的手段,在国外媒体上email营销和RSS营销排在网络营销的前两位,主要是因为两者有很强的送达效能,使用电子邮件可以进行各种各样的在线的营销推广活动,例如:发送产品广告推荐新产品和服务列表发送商业资讯邮件商业资讯或活动通知因此,对于企业或者营销人员来说,采集和保存越多的电子邮箱地址,表示建立了越广的社交网络,进而表示拥

2009-09-21 17:16:00 472

原创 个性化互联网和推荐引擎

推荐引擎并不是一个新概念,大型的电子商务网站(例如,Amazon)很多年前就采用了推荐引擎技术,但是从2008年开始,陆续看到很多采用推荐引擎技术的网站开始盈利,推荐引擎就更受关注了,最近又有谷歌个性化搜索服务被诉侵权的报道,涉案专利是2000年申请的,而个性化是推荐引擎的核心,由此可见,推荐引擎的历史很久远。本文对其历史进行回溯,将一些关键资料进行汇集,方便产品和市场战略研究。推

2009-09-19 22:09:00 346

原创 实时互联网(real-time web)是一种新的通信方式

Twitter的流行推动了实时互联网(real-time web)浪潮,实时互联网到底是什么,文章The Real-Time Web: A Primer从多个方面剖析了实时互联网的意义。下面针对针对作者提出的“实时互联网是一种新的通信方式”进行思考和研究。 文章Top 5 Web Trends of 2009: The Real-Time Web引述了Paul Buchhe

2009-09-16 21:00:00 490

原创 从语义网络向结构化数据回归

RWW最新文章Top 5 Web Trends of 2009: Structured Data将结构化数据(structured data)放在最前面讨论,虽然没有排序的意味,但是至少说明当人们思考新技术潮流时结构化数据首先出现在头脑中。 我在一系列文章中讨论了结构化数据(structured data)和结构化数据互联(linked data)及其与语义网络(semantic

2009-09-12 11:09:00 366

原创 使用XSLT抓取网站内容抽取网页数据的技巧

网站内容抓取和网页数据抽取几乎是每一个网站建设者都要使用的技术,网站的网页都是HTML或者XHTML文档,数据抽取/信息提取方法分成两类:1,通过正则表达式提取内容,(X)HTML文件就是一个文本文件,直接使用正则表达式在指定地方提取内容即可,"指定地方"不一定是绝对定位,例如,可以参照HTML的标签定位,更准确2,利用DOM、XML、XPath、XSLT提取内容,(X)HTML文

2009-09-04 21:06:00 541

原创 使用FreeFormat提高抓取网站页面抽取网页内容数据的精度

网站内容虽然最终都是用HTML/XHTML文档在浏览器上展现的,但是,由于(X)HTML文档是一种半结构化的文档,而且文档中经常存在错误文法,例如,某些标签只有起始标签却遗漏了结束标签等,要实现一种通用的灵活的高精度的信息提取算法是比较难的。网页抓取/数据抽取/信息提取软件工具包MetaSeeker利用了专有的FreeFormat技术,大大提高网站内容抽取的精度和适应力。虽然FreeF

2009-08-31 22:28:00 425

原创 学习网络营销和网站推广

最近在威客任务/外包项目/招标项目搜索网站上不断观察威客们怎样做网络推广,搜索关键字“推广”“发帖”“营销”“流量”“网店”“销售”等等,看到了众多案例,大开眼界,以前只做过大型产品的品牌营销,在网络上做推广和促销是门外汉,我就跟踪了一个网友雇佣威客做网店中的童装的促销过程。此网友发布了一种计件任务,按照威客们在各种网站上发帖量计算报酬,两帖算一件,1块钱,该任务发布当天就有几

2009-08-27 20:47:00 372

原创 网页抓取/数据抽取/信息提取软件工具包MetaSeeker怎样做垂直搜索和商品比价服务

假设要做一个书籍搜索和比价服务,使用网页抓取/数据抽取/信息提取软件工具包MetaSeeker做出来的服务与其他类似的网站有什么不同呢?确实有很大的不同,主要原因是MetaSeeker工具包中的SliceSearch搜索引擎是一个综合的异构数据信息对象管理系统,做出来的垂直搜索在用户体验方面有很大的不同。下面将详细讲解一下。垂直搜索服务,同普通搜索不一样,垂直搜索抓取到HTML

2009-08-25 18:47:00 961

原创 网页抓取/数据抽取/信息提取工具包MetaSeeker中的定题网络爬虫

定题网络爬虫,也叫聚焦网络爬虫,这种爬虫只抓取与某个主题相关的页面,抓取下来一个页面后并不抽取所有的文本内容,而是将主题相关的内容提取出来,一般格式化成有结构的数据,同时抽取超链接时只选择与某个主题相关的,概括地说就是爬行的范围是受控的。 网页抓取/数据抽取/信息提取软件工具包MetaSeeker里面的网络爬虫是一个定题爬虫,定题爬虫和普通网络爬虫没有优劣之分,只是应用场合和目的不

2009-08-24 17:30:00 1304

原创 网页抓取/数据抽取/信息提取工具包MetaSeeker的翻页抓取原理

目标网站上内容很多时会用多个页显示,网页抓取/数据抽取/信息提取工具包MetaSeeker能够翻页并提取每一页的内容,目标网站上展现多页的方法有多种: 1,页面上每一页用另外一个URL地址表示。翻这样的网页是最好实现的,将这个URL提取下来,以后某个时间加载这个地址的页面就行了。而MetaSeeker还可以在一个信息提取事务中将所有的也翻完,在这个会话中这些URL称为线内线索,

2009-08-24 17:21:00 975

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除