自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

LuLu侠的专栏

一切皆有可能

  • 博客(83)
  • 资源 (7)
  • 收藏
  • 关注

原创 Git配置 多账户SSH KEY

现在用到git的地方越来越多了,工作中公司服务器会用到,开源项目上也会用到,这就涉及到Git多账户在一台电脑上的配置和管理了。     第一步:如果第一个账户已经配置好了,跳到第二步。打开git-bash输入命令:                         $ ssh-keygen -t rsa -C "[email protected]" -f ~/

2016-07-16 15:18:17 4458

转载 从源码到apk——apk打包过程

Android程序是怎么从源码变成可以安装使用的apk的流程官方版详细版上面就是一个关于构建过程的一个典型的流程图。aapt(Android Asset Packaging Tool)给你的Activity提供所需的资源文件,如 AndroidManifest.xml,XML文件,并编译它们。同时产生R.java文件,使你可以在java代码中引用这些资源。aid

2016-04-01 21:15:00 12533

转载 Android WebView 缓存处理

原文地址: http://www.open-open.com/lib/view/open1392188052301.html当我们加载Html时候,会在我们data/应用package下生成database与cache两个文件夹:我们请求的Url记录是保存在webviewCache.db里,而url的内容是保存在webviewCache文件夹下.WebView中存在着两种缓存:

2016-04-01 20:08:23 695

原创 Android 启动时黑白屏问题

一、为什么启动时会有黑白屏现象    黑白屏现象其实是启动activity的window背景颜色,这个背景颜色在主题中可以修改。        二、    解决方法:    其实只要给activity加上自定义的主题,在主题中修改windowBackground属性即可,或者设置主题为透明,但透明主题在有些机器上会出现莫名其妙的错误。        1.使用透明主题,在布局中设

2016-04-01 17:11:08 1061

转载 App调试内存泄露之Context篇

Context作为最基本的上下文,承载着Activity,Service等最基本组件。当有对象引用到Activity,并不能被回收释放,必将造成大范围的对象无法被回收释放,进而造成内存泄漏。下面针对一些常用场景逐一分析。1. CallBack对象的引用    先看一段代码:123456789@Overrid

2016-03-28 09:04:44 1417

原创 内存优化onLowMemory 和 onTrimMemory

一、简介OnLowMemory是Android提供的API,在系统内存不足,所有后台程序(优先级为background的进程,不是指后台运行的进程)都被杀死时,系统会调用OnLowMemory。OnTrimMemory 是 Android 4.0 之后提供的一个API,系统会根据不同的内存状态来回调。根据不同的内存状态,来响应不同的内存释放策略。它的主要作用是提示开发者在系统内存不足的

2016-03-24 16:52:17 805

转载 MAT工具使用

一、安装MAT    eclipse MAT插件: http://www.eclipse.org/mat/downloads.php二、使用1.打开ADT的DDMS视图,在devices列表中选择一个进程(这里选择oschina app进行分析)并点击红框处,然后点击右边那个按钮这时就会出现MAT的overview界面2.界面分析

2016-03-24 15:57:15 1000

翻译 Android SystemClock类

一、声明public final class SystemClock extends Object(是一个final类)二、包结构java.lang.Object   ↳android.os.SystemClock三、类概述 核心计时设施。三种时钟都是有效的,它们不应该被混淆:  1.S

2016-03-18 01:22:50 5657

转载 Git命令参考手册(文本版)

git init                                                  # 初始化本地git仓库(创建新仓库)git config --global user.name "xxx"                       # 配置用户名git config --global user.email "[email protected]"

2016-03-17 05:26:44 465

原创 使用msysGit管理GitHub代码

代码管理在日常开发中是非常重要的,现在主要使用的代码管理工具就有svn和git。今天就记录下怎么用msysGit管理GitHub上的代码。一、在GitHub上注册账号,然后创建代码库  1.进入GitHub网址:https://github.com注册即可  2.创建代码库     2.1进入github首页     2.2点击右上角创建代码库           

2016-03-17 05:11:52 615

原创 Android Activity生命周期详解

温故而知新,重新复习记录下学过的东东。一、Activity的生命周期图第一次调用一个Activity就会执行onCreate方法Activity处于可见状态的时候就会调用onStart方法Activity可以得到用户焦点的时候就会调用onResume方法Activity没有被销毁的时候重新调用这个Activity就会调用onRestart方法Activity被遮挡住的时

2016-03-11 14:51:36 944

转载 Android应用开发性能优化完全分析

1 背景其实有点不想写这篇文章的,但是又想写,有些矛盾。不想写的原因是随便上网一搜一堆关于性能的建议,感觉大家你一总结、我一总结的都说到了很多优化注意事项,但是看过这些文章后大多数存在一个问题就是只给出啥啥啥不能用,啥啥啥该咋用等,却很少有较为系统的进行真正性能案例分析的,大多数都是嘴上喊喊或者死记住规则而已(当然了,这话我自己听着都有些刺耳,实在不好意思,其实关于性能优化的优质博文网上也还是

2016-03-10 22:46:28 1089

转载 Android的Drawable缓存机制源码分析

Android获取Drawable的方式一般是Resources.getDrawable(int),Framework会返回给你一个顶层抽象的Drawable对象。而在Framework中,系统使用了享元的方式来节省内存。为了证明这一点,我们来写一个小demo:我们在我们的Android项目中引入一个简单的图片test.png。由于我们只是为了享元的结论,我们定义一个简单的Activity,并

2016-02-28 02:59:15 540

转载 Android样式的开发:Style篇

前面铺垫了那么多,终于要讲到本系列的终篇,整合所有资源,定义成统一的样式。哪些该定义成统一的样式呢?举几个例子吧:每个页面标题栏的标题基本会有一样的字体大小、颜色、对齐方式、内间距、外间距等,这就可以定义成样式;很多按钮也都使用一致的背景、内间距、文字颜色、文字大小、文字的对齐方式等,这也可以定义成样式;网络加载的进度条基本也都是一样的,同样可以定义成样式;不喜欢系统的弹出框样式,那也

2016-02-28 02:35:09 1364

转载 Android样式的开发:Property Animation篇

前篇文章说过,Android框架还提供了两种动画体系,前一篇已经总结了视图动画(View Animation)的用法,本篇则接着总结另一种动画体系——属性动画(Property Animation)的用法。视图动画只能作用于View,而且视图动画改变的只是View的绘制效果,View真正的属性并没有改变。比如,一个按钮做平移的动画,虽然按钮的确做了平移,但按钮可点击的区域并没随着平移而改变,还

2016-02-28 02:33:40 400

转载 Android样式的开发:View Animation篇

drawable汇总篇讲过两个动画,animation-list定义帧动画,animated-rotate定义旋转动画,这两个属于drawable动画。除了drawable动画,Android框架还提供了另外两种动画体系:视图动画(View Animation)和属性动画(Property Animation)。视图动画比较简单,只能应用于各种View,可以做一些位置、大小、旋转和透明度的简单

2016-02-28 02:31:55 396

转载 Android样式的开发:drawable汇总篇

Android有很多种drawable类型,除了前几篇详细讲解的shape、selector、layer-list,还有上一篇提到的color、bitmap、clip、scale、inset、transition、rotate、animated-rotate、lever-list等等,本篇文章将汇总介绍所有剩下的drawable资源。普通图片图片是最常用的drawable资源,格式包括:p

2016-02-28 02:30:45 1127

转载 Android样式的开发:layer-list篇

上图Tab的背景效果,和带阴影的圆角矩形,是怎么实现的呢?大部分的人会让美工切图,用点九图做背景。但是,如果只提供一张图,会怎么样呢?比如,中间的Tab背景红色底线的像素高度为4px,那么,在mdpi设备上显示会符合预期,在hdpi设备上显示时会细了一点点,在xhdpi设备上显示时会再细一点,在xxhdpi上显示时又细了,在xxxhdpi上显示时则更细了。因为在xxxhdpi上,1dp=4px,所

2016-02-28 02:29:22 599

转载 Android样式的开发:selector篇

上一篇详细讲了shape的用法,讲解了怎么用shape自定义矩形、圆形、线形和环形,以及有哪些需要注意的地方。不过,shape只能定义单一的形状,而实际应用中,很多地方比如按钮、Tab、ListItem等都是不同状态有不同的展示形状。举个例子,一个按钮的背景,默认时是一个形状,按下时是一个形状,不可操作时又是另一个形状。有时候,不同状态下改变的不只是背景、图片等,文字颜色也会相应改变。而要处理这些

2016-02-28 02:27:56 601

转载 Android样式的开发:shape篇

一个应用,应该保持一套统一的样式,包括Button、EditText、ProgressBar、Toast、Checkbox等各种控件的样式,还包括控件间隔、文字大小和颜色、阴影等等。web的样式用css来定义,而android的样式主要则是通过shape、selector、layer-list、level-list、style、theme等组合实现。我将用一系列文章,循序渐进地讲解样式的每个方面该

2016-02-28 02:25:34 742

转载 Android Drawable 那些不为人知的高效用法

转载请标明出处:http://blog.csdn.net/lmj623565791/article/details/43752383,本文出自:【张鸿洋的博客】1、概述Drawable在我们平时的开发中,基本都会用到,而且给大家非常的有用。那么什么是Drawable呢?能够在canvas上绘制的一个玩意,而且相比于View,并不需要去考虑measure、layout,仅仅只要去考虑如何dr

2016-02-28 02:15:21 494

转载 Android Fragment 生命周期图

Fragment生命周期图:Fragment与Activity生命周期对比图:2   生命周期分析1. 当一个fragment被创建的时候,它会经历以下状态.onAttach()onCreate()onCreateView()onActivityCreated()2. 当这个fragment对用户可见的时候,它会经历以下状态。onStart()onResum

2016-02-27 15:25:13 432

转载 Android ContentProvider和Uri详解

ContentProvider的基本概念:1.ContentProvider为存储和读取数据提供了统一的接口2.使用ContentProvider,应用程序可以实现数据共享3.android内置的许多数据都是使用ContentProvider形式,供开发者调用的(如视频,音频,图片,通讯录等)一、使用ContentProvider(内容提供者)共享数据ContentProvid

2016-02-27 14:18:26 453

转载 ANDROID垃圾回收器机制和强引用、软引用、弱引用、虚引用

先说一下 GabageCollection:             GC是垃圾收集的意思(GabageCollection)。和JAVA一样,ANDROID系统也是由GC来自动回收内存的。android中一个应用的启动,android系统都会为这个应用分配一个dalivk虚拟机,以便这个应用运行在这个独立的虚拟机上,可是一个虚拟机内存大小一般也是限制的(20M左右)。可见,一个应用的运行所申

2016-02-27 12:10:37 621

转载 Android 网络--Volley+OkHttp+Https

Volley 已经发布很长时间了, 也已被广泛应用, 相关教程到处都是. 本文只说两个值得注意的地方.本文讲解部分比较少, 请参阅提供的相关链接. 完整的实现代码在 Github dodocat/AndroidNetworkDemo 可能看起来比这里更清晰.使用 OkHttp 作为传输层的实现.Volley 默认根据 Android 系统版本使用不同的 Http 传输协议实现.

2016-02-26 17:31:50 1374

转载 Android 图片缓存之内存缓存技术LruCache,软引用

转自:http://blog.chinaunix.net/uid-26930580-id-4138306.html每当碰到一些大图片的时候,我们如果不对图片进行处理就会报OOM异常,这个问题曾经让我觉得很烦恼,后来终于得到了解决,那么现在就让我和大家一起分享一下吧。这篇博文要讲的图片缓存机制,我接触到的有两钟,一种是软引用,另一种是内存缓存技术。先来看下两者的使用方式,再来作比

2016-02-26 16:43:52 576

转载 Android URI简介

就Android平台而言,URI主要分三个部分:scheme, authority and path。其中authority又分为host和port。格式如下:scheme://host:port/path举个实际的例子:content://com.example.project:200/folder/subfolder/etc\---------/  \-------------

2016-02-26 15:38:56 435

转载 Android Studio常用快捷键(eclipse版)

这边讲的常用快捷键是指做完Keymap到Eclipse后的,不是纯Android Studio的,这边主要讲下比较常用的一些快捷键:Ctrl+G / Ctrl+Alt+Shift+G:查询变量或者函数或者类在哪里被使用或被调用,后者是前者的复杂表现,可以选择查询范围等。Alt+H:查找功能,全局查找F4:查看类继承关系F2:查看文档说明(函数使用说明)Ctrl+E:查看最近打开

2016-02-24 17:54:33 460

转载 Android应用如何实现换肤功能

本系列专题培训适用范围:初级Android程序员,即有J2SE基础和Android初级水平。J2SE基础是指掌握JAVA语法,1.5、1.6新增的语法不完全掌握也没关系。了解基本的面向对象思想、能编写简单的J2SE程序,掌握基本的调试方法,熟悉Swing更好。Android初级是指掌握Activity、Service、BroadcastReceiver、Intent、SQLite、UI组件的使用,

2016-02-23 15:06:29 436

原创 Android开发懒人库 -- ButterKnife 用法

平时,我们的那一系列findById是一个“浩大的工程”样例如下这是曾经一个项目的一个填童虎数据表单的一个Activity,这是一系列的声明public class UserInfoActivity extends Activity implements OnClickListener { TextView userNameTxt; RelativeLayout sexLa

2016-02-22 11:46:34 1459

原创 Android studio 设置注释模板以及函数注释快捷键

一.添加代码注释模板点击菜单栏的“File“->“Settings”,打开Settings窗口。点击“IDE Settings”下面的“File and Code Templates”,然后选中Templates里面的Class。然后选中Includes tab下面的File Header。在最

2016-02-20 21:39:37 12843

原创 加密算法介绍

一.简介  据记载,公元前400年,古希腊人发明了置换密码。1881年世界上的第一个电话保密专利出现。在第二次世界大战期间,德国军方启用“恩尼格玛”密码机,密码学在战争中起着非常重要的作用。  随着信息化和数字化社会的发展,人们对信息安全和保密的重要性认识不断提高,于是在1997年,美国国家标准局公布实施了“美国数据加密标准(DES)”,民间力量开始全面介入密码学的研究和应用中。

2016-02-18 13:55:28 5985

原创 开源库

1.图片裁剪:https://github.com/Yalantis/uCropHow We Created uCrop

2016-02-17 11:23:58 376

转载 android SQLite 批量插入数据慢的解决方案 (针对于不同的android api 版本)

SQLite,是一款轻型的数据库,被广泛的运用到很多嵌入式的产品中,因为占用的资源非常少,二其中的操作方式几乎和我们接触的数据库不多,甚至只有几百K的他自然会被需求者青睐,下面讲一下在这样的轻型数据库中怎么对他进行一些读写操作。  之前做选择联系人的时候出现如果一个手机里联系人超过2000的话,往数据库里面插入会非常耗时,不同的手机存储的条数不同,这个存储的数量和手机的内存有很大的关系,往往取

2016-01-29 14:40:17 663

转载 Android的ListView数据更新后,如何使最新的条目可以自动滚动到可视范围内

在ListView的layout配置中添加 android:transcriptMode="alwaysScroll"[html] view plaincopyListView      android:id="@+id/listView"      android:layout_width="match_parent"      android:layout_heig

2016-01-28 11:16:01 1455

转载 Android中查看应用签名信息

一、查看自己的证书签名信息如上一篇文章《我的Android进阶之旅------>Android中制作和查看自定义的Debug版本Android签名证书 》地址:http://blog.csdn.net/ouyang_peng/article/details/49023569中所介绍的一样。通过命令查看生成的baiduMapLoc-release-key.keystore 的相关信息,命令如

2016-01-28 11:07:59 446

转载 Android KeyCode列表

电话键 KEYCODE_CALL拨号键5KEYCODE_ENDCALL挂机键6KEYCODE_HOME按键Home3KEYCODE_MENU菜单键82KEYCODE_BACK返回键4KEYCODE_S

2016-01-28 11:01:57 463

转载 8 个最优秀的 Android Studio 插件

Android Studio是目前Google官方设计的用于原生Android应用程序开发的IDE。基于JetBrains的IntelliJ IDEA,这是Google I/O 2013第一个宣布的作为Eclipse的继承者,深受广大Android社区的欢迎。在经过漫长的测试阶段后,最终版本于去年12月发布。Android Studio是一个功能全面的开发环境,装备了为各种设备——从智能手表到

2016-01-28 11:00:40 442

转载 Stutio 插件 jimu Mirror实时预览xml

用过 Sketch 的朋友应该都知道一个叫 Mirror 的功能,它可以将你的设计稿放到手机上预览,为设计师们提高了不少效率。而今天我要介绍的jimu Mirror ,和 Sketch Mirror 类似,可以将 Android 的 xml 实时放到手机上预览。但是现代化的 IDE 都已经提供在 IDE 内实时预览 xml 的功能,**jimu Mirror** 有啥用呢?有用!还是相当有

2016-01-28 10:51:05 1502

转载 Android string.xml 显示特殊符号

项目中要在string.xml 中显示特殊符号,如@号冒号等,直接写肯定不行啦。。只能考虑使用ASCII码进行显示:@号 @:号 :空格  以下为常见的ASCII十进制交换编码: --> !-->!"-->"#-->#$-->$%-->%&#038

2016-01-27 11:46:14 561

ultrareplace5.02.zip

免费的文件批量查询替换工具

2016-04-02

解决Android应用启动黑白屏Demo

解决Android应用启动黑白屏Demo

2016-04-01

搜索引擎优化魔法书

目录 关于这本书.............................................................................................................................................1 第一章 搜索引擎基础............................................................................................................................2 第一节 什么是搜索引擎....................................................................................................................2 一、搜索引擎的作用......................................................................................................................2 二、搜索引擎的定义......................................................................................................................4 第二节 搜索引擎的基本工作原理.....................................................................................................4 一、抓取.........................................................................................................................................5 二、索引.........................................................................................................................................5 三、排序.........................................................................................................................................5 第三节 搜索引擎的分类....................................................................................................................6 一、网页级搜索..............................................................................................................................6 二、垂直搜索.................................................................................................................................6 三、元搜索引擎..............................................................................................................................6 四、目录搜索.................................................................................................................................6 五、集成搜索.................................................................................................................................7 第四节 搜索引擎的未来....................................................................................................................7 一、快速化.....................................................................................................................................7 二、多样化.....................................................................................................................................7 三、智能化.....................................................................................................................................7 四、社会化.....................................................................................................................................7 五、个性化.....................................................................................................................................8 第五节 主要搜索引擎介绍................................................................................................................8 一、Google.....................................................................................................................................8 二、Yahoo....................................................................................................................................12 三、百度.......................................................................................................................................13 四、搜狗.......................................................................................................................................15 五、中文搜索引擎列表................................................................................................................16 第二章 搜索引擎营销基础..................................................................................................................17 第一节 什么是搜索引擎营销..........................................................................................................17 一、搜索引擎营销的定义............................................................................................................17 二、搜索引擎营销的价值............................................................................................................17 三、搜索引擎营销原理................................................................................................................18 第二节 搜索引擎营销的特点..........................................................................................................19 一、广泛使用...............................................................................................................................19 二、用户主动查询,针对性强....................................................................................................19 三、获取新客户............................................................................................................................19 四、竞争性强...............................................................................................................................20 第 1 页 搜索引擎优化魔法书 SEO Magic Book 浩维互动免费电子书 www.timev.net 五、动态更新,随时调整............................................................................................................20 六、门槛低,投资回报率高........................................................................................................20 第三节 搜索引擎营销的目标..........................................................................................................21 一、被收录...................................................................................................................................21 二、排名靠前...............................................................................................................................21 三、被点击...................................................................................................................................21 四、客户转化...............................................................................................................................21 五、提高品牌知名度....................................................................................................................21 第四节 搜索引擎营销的形式..........................................................................................................22 一、搜索引擎登录........................................................................................................................22 二、固定排名和广告....................................................................................................................23 三、按效果付费排名....................................................................................................................24 四、自然排名...............................................................................................................................24 第三章 搜索引擎优化基础..................................................................................................................25 第一节 为什么要搜索引擎优化.......................................................................................................25 一、搜索引擎优化的定义............................................................................................................25 二、搜索引擎优化的价值............................................................................................................25 三、SEO和SEM的关系...............................................................................................................26 四、SEO和付费排名的关系........................................................................................................26 第二节 搜索引擎对SEO的态度.......................................................................................................27 一、Google...................................................................................................................................27 二、Yahoo....................................................................................................................................29 三、百度.......................................................................................................................................30 四、搜狗.......................................................................................................................................34 第三节 白帽SEO和黑帽SEO...........................................................................................................37 第四节 搜索引擎优化的发展..........................................................................................................39 一、SEO的发展历史....................................................................................................................39 二、SEO在中国............................................................................................................................40 三、SEO的发展方向....................................................................................................................42 第五节 关于搜索引擎优化的一些观点...........................................................................................43 一、搜索引擎优化合法吗?........................................................................................................43 二、会不会和搜索引擎对着干?................................................................................................43 三、搜索引擎是否会人工干预?................................................................................................44 四、我的网站有大量的优质原创内容,所以我不需要SEO了。............................................44 五、SEO没有技术含量或SEO需要很高深的技术....................................................................44 六、大网站那样做了,我也向他们学习....................................................................................44 七、SEO企业或SEO工具的保证排名宣传................................................................................44 八、稳定的排名............................................................................................................................45 九、SEO的目标就是获得排名第一的位置或尽可能多的访问量............................................45 十、竞争对手无法破坏我的排名................................................................................................45 第四章 SEO相关的搜索引擎技术......................................................................................................46 第 2 页 搜索引擎优化魔法书 SEO Magic Book 浩维互动免费电子书 www.timev.net 第一节 搜索引擎机器人..................................................................................................................46 一、什么是搜索引擎机器人?....................................................................................................46 二、如何辨别搜索引擎机器人身份............................................................................................47 第二节 超链分析..............................................................................................................................47 一、基本原理...............................................................................................................................48 二、工作步骤...............................................................................................................................48 三、搜索效果...............................................................................................................................49 四、超链分析技术的应用............................................................................................................49 五、存在的缺陷............................................................................................................................50 第三节 中文分词..............................................................................................................................50 一、什么是中文分词?..................................................................................................................50 二、中文分词的意义和作用........................................................................................................50 三、中文分词技术........................................................................................................................51 四、分词中的难题........................................................................................................................53 五、中文分词的应用....................................................................................................................53 六、中文搜索引擎技术................................................................................................................54 第四节 基于词意的文本分析..........................................................................................................55 一、文本分析技术特点................................................................................................................55 二、文本分析应用........................................................................................................................55 第五章 了解网站的搜索引擎表现......................................................................................................57 第一节 基础查询..............................................................................................................................57 一、域名信息查询........................................................................................................................57 二、域名历史查询........................................................................................................................57 三、主机连接速度和IP地址查询................................................................................................57 四、同IP网站查询........................................................................................................................57 第二节 收录查询..............................................................................................................................58 一、是否被收录............................................................................................................................58 二、网页收录数量........................................................................................................................58 第三节 反向链接查询......................................................................................................................59 第四节 网页RANK查询.....................................................................................................................59 一、Google PageRank查询........................................................................................................59 二、Sogou Rank查询..................................................................................................................59 第五节 关键词排名查询..................................................................................................................59 第六节 ALEXA查询.........................................................................................................................60 一、什么是Alexa?......................................................................................................................60 二、Alexa主要数据......................................................................................................................60 三、用Alexa查什么?..................................................................................................................60 第六章 基于搜索引擎友好的网站设计..............................................................................................62 第一节 域名策略..............................................................................................................................62 一、不同后缀的域名在搜索引擎中的权重................................................................................62 二、域名基本常识........................................................................................................................62 第 3 页 搜索引擎优化魔法书 SEO Magic Book 浩维互动免费电子书 www.timev.net 三、域名的关键词策略................................................................................................................69 四、中文站点的域名的拼音策略................................................................................................70 五、谨防注册一个遭受搜索引擎惩罚过的域名........................................................................70 第二节 空间策略..............................................................................................................................71 一、安全元素一:稳定性............................................................................................................71 二、安全元素二:良好的共处环境............................................................................................71 三、本节附录...............................................................................................................................72 第三节 网站结构规划......................................................................................................................72 第四节 站点导航设计......................................................................................................................73 第五节 IFRAME、JAVASCRIPT和AJAX..........................................................................................73 一、IFRAME..............................................................................................................................74 二、JS..........................................................................................................................................74 三、AJAX....................................................................................................................................74 第六节 URL设计..............................................................................................................................75 一、便于用户记忆........................................................................................................................75 二、URL静态化...........................................................................................................................75 三、URL的关键词部署...............................................................................................................78 第七节 网页代码的编写..................................................................................................................80 一、遵循WEB标准......................................................................................................................80 二、代码的逻辑性........................................................................................................................80 第八节 面向搜索引擎的文案写作指导...........................................................................................81 一、网页标题Title........................................................................................................................81 二、Meta元标签...........................................................................................................................84 三、图片ALT替换文本................................................................................................................85 四、Robots.txt............................................................................................................................85 五、链接锚文本............................................................................................................................89 六、Sitemap.xml.........................................................................................................................89 七、版权与隐私............................................................................................................................97 第九节 用户友好性检测..................................................................................................................97 一、链接的可用性........................................................................................................................97 二、访问速度体验........................................................................................................................97 三、查找信息的便捷度................................................................................................................98 第七章 创建搜索引擎喜欢的内容......................................................................................................99 第一节 搜索引擎喜欢什么内容.......................................................................................................99 一、Google对网站内容的说明:................................................................................................99 二、百度对网站内容的说明:....................................................................................................99 第二节 内容的四大来源..................................................................................................................99 一、自己撰写原创文章................................................................................................................99 二、使用他人的内容..................................................................................................................100 第三节 常见问题............................................................................................................................102 一、网站内容的更新..................................................................................................................102 二、内容匮乏怎么办..................................................................................................................103 第 4 页 搜索引擎优化魔法书 SEO Magic Book 浩维互动免费电子书 www.timev.net 三、采集系统..............................................................................................................................104 四、商城程序的内容问题..........................................................................................................105 第八章 提交你的网站........................................................................................................................106 第一节 向搜索引擎提交网站........................................................................................................106 一、常用搜索引擎登录入口......................................................................................................106 二、提交注意事项......................................................................................................................106 三、登录搜索引擎的最佳办法..................................................................................................106 第二节 登录分类目录站................................................................................................................107 第三节 登录网址导航站................................................................................................................108 第四节 登录垂直行业门户............................................................................................................109 第九章 链接策略(一)....................................................................................................................111 第一节 链接的基本知识................................................................................................................111 第二节 为什么链接很重要............................................................................................................111 一、超链分析技术......................................................................................................................111 二、网页级别..............................................................................................................................111 三、网站的更新频率..................................................................................................................112 四、内容的相关性......................................................................................................................113 第三节 网站内部页面的链接策略.................................................................................................113 一、给重要的网页更多的关注..................................................................................................113 二、相关链接(人工和自动)和频道关联..............................................................................114 三、链接的导出..........................................................................................................................114 第十章 链接策略(二)....................................................................................................................115 第一节 登录开放目录DMOZ.........................................................................................................115 一、为什么登录DMOZ如此重要.............................................................................................115 二、DMOZ开放目录登录实战攻略.........................................................................................115 三、一些对你有帮助的建议......................................................................................................116 第二节 交换链接............................................................................................................................116 第三节 购买链接............................................................................................................................117 第四节 链接诱饵............................................................................................................................118 一、如何制造链接诱饵..............................................................................................................118 二、对链接诱饵应如何看待......................................................................................................118 第五节 外链建设中的几个误区.....................................................................................................119 一、外部链接数目增长的自然化..............................................................................................119 二、不要忘记你最能做好的事情..............................................................................................119 三、不宜使用软件群发..............................................................................................................120 第十一章 数据监测和分析................................................................................................................121 第一节 网站流量数据统计与分析.................................................................................................121 一、什么叫网站流量及网站流量统计分析..............................................................................121 二、网站流量指标......................................................................................................................121 第 5 页 搜索引擎优化魔法书 SEO Magic Book 浩维互动免费电子书 www.timev.net 三、用户行为指标......................................................................................................................123 四、用户浏览网站的方式..........................................................................................................126 第二节 中文常见流量统计系统介绍.............................................................................................126 一、51.la统计服务.....................................................................................................................126 二、网站管理员统计..................................................................................................................126 三、ItSun统计............................................................................................................................126 四、51Yes网站流量统计............................................................................................................126 五、武林榜、太极链..................................................................................................................126 六、一统天下统计服务..............................................................................................................127 七、趋势流量分析系统..............................................................................................................127 八、Google Analytics................................................................................................................127 九、Measure Map.....................................................................................................................127 十、Statcounter.com.................................................................................................................127 第三节 流量统计分析实例............................................................................................................128 一、典型性数据采集抓取..........................................................................................................128 二、IP与PV...............................................................................................................................128 三、网页访问入口分析..............................................................................................................130 四、搜索引擎流量导入..............................................................................................................131 五、搜索引擎关键词分析..........................................................................................................132 第四节 行业热点跟踪....................................................................................................................133 一、Yahoo风向标:...................................................................................................................133 二、百度风云榜:......................................................................................................................133 三、百度指数..............................................................................................................................134 第十二章 高端技巧............................................................................................................................137 第一节 搜索行为分析....................................................................................................................137 一、什么是搜索行为分析..........................................................................................................137 二、为什么要进行用户搜索行为分析......................................................................................137 三、用户搜索行为的几个特点..................................................................................................137 四、搜索行为分析的重点对象..................................................................................................138 五、搜索行为变化情况..............................................................................................................138 六、用户的关键词搜索行为......................................................................................................140 第二节 关键词分析........................................................................................................................143 一、什么是关键词......................................................................................................................143 二、如何挑选正确的关键词......................................................................................................143 三、竞价关键词的选择..............................................................................................................147 四、关键词竞争程度分析..........................................................................................................148 五、关键词查询工具..................................................................................................................153 第三节 关键词密度........................................................................................................................153 一、什么是关键词密度..............................................................................................................153 二、正确理解关键词密度..........................................................................................................153 三、适当的关键词密度..............................................................................................................153 四、关键词位置和形式..............................................................................................................154 第 6 页 搜索引擎优化魔法书 SEO Magic Book 浩维互动免费电子书 www.timev.net 五、Google 和Yahoo的区别.....................................................................................................156 六、关键词密度的基本原则......................................................................................................156 七、如何增加关键词密度..........................................................................................................157 八、关键词密度工具..................................................................................................................158 第四节 信息干扰现象....................................................................................................................158 一、信噪比与干扰信息..............................................................................................................158 二、信息干扰的副作用..............................................................................................................158 三、如何减小信息干扰..............................................................................................................158 第五节 重定向...............................................................................................................................159 一、什么是重定向......................................................................................................................159 二、301重定向...........................................................................................................................159 三、302重定向...........................................................................................................................161 四、404重定向...........................................................................................................................162 五、其他重定向..........................................................................................................................164 第六节 垂直搜索引擎优化概览(图片搜索、移动搜索等).....................................................165 一、图片搜索..............................................................................................................................165 二、Flash...................................................................................................................................167 三、视频搜索..............................................................................................................................167 四、避免搜索中的搜索..............................................................................................................168 第十三章 几个重要的问题................................................................................................................169 第一节 搜索引擎排名作弊............................................................................................................169 一、什么是搜索引擎作弊?......................................................................................................169 二、搜索引擎排名作弊的常见形式..........................................................................................169 三、常见的作弊载体..................................................................................................................171 第二节 搜索引擎的反作弊............................................................................................................172 一、为什么搜索引擎要反作弊..................................................................................................172 二、搜索引擎对待SEO与作弊的态度......................................................................................172 三、主要搜索引擎反作弊的一些规定......................................................................................173 四、搜索引擎惩罚站点事件举例..............................................................................................175 第三节 搜索引擎惩罚和解除........................................................................................................176 一、搜索引擎惩罚的方式..........................................................................................................176 二、站点被惩罚后的影响..........................................................................................................176 三、如何投诉作弊......................................................................................................................177 四、你的站点是否被惩罚?......................................................................................................177 五、搜索引擎作弊惩罚解除流程..............................................................................................178 第四节 搜索引擎反作弊任重道远.................................................................................................178 一、搜索垃圾永不会消失..........................................................................................................178 二、搜索引擎反作弊的历程......................................................................................................179 三、石头记录的2005年SEO作弊状况....................................................................................180 四、曾经的作弊有多疯狂..........................................................................................................182 五、SEO的职业道德..................................................................................................................186 六、搜索引擎反作弊的人性化..................................................................................................189 第 7 页 搜索引擎优化魔法书 SEO Magic Book 浩维互动免费电子书 www.timev.net 七、搜索引擎反作弊的法律支持..............................................................................................190 第十四章 附录...................................................................................................................................191 第一节 搜索引擎发展史................................................................................................................191 一、搜索引擎编年史:全球......................................................................................................191 二、搜索引擎编年史:中国......................................................................................................197 第二节 搜索引擎行业八卦............................................................................................................200 一、中国SEO市场概况..............................................................................................................200 二、杨致远为Yahoo做优化.......................................................................................................201 三、SEO大赛..............................................................................................................................201 第三节 SEO工具介绍.....................................................................................................................202 一、SEO工具软件种类..............................................................................................................202 二、Google Sitemaps................................................................................................................206 三、通过sitemaps分析死链.......................................................................................................206 第四节 GOOGLE的几个著名现象...................................................................................................207 一、Google Trust Rank...........................................................................................................207 二、Google Sandbox.................................................................................................................208 三、Google Dance.....................................................................................................................210 四、Sitelinks..............................................................................................................................211 五、补充材料..............................................................................................................................213 第 8

2013-02-25

搜索引擎技术

前言 第一章引论.................................................................................................................1 第一节 搜索引擎的概念................................................................................................2 第二节 搜索引擎的发展历史........................................................................................3 第三节 一些著名的搜索引擎........................................................................................7 上篇 WEB搜索引擎基本原理和技术....................................................................16 第二章 WEB搜索引擎工作原理和体系结构..........................................................17 第一节 基本要求..........................................................................................................17 第二节 网页搜集..........................................................................................................18 第三节 预处理..............................................................................................................20 第四节 查询服务..........................................................................................................22 第五节 体系结构..........................................................................................................25 第三章 WEB信息的搜集..........................................................................................29 第一节 引言..................................................................................................................29 一、 超文本传输协议..............................................................................................29 二、 一个小型搜索引擎系统..................................................................................31 第二节 网页搜集..........................................................................................................33 一、 定义URL类和Page类......................................................................................34 二、 与服务器建立连接..........................................................................................39 三、 发送请求和接收数据......................................................................................41 四、 网页信息存储的天网格式..............................................................................42 第三节 多道搜集程序并行工作..................................................................................45 一、 多线程并发工作..............................................................................................46 二、 控制对一个站点并发搜集线程的数目..........................................................47 第四节 如何避免网页的重复搜集..............................................................................47 一、 记录未访问、已访问URL和网页内容摘要信息..........................................47 二、 域名与IP的对应问题......................................................................................48 第五节 如何首先搜集重要的网页..............................................................................49 第六节 搜集信息的类型..............................................................................................52 第七节本章小结..........................................................................................................54 iii 第四章对搜集信息的预处理...................................................................................55 第一节 信息预处理的系统结构..................................................................................55 第二节 索引网页库......................................................................................................56 第三节 中文自动分词..................................................................................................58 第四节分析网页和建立倒排文件..............................................................................64 第五节本章小结..........................................................................................................66 第五章信息查询服务...............................................................................................67 第一节 查询服务的系统结构......................................................................................67 第二节 检索的定义......................................................................................................68 第三节 查询服务的实现..............................................................................................69 一、 结果集合的形成..............................................................................................69 二、 查询结果显示.................................................................................................70 第四节 本章小结..........................................................................................................72 中篇 对质量和性能的追求.....................................................................................73 第六章可扩展搜集子系统.......................................................................................75 第一节 天网系统概述和集中式搜集系统结构...........................................................75 一、 天网系统结构.................................................................................................75 二、 集中式搜集系统..............................................................................................76 第二节 利用并行处理技术高效搜集网页的一种方案...............................................82 一、 节点间URL的划分策略..................................................................................83 二、 关于性能的讨论..............................................................................................86 三、 性能测试和评价..............................................................................................88 四、 系统的动态可配置性设计..............................................................................91 第三节 本章小结..........................................................................................................93 第七章网页净化与消重...........................................................................................95 第一节 网页净化与元数据提取..................................................................................95 一、 引言.................................................................................................................95 二、 DocView模型..................................................................................................98 三、 网页的表示.....................................................................................................99 四、 提取DocView模型要素的方法.....................................................................103 五、 模型应用及实验研究....................................................................................108 第二节 网页消重算法................................................................................................112 一、 消重算法.......................................................................................................112 iv 二、 算法评测.......................................................................................................115 第八章高性能检索子系统.....................................................................................120 第一节 检索系统基本技术........................................................................................121 一、 系统设计与结构............................................................................................121 二、 索引创建.......................................................................................................124 三、 检索过程.......................................................................................................126 第二节 倒排文件性能模型........................................................................................127 一、 引言...............................................................................................................128 二、 倒排文件的概念............................................................................................129 三、 倒排文件的一种性能模型............................................................................131 四、 结合计算机性能指标的考虑........................................................................136 第三节 混合索引技术................................................................................................138 一、 引言...............................................................................................................138 二、 混合索引原理...............................................................................................139 三、 混合索引实现...............................................................................................141 第四节 倒排文件缓存机制........................................................................................144 一、 引言...............................................................................................................144 二、 倒排文件缓存...............................................................................................145 三、 负载特性.......................................................................................................147 四、 缓存策略的选择............................................................................................149 第五节 本章小结........................................................................................................149 第九章用户行为的特征及缓存的应用.................................................................151 第一节 用户查询与点击日志....................................................................................152 第二节 用户行为特征的统计分析............................................................................154 一、 用户查询词的分布情况................................................................................154 二、 雷同查询词的衰减统计................................................................................155 三、 相邻N项查询词的偏差分析.........................................................................156 四、 用户在输出结果中的翻页情况统计............................................................158 五、 用户点击URL的分布情况............................................................................159 六、 考虑与不考虑查询项时点击URL分布的对比分析....................................160 七、 查询过程的自相似性....................................................................................161 第三节 查询缓存的使用............................................................................................164 一、 基于用户行为的启示....................................................................................164 二、 缓存替换策略研究........................................................................................165 v 第四节 用户行为与WEB信息的分布特征.................................................................167 一、 基本术语.......................................................................................................167 二、 海量Web信息的特征分析.............................................................................168 第十章相关排序与系统质量评估.........................................................................173 第一节 传统IR的相关排序技术................................................................................173 第二节 链接分析与相关排序....................................................................................176 一、 链接分析.......................................................................................................176 二、 Web查询模式下的新信息............................................................................178 第三节 相关排序的一种实现方案............................................................................182 一、 形成网页中词项的基本权重........................................................................183 二、 利用链接的结构............................................................................................185 三、 收集用户反馈信息........................................................................................187 四、 计算最终的权重............................................................................................189 第四节 搜索引擎系统质量评估................................................................................191 一、 引言...............................................................................................................191 二、 查询类别分析与查询集的构建....................................................................192 三、 评估实验的建立与分析................................................................................193 下篇 面向主题和个性化的WEB信息服务..........................................................196 第十一章中文网页自动分类技术.........................................................................197 第一节 引言................................................................................................................197 第二节 文档自动分类算法的类型............................................................................197 第三节 实现中文网页自动分类的一般过程.............................................................199 第四节 影响分类器性能的关键因素分析.................................................................201 一、 实验设置.......................................................................................................201 二、 训练样本.......................................................................................................202 三、 特征选取.......................................................................................................207 四、 分类算法.......................................................................................................210 五、 截尾算法.......................................................................................................216 六、 一个中文网页分类器的设计方案................................................................218 第五节 天网目录导航服务........................................................................................219 一、 问题的提出...................................................................................................219 二、 天网目录导航服务的体系结构....................................................................220 三、 天网目录的运行实例....................................................................................221 第六节 本章小结........................................................................................................221 vi 第十二章搜索引擎个性化查询服务.....................................................................223 第一节 基于WEB挖掘的个性化技术.........................................................................223 一、 Web挖掘技术................................................................................................224 二、 典型个性化Web服务系统的比较.................................................................225 三、 基于Web挖掘的个性化技术的发展.............................................................226 第二节 天网知名度系统............................................................................................227 一、 系统结构.......................................................................................................227 二、 网页与命名实体的相关度评价....................................................................231 第十三章面向主题的信息搜集与应用.................................................................235 第一节 主题信息的搜集............................................................................................235 一、 主题信息分布的局部性................................................................................235 二、 一种主题信息搜集系统................................................................................236 第二节 主题信息的一种搜集与处理模型及其应用.................................................238 一、 模型设计.......................................................................................................238 二、 应用实验:以“十六大”为主题................................................................242 三、 总结与讨论...................................................................................................244 参考文献...................................................................................................................245 附录. 术语................................................................................................................256 后记...........................................................................................................................264 vii 图示 图1-1 2003年8月20日在天网上检索“伊拉克战争”的结果................3 图1-2 2003年8月20日在搜狐上检索“伊拉克战争”的结果................5 图2-1 搜索引擎示意图................................................................................17 图2-2 搜索引擎三段式工作流程................................................................18 图2-3 搜索引擎的体系结构........................................................................26 图3-1 TSE搜索引擎界面..............................................................................31 图3-2 TSE查询结果页面..............................................................................32 图3-3 TSE网页快照页面..............................................................................32 图3-4 TSE系统结构.....................................................................................33 图3-5 Web信息的搜集.................................................................................34 图3-6 Sockets和端口....................................................................................39 图3-7 通过Socket建立连接.........................................................................40 图3-8 Web象个海洋.....................................................................................51 图4-1 网页预处理系统结构........................................................................55 图4-2 原始网页库中的记录格式................................................................56 图4-3 索引网页库算法................................................................................57 图4-4 正向减字最大匹配算法流程............................................................61 图4-5 切词算法流程....................................................................................62 图4-6分析网页与建立倒排文件流程.........................................................64 图4-7 过滤网页中非正文信息算法............................................................64 图4-8 正向索引表记录格式........................................................................65 图4-9 由正向索引建立反向索引................................................................65 图5-1 信息查询的系统结构........................................................................67 图5-2 基本检索算法....................................................................................69 图5-3 动态摘要算法....................................................................................71 图5-4 用户查询日志的记录格式................................................................71 图6-1 天网系统概貌....................................................................................76 图6-2 搜集系统的主控结构........................................................................78 图6-3 协调进程工作算法............................................................................85 图6-4 分布式Web搜集系统结构.................................................................86 图6-5 负载方差...........................................................................................89 图6-6 n个节点并行搜集系统及集中式系统性能随时间的变化...............90 图6-7 分布式系统效率................................................................................91 viii 图6-8 URL两阶段映射.................................................................................92 图7-1 用DocView模型提取的网页要素.....................................................99 图7-2 净化后的网页....................................................................................99 图7-3 HTML Tree 结构.............................................................................101 图7-4 内容块权值传递过程......................................................................102 图7-5 有主题网页DocView模型生成过程...............................................105 图7-6 计算网页特征项权值的算法..........................................................105 图7-7 正文段落识别过程..........................................................................106 图7-8 基于anchor text的超链选取算法....................................................107 图7-9 网页净化前后分类效果对比..........................................................109 图7-10 查全率随选取关键词个数的变化................................................117 图8-1 检索系统集成框架结构..................................................................122 图8-2 天网WWW检索分布式系统构架...................................................123 图8-3 倒排文件结构示意图......................................................................130 图8-4 英语单词和汉语字符的ITF分布....................................................136 图8-5 扩展词典树结构示例......................................................................143 图8-6 扩展词典匹配查找算法..................................................................144 图8-7 搜索引擎检索系统缓存结构..........................................................145 图8-8 文档数据访问对象大小分布..........................................................148 图8-9 I/O与PAGE序列序号-频度分布......................................................148 图8-10 I/O与PAGE序列时间间隔分布.....................................................149 图8-11 I/O和PAGE序列中唯一模式串......................................................149 图9-1 查询词的分布情况..........................................................................154 图9-2 查询词分布函数及其拟合函数......................................................155 图9-3 雷同查询词的衰减..........................................................................156 图9-4 相邻1000项查询词的频率的差的平方和....................................157 图9-5用户翻页情况统计...........................................................................158 图9-6 用户点击URL的分布情况..............................................................159 图9-7 考虑查询项与否的URL分布情况..................................................160 图9-8 相邻500项中不同查询项的分布..................................................162 图9-9 相邻1000项中不同查询项的分布................................................162 图9-10 相邻2000项中不同查询项的分布..............................................163 图9-11 查询项分布的自相似性特征........................................................163 图9-12 FIFO、LRU和带衰减的LFU的缓存命中率比较.........................166 图9-13 3种替换策略的局部比较..............................................................166 图9-14 网页的被访问次数........................................................................169 ix 图9-15 用户点击url对应网页的入度.......................................................170 图9-16 用户点击url对应网页的镜像度...................................................170 图9-17 用户点击url对应网页的目录深度...............................................171 图9-18 站内网页的树状结构....................................................................171 图10-1 Inktomi提供的几种搜索引擎技术的比较....................................179 图10-2 词典在系统中的地位....................................................................180 图10-3 新词学习.......................................................................................181 图10-4 网页的互联结构示意....................................................................185 图11-1 自动文档分类算法的分类............................................................199 图11-2 中文网页自动分类的一般过程....................................................200 图11-3 中文网页分类器的工作原理图....................................................200 图11-4 WebSmart —一个网页实例集搜集和整理工具...........................204 图11-5 一种中文网页的分类体系............................................................205 图11-6 Macro-F1值随样本数的变化..........................................................206 图11-7 Micro-F1值随样本数的变化..........................................................206 图11-8 CHI、IG、DF、MI的比较(Macro-F1).....................................209 图11-9 CHI、IG、DF、MI的比较(Micro-F1).....................................210 图11-10 kNN与NB分类结果的比较..........................................................213 图11-11 k的取值对分类器质量的影响(Marco-F1)..............................214 图11-12 k的取值对分类器质量的影响(Micro-F1)...............................214 图11-13 兰式距离法与欧式距离法对12个不同类别的分类情况........215 图11-14 基于层次模型的kNN与基本kNN的比较...................................216 图11-15 RCut和SCut截尾算法的比较.......................................................218 图11-16 天网目录的体系结构..................................................................220 图11-17 天网目录导航服务......................................................................221 图12-1 Web个性化的实质.........................................................................224 图12-2 Web挖掘的分类.............................................................................224 图12-3 网页与实体相关度的建立............................................................228 图12-4 个性化知名度示意图....................................................................228 图12-5 “天网知名度”系统结构............................................................230 图13-1 页面对的平均相关性....................................................................236 图13-2 Foused Crawler的系统结构...........................................................237 图13-3 用于表达网上主题新闻强度指标的立方体................................240 图13-4 十六大网页数量在10月22至11月24期间的变化情况........244 x 表格 表4-1 网页索引文件.......................................................................................................58 表4-2 URL索引文件........................................................................................................58 表6-1 Soif数据描述..........................................................................................................78 表6-2 Soif具体语法..........................................................................................................80 表6-3 参照序列,假设节点数为2...............................................................................89 表7-1 类别编号对照表.................................................................................................110 表7-2 消重实验结果.....................................................................................................111 表7-3 当N=10、δ=0.01时5种算法的查全率和准确率.....................................116 表7-4 考察δ的取值对算法3和4的影响..............................................................117 表7-5 分段签名算法的时间复杂度及性能..............................................................118 表7-6 基于关键词的各算法的时间复杂度及性能 (N=10, δ=0.01)..................118 表8-1 英汉词频统计排序对照...................................................................................134 表8-2 一些典型磁盘的性能数据...............................................................................136 表8-3 数据集基本统计信息.......................................................................................146 表9-1 用户在前5页的翻页情况统计......................................................................158 表9-2 调整后的LFU与LRU命中率的比较..............................................................166 表9-3 各网页参数的分布............................................................................................169 表10-1新词学习对检索准确率的影响.....................................................................182 表10-2 影响权值的HTML标签.................................................................................184 表10-3 补偿因子定义表..............................................................................................188 表10-4 用户查询信息类别..........................................................................................193 表11-1 样本集中类别及实例数量的分布情况表...................................................203 表11-2 kNN和NB算法的分类质量和分类效率比较..............................................213 表11-3 欧式距离与兰式距离的比较........................................................................215 表11-4 基于层次模型的kNN与基本kNN的比较...................................................216 表11-5 RCut和SCut截尾算法的比较.........................................................................217 表11-6 一个分类器的设计方案.................................................................................218 表12-1 典型Web个性化系统的比较.........................................................................225 表12-2 天网知名度系统与其他检索系统的横向比较结果.................................232 表12-3 天网知名度系统的纵向比较结果................................................................234

2013-02-24

搜索引擎-原理、技术与系统

目录 前言 第一章引论.................................................................................................................1 第一节 搜索引擎的概念................................................................................................2 第二节 搜索引擎的发展历史........................................................................................3 第三节 一些著名的搜索引擎........................................................................................7 上篇 WEB搜索引擎基本原理和技术....................................................................16 第二章 WEB搜索引擎工作原理和体系结构..........................................................17 第一节 基本要求..........................................................................................................17 第二节 网页搜集..........................................................................................................18 第三节 预处理..............................................................................................................20 第四节 查询服务..........................................................................................................22 第五节 体系结构..........................................................................................................25 第三章 WEB信息的搜集..........................................................................................29 第一节 引言..................................................................................................................29 一、 超文本传输协议..............................................................................................29 二、 一个小型搜索引擎系统..................................................................................31 第二节 网页搜集..........................................................................................................33 一、 定义URL类和Page类......................................................................................34 二、 与服务器建立连接..........................................................................................39 三、 发送请求和接收数据......................................................................................41 四、 网页信息存储的天网格式..............................................................................42 第三节 多道搜集程序并行工作..................................................................................45 一、 多线程并发工作..............................................................................................46 二、 控制对一个站点并发搜集线程的数目..........................................................47 第四节 如何避免网页的重复搜集..............................................................................47 一、 记录未访问、已访问URL和网页内容摘要信息..........................................47 二、 域名与IP的对应问题......................................................................................48 第五节 如何首先搜集重要的网页..............................................................................49 第六节 搜集信息的类型..............................................................................................52 第七节本章小结..........................................................................................................54 iii 第四章对搜集信息的预处理...................................................................................55 第一节 信息预处理的系统结构..................................................................................55 第二节 索引网页库......................................................................................................56 第三节 中文自动分词..................................................................................................58 第四节分析网页和建立倒排文件..............................................................................64 第五节本章小结..........................................................................................................66 第五章信息查询服务...............................................................................................67 第一节 查询服务的系统结构......................................................................................67 第二节 检索的定义......................................................................................................68 第三节 查询服务的实现..............................................................................................69 一、 结果集合的形成..............................................................................................69 二、 查询结果显示.................................................................................................70 第四节 本章小结..........................................................................................................72 中篇 对质量和性能的追求.....................................................................................73 第六章可扩展搜集子系统.......................................................................................75 第一节 天网系统概述和集中式搜集系统结构...........................................................75 一、 天网系统结构.................................................................................................75 二、 集中式搜集系统..............................................................................................76 第二节 利用并行处理技术高效搜集网页的一种方案...............................................82 一、 节点间URL的划分策略..................................................................................83 二、 关于性能的讨论..............................................................................................86 三、 性能测试和评价..............................................................................................88 四、 系统的动态可配置性设计..............................................................................91 第三节 本章小结..........................................................................................................93 第七章网页净化与消重...........................................................................................95 第一节 网页净化与元数据提取..................................................................................95 一、 引言.................................................................................................................95 二、 DocView模型..................................................................................................98 三、 网页的表示.....................................................................................................99 四、 提取DocView模型要素的方法.....................................................................103 五、 模型应用及实验研究....................................................................................108 第二节 网页消重算法................................................................................................112 一、 消重算法.......................................................................................................112 iv 二、 算法评测.......................................................................................................115 第八章高性能检索子系统.....................................................................................120 第一节 检索系统基本技术........................................................................................121 一、 系统设计与结构............................................................................................121 二、 索引创建.......................................................................................................124 三、 检索过程.......................................................................................................126 第二节 倒排文件性能模型........................................................................................127 一、 引言...............................................................................................................128 二、 倒排文件的概念............................................................................................129 三、 倒排文件的一种性能模型............................................................................131 四、 结合计算机性能指标的考虑........................................................................136 第三节 混合索引技术................................................................................................138 一、 引言...............................................................................................................138 二、 混合索引原理...............................................................................................139 三、 混合索引实现...............................................................................................141 第四节 倒排文件缓存机制........................................................................................144 一、 引言...............................................................................................................144 二、 倒排文件缓存...............................................................................................145 三、 负载特性.......................................................................................................147 四、 缓存策略的选择............................................................................................149 第五节 本章小结........................................................................................................149 第九章用户行为的特征及缓存的应用.................................................................151 第一节 用户查询与点击日志....................................................................................152 第二节 用户行为特征的统计分析............................................................................154 一、 用户查询词的分布情况................................................................................154 二、 雷同查询词的衰减统计................................................................................155 三、 相邻N项查询词的偏差分析.........................................................................156 四、 用户在输出结果中的翻页情况统计............................................................158 五、 用户点击URL的分布情况............................................................................159 六、 考虑与不考虑查询项时点击URL分布的对比分析....................................160 七、 查询过程的自相似性....................................................................................161 第三节 查询缓存的使用............................................................................................164 一、 基于用户行为的启示....................................................................................164 二、 缓存替换策略研究........................................................................................165 v 第四节 用户行为与WEB信息的分布特征.................................................................167 一、 基本术语.......................................................................................................167 二、 海量Web信息的特征分析.............................................................................168 第十章相关排序与系统质量评估.........................................................................173 第一节 传统IR的相关排序技术................................................................................173 第二节 链接分析与相关排序....................................................................................176 一、 链接分析.......................................................................................................176 二、 Web查询模式下的新信息............................................................................178 第三节 相关排序的一种实现方案............................................................................182 一、 形成网页中词项的基本权重........................................................................183 二、 利用链接的结构............................................................................................185 三、 收集用户反馈信息........................................................................................187 四、 计算最终的权重............................................................................................189 第四节 搜索引擎系统质量评估................................................................................191 一、 引言...............................................................................................................191 二、 查询类别分析与查询集的构建....................................................................192 三、 评估实验的建立与分析................................................................................193 下篇 面向主题和个性化的WEB信息服务..........................................................196 第十一章中文网页自动分类技术.........................................................................197 第一节 引言................................................................................................................197 第二节 文档自动分类算法的类型............................................................................197 第三节 实现中文网页自动分类的一般过程.............................................................199 第四节 影响分类器性能的关键因素分析.................................................................201 一、 实验设置.......................................................................................................201 二、 训练样本.......................................................................................................202 三、 特征选取.......................................................................................................207 四、 分类算法.......................................................................................................210 五、 截尾算法.......................................................................................................216 六、 一个中文网页分类器的设计方案................................................................218 第五节 天网目录导航服务........................................................................................219 一、 问题的提出...................................................................................................219 二、 天网目录导航服务的体系结构....................................................................220 三、 天网目录的运行实例....................................................................................221 第六节 本章小结........................................................................................................221 vi 第十二章搜索引擎个性化查询服务.....................................................................223 第一节 基于WEB挖掘的个性化技术.........................................................................223 一、 Web挖掘技术................................................................................................224 二、 典型个性化Web服务系统的比较.................................................................225 三、 基于Web挖掘的个性化技术的发展.............................................................226 第二节 天网知名度系统............................................................................................227 一、 系统结构.......................................................................................................227 二、 网页与命名实体的相关度评价....................................................................231 第十三章面向主题的信息搜集与应用.................................................................235 第一节 主题信息的搜集............................................................................................235 一、 主题信息分布的局部性................................................................................235 二、 一种主题信息搜集系统................................................................................236 第二节 主题信息的一种搜集与处理模型及其应用.................................................238 一、 模型设计.......................................................................................................238 二、 应用实验:以“十六大”为主题................................................................242 三、 总结与讨论...................................................................................................244

2013-02-24

SQLiteExpert3.4安装文件+注册码

SQLiteExpert3.4安装文件+注册码 解压安装 注册有说明

2012-08-13

mac drive 8安装文件+注册机

mac drive 8安装文件+注册机 有注册详细步骤

2012-08-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除