自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Jason

持之以恒!

  • 博客(53)
  • 资源 (5)
  • 收藏
  • 关注

转载 TCP/IP之协议关系与结构

转载之:http://www.cnblogs.com/JCSU/articles/1323931.html

2014-05-11 10:18:38 6084

转载 南瑞继保、国电南自、国电南瑞

严格说来现在这两者没有任何关系了,两者的前身是同一个公司——南京电力自动化设备总厂,后来分为了两家,一个是现在的国家电网下属的自动化研究院,就是南瑞,另一个是中国华电集团下属的上市公司,就是国电南自。国电南瑞科技股份有限公司成立于2001年2月28日,是由南京南瑞集团公司作为主发起人,以南京南瑞集团公司下属三家分公司的资产经过重组,联合其它七家战略投资者共同发起设立,2003年9月24日在上海

2012-10-12 20:18:45 17927

原创 有8匹马,只有四个赛道,如何挑出前三名?

基本想法: 假设马被编号1~8,第一轮,先让1~4号马跑,第二轮,再让5~8号马跑,分别得到两次的前三名(假设编号为1-3和5-7的马赢得了比赛,并且排名和它们的编号对应,因为第四名不可能是所有马当中的前三名,所以舍弃),这样得到了6匹马(1-3,5-7),再下来,第三轮,让1,2, 5,6四匹马跑,结果次序只有下面几种情况:1  2  5  6 ……①1  5  2  6……②

2011-12-31 12:00:06 4829 2

原创 向量空间模型(VSM)

向量空间模型(VSM)向量空间模型将文档映射为一个特征向量V(d)=(t1,ω1(d);…;tn, ωn(d)),其中ti(i=1,2, …,n)为一列互不雷同的词条项,ωi(d)为ti在d中的权值, 一般被定义为ti在d中出现频率tfi(d)的函数,即。在信息检索中常用的词条权值计算方法为 TF-IDF 函数,其中N为所有文档的数目,ni为含有词条ti的文档数目。TF-IDF

2011-12-28 21:06:19 1193

原创 大端模式和小端模式的判别!

大端模式:    一般我们较习惯的模式,数值的高位存入低地址中,低位存入高地址中。如在16位的CPU中,一个整型占有2个字节,如0x1234,它存储在存储器的顺序是地址的低位存0x12,高位存0x34;小端模式:   与大端模式相反,数值的高位存入高地址,低位存入地址中。如条件同上,0x1234,它的存储的顺序是数值的高位0x12存入高地址,数值的低位0x34存入低地址。0x34,0x

2011-12-28 19:41:17 980 1

原创 各种排序算法稳定性的探讨

首先,排序算法的稳定性大家应该都知道,通俗地讲就是能保证排序前2个相等的数其在序列的前后位置顺序和排序后它们两个的前后位置顺序相同。在简单形式化一下,如果Ai = Aj, Ai原来在位置前,排序后Ai还是要在Aj位置前。为了简便下面讨论的都是不降序排列的情形,对于不升序排列的情形讨论方法和结果完全相同。    其次,说一下稳定性的好处。排序算法如果是稳定的,那么从一个键上排序,然后再从另一个键

2011-12-28 19:22:20 1398 1

原创 海量数据处理专题(七)——数据库索引及优化

索引是对数据库表中一列或多列的值进行排序的一种结构,使用索引可快速访问数据库表中的特定信息。数据库索引什么是索引数据库索引好比是一本书前面的目录,能加快数据库的查询速度。例如这样一个查询:select * from table1 where id=44。如果没有索引,必须遍历整个表,直到ID等于44的这一行被找到为止;有了索引之后(必须是在ID这一列上建立的索引),直接在索引里面找

2011-12-26 18:53:51 946

原创 海量数据处理专题(六)——双层桶划分

【什么是双层桶】事实上,与其说双层桶划分是一种数据结构,不如说它是一种算法设计思想。面对一堆大量的数据我们无法处理的时候,我们可以将其分成一个个小的单元,然后根据一定的策略来处理这些小单元,从而达到目的。【适用范围】第k大,中位数,不重复或重复的数字【基本原理及要点】因为元素范围很大,不能利用直接寻址表,所以通过多次划分,逐步确定范围,然后最后在一个可以接受的范围内进行。可以通

2011-12-26 18:48:44 629

转载 任正非——《一江春水向东流》

千古兴亡多少事,一江春水向东流。小时候,妈妈给我们讲希腊大力神的故事,我们崇拜得不得了。少年不知事的时期我们崇拜上李元霸、宇文成都这种盖世英雄,传播着张飞“杀”(争斗)岳飞的荒诞故事。在青春萌动的时期,突然敏感到李清照的千古情人是力拔山兮的项羽。至此“生当作人杰,死亦为鬼雄”又成了我们的人生警句。当然这种个人英雄主义,也不是没有意义,它迫使我们在学习上争斗,成就了较好的成绩。当我走向社会,

2011-12-26 11:39:59 623

原创 细说Cookies

什么是Cookies?Cookies是一些小文件,它们被创建在客户端的系统里,或者被创建在客户端浏览器的内存中(如果是临时性的话)。用它可以实现状态管理的功能。我们可以存储一些少量信息到可以短的系统上,以便在需要的时候使用。最有趣的事情是,它是对用户透明的。在你的web应用程序中,你可以到处使用它,它极其得简单。Cookies是以文本形式存储的。如果一个web应用程序使用cookies,那么服

2011-12-22 20:00:10 784 2

原创 细说Cache

什么是缓存?Web 应用程序通常都是被多个用户访问。一个Web站点可能存在一个“重量级”的加载,它能够使得站点在访问的时候,拖慢整个服务器。当站点被大量用户同时访问的时候,访问速度缓慢是大部分网站共同存在的问题。为了解决这个问题,我们可以使用一个更高级别的硬件配置,负载均衡器,高带宽,但是加载并不是拖慢站点唯一的“罪魁祸首”,所以我们需要提供一种方案,它也同样能够加速数据访问以及提升性能。而采

2011-12-22 19:58:22 684 1

原创 海量数据处理专题(五)——堆

【什么是堆】概念:堆是一种特殊的二叉树,具备以下两种性质1)每个节点的值都大于(或者都小于,称为最小堆)其子节点的值2)树是完全平衡的,并且最后一层的树叶都在最左边这样就定义了一个最大堆。如下图用一个数组来表示堆:那么下面介绍二叉堆:二叉堆是一种完全二叉树,其任意子树的左右节点(如果有的话)的键值一定比根节点大,上图其实就是一个二叉堆。你一定发觉了,最小的一个元素就

2011-12-21 19:40:34 804 1

原创 海量数据处理专题(四)——Bit-map

【什么是Bit-map】 所谓的Bit-map就是用一个bit位来标记某个元素对应的Value, 而Key即是该元素。由于采用了Bit为单位来存储数据,因此在存储空间方面,可以大大节省。如果说了这么多还没明白什么是Bit-map,那么我们来看一个具体的例子,假设我们要对0-7内的5个元素(4,7,2,5,3)排序(这里假设这些元素没有重复)。那么我们就可以采用Bit-map的方法来达到

2011-12-21 19:33:30 770 2

原创 海量数据处理专题(三)——Hash

【什么是Hash】Hash,一般翻译做“散列”,也有直接音译为“哈希”的,就是把任意长度的输入(又叫做预映射, pre-image),通过散列算法,变换成固定长度的输出,该输出就是散列值。这种转换是一种压缩映射,也就是,散列值的空间通常远小于输入的空间,不同的输入可能会散列成相同的输出,而不可能从散列值来唯一的确定输入值。简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。

2011-12-21 19:28:53 655 1

原创 海量数据处理专题(二)——Bloom Filter

【什么是Bloom Filter】Bloom Filter是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合。Bloom Filter的这种高效是有一定代价的:在判断一个元素是否属于某个集合时,有可能会把不属于这个集合的元素误认为属于这个集合(false positive)。因此,Bloom Filter不适合那些“零错误”的应用场合。而在能容

2011-12-21 19:25:52 651 1

原创 海量数据处理专题(一)——开篇

大数据量的问题是很多面试笔试中经常出现的问题,比如baidu google 腾讯 这样的一些涉及到海量数据的公司经常会问到。下面的方法是我对海量数据的处理方法进行了一个一般性的总结,当然这些方法可能并不能完全覆盖所有的问题,但是这样的一些方法也基本可以处理绝大多数遇到的问题。下面的一些问题基本直接来源于公司的面试笔试题目,方法不一定最优,如果你有更好的处理方法,欢迎与我讨论。

2011-12-21 19:23:27 953 1

原创 BM算法图解

首先,先简单说明一下有关BM算法的一些基本概念。BM算法是一种精确字符串匹配算法(区别于模糊匹配)。BM算法采用从右向左比较 的方法,同时应用到了两种启发式规则,即坏字符规则 和好后缀规则 ,来决定向右跳跃的距离。BM算法的基本流程: 设文本串T,模式串为P。首先将T与P进行左对齐,然后进行从右向左比较 ,如下图所示:    若是某趟比较不匹配时,BM算法就采用两条启发

2011-12-20 11:08:58 2096 2

翻译 互联网海量数据蕴藏巨大“金矿”

根据IDC的调查报告显示,2010年底全球数据量已达到1.2ZB。到2020年全球电子设备存储的数据将暴增30倍,达到35ZB(相当于10亿块1TB的硬盘的容量)。但对于有准备的企业来说这无疑是一座信息金矿,随着数据挖掘技术的进步,有价值的信息将变得容易获取。随着大数据时代的到来,数据存储、数据挖掘以及处理和分析大数据的相关技术比以往任何时候都更受关注。大数据正成为企业发展的基石,并渐渐改变很

2011-12-20 10:32:24 841

原创 朴素贝叶斯分类流程图介绍

1.1、摘要      贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。本文作为分类算法的第一篇,将首先介绍分类问题,对分类问题进行一个正式的定义。然后,介绍贝叶斯分类算法的基础——贝叶斯定理。最后,通过实例讨论贝叶斯分类中最简单的一种:朴素贝叶斯分类。1.2、分类问题综述      对于分类问题,其实谁都不会陌生,说我们每个人每天都在执行分类操作一点

2011-12-19 15:07:03 13541

原创 TF-IDF原理简介

TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与文本挖掘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相

2011-12-19 10:54:45 3939

原创 new与malloc的区别

1.malloc与free是C++/C语言的标准库函数,new/delete是C++的运算符。它们都可用于申请动态内存和释放内存2.对于非内部数据类型的对象而言,光用maloc/free无法满足动态对象的要求。对象在创建的同时要自动执行构造函数,对象在消亡之前要自动执行析构函数。由malloc/free是库函数而不是运算符,不在编译器控制权限之内,不能够把执行构造函数和析构函数的任务强加于ma

2011-12-18 20:06:31 387

原创 搜索引擎原理简介

搜索引擎可以分为4个系统:下载系统、分析系统、索引系统和查询系统。前三个是“离线系统”,最后一个是“在线系统”。   下载系统负责从互联网上下载各种类型的网页,并且保持对互联网变化同步。首先是一个叫网络爬虫的程序在网页上抓取网页,抓取的算法主要有宽度优先和深度优先两种方式。然而,网页链接有可能出现死循环,这样就要避免重复抓取,重用的方法有用哈希表来记录下爬虫抓取的历史记录,和设定一个最大深

2011-12-18 18:58:25 499

原创 文本分类简介

一.概述 文本分类在文本处理中是很重要的一个模块,它的应用也非常广泛,比如:垃圾过滤,新闻分类,词性标注等等。它和其他的分类没有本质的区别,核心方法为首先提取分类数据的特征,然后选择最优的匹配,从而分类。但是文本也有自己的特点,根据文本的特点,文本分类的流程为:1.预处理;2.文本表示及特征选择;3.构造分类器;4.分类。下面分别介绍每个模块。1. 预处理大家知道,中文书写时,不像

2011-12-18 18:55:53 4966

原创 海量数据处理经典面试题

第一部分、十道海量数据处理面试题1、海量日志数据,提取出某日访问百度次数最多的那个IP。      首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以采用hash_map进行频率统计,然后再找出频率最大的几

2011-12-18 17:33:54 773

原创 函数递归调用详解

递归问题是一个说简单也简单,说难也有点难理解的问题.我想非常有必要对其做一个总结.首先理解一下递归的定义,递归就是直接或间接的调用自身.而至于什么时候要用到递归,递归和非递归又有那些区别?又是一个不太容易掌握的问题,更难的是对于递归调用的理解.下面我们就从程序+图形的角度对递归做一个全面的阐述.我们从常见到的递归问题开始:1 阶乘函数#include using names

2011-12-18 13:16:47 4944 3

原创 算法时间复杂度分析

摘要      本文论述了在算法分析领域一个重要问题——时间复杂度分析的基础内容。本文将首先明确时间复杂度的意义,而后以形式化方式论述其在数学上的定义及相关推导。从而帮助大家从本质上认清这个概念。前言      通常,对于一个给定的算法,我们要做 两项分析。第一是从数学上证明算法的正确性,这一步主要用到形式化证明的方法及相关推理模式,如循环不变式、数学归纳法等。而在证明算法是正确的

2011-12-18 12:51:39 1189

原创 Map与Hash_map

Hash_map 0 为什么需要hash_map 用过map吧?map提供一个很常用的功能,那就是提供key-value的存储和查找功能。例如,我要记录一个人名和相应的存储,而且随时增加,要快速查找和修改:岳不群-华山派掌门人,人称君子剑张三丰-武当掌门人,太极拳创始人东方不败-第一高手,葵花宝典...这些信息如果保存下来并不复杂,但是找起来比较麻烦

2011-12-18 11:38:07 679

原创 Hash原理

1. 引言        哈希表(Hash Table)的应用近两年才在NOI中出现,作为一种高效的数据结构,它正在竞赛中发挥着越来越重要的作用。 哈希表最大的优点,就是把数据的存储和查找消耗的时间大大降低,几乎可以看成是常数时间;而代价仅仅是消耗比较多的内存。然而在当前可利用内存越来越多的情况下,用空间换时间的做法是值得的。另外,编码比较容易也是它的特点之一。       哈希表

2011-12-18 11:28:09 753

原创 二叉树的深度优先遍历、广度优先遍历和非递归遍历

二叉树的遍历:D:访问根结点,L:遍历根结点的左子树,R:遍历根结点的右子树。给定一棵二叉树的前序遍历序列和中序遍历序列可以惟一确定一棵二叉树。二叉树的深度优先遍历的非递归的通用做法是采用栈,广度优先遍历的非递归的通用做法是采用队列。深度优先遍历二叉树1. 中序遍历(LDR)的递归算法:若二叉树为空,则算法结束;否则:    中序遍历根结点的左子树;    访问根结

2011-12-17 20:48:36 4649 1

原创 贝叶斯算法之文本分类

第1章 贝叶斯原理1.1 贝叶斯公式设A、B是两个事件,且P(A)>0,称为在事件A发生的条件下事件B发生的条件概率。乘法公式 P(XYZ)=P(Z|XY)P(Y|X)P(X)全概率公式 P(X)=P(X|Y1)+ P(X|Y2)+…+ P(X|Yn)贝叶斯公式以上公式,请读者参考《概率论与数理统计(第五版)》的1.4节“条件概率”(这里将原书中的A换成了X,B

2011-12-17 13:38:46 8357 3

原创 KNN算法

k-Nearest Neighbor algorithm是K最邻近结点算法(k-Nearest Neighbor algorithm)的缩写形式 该算法的基本思路是:在给定新文本后,考虑在训练文本集中与该新文本距离最近(最相似)的 K 篇文本,根据这 K 篇文本所属的类别判定新文本所属的类别K最近邻(k-Nearest Neighbor,KNN)分类算法,是一个理论上比较成

2011-12-15 19:17:26 841

原创 2011年12月编程语言排名

2011-12-09 13:20:45 430 1

转载 数据挖掘十大经典算法

/ / 转载自July的博客参考文献:国际权威的学术组织ICDM,于06年12月年评选出的数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART.==============一、C4.5C4.5,是机器学习算法中的一个分类决策树算法,它

2011-12-08 19:16:43 722 1

原创 各种排序算法总结(C语言)

/ / 不断更新,也欢迎大家补充! 一、冒泡排序(BubbleSort)1. 基本思想:  两两比较待排序数据元素的大小,发现两个数据元素的次序相反时即进行交换,直到没有反序的数据元素为止。2. 排序过程:  设想被排序的数组R[1..N]垂直竖立,将每个数据元素看作有重量的气泡,根据轻气泡不能在重气泡之下的原则,从下往上扫描数组R,凡扫描到违反本原则的轻气泡,就使其向上"

2011-12-08 15:12:00 1165 1

原创 Java之equals与==的区别

java中equals和==的区别  值类型是存储在内存中的堆栈(以后简称栈),而引用类型的变量在栈中仅仅是存储引用类型变量的地址,而其本身则存储在堆中。==操作比较的是两个变量的值是否相等,对于引用型变量表示的是两个变量在堆中存储的地址是否相同,即栈中的内容是否相同。equals操作表示的两个变量是否是对同一个对象的引用,即堆中的内容是否相同。==比较的是2个对象的地址,

2011-12-08 14:57:25 1153

原创 Java之线程详解

线程简介      随着计算机的飞速发展,个人计算机上的操作系统也纷纷采用多任务和分时设计,将早期只有大型计算机才具有的系统特性带到了个人计算机系统中。一般可以在同一时间内执行多个程序的操作系统都有进程的概念。一个进程就是一个执行中的程序,而每一个进程都有自己独立的一块内存空间、一组系统资源。在进程概念中,每一个进程的内部数据和状态都是完全独立的。Java程序通过流控制来执行程序流,程序中单个

2011-12-08 14:51:28 793

原创 Android之布局参数

android:id  —— 为控件指定相应的IDandroid:text —— 指定控件当中显示的文字,需要注意的是,这里尽量使用strings.xml文件当中的字符串android:grivity —— 指定控件的基本位置,比如说居中,居右等位置android:textSize —— 指定控件当中字体的大小android:background —— 指定该控件所使用的背景色,R

2011-12-08 14:39:46 485

原创 Andriod的25个应用

1.谷歌语音   谷歌语音是一种非常有用的服务,我认为这是Android本身一个巨大的优势,尤其是因为苹果在iPhone中拒绝谷歌语音。你可以使用一个电话号码,可以拨打很多地方的电话或设备,还可以让你通过网络访问你的所有语音邮件和文字信息。 Android的应用集成度很高。打出的电话显示是来自谷歌语音号码,所以 这样便可以保护你真正的私人手机号码。     2. 任务杀手   多任

2011-12-08 14:38:24 1112

转载 如何签好三方协议!

签订“三方协议”注意事项  1.正确区分协议期、试用期和见习期这三个时期,这直接关系到毕业生的权益维护。  协议期:是从毕业生与用人单位签订就业协议书开始,一直持续到签订劳动合同之后或者双方终止协议为止。在协议期内,双方已经确定了工作意向,但未建立正式的劳动关系。  试用期:主要针对劳动合同,毕业生与用人单位签劳动合同的时间应在试用前,而不是试用合格后。过去一些单位为了逃避

2011-12-08 14:18:29 1000

转载 读完它,受益匪浅……

让你少奋斗10年的工作经验          第一:不要认为停留在心灵的舒适区域内是可以原谅的。      每个人都有一个舒适区域,在这个区域内是很自我的,不愿意被打扰,不愿意被push,不愿意和陌生的面孔交谈,不愿意被人指责,不愿意按照规定的时限做事,不愿意主动的去关心别人,不愿意去思考别人还有什么没有想到。这在学生时代是很容易被理解的,有时候这样的同学还跟“冷酷”“个性

2011-12-08 14:16:30 660

c语言必备学习资源,珍藏很久

c语言必备学习资源,珍藏很久

2012-07-04

计算机网络+IP地址详解

计算机网络+IP地址详解.

2012-06-27

Android应用开发揭秘

Android应用开发揭秘

2012-06-26

设计模式_可复用面向对象软件的基础

设计模式_可复用面向对象软件的基础,设计模式_可复用面向对象软件的基础,设计模式_可复用面向对象软件的基础

2011-12-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除