自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(64)
  • 资源 (1)
  • 收藏
  • 关注

原创 g++无法使用

在系统安装过程中,经常会出现安装了gcc,g++确不能使用的状况。作者使用的是CentOs5.2, 需要在服务器上编译c++。gcc已经安装好。(最简单的方法 yum install gcc)但是,编译时,发现g++无法使用,于是乎, yum install g++,信息显示 No package g++ available.这是因为yum的更新包里没有叫g

2011-12-12 16:45:39 1805

原创 hadoop datanode 无法启动

由于工作需要,需要部署一个新的环境用户开发。于是,我将在其他集群运行稳定的一个工程配置全部scp到另外一个集群,并更改包括hadoop在内的相应的配置。更改完配置后,首先尝试启动hadoop服务,服务全部能够起来。可是,在dfsadmin -report时,发现无法显示datanode的信息。然后,我查看datanode,发现datanode自动停止了。尝试了多次,

2011-12-12 15:08:52 1354

转载 R-Tree空间索引算法的研究历程和最新进展分析

最近由于申请学校的原因,教授要求写一个关于研究方向的RP。以前很少基本没接触过spatial database systems, 对于其中的很多数据结构,基本也处于小白状态,其中,R-tree就是在spatial database 及其IR领域使用非常多的一种数据结构。我从网上找到这边文章,觉得写的还不错,便转了过来。 http://blog.csdn.net/chen

2011-12-09 09:54:22 1261

原创 hadoop无法正常启动问题汇总

hadoop无法正常启动(1)执行  $ bin/hadoop start-all.sh之后,无法启动.异常一 Exception in thread "main" java.lang.IllegalArgumentException: Invalid URI for NameNode address (check fs.defaultFS): file:/// has no au

2011-11-23 12:09:16 7289

原创 MapReduce研究

MapReduce研究报告 1      MapReduce简介在过去的数年里,Google的许多员工实现了很多基于特殊应用的计算,用来处理海量的原始数据,比如文档爬虫、Web请求日志等。为了计算各种类型的数据,比如倒排索引,Web文档的图结构的各种表示,每天被请求数

2011-09-09 17:44:50 3766

转载 日志分析方法概述

最近开始做关于web日志文件的数据挖掘工作,看到一篇来自百度技术的文章,简单介绍了海量日志文件分析的方法,觉得写的不错,于是转载了。源地址: http://stblog.baidu-tech.com/?p=310&cpage=2#comment-1367

2011-09-09 17:38:29 893

原创 hive 初始化运行流程

CliDriver 初始化过程 CliDriver.main  是 Cli 的入口 (1) 解析(Parse)args,放入cmdLine,处理 –hiveconf var=val  用于增加或者覆盖hive/hadoop配置,设置到System的属性中。

2011-08-19 15:54:28 2224

原创 hive 执行过程源码分析

周末花了点时间,结合以前看的,大体看了一下 Hive 源码,主要包括 客户 / 服务器通信 ,语法解析器,语义分析器,逻辑计划生成器,计划优化器,物理计划生成器,物理计划执行器等部分。分别由包 parse,plan, optimizer, Exec 中的代码来实现的。

2011-08-18 16:43:43 7968

转载 Hive源码解析—之—Hive的入口

Hive源码解析—之—hive的入口:初衷:hi,大家好,我叫红门,在hive方面是个菜鸟,现在读hive源码希望能够更了解底层,尤其是hive与Hadoop切换这块。但在读hive源码时发现比Hadoop源码难读一些,虽然Hadoop源码量比较大,但是整体很规范,命名规

2011-08-18 10:30:30 3067

原创 Linux下使用Eclipse编写MapReduce程序的配置

最近由于项目需要,需要写点基于hadoop的代码.基于hadoop的开发环境搭建起来稍微有点麻烦。而且程序开发完测试也不方便。hadoop特意为eclipse提供了插件。使用这个插件,可以大大的提高开发速度。使用方法如下:1.  确定eclipse是关闭的

2011-08-12 20:57:58 3844 1

原创 ubuntu上安装ssh

1、下载ssh服务sudo apt-get install openssh-server本篇文章来源于 黑客基地-全球最大的中文黑客站 原文链接:http://www.hackbase.com/tech/2009-03-22/51769.html2、ssh启动命令sudo /et

2011-07-24 18:41:01 675

原创 重复数据删除技术(Data Deduplication)

我相信所有人都会同意,数据存储正在以飞快地,甚至是令人震惊的速度在增长。 这意味着为了不影响普通用户的正常使用,存储管理员们不得不加班加点地在幕后 工作着。他们的鲜为人知的工作包括:配额管理,快照(snapshots),数据备份, 数据复制(replication),为灾难时数据

2011-07-22 23:50:37 3645

原创 在Ubuntu下安装tokyocabinet数据库

1. tokyo cabinet 数据库简介Tokyo Cabinet 是一个DBM的实现。这里的数据库由一系列key-value对的记录构成。key和value都可以是任意长度的字节序列,既可以是二进制也可以是字符串。这里没有数据类型和数据表的概念。 当做为Hash表数据库使用

2011-07-21 23:04:58 1310 1

原创 Linux undefined reference to `cos'

今天,在编译一段代码时,出现错误 “undefined reference to cos”但是,该文件已经包含了math.h头文件,错误原因主要是没有定义“cos”函数,或者说没有找到“cos”函数的实现,虽然我们在函数开头声明了数学函数库,但还是没有找到cos的实现,这时我们就需要指定sin函数的具体路径了。 系统一些默认库的位置在/lib/下面,我们可以在编译时,加上参数"-lm"

2011-06-08 10:06:00 8382 2

转载 面试题集-树和图

<br />如何着手<br />这类问题主要有以下两种形式:<br />1、 完成创建一个树/查找一个结点/删除一个结点/其他常见的算法<br />2、 完成对一个已知算法的修改<br />不管怎样,我们强烈推荐你在面试之前搞懂与树有关的重要算法。如果你对树非常熟悉,那么就可以轻松应对一些棘手的问题了。我们给出一些非常重要的几点: 重要提示:并非所有的二叉树都是二叉查找树当被问到有关二叉树的时候,许多面试者自以为面试官是指二叉查找树,而面试官实际上是说二叉树。所以,认真听是否有“查找”那个词。如果你没有听到

2011-05-22 14:51:00 5221

转载 Google面试题——及答案

<br /><br />1) 村子里有100对夫妻,其中每个丈夫都瞒着自己的妻子偷情。。。村里的每个妻子都能立即发现除自己丈夫之外的其他男人是否偷情,唯独不知道她自己的丈夫到底有没有偷情。村里的规矩不容忍通奸。任何一个妻子,一旦能证明自己的男人偷情,就必须当天把他杀死。村里的女人全都严格照此规矩办事。一天,女头领出来宣布,村里至少有一个丈夫偷情。请问接下来会发生什么事?<br /><br />答案:(由读者Olivier Coudert提供)<br />这是一个典型的递归问题。一旦所有的妻子都知道至少有一个

2011-05-22 14:50:00 1040

原创 数字图像处理就业前景(转)

<br /><br />最近版上有不少人在讨论图像处理的就业方向,似乎大部分都持悲观的态度。我想结合我今年找工作的经验谈谈我的看法。<br />就我看来,个人觉得图像处理的就业还是不错的。首先可以把图像看成二维、三维或者更高维的信号,从这个意义上来说,图像处理是整个信号处理里面就业形势最好的,因为你不仅要掌握(一维)信号处理的基本知识,也要掌握图像处理(二维或者高维信号处理)的知识。其次,图像处理是计算机视觉和视频处理的基础,掌握好了图像处理的基本知识,就业时就可以向这些方向发展。目前的模式识别,大部分也都

2011-04-23 17:47:00 2396 1

原创 在Windows7下安装SQLSERVER 2005时报错误29506的解决方案

<br /><br /><br />如题,解决方案如下:<br /> <br />新建一个文本文件,输入msiexec /i F:/SQLServer2005_SSMSEE.msi<br />//假设下载的文件名为SQLServer2005_SSMSEE.msi ,放在F盘根目录下<br />保存改扩展名为cmd格式<br />右键鼠标----然后以管理员身份运行这个程序就可以

2011-04-19 22:22:00 1045

原创 完全卸载SQL Server 2005

<br />最近,在安装SQLSERVER 2005时遇到一点问题,一直提示错误“选择的功能没有任何功能可以升级或者安装”。<br />出现这个错误的原因是我之前安装过SQLSERVER,后来卸载时没有卸载干净现在想重装时便会出现这样的问题。<br />那么如何才能完全卸载SQL SERVER 2005呢?<br /> <br />步骤如下:<br /> <br />1。首先要停止所有的SQL的服务,步骤如下:  <br />Control Panel > Administrative Tools > Se

2011-04-19 22:19:00 861

转载 海量数据面试题整理

<br /><br />1. 给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url?<br />方案1:可以估计每个文件安的大小为50G×64=320G,远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。<br />s 遍历文件a,对每个url求取,然后根据所取得的值将url分别存储到1000个小文件(记为)中。这样每个小文件的大约为300M。<br />s 遍历文件b,采取和a相同的方式将url分别存储到1000

2011-03-28 00:07:00 894

转载 机器学习中的相似性度量

<br /><br />在做分类时常常需要估算不同样本之间的相似性度量(Similarity Measurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。<br />  本文的目的就是对常用的相似性度量作一个总结。<br /><br /><br />本文目录:<br />1. 欧氏距离<br />2. 曼哈顿距离<br />3. 切比雪夫距离<br />4. 闵可夫斯基距离<br />5. 标准化欧氏距离<br />6

2011-03-25 21:22:00 8095

转载 神经网络编程入门

<br /><br /> 本文主要内容包括: (1) 介绍神经网络基本原理,(2) AForge.NET实现前向神经网络的方法,(3) Matlab实现前向神经网络的方法 。<br /><br /><br />第0节、引例 <br />       本文以Fisher的Iris数据集作为神经网络程序的测试数据集。Iris数据集可以在http://en.wikipedia.org/wiki/Iris_flower_data_set  找到。这里我简要介绍一下Iris数据集:<br />有一批Iris花,已知这

2011-03-25 21:20:00 11802 2

转载 海量数据处理专题之双层桶划分

<br /><br />【什么是双层桶】  <br />事实上,与其说双层桶划分是一种数据结构,不如说它是一种算法设计思想。面对一堆大量的数据我们无法处理的时候,我们可以将其分成一个个小的单元,然后根据一定的策略来处理这些小单元,从而达到目的。<br />【适用范围】 <br />第k大,中位数,不重复或重复的数字<br />【基本原理及要点】 <br />因为元素范围很大,不能利用直接寻址表,所以通过多次划分,逐步确定范围,然后最后在一个可以接受的范围内进行。可以通过多次缩小,双层只是一个例子,分治才是其

2011-03-25 20:46:00 1011

原创 思考题1

<br />某个升级游戏有一张卡,卡上有16个点,这其中隐藏了整数1,...16的随机排列。玩家将卡上的点擦开以查看里面的整数。如果出现整数3,那么玩家就失败了;如果1和2(不考虑顺序)都出现了,那么玩家就赢了。描述计算随机选择一个点序列而赢得游戏的概率;<br /> <br />好好思考哈~

2011-03-20 16:48:00 555

原创 抽样问题的解决方案

<br />问题: 输入整个整数m和n(0<m<n)<br />输出:要求按顺序输出m个随机整数,整数的值的范围是0~n-1。<br />例如:输入5和100,<br />输出: 3,8,34,55,77<br /> <br />解决方案1. 按顺序考虑整数0,1,2,...,n-1,并通过核实的随机测试选择每个元素, 通过按需访问整数,就能保证输出结果是有序的。<br /> <br />该方案的c语言实现程序:假设有一个生成随机整数的函数bigrand()<br />void getSortedRando

2011-03-20 16:22:00 1004

原创 面试题:给定一个包含4300000000个32位证书的顺序文件,求出一个至少包含两次的整数

<br />面试题:给定一个包含4300000000个32位整数的顺序文件,求出一个至少包含两次的整数。<br /> <br />思路:考虑两个条件<br />1. 所有的整数都存储在顺序文件中,因此,读取文件的次数将明显影响算法的效率<br />2. 顺序文件中包含的整数个数为4300000000,如果全部读取放在内存中的话,必须要考虑内存空间因素。<br /> <br />那么,有没有既节省时间又节省空间的solution呢?也就是,尽可能只顺序读取一次文件,并且采用尽可能少的内存的方法呢?<br />

2011-03-19 09:07:00 2902 2

转载 海量数据处理专题(二)——Bloom Filter

<br />【什么是Bloom Filter】Bloom Filter是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合。Bloom Filter的这种高效是有一定代价的:在判断一个元素是否属于某个集合时,有可能会把不属于这个集合的元素误认为属于这个集合(false positive)。因此,Bloom Filter不适合那些“零错误”的应用场合。而在能容忍低错误率的应用场合下,Bloom Filter通过极少的错误换取了存储空间的极大节省。 这里有一篇关于

2011-03-17 11:20:00 1035

转载 海量数据处理专题(五)——堆

<br /><br />【什么是堆】 <br />概念:堆是一种特殊的二叉树,具备以下两种性质 <br />1)每个节点的值都大于(或者都小于,称为最小堆)其子节点的值 <br />2)树是完全平衡的,并且最后一层的树叶都在最左边 <br />这样就定义了一个最大堆。如下图用一个数组来表示堆:<br /><br />那么下面介绍二叉堆:二叉堆是一种完全二叉树,其任意子树的左右节点(如果有的话)的键值一定比根节点大,上图其实就是一个二叉堆。<br />你一定发觉了,最小的一个元素就是数组第一个元素,那么二叉堆

2011-03-17 11:15:00 1261

转载 海量数据处理专题(四)——Bit-map

<br /><br />【什么是Bit-map】<br />所谓的Bit-map就是用一个bit位来标记某个元素对应的Value, 而Key即是该元素。由于采用了Bit为单位来存储数据,因此在存储空间方面,可以大大节省。<br />如果说了这么多还没明白什么是Bit-map,那么我们来看一个具体的例子,假设我们要对0-7内的5个元素(4,7,2,5,3)排序(这里假设这些元素没有重复)。那么我们就可以采用Bit-map的方法来达到排序的目的。要表示8个数,我们就只需要8个Bit(1Bytes),首先我们开辟

2011-03-17 11:14:00 9601

转载 海量数据处理专题(三)——Hash

<br /><br />【什么是Hash】<br />  Hash,一般翻译做“散列”,也有直接音译为“哈希”的,就是把任意长度的输入(又叫做预映射, pre-image),通过散列算法,变换成固定长度的输出,该输出就是散列值。这种转换是一种压缩映射,也就是,散列值的空间通常远小于输入的空间,不同的输入可能会散列成相同的输出,而不可能从散列值来唯一的确定输入值。简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。<br />HASH主要用于信息安全领域中加密算法,它把一些不同长度的信息转化成

2011-03-17 11:12:00 1547

转载 Bloom Filter概念和原理

<br />Bloom Filter概念和原理<br />                                                                                         转自焦萌 <br /> <br />Bloom Filter是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合。Bloom Filter的这种高效是有一定代价的:在判断一个元素是否属于某个集合时,有可能会把不属于这个集合的元素

2011-03-17 10:53:00 795

转载 c/c++笔试题(1)

<br />1.多态类中的虚函数表是Compile-Time,还是Run-Time时建立的?<br />答案:虚拟函数表是在编译期就建立了,各个虚拟函数这时被组织成了一个虚拟函数的入口地址的数组.而对象的隐藏成员--虚拟函数表指针是在运行期--也就是构造函数被调用时进行初始化的,这是实现多态的关键.<br /> 2.将一个 1M -10M 的文件,逆序存储到另一个文件,就是前一个文件的最后一个字符存到新文件的第一个字符,以此类推。<br /> 3.main主函数执行完毕后,是否可能会再执行一段代码?(朗讯的

2011-03-16 17:20:00 880

转载 c/c++笔试题

<br />微软亚洲技术中心的面试题!!!<br />1.进程和线程的差别。<br /><br />线程是指进程内的一个执行单元,也是进程内的可调度实体.<br />与进程的区别:<br />(1)调度:线程作为调度和分配的基本单位,进程作为拥有资源的基本单位<br />(2)并发性:不仅进程之间可以并发执行,同一个进程的多个线程之间也可并发执行<br />(3)拥有资源:进程是拥有资源的独立单位,线程不拥有系统资源,但可以访问隶属于进程的资源. <br />(4)系统开销:在创建或撤消进程时,由于系统都要

2011-03-16 11:15:00 9964

转载 数学之美系列文章列表地址

<br />http://www.kuqin.com/math/20071204/2798.html

2011-03-10 15:01:00 549

转载 数学之美 从全球导航到输入法——谈谈动态规划

<br />今年九月二十三日,Google、T-Mobile 和 HTC 宣布了第一款基于开源操作系统 Android 的 3G 手机,其中一个重要的功能是利用全球卫星定位系统实现全球导航。这个功能在其它手机中早已使用,并且早在五六年前就已经有实现这一功能的车载设备出售。其中的关键技术只有两个:第一是利用卫星定位;第二根据用户输入的起终点,在地图上规划最短路线或者最快路线。后者的关键算法是计算机科学图论中的动态规划(Dynamic Programming)的算法。<br /><br /> <br /> <b

2011-03-10 14:58:00 849

原创 面试题:4张红色的牌和4张蓝色的牌

<br />题目为:有4张红色的牌和4张蓝色的牌,主持人先拿任意两张,再分别在A、B、C三人额头上贴任意两张牌, A、B、C三人都可以看见其余两人额头上的牌,看完后让他们猜自己额头上是什么颜色的牌,A说不知道,B说不知道,C说不知道,然后A说知道了。请教如何推理,A是怎么知道的。如果用程序,又怎么实现呢?<br /> <br />思路提示:此题可以运用离散数学中的数理逻辑来进行解答,详细的解决思路,等会儿有时间再贴上来。<br /> 

2011-03-10 10:58:00 2808

原创 面试题:敲七

Problem<br />输出7和7的倍数,还有包含7的数字例如(17,27,37...70,71,72,73...) <br /><br />Input<br />一个整数N。(N不大于30000) <br /><br />Output<br />从小到大排列的不大于N的与7有关的数字,每行一个。 <br /><br />Sample Input<br />20<br /><br />Sample Output<br />7<br />14<br />17简单的解法:#include <stdio.h><

2011-03-10 10:53:00 1201 1

转载 算法面试:精选微软经典的算法面试100题

<br /><br />微软等数据结构+算法面试100题首次完整亮相     (注:本文转自July)<br />            ---100题V0.1版最终完成<br /> <br />================<br />作者:July  2010年12月6日<br />微软等100题系列V0.1版终于结束了。<br />从2010年10月11日当天最初发表前40题以来,直至此刻,整理这100题,已有近2个月。<br />2个月,因为要整理这100题,很多很多其它的事都被我强迫性的搁置一旁

2011-03-07 17:08:00 1919

原创 Unix网络编程学习笔记(1)

<br />UDP套接口编程<br />一、 基于UDP套接口的客户端/服务器编程常遇到的一个问题是:数据包丢失。<br />如果一个客户向服务器发送数据报,并且希望服务器接收到数据报并进行处理后,反馈相应的信息。如果客户端向服务器发送数据的过程中,数据报丢失(比如说被客户和服务器主机之间的某个路由器丢失),客户将阻塞于recvfrom这样的系统调用,等待一个永远不会到达的服务器应答。类似的,服务器向客户端发送数据也可能会遇到类似的问题。<br />此问题的一个解决方案是设置超时。但是,此解决方案并不是完整

2011-03-07 16:56:00 574

原创 VC++2008 应用程序配置不正确

<br />在用VS2008的C++开发程序时,开发的程序在没有安装.NET的系统中会出现错误“应用程序配置不正确,程序无法运行”<br />原因是MFC的版本不同。<br />在使用 VC++2005环境下生成的程序,放置到未安装VC环境的机器下后,有时候会出现程序无法执行的错误,其提示是:应用程序配置不正确,程序无法启动,重新安装应用程序可能解决问题。<br />实际上,重装是解决不了问题的,解决的一种方法是查看*exe.intermediate.manifest文件,比如文件的内容是:<br /><?

2011-02-22 12:08:00 1120

Linux设备驱动程序开发详解

Linux设备驱动程序开发详解是一本很不错的书....

2010-07-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除