自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(26)
  • 资源 (1)
  • 收藏
  • 关注

转载 Hadoop基础之RPC机制以及HDFS源码分析

1.1.概述RPC——远程过程调用协议,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在,如TCP或UDP,为通信程序之间携带信息数据。在OSI网络通信模型中,RPC跨越了传输层和应用层。RPC使得开发包括网络分布式多程序在内的应用程序更加容易。RPC采用客户机/服务器模式。请求程序就是一个客户机,而服务提供程序就是一个服务器

2016-02-24 15:18:28 646

转载 使用Java的BlockingQueue实现生产者-消费者

BlockingQueue也是java.util.concurrent下的主要用来控制线程同步的工具。BlockingQueue有四个具体的实现类,根据不同需求,选择不同的实现类1、ArrayBlockingQueue:一个由数组支持的有界阻塞队列,规定大小的BlockingQueue,其构造函数必须带一个int参数来指明其大小.其所含的对象是以FIFO(先入先出)顺序排序的。

2016-02-17 15:25:58 355

原创 mapreduce程序加队列两种方式

Job job = new Job(conf, "wordcount");job.getConfiguration().set(Job.QUEUE_NAME, args[2]);job.getConfiguration().set("mapreduce.job.queuename", args[2]);

2016-02-03 11:06:05 1991

转载 JVM垃圾回收(GC)原理

原文:http://www.blogjava.net/ldwblog/archive/2013/07/24/401919.htmlJVM内存管理和JVM垃圾回收JVM内存组成结构JVM内存结构由堆、栈、本地方法栈、方法区等部分组成,结构图如下所示:1)堆所有通过new创建的对象的内存都在堆中分配,其大小可以通过-Xmx和-Xms来控制

2016-01-20 13:56:33 400

转载 DataNode引用计数磁盘选择策略

前言在HDFS中,所有的数据都是存在各个DataNode上的.而这些DataNode上的数据都是存放于节点机器上的各个目录中的,而一般每个目录我们会对应到1个独立的盘,以便我们把机器的存储空间基本用上.这么多的节点,这么多块盘,HDFS在进行写操作时如何进行有效的磁盘选择呢,选择不当必然造成写性能下降,从而影响集群整体的性能.本文来讨论一下目前HDFS中存在的几个磁盘选择策略的特点和不

2016-01-20 11:54:58 498

转载 Hadoop Map Reduce 限制counter的默认数量120

最近用Hadoop统计将近一亿行的数据,由于每一行的列再加上Overall的统计 counter数量超过了120,故在Hadoop的运行过程中,抛出如下异常:[java] view plaincopyprint?org.apache.hadoop.mapreduce.counters.LimitExceededException: Too m

2016-01-18 11:22:04 1610 1

转载 hadoop中的一次集群任务执行超时问题查找过程

本次进行一个项目的重构,在某些活动数据量比较大的情况下,会偶尔出现1200s超时的情况,如下: AttemptID:attempt_1410771599055_11709_m_000033_0 Timed out after 1200 secs  而hadoop会不断启动备份任务进行重试,重试也许成功,但失败的概率还是比较大:    经过分析,hadoop的任

2016-01-18 09:59:28 385

原创 MapReduce程序获取文件名

在maper类中Path path = ((FileSplit) context.getInputSplit()).getPath() .getParent(); String fileName = path.getParent().toString();引用类为 import org.apache.hadoop.fs.Path;import org.apache.

2015-12-29 13:35:45 1094

原创 MapReduce多文件输出和获取驱动类传值

前言   刚接触到mapreduce程序的人可能不太熟悉,今天翻出来了好久之前写的一段代码,贴到博客上吧,希望对新手有所帮助。欢迎一起讨论,共同进步。MapReduce多文件输出代码如下public class ReduceLiantongBushuju  extends Reducer{private static Text textValue  = new Text();p

2015-12-29 13:21:31 351

原创 Huffman编码 java版

前些日子写的Huffman编码,一直没有上传,刚才上传BM算法时候想起来还有它,顺便一块上传吧。public class HuffmanCode {//树节点static class HuffmanTreeNode{HuffmanTreeNode father;HuffmanTreeNode leftNode;HuffmanTreeNode rightNode;char

2015-12-29 12:00:27 363

原创 BM算法 java代码

不废话,直接贴代码public class BM {/*** * @param c 源串中字符* @param s 目标串* @return 返回平移距离*/public static int path(char c , char[] s){int j=s.length;//c出现在s最后一位直接返回s.lengthif(c==s[j-1]){r

2015-12-29 11:54:39 857

转载 BM算法详解

后缀匹配,是指模式串的比较从右到左,模式串的移动也是从左到右的匹配过程,经典的BM算法其实是对后缀蛮力匹配算法的改进。所以还是先从最简单的后缀蛮力匹配算法开始。下面直接给出伪代码,注意这一行代码:j ;BM算法所做的唯一的事情就是改进了这行代码,即模式串不是每次移动一步,而是根据已经匹配的后缀信息,从而移动更多的距离。1j = 0;

2015-12-28 18:05:34 446

转载 kmp算法详解

前言    之前对kmp算法虽然了解它的原理,即求出P0···Pi的最大相同前后缀长度k;但是问题在于如何求出这个最大前后缀长度呢?我觉得网上很多帖子都说的不是很清楚,总感觉没有把那层纸戳破,后来翻看算法导论,32章 字符串匹配虽然讲到了对前后缀计算的正确性,但是大量的推理证明不大好理解,没有与程序结合起来讲。今天我在这里讲一讲我的一些理解,希望大家多多指教,如果有不清楚的或错误的请给

2015-12-28 15:58:13 224

转载 矩阵乘法

题目描述    请编程实现矩阵乘法,并考虑当矩阵规模较大时的优化方法。思路分析    根据wikipedia上的介绍:两个矩阵的乘法仅当第一个矩阵B的列数和另一个矩阵A的行数相等时才能定义。如A是m×n矩阵和B是n×p矩阵,它们的乘积AB是一个m×p矩阵,它的一个元素其中 1 ≤ i ≤ m, 1 ≤ j ≤ p。        值得一提的是,矩阵乘法满足结

2015-12-28 14:26:21 765

转载 互联网金融-众筹网站收集(转)

非股权众筹网站:点名时间 - 中国最大众筹平台! 支持创新的力量 国内领先的众筹网站,主打科技新硬件的综合类众筹网站。追梦网 - 创意计划众筹平台 和点名时间一样,最早开始涉足众筹的国内网站,偏向文化创意项目的综合类众筹网站。百度众筹 媒体报道4月28日上线,不知道为啥我百度都搜不到网站链接...淘宝星愿-首页原名“淘宝众筹“,上线作为淘宝的一个子页面,3月底更名“淘宝星愿”,原为面向

2015-11-02 18:30:37 632

原创 多线程 锁

1.synchronizedsynchronized具有原子性和可见性。原子性是指不管在什么时候最多只能有一个线程在使用synchronized包含范围的代码。可见性是指释放锁之前对共享数据做出的更改,对于随后获得该所的另一个线程是可见的。也就是说在锁定的这段时间对于公共资源的修改,不会因为释放锁而改变,同样的,下一个持有锁的线程,使用的公共资源也是修改过的。其原理是:获得锁的对象先强制使

2015-10-08 17:38:24 393

转载 Java 创建和销毁对象

1、给不可实例化的类提供私有构造器比如:每个项目中都有很多工具类,提供了很多static类型的方法供大家使用,谁也不希望看到下面的代码:[java] view plaincopyTextUtils textUtils = new TextUtils();          if(textUtils.isDigitsOnly("12

2015-09-30 10:35:04 379

转载 JAVA NIO 简介

1.   基本 概念IO 是主存和外部设备 ( 硬盘、终端和网络等 ) 拷贝数据的过程。 IO 是操作系统的底层功能实现,底层通过 I/O 指令进行完成。所有语言运行时系统提供执行 I/O 较高级别的工具。 (c 的 printf scanf,java 的面向对象封装 )2.    Java 标准 io 回顾Java 标准 IO 类库是 io 面向对象的一种抽象。基于本地方法的底层

2015-09-29 10:55:27 322

转载 java中的基本数据类型存放位置

基本数据类型是放在栈中还是放在堆中,这取决于基本类型声明的位置。 一:在方法中声明的变量,即该变量是局部变量,每当程序调用方法时,系统都会为该方法建立一个方法栈,其所在方法中声明的变量就放在方法栈中,当方法结束系统会释放方法栈,其对应在该方法中声明的变量随着栈的销毁而结束,这就局部变量只能在方法中有效的原因      在方法中声明的变量可以是基本类型的变量,也可以是引用类型的变

2015-09-24 11:17:13 5786 2

转载 关闭 DefaultHttpClient 页面(非连接)

最近遇到的问题是,在连接到爬取页面后,因为有权限问题,所以是先post用户名、密码,然后再用get方法循环访问页面。问题就出来了。。。。 这破网站,每次开启一个页面,都会在服务器端打开个excel进程,而由于我在程序上没有关闭页面,所以致使服务器已经不能响应请求了。。。。 此处的关闭页面,不等同于关闭连接。因为还需要保留访问网站的用户名、密码, 

2015-09-22 17:10:18 684

原创 java.io.IOException: Stream closed

java.io.IOException: Stream closed 这个错误是因为在使用了多线程时候,当一个线程完成关闭时,另外一个线程正在使用该资源。解决的办法是关闭时判断该资源时候还有使用,如果没使用就关闭。或者把关闭函数放到循环的外面。

2015-09-22 11:14:31 1548

转载 hdfs下载文件到本地

import java.io.FileOutputStream;import java.io.OutputStream;import java.net.URI;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FSDataInputStream;import org.apach

2015-09-17 17:27:58 4852

原创 Type mismatch in key from map: expected org.apache.hadoop.io.LongWritable, received org.apache.hadoo

Error: java.io.IOException: Type mismatch in key from map: expected org.apache.hadoop.io.LongWritable, received org.apache.hadoop.io.Text解决问题:在的map(), reduce()前面加上@Override,eclipse自动生成map(),

2015-09-17 10:40:52 2337

原创 mapreduce在控制台打印log4j日志

log4j.properties配置如下:log4j.rootLogger=INFO, stdoutlog4j.appender.stdout=org.apache.log4j.ConsoleAppenderlog4j.appender.stdout.layout=org.apache.log4j.PatternLayoutlog4j.appender.stdout.layout.

2015-09-17 10:37:11 3110

原创 job.waitForCompletion(true)空指针问题

hadoop2.x在windows下编译缺少winutils.exe,需要重新下载一个并且编译hadoop_home环境变量。在system32文件夹下添加hadoop.dll文件。问题解决!

2015-09-16 15:41:42 8383

转载 数学之美番外篇:平凡而又神奇的贝叶斯方法

写在前面--引用 http://mindhacks.cn/2008/09/21/the-magical-bayesian-method/概率论只不过是把常识用数学公式表达了出来。——拉普拉斯记得读本科的时候,最喜欢到城里的计算机书店里面去闲逛,一逛就是好几个小时;有一次,在书店看到一本书,名叫贝叶斯方法。当时数学系的课程还没有学到概率统计。我心想,一个方法能够专门写出一本书

2015-02-08 18:07:59 309

windows64位平台的hadoop2.5.2插件包(hadoop.dll,winutils.exe)

windows64位平台的hadoop2.5.2插件包(hadoop.dll,winutils.exe)

2015-09-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除