自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(28)
  • 资源 (1)
  • 收藏
  • 关注

原创 MapReduce系列之MapReduce的输出

针对前面介绍的输入格式,MapReduce也有相应的输出格式。默认情况下只有一个 Reduce,输出只有一个文件,默认文件名为 part-r-00000,输出文件的个数与 Reduce 的个数一致。 如果有两个Reduce,输出结果就有两个文件,第一个为part-r-00000,第二个为part-r-00001,依次类推OutputFormat 接口OutputFormat主要...

2019-10-14 10:49:55 2905

原创 [ERROR] Failed to execute goal org.apache.maven.plugins:maven-clean-plugin:3.0.0:clean

[ERROR] Failed to execute goal org.apache.maven.plugins:maven-clean-plugin:3.0.0:clean (default-clean) on project presto-root: Failed to clean project: Failed to delete /data0/presto-jdk8u181_workspa...

2019-10-12 14:26:23 4417 2

原创 Linux格式化磁盘并挂载分区

最近接到一个任务,需要把原来Presto Master节点换成新的高配机,然而,除了系统盘,其他盘都有待格式化。参考网上的文档,一顿操作,格式化磁盘并挂载分区的步骤如下。1、使用 df -lh 命令查看 ,系统只有系统盘2、fdisk -l 查看磁盘情况3、需要将标识为 /dev/sdb 的磁盘格式化为ext4格式,执行 mkfs -t ext4 /dev/sdb4、创建该磁盘要...

2019-08-01 21:11:54 452

原创 IDEA配置:使用代理访问内网服务器

由于公司电脑的防火墙除了80和443之外都封了,使用IDEA无法连接线上集群,经过摸索,一个简便的方式是设置IDEA的虚拟机参数,即 VM options参数,示例:-DsocksProxyHost=127.0.0.1 -DsocksProxyPort=1080(端口与隧道里设置一致)就可以访问内网服务器了。具体操作可以参考链接:https://blog.csdn.net/haoui123...

2019-07-12 19:56:54 5719

原创 Failed to execute goal org.apache.maven.plugins:maven-archetype-plugin:3.1.1:generate

新建Maven工程报错:Failed to execute goal org.apache.maven.plugins:maven-archetype-plugin:3.1.1:generate问题原因是没有跳过测试,解决方法有两种:一:命令行mvn clean package -Dmaven.test.skip=true二:在pom文件中配置<plugin> ...

2019-07-03 19:01:46 15987

原创 Error:java: 读取jar包时出错

将maven仓库中相应的jar包删掉,maven会重新下载即可

2019-05-29 12:25:28 1972

原创 使用命令配置Windows环境变量

setx path "value;%path%" ,其中value为要添加的路径,注意set和setx的区别:set当前session有效,setx全局有效详细说明可以参考:https://blog.csdn.net/zhezhebie/article/details/79248665...

2019-05-29 11:18:25 707

原创 IDEA使用vue.js搭建前台应用

首先安装vue.js,可以参考链接:https://www.cnblogs.com/riddly/p/7857710.html主要步骤为:1.安装nodejs,自带npm环境。2.安装淘宝镜像。因国内访问国外链接速度过慢,建议将 npm 的注册表源设置为国内的镜像,可以大幅提升安装速度。打开cmd直接输入:npm install -g cnpm –registry=https:...

2019-05-27 15:57:01 3804

原创 GitLab使用小结

git安装配置:https://blog.csdn.net/huaishu/article/details/50475175git clone时报错:The requested URL returned error: 401 Unauthorized while accessing 自己的解决方法:Centos 6.5升级Git到Git2.9.2:https://blog.csdn...

2018-12-22 21:18:43 156

原创 Java heap space错误

最直接的解决方法是调整堆内存使用量,例如调整为一个G命令行方式:java -Xmx1024m MapFileReader在Eclipse中配置:右击打开Run Configurations,在Arguments选项卡中的VM arguments中填写参数信息另外也可以在eclipse的eclipse.ini文件中配置当然有的时候要从根本上解决问题,从还要从代码层面优化未...

2018-12-11 20:35:54 2256

原创 Linux长时间运行后如何清除缓存

Linux长时间开机,大量读写文件后会发现内存越来越少,最大的原因是缓存太多。可以使用如下命令清除缓存,腾出内存空间。echo 1 &gt; /proc/sys/vm/drop_caches...

2018-12-10 10:10:24 1257

原创 推荐两款外文检查语法错误和润色的软件

第一款是1Checker输入一段文本后:文本下面有修改意见,推荐使用。第二款:Ginger

2018-12-05 21:05:05 12949

原创 centos下安装protobuf

Hadoop使用protocol buffer来压缩和交换数据,所以Hadoop源码的编译与调试需要安装protobuf。在安装protobuf之前需要保证Centos安装了gcc和g++,可以参考https://blog.csdn.net/twj0823/article/details/84785389下载protobuf-2.5.0.tar.gz,下载地址:http://pan.ba...

2018-12-04 11:37:44 2066

原创 Centos下安装gcc和g++

gcc很好安装,直接输入命令:yum install gcc 即可。检查一下是否安装成功:[root@master protobuf-2.5.0]# gcc --versiongcc (GCC) 4.4.7 20120313 (Red Hat 4.4.7-23)Copyright (C) 2010 Free Software Foundation, Inc.出现以上信息说明gcc...

2018-12-04 11:18:40 1259

原创 Alluxio介绍与作用

欢迎关注我的微信公众号“叨叨大数据”一、介绍AlluxioTachyon正式改名为alluxio,并发布v1.0.0版本,alluxio是内存高速虚拟分布式存储系统。Alluxio是一个以内存为中心的虚拟分布式存储系统,统一数据访问和桥梁的计算框架和底层存储系统。应用程序只需要alluxio就可以把访问存储在任何底层存储系统的数据连接。此外,Alluxio以内存为中心的架构实现数据访问...

2018-11-30 15:32:07 10578

原创 Flume的HDFS sink学习

前言:HDFS sink原生的解析时间戳的代码性能不高,可以通过修改源码提升性能。具体操作参考链接:http://www.cnblogs.com/lxf20061900/p/4014281.htmlHDFS sink常用配置项:type – The component type name, needs to be hdfs hdfs.path – HDFS di...

2018-11-30 15:26:30 459

原创 Flume入门学习

什么是Flume Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。 当前Flume主要有两个版本flume-og和flume-ng,一般情况下都是使用flume-ng,这里介绍的也...

2018-11-30 14:14:27 186

原创 基于idea搭建Hadoop源码阅读环境

Hadoop源码是这么做,其他源码环境也类似。1、到官网下载Hadoop源码包,例如hadoop-2.6.5-src.tar.gz.https://www-eu.apache.org/dist/hadoop/common/hadoop-2.6.5/2、将下载的源码包解压到某个目录下,记住这个目录,后面导入Idea时需要这个目录。3、打开Idea,点击Import Project选项...

2018-11-27 10:36:40 4887 7

原创 MapReduce系列之过滤模式

过滤模式基本有四种:过滤,布隆过滤,Top 10 和去重过滤:将不感兴趣的记录过滤掉并将需要的数据保留下来类似用法:select * from table where 条件示例:map{    if(条件true)   {       context.write();  }} 布隆过滤:与过滤类似 ,只是他使用了一个独特的评估函数来作用于每一条记录。与普...

2018-11-26 17:57:34 947

原创 MapReduce系列之自定义Partitioner

partitioner定义:分区器partitioner的作用是将mapper(如果使用了combiner的话就是combiner)输出的key/value拆分为分片(shard),每个reducer对应一个分片。默认情况下,partitioner先计算key的散列值(通常为md5值)。然后通过reducer个数执行取模运算:key.hashCode%(reducer个数)。这种方式不仅能够随...

2018-11-26 17:38:45 223

原创 MapReduce系列之全局参数、数据文件的传递与引用

MapReduce编程过程中全局参数、数据文件的传递与引用的主要有一下几种方法。1、读写HDFS文件通过利用Hadoop的Java Apl来实现读写HDFS文件,需要注意的是针对多个Map或Reduce的写操作会产生冲突,覆盖原有数据优点:能够实现读写,也比较直观缺点:要共享一些很小的全局数据也需要I/O,将占用系统资源,增加作业完成的资源消耗2、配置Job属性在MapRe...

2018-11-24 15:50:08 1342

原创 Windows下基于Eclipse搭建MapReduce开发环境

首先安装JDK和Eclipse,安装JDK的教程网上很多,Eclipse下在下来解压就可以。值的一提的是,JDK和Eclipse的版本需要对应起来。这里提供一个JDK安装链接:https://jingyan.baidu.com/article/6dad5075d1dc40a123e36ea3.htmlJDK和Eclipse是基本的Java开发环境,为了方便项目构建和依赖管理,推荐安装Maven...

2018-11-24 15:36:14 2834 4

原创 MapReduce系列之MapReduce的输入

文件是 MapReduce 任务数据的初始存储地。正常情况下,输入文件一般是存储在 HDFS 里面。这些文件的格式可以是任意的:我们可以使用基于行的日志文件, 也可以使用二进制格式,多行输入记录或者其它一些格式。这些文件一般会很大,达到数十GB,甚至更大。那么 MapReduce 是如何读取这些数据的呢?下面我们来学习 InputFormat 接口1、InputFormat接口InputF...

2018-11-23 21:11:12 1712

原创 MapReduce系列之MapReduce任务处理流程

MapReduce处理数据的流程一般是这样的:1、从HDFS上读取数据,因为是分布式与并行计算,需要将数据划分给多个MapReduce任务。HDFS存储文件也是分块的,每个MapReduce的输入一般是和HDFS的数据块是对应的。也就是说一个HDFS数据块作为一个MapReduce任务的输入。这是Hadoop默认的情况,我们也可以实现InputFormat自定义输入格式。2、Map进行...

2018-11-23 20:41:05 2351

原创 个人遇到的一些Hadoop错误

1、org.apache.hadoop.hdfs.BlockMissingException: Could not obtain block对应的文件和数据块是存在的,之所以报这个错,是因为打开的数据流过多没有及时关闭2、INFO ipc.Client: Retrying connect to server: slave1/192.168.233.131:8485. Already ...

2018-11-22 19:21:02 2721 2

原创 Java API 访问HA模式下的HDFS集群

在使用Hadoop Java API访问HDFS集群时,在创建FileSystem对象时,直接指定NameNode的IP以及端口号即可。但是在HA模式下,访问HDFS集群却有一些不同,需要指定NameSpace和主备NameNode的IP以及端口等信息,具体操作方式见如下代码:Configuration conf = new Configuration();conf.set("fs.def...

2018-11-22 18:02:34 2267 10

原创 Hadoop Yarn源码阅读系列(二)Yarn源码目录组织结构

Hadoop Yarn分为5部分:API、Common、Applications、Client和Server,他们的内容具体如下:YARN API(hadoop-yarn-api目录):给出了YARN内存涉及的4个主要RPC协议的Java声明和Protocol Buffers定义,这4个RPC协议分别是ApplicationClientProtocol、ApplicationMasterPro...

2018-11-22 16:54:33 743

翻译 Hadoop Yarn源码阅读系列(一)Yarn架构

Yarn的基本思想是将JobTracker的两大主要职能:资源管理、作业调度/监控拆分为两个独立的进程:一个全局的ResourceManager和与每个应用对应的ApplicationMaster(AM)。ResourceManager和每个节点的NodeManager(NM)组成了全新的通用操作系统,以分布式的方式管理应用程序。ResourceManager拥有为系统中所有应用的资源分配的决...

2018-11-22 16:41:19 648

学生成绩管理系统

可以删除,添加,修改,查询学生学生信息,方便可靠

2012-03-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除