自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 资源 (1)
  • 问答 (1)
  • 收藏
  • 关注

原创 HBase shell 常用命令

1、进入hbase命令行界面$HBASE_HOME/bin/hbase shell2、查看当前用户hbase(main):001:0> whoami3、表的管理            (1)查看所有表hbase(main):002:0> list           (2)创建表                   语法:create  <ta...

2018-12-06 15:39:43 814

原创 MapReduce工作流程、Yarn工作机制

一、MapReduce工作流程  二、yarn的工作机制0、MapReduce程序提交的客户端所在的节点上。1、客户端向ResourceManager申请一个Application。2、ResourceManager 返回一个Application资源提交的HDFS路径和Application_id。3、客户端将运行job的资源(job.xml、job.spli...

2018-09-27 18:36:33 491

原创 Hive 的DML操作

一、导入数据1、向表中加载数据(load)语法:hive> load data [local] inpath '/opt/module/datas/student.txt' [overwrite] into table student [partition (partcol1=val1,…)];(1)、load data:表示加载数据(2)、local:表示加载本地数据到...

2018-09-14 16:57:17 956

原创 Hive 分区表和二级分区表的基本操作

Hive分区就是在HDFS上创建独立的文件夹,该文件夹下是该分区的所有的数据文件。Hive中的分区就是分目录,把一个大的数据集根据业务需要分割成小的数据集。在查询时通过WHERE子句中的表达式选择来查询所需要的指定分区,这样的查询效率会提高很多。1、引入分区表最终呈现的效果就是在HDFS上按照分区的目录存储文件:/user/hive/warehose/log/201801/01/dep...

2018-09-12 23:27:29 9164 4

原创 Hadoop 企业级优化

一、MapReduce跑得慢的原因MapReduce的瓶颈有一下两点:1、计算机硬件方面CPU、内存、网络、硬盘等。2、I/O方面1、数据倾斜的问题2、map和reduce设置的个数不合理3、spill溢写设置的不合理,导致溢写个数过多4、merge归并文件个数设置不合理,导致归并个数过多5、map运行的时间过长,导致reduce等待时间太久6、小文件太多...

2018-09-11 16:37:52 414

原创 Hadoop 的三种调度器FIFO、Capacity Scheduler、Fair Scheduler

     目前Hadoop有三种比较流行的资源调度器:FIFO 、Capacity Scheduler、Fair Scheduler。目前hadoop2.7默认使用的是Capacity Scheduler容量调度器。一、FIFO(先入先出调度器)hadoop1.x使用的默认调度器就是FIFO。FIFO采用队列方式将一个一个job任务按照时间先后顺序进行服务。比如排在最前面的job需要若干m...

2018-09-09 21:39:22 12472 1

转载 一文总结Linux的文件搜索命令,史上最清晰易懂

locate命令locate 文件名含义:在后台数据库中按文件名搜索,搜索速度很快。注意:(1)locate的搜索方式是在“/var/lib/mlocate”这个数据库中进行搜索的(不同的Linux可能数据库的名字不一样)。但是mlocate这个数据库不是实时更新的,它的更新频率是一天一更新。所以会发生用locate可能搜索不到已经存在的文件的现象。我们可以使用“updated

2017-09-15 11:30:56 398 1

转载 关于VMware时间不同步的解决方法

Vmware虚拟机的用户可能会出现这样的问题,用虚拟机下的系统时,其时间显示的是相应语言对应国家的时间,与所在地区不同步,这样会很不方便,那么该怎么修改才能使得时间同步呢?这里有三种解决方法,供大家参考。  问题:     在Windows操作系统下安装vmware虚拟机后,再安装Linux以后时间总是与真实计算机的不同步  解决方法:  方法1:  步骤1

2017-09-12 16:02:04 18341

转载 hadoop集群时间同步

测试环境: 192.168.217.130 master master.hadoop192.168.217.131 node1 node1.hadoop192.168.217.132 node2 node2.hadoop一、设置master服务器时间查看本地时间和时区[root@master ~]# dateMon Feb 27 09:54:

2017-09-08 10:35:45 2445

原创 用linux命令分析文件(排序,统计)

有a.txt和b.txt两个文件,文件格式为(ip  username)例如:a.txt:127.0.0.1  zhangsan127.0.0.2  lisi127.0.0.3  wangwu127.0.0.4  chenliub.txt:127.0.1.1  wangermazi127.0.0.2  lisi127.0.1.3  f

2017-08-22 12:33:48 703

原创 Hadoop学习(一)

一、Hadoop介绍             Hadoop由两部分组成,分别是HDFS和MapReduce。HDFS是分布式存储系统,MapReduce是并行计算框架。         二、HDFS介绍       1、主从机构                        主节点,只有一个namenode            从节点,可以有很

2017-08-07 22:07:57 373

转载 Java进阶(三)多线程开发关键技术

原创文章,转载请务必将下面这段话置于文章开头处(保留超链接)。本文转发自技术世界,原文链接 http://www.jasongj.com/java/multi_thread/sleep和wait到底什么区别其实这个问题应该这么问——sleep和wait有什么相同点。因为这两个方法除了都能让当前线程暂停执行完,几乎没有其它相同点。wait方法是Object

2017-08-04 10:30:51 328

原创 Zookeeper的安装

一、ZooKeeper 概述                      Zookeeper 是分布式协调服务,分布式程序可以基于Zookeeper来实现同步服务、配置服务和命名服务等。             ZooKeeper 是确保数据在其管理的服务器集群之间的数据的事务一致性。二、Zookeeper的安装           1、zookeeper集群节点数不能少于3

2017-08-02 22:42:57 269

原创 Hadoop1.x MapReduce 实现二次排序 实现WritableComparable接口

一、前言利用MapReduce来实现,首先按照第一列升序排列,当第一列相同时,第二列升序排列 3 3 3 2 3 1 2 2 2 1 1 1-------------------------------------预期结果 1 1 2 1 2 2 3 1 3 2

2017-08-02 17:23:48 489

原创 Hadoop1.x 的MapReduce 简单例子WordCount

一. 前言 之前笔记里记得案例今天看到了,所以拿出来分享。 **首先介绍一下案例需求,统计出hadoop上的一个hello目录下的文件不同单词的个数,并输出统计结果。**MapReduce 是一种分布式计算模型,主要分为Map和Reduce两部分,用户只需要实现map()和reduce()函数就可以,一般两个函数之间以key和value这种键值对传递参数二.代码import java.io.I

2017-08-02 15:40:00 460 1

原创 Centos7.2 JDK安装 + Tomcat安装 + 防火墙配置

一、环境和软件准备 搭建一个Web项目前,需要将其所需要环境搭建部署。 1、系统选择的是Centos7.2 64位的 2、JDK的版本是jdk-7u71-linux-x64.tar.gz 3、Tomcat的版本是nginx-1.7.6.tar.gz 4、防火墙是iptables二、JDK的安装 1、将JD

2017-07-27 13:03:03 907

原创 VirtualBox 虚拟机配置centos6.4 spark集群(1)--- 环境搭建以及所遇问题

一、前言二、所需软件       VirtualBox 5.1.22       操作系统 :centos6.4    CentOS-6.4-x86_64-minimal.iso       三、虚拟机的配置        1、虚拟机安装                (1)在VirtualBox中选择“新建”--->填写名称,“类型”选择Lin

2017-07-06 22:33:29 1040

原创 Centos 7 中MongoDB3.4.2 集群搭建

因为近期工作原因需要使用mongodb数据库,索性将搭建的全部过程分享出来。 一、环境准备 1、Centos7 2、mongodb3.4.2 3、三台机器IP分别是:192.168.1.100、192.168.1.101、192.168.1.102二、mongdb数据库的安装 如下操作是分别在三台机器进行1、首先分别在三台机器上下载好mo

2017-04-14 16:51:14 6586 5

hadoop-2.5.2.tar.gz

hadoop-2.5.2.tar.gzhadoop-2.5.2.tar.gzhadoop-2.5.2.tar.gzhadoop-2.5.2.tar.gz

2018-02-28

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除