小马哥_编程-CSDN博客

原创 HBase shell 常用命令

1、进入hbase命令行界面$HBASE_HOME/bin/hbase shell2、查看当前用户hbase(main):001:0> whoami3、表的管理（1）查看所有表hbase(main):002:0> list （2）创建表语法：create <ta...

2018-12-06 15:39:43 814

原创 MapReduce工作流程、Yarn工作机制

一、MapReduce工作流程二、yarn的工作机制0、MapReduce程序提交的客户端所在的节点上。1、客户端向ResourceManager申请一个Application。2、ResourceManager 返回一个Application资源提交的HDFS路径和Application_id。3、客户端将运行job的资源（job.xml、job.spli...

2018-09-27 18:36:33 491

原创 Hive 的DML操作

一、导入数据1、向表中加载数据(load)语法：hive> load data [local] inpath '/opt/module/datas/student.txt' [overwrite] into table student [partition (partcol1=val1,…)];(1)、load data:表示加载数据(2)、local：表示加载本地数据到...

2018-09-14 16:57:17 956

原创 Hive 分区表和二级分区表的基本操作

Hive分区就是在HDFS上创建独立的文件夹，该文件夹下是该分区的所有的数据文件。Hive中的分区就是分目录，把一个大的数据集根据业务需要分割成小的数据集。在查询时通过WHERE子句中的表达式选择来查询所需要的指定分区，这样的查询效率会提高很多。1、引入分区表最终呈现的效果就是在HDFS上按照分区的目录存储文件：/user/hive/warehose/log/201801/01/dep...

2018-09-12 23:27:29 9164 4

原创 Hadoop 企业级优化

一、MapReduce跑得慢的原因MapReduce的瓶颈有一下两点：1、计算机硬件方面CPU、内存、网络、硬盘等。2、I/O方面1、数据倾斜的问题2、map和reduce设置的个数不合理3、spill溢写设置的不合理，导致溢写个数过多4、merge归并文件个数设置不合理，导致归并个数过多5、map运行的时间过长，导致reduce等待时间太久6、小文件太多...

2018-09-11 16:37:52 414

原创 Hadoop 的三种调度器FIFO、Capacity Scheduler、Fair Scheduler

目前Hadoop有三种比较流行的资源调度器：FIFO 、Capacity Scheduler、Fair Scheduler。目前hadoop2.7默认使用的是Capacity Scheduler容量调度器。一、FIFO（先入先出调度器）hadoop1.x使用的默认调度器就是FIFO。FIFO采用队列方式将一个一个job任务按照时间先后顺序进行服务。比如排在最前面的job需要若干m...

2018-09-09 21:39:22 12472 1

转载一文总结Linux的文件搜索命令，史上最清晰易懂

locate命令locate 文件名含义：在后台数据库中按文件名搜索，搜索速度很快。注意：（1）locate的搜索方式是在“/var/lib/mlocate”这个数据库中进行搜索的（不同的Linux可能数据库的名字不一样）。但是mlocate这个数据库不是实时更新的，它的更新频率是一天一更新。所以会发生用locate可能搜索不到已经存在的文件的现象。我们可以使用“updated

2017-09-15 11:30:56 398 1

转载关于VMware时间不同步的解决方法

Vmware虚拟机的用户可能会出现这样的问题，用虚拟机下的系统时,其时间显示的是相应语言对应国家的时间,与所在地区不同步，这样会很不方便,那么该怎么修改才能使得时间同步呢？这里有三种解决方法，供大家参考。　　问题：在Windows操作系统下安装vmware虚拟机后，再安装Linux以后时间总是与真实计算机的不同步　　解决方法：　　方法1：　　步骤1

2017-09-12 16:02:04 18341

转载 hadoop集群时间同步

测试环境： 192.168.217.130 master master.hadoop192.168.217.131 node1 node1.hadoop192.168.217.132 node2 node2.hadoop一、设置master服务器时间查看本地时间和时区[root@master ~]# dateMon Feb 27 09:54:

2017-09-08 10:35:45 2445

原创用linux命令分析文件（排序，统计）

有a.txt和b.txt两个文件，文件格式为（ip username）例如：a.txt:127.0.0.1 zhangsan127.0.0.2 lisi127.0.0.3 wangwu127.0.0.4 chenliub.txt:127.0.1.1 wangermazi127.0.0.2 lisi127.0.1.3 f

2017-08-22 12:33:48 703

原创 Hadoop学习（一）

一、Hadoop介绍 Hadoop由两部分组成，分别是HDFS和MapReduce。HDFS是分布式存储系统，MapReduce是并行计算框架。二、HDFS介绍 1、主从机构主节点，只有一个namenode 从节点，可以有很

2017-08-07 22:07:57 373

转载 Java进阶（三）多线程开发关键技术

原创文章，转载请务必将下面这段话置于文章开头处（保留超链接）。本文转发自技术世界，原文链接　http://www.jasongj.com/java/multi_thread/sleep和wait到底什么区别其实这个问题应该这么问——sleep和wait有什么相同点。因为这两个方法除了都能让当前线程暂停执行完，几乎没有其它相同点。wait方法是Object

2017-08-04 10:30:51 328

原创 Zookeeper的安装

一、ZooKeeper 概述 Zookeeper 是分布式协调服务，分布式程序可以基于Zookeeper来实现同步服务、配置服务和命名服务等。 ZooKeeper 是确保数据在其管理的服务器集群之间的数据的事务一致性。二、Zookeeper的安装 1、zookeeper集群节点数不能少于3

2017-08-02 22:42:57 269

原创 Hadoop1.x MapReduce 实现二次排序实现WritableComparable接口

一、前言利用MapReduce来实现，首先按照第一列升序排列，当第一列相同时，第二列升序排列 3 3 3 2 3 1 2 2 2 1 1 1-------------------------------------预期结果 1 1 2 1 2 2 3 1 3 2

2017-08-02 17:23:48 489

原创 Hadoop1.x 的MapReduce 简单例子WordCount

一. 前言之前笔记里记得案例今天看到了，所以拿出来分享。 **首先介绍一下案例需求，统计出hadoop上的一个hello目录下的文件不同单词的个数，并输出统计结果。**MapReduce 是一种分布式计算模型，主要分为Map和Reduce两部分，用户只需要实现map()和reduce()函数就可以，一般两个函数之间以key和value这种键值对传递参数二.代码import java.io.I

2017-08-02 15:40:00 460 1

原创 Centos7.2 JDK安装 + Tomcat安装 + 防火墙配置

一、环境和软件准备搭建一个Web项目前，需要将其所需要环境搭建部署。 1、系统选择的是Centos7.2 64位的 2、JDK的版本是jdk-7u71-linux-x64.tar.gz 3、Tomcat的版本是nginx-1.7.6.tar.gz 4、防火墙是iptables二、JDK的安装 1、将JD

2017-07-27 13:03:03 907

原创 VirtualBox 虚拟机配置centos6.4 spark集群（1）--- 环境搭建以及所遇问题

一、前言二、所需软件 VirtualBox 5.1.22 操作系统：centos6.4 CentOS-6.4-x86_64-minimal.iso 三、虚拟机的配置 1、虚拟机安装（1）在VirtualBox中选择“新建”--->填写名称，“类型”选择Lin

2017-07-06 22:33:29 1040

原创 Centos 7 中MongoDB3.4.2 集群搭建

因为近期工作原因需要使用mongodb数据库，索性将搭建的全部过程分享出来。一、环境准备 1、Centos7 2、mongodb3.4.2 3、三台机器IP分别是：192.168.1.100、192.168.1.101、192.168.1.102二、mongdb数据库的安装如下操作是分别在三台机器进行1、首先分别在三台机器上下载好mo

2017-04-14 16:51:14 6586 5

小马哥的博客