BigData_Hadoop-CSDN博客

转载 YARN基本框架和工作流程

YARN基本框架和工作流程YARN的基本组成架构ResourceManager(RM)调度器应用程序管理器NodeManager(NM)containerYARN的通信协议YARN工作流程YARN基本框架和工作流程YARN是Hadoop2.0中资源管理系统，它的基本设计思想是将MRV1中的jobtracker拆分成了两个独立的服务：一个全局的资源管理器r...

2018-07-20 16:38:41 571

转载 HBase Shell实例

HBase Shell 常用操作1. 命名空间2. DDL语句3. put与get4. 其他DML语句5. scan和filterHBase Shell 常用操作HBase Shell是HBase的一个命令行工具，我们可以通过它对HBase进行维护操作。我们可以使用sudo -u hbase hbase shell来进入HBase shell。在HBase sh...

2018-06-24 19:21:01 1126

原创 HDFS读写过程

HDFS读写过程写数据流程使用HDFS客户端向远程Namenode发送RPC请求Namenode会检查要创建的文件是否已经存在，创建者是否有权限进行操作，成功则会文件文件创建一个记录，否则会让客户端抛出异常当客户端开始写入文件的时候，客户端会将文件分为多个packets，并在内部以数据队列的形式管理这些packets，并向Namenode申请blocks，获取用来存储复本的合适的...

2018-06-23 11:57:19 889

转载 Opennebula架构分析

前言物理架构主要进程代码组织结构onedone_*m.rbCLIAPI 接口总结前言OpenStack使用的语言是python，比他年长的2岁的OpenNebula就显得比较奇葩，使用的是C语言和Ruby，shell，多种语言混杂而成。关于两者的优劣在此不做讨论，但我个人认为OpenStack的发展偏向公有云，而OpenNebula的设计初衷就是私有云，...

2018-06-08 20:52:54 1252

原创 HiveQL学习笔记2

HiveQL学习笔记21、操作与函数可以在hive的shell环境中输入SHOW FUNCTIONS以获取函数列表。例如： Hive&gt; DESCRIBE FUNCTION length;2、表托管表和外部表待编辑，本来在word里，但是电脑突然关机，一点也没保存下来外部表：丢弃外部表时，hive不会去碰数据，只会删除元数据3、分区和桶Hive...

2018-06-01 11:38:20 349

什么是HiveHive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言，称为 HQL，它允许熟悉 SQL 的用户查询数据。同时，这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer...

2018-09-16 09:19:06 318

转载 JAVA_Heap_Sort

JAVA 堆排序堆堆是具有下列性质的完全二叉树：每个结点的值都大于或等于其左右孩子结点的值，称为大顶堆；或者每个结点的值都小于或等于其左右孩子结点的值，称为小顶堆。算法思想：将待排序的序列构造成一个大顶堆。此时，整个序列的最大值就是堆顶的根节点。将它移走(其实就是将其与堆数组的末尾元素交换，此时末尾元素就是最大值)，然后将剩余的n-1个序列重新构造成一个堆，这样就会得到n个...

2018-09-09 10:18:06 385

转载 MapReduce Top-K问题

Mappers使用默认的mapper数据，一个input split（输入分片）由一个mapper来处理。在每一个map task中，我们找到这个input split的前k个记录。这里我们用TreeMap这个数据结构来保存top K的数据，这样便于更新。下一步，我们来加入新记录到TreeMap中去（这里的TreeMap我感觉就是个大顶堆）。在map中，我们对每一条记录都尝试去更新Tree...

2018-09-09 10:00:52 492

转载 MapReduce矩阵相乘

数据准备A=⎡⎣⎢147258309⎤⎦⎥(1)(1)A=[123450789]A=\left[\begin{matrix} 1 &amp;amp; 2 &amp;amp; 3 \\ 4 &amp;amp; 5 &amp;amp; 0 \\ 7 &amp;amp; 8 &amp;amp; 9 \end{matrix} \right] \tag{1}B=⎡⎣⎢100111529⎤⎦⎥

2018-08-17 23:22:23 630

原创 Python 归并排序

Python 归并排序归并排序采用分而治之的方法，递归求解。 - 将长度为n的列表分成两个长度为n/2的子序列 - 对两个子序列分别采用归并排序 - 将两个排序好的子序列合并成一个最终的排序列表代码如下：# -*- coding:utf-8 _*- # @Author: dreams # @File: merge_sort.py # @Time: 2018/7/2...

2018-07-26 10:34:00 434

原创 Python 冒泡排序

Python 冒泡排序冒泡排序是最简单的排序，也没什么技术含量，就为了凑一个排序十大算法集合。冒泡排序首先比较相邻的两个元素，如果第一个比第二个大，那么就交换，否则继续往后比较，知道最后一对。重复以上步骤，直到最后一对。代码如下：# -*- coding:utf-8 _*- # @Author: dreams # @File: bubble_sort.py # @T...

2018-07-26 09:24:25 294

原创 Hadoop常用命令

Hadoop常用命令Hadoop常用命令命令基本格式hadoop fs -cmd &lt;args&gt;lshadoop fs -ls /hadoop fs -ls -R /puthadoop fs -put &lt;local file&gt; &lt;hdfs file&gt;hadoop fs -put dongle.c /had...

2018-07-01 20:32:19 290

原创 Flume学习笔记

Flume学习笔记概述数据流模型Flume事件拦截器，通道选择器与选择处理器通道内存/非持久化通道（内存通道）配置参数表本地文件系统/持久化通道（文件通道）配置参数表Flume学习笔记概述Apache Flume是一个分布式，高可靠和高可用的系统，它用于高校的收集，汇总和将大量来自不同来源的日志数据移动到一个中央数据仓库。...

2018-06-30 15:20:21 705

原创 Sqoop导入导出数据

Sqoop安装部署sqoop相关配置测试Sqoop从mariadb导入到HDFS从HDFS导出到mariadb从mariadb导入HBase从HBase导出到mariadb从mariadb导入Hive从Hive到导出到mariadbSqoop安装部署sqoop –&amp;amp;amp;amp;gt; 1.4.7hadoop –&amp;amp;amp;amp;gt;2.7.5默认系...

2018-06-29 17:47:58 664

转载 HiveQL的基本操作

Hive教程Hive概念Hive是什么Hive不适合做什么数据单元数据类型内置运算和函数SQL用法和实例创建表浏览表和分区修改表删除表加载数据查询和插入数据简单的查询基于查询的分区连接聚合多表/文件插入动态分区插入插入到本地文件抽样全连接数组操作Map（关联数组）操作定制Map/Reduce脚本Co-Groups...

2018-06-26 16:14:30 1072

原创 HBase基础

HBase ShellShell 通用命令status：提供HBase的状态，例如服务器的数量version：提供正在使用HBase版本table_help：表引用命令提供帮助whoami：提供有关用户的信息Shell 数据定义语言（DDL）列举HBase Shell支持的可以在表中操作的命令create：用于创建一个表list：用于列出HBase的所有...

2018-06-24 16:50:02 261

转载 SQL查询总结

SQL基础查询，关联查询SQL基础查询基础查询语句FROM使用别名WHERE字句SELECT字句查询条件使用&amp;amp;amp;gt;，&amp;amp;amp;lt;，&amp;amp;amp;gt;=，&amp;amp;amp;lt;=，!=，&amp;amp;amp;lt;&amp;amp;amp;gt;，=使用AND，OR关键字使用LIKE条件（模糊查询）使用I

2018-06-24 11:54:35 376

原创 ThriftParserError: ThriftPy does not support generating module with path in protocol 'd'解决办法

使用python连接hbase1、安装包2、代码3、问题使用python连接hbase1、安装包pip install happybasepip install thrift2、代码#-*- coding:utf-8 _*- # @Author: dreams # @File: connect.py # @Time: 2018/...

2018-06-11 16:22:05 910 1

转载 Vim命令学习参考

1. 关于Vim1.1 Vim的几种模式2. 启动Vim3. 文档操作4. 光标的移动4.1 基本移动4.2 翻屏4.3 标记5. 插入文本5.1 基本插入5.2 改写插入6. 剪切复制和寄存器6.1 剪切和复制、粘贴6.2 文本对象6.3 寄存器7. 查找与替换7.1 查找7.2 替换7.3 正则表达式8. 排版8.1 基本排版8...

2018-06-10 09:15:04 368

原创常用小工具

文档格式转换画图 processonLatex在线编辑器Latex在线编辑器markdown在线编辑器markdown在线编辑器2图表工具

2018-06-08 22:59:29 262

转载思科模拟器交换机路由器常用命令

路由器命令1,路由器口令设置：2,路由器配置：3,路由器文件操作：4,静态路由：5,动态路由：6,帧中继命令：7,基本访问控制列表：例1：例2：扩展访问控制列表：例1：例2：删除访问控制例表:路由器的nat配置外部网关协议配置配置PPP验证：8，路由器子接口封装为8021Q （补充）交换机常用命令交换机基本状态：交换机口令设置：交换机VLA...

2018-06-05 20:14:25 13882 1

原创 Python_选择排序

Python 快速排序选择排序的排序原理是每一次都从待排序的元素和中选择出最小或者最大的一个元素，存放在起始的位置，例如，从开始j，i两个索引，j负责起始位置，也就是j的索引是指向最小的值，然后在j的之后的元素中找最小的值，然后更新small_value_index，当找到最小元素的时候，将j和最小元素交换位置。代码如下：# -*- coding: utf-8 -*-# @Tim...

2018-06-05 10:01:01 254

原创 Python_希尔排序

Python 希尔排序希尔排序也称缩小增量排序，是直接插入排序算法的一种更高效的改进版本，希尔排序的核心思想是：先将数组分割成若干个子序列，分别进行直接插入排序，然后一次缩减增量再进行排序，直至增量为零，然后对全体进行一次直接插入排序。增量也叫分组步长，第一次为len(array) / 2 第二次为(len(array)/2) / 2 直到增量为1 index 和 index+s...

2018-06-04 17:58:27 219

原创 Python_插入排序

Python 插入排序插入排序的基本思想是将列表分为两段，（左边，当前元素值，右边）。位置（position）从索引1开始，首先当前位置的值和当前位置的左边一个元素做比较，由于刚开始当前位置左边只有一个元素，所以左边是已经拍好顺序的，插入排序的核心就是左边任何时候都是已经拍好顺序的。当当前位置和当前位置左边元素比较的时候，如果当前位置的左边一个元素的值大于当前位置元素值，那么当前位置左边一个元...

2018-06-04 16:59:50 202

原创 Flume学习笔记

Flume学习笔记本章代码链接：https://github.com/gitdreams/hadoop-book/tree/master/ch14-flume1、要想使用Flume,就需要运行Flume代理，Flume代理有持续运行的source（数据来源），sink（数据目标）以及channel（用于连接source和sink）构成的java进程。源，水池，渠道2、事务和可靠性，...

2018-06-04 15:54:40 224

原创 HBase学习笔记

HBase学习笔记1、 HBase特性2、 HBase访问接口3、 HBase数据模型4、区域5、实现6、运行中的HBase7、 HBase shell8、 HBase和RDBMS的比较HBase学习笔记是BigTable的开源实现1、 HBase特性高可靠，高性能，面向列，可伸缩。 ...

2018-06-04 15:48:29 509

转载 Git常用命令

**git init # 初始化本地git仓库（创建新仓库） git config –global user.name “xxx” # 配置用户名 git config –global user.email “[email protected]” ...

2018-06-01 17:52:59 214 1

原创 HiveQL学习笔记

HiveQL学习笔记1、SQL和HiveQL的概要比较特性 SQL HiveQL 更新 UPDATA , INSERT, DELETE UPDATE, INSERT, DELETE 事务支持有限支持索引支持支持延迟亚秒级分钟级数据类型整数，浮点数，定点数，文本和二进制串，时间...

2018-05-31 10:07:32 296

原创 Hive学习笔记

Hive笔记1、 Hive的shell环境hive&gt;show tables; hive&gt;hive –e ‘select * from dummy’ 生成简单单行表: echo ‘X’ &gt; /tmp/dummy.txt hive –e “create table dummy(value string); load data local inpath ‘/tmp...

2018-05-31 09:54:39 384

原创 Python_快速排序

快速排序有三个变量：low（left），hight（right），key（其中left，right代表数组的首尾，是不变值） low是指向数组左边的指针，hight是指向数组右边的指针，key是比较的基准。在执行快速排序的过程中，首先hight从有到左移动，如果low小于hight，而且hight指向的值大于key，那么hight就继续往左移动如果hight指向的数据小于了key，那么就...

2018-05-30 11:09:33 199

原创 HDFS学习笔记

Hdfs笔记1、分布式文件系统主节点：数据目录（元数据）服务从节点：具体完成数据的存储任务 HDFS：兼容廉价的硬件设备，实现流数据读写，支持大数据集，支持简单的文件模型，强大的跨平台兼容性 HDFS局限性：不适合低延迟数据访问，无法高效存储大量小文件，不支持多用户写入以及任意修改文件。2、 HDFS相关概念快：1、为了分摊磁盘读写开销，也就是...

2018-05-29 20:53:03 378

原创 Sqoop学习笔记

Sqooop学习随笔 HDFS能够可靠的存储日志和来自不同渠道的其他数据，MapReduce程序能够解析多种特定的（adhoc）数据格式1、 Sqoop允许用户将数据从结构化存储器抽取到Hadoop中。2、 Sqoop连接器Sqoop拥有一个可扩展的框架，使得它能够从（向）任何支持批量数据传输的外部存储系统导入（导出）数据。3、文本和二进制文件格式...

2018-05-29 17:11:15 233

原创 Spark的安装与配置

Spark是一个开源集群运算框架，Spark在存储器内运行程序运算速度比Hadoop MapReduce的运算快100倍以上。

2018-05-18 18:01:04 435 1

原创 HBase的安装与部署

HBase是一个分布式的，面向列的开源数据库，是Google三大论文之一的“BigTable”的开源实现，它适合于非结构化数据存储。

2018-05-18 11:52:28 211

原创 hadoop拒绝远程连接解决办法

我在主机上配置好hadoop之后，开启hadoop服务，在同一个局域网下的另一台主机使用eclipse连接hadoop，虽然创建连接成功，但是进行上传文件的时候会报如下错误

2018-05-18 11:37:07 4304

原创 Hive的安装与配置

安装和配置Hive，前提你已经成功安装和配置了Hadoop。

2018-05-16 09:49:32 714

原创第一个MapReduce程序

第一个程序一般都是Hello World，所以说MapReduce的第一个程序就是单词计数，主要代码如下：package Temperature;import java.io.IOException;import java.util.*;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.*;import or...

2018-05-15 15:07:17 199

原创 Hadoop on Windows Error JAVA_HOME is incorrectly set

Hadoop on Windows Error JAVA_HOME is incorrectly set

2018-05-15 15:05:17 413

原创 eclipse添加hadoop插件

下载hadoop-eclipse-plugin-2.6.5.jar，并将其添加到eclipse的plugins目录下重启eclipse关闭hdfs服务器的防火墙，修改相应配置文件使之能够通过IP加端口访问在windows上下载hadoop，并解压到一个目录在window-->Preferences-->Hadoop Map/Reduce下边，选择刚刚解压的hadoop目录，提交并关闭w...

2018-04-24 18:16:33 1481

原创 hadoop搭建教程

最近准备学习一些大数据的入门知识，当然是从搭建环境开始了，下面我把我搭建hadoop的步骤以及遇到的一些问题写在下边。搭建前的准备： centos7环境 jdk环境 ssh免密登录用户组准备好以上几步之后就可以搭建hadoop了。安装centos的步骤就不在这里赘述了。 jdk环境如果centos操作系统自带的话那么找到JAVA_HO...

2018-04-15 11:38:47 404

JavaJDK7.0API

空空如也