qq_22772465-CSDN博客

翻译 JVM(一)----基本原理

java源程序--->字节码文件（class文件）---->在不同平台的JVM上---->平台上运行的机器码文件。java程序经过一次编译之后，将java代码编译为字节码（即class文件），然后在不同的操作系统上依靠不同的java虚拟机进行解释，最后再转换为不同平台的机器码，最终得到执行。JVM的基本结构：如上图所示，java的内存空间主要包括：方法区、堆、栈、本地方法栈四部分...

2018-06-28 11:40:45 152

JDBC定义了三个方面：①数据库的连接 ②SQL语句的执行 ③结果集的查询遍历等。JDBC访问数据库的一般步骤：注册驱动，获取连接，获取statement（相当于控制台），执行SQL返回结果集，遍历结果集，释放连接。注册驱动：DriverManager.registerDriver(new com.mysql.jdbc.Driver());获取数据库连接：Connection conn = D...

2018-06-04 18:39:46 113

转载三种工厂模式

①：简单工厂模式：把对象的创建放到一个工厂类中，通过参数来创建不同的对象。这个缺点是每添一个对象，就需要对简单工厂进行修改（尽管不是删代码，仅仅是添一个switch case，但仍然违背了“不改代码”的原则）一个栗子：我喜欢吃面条，抽象一个面条基类，(接口也可以)，这是产品的抽象类。public abstract class INoodles { /** * 描述每种面条啥样的...

2018-05-23 17:37:53 327

原创 JAVAEE复习--Servlet

Servlet是一个接口类，重要的两个实现类有：HttpServlet和GenericServletServlet是一个运行在服务器端的小程序，接收和响应浏览器发送过来的请求。Servlet快速入门：（自己实现Servlet的类，重写5个方法、或者继承servlet的实现类） servlet的配置信息; <servlet&g...

2018-05-17 21:52:50 148

原创 JAVAEE复习笔记

WEB和TomCat网络架构：C/S，B/S。* 静态的web资源：HTML、CSS、JAVASCRIPT* 动态的web资源：Servlet/JSP、Servlet:

2018-05-11 16:39:38 297

原创 Hadoop7days -7 flume

Flume是一个数据采集系统，从WebServer上采集数据后通过Agent存储到HDFS上。Agent分为三个组件Source(采集到的资源)，Channel（管道，暂时存放采集到的数据），Sink（通过它将数据存储到HDFS中）。Flume不依赖与Hadoop，只要安装有jdk的机器都可以运行它。如下所示的配置文件配置了一个名为a4的Agent,这个配置文件监视a4.sources.r1.ty...

2018-05-08 20:29:16 229

原创 Hadoop7days -7Hive

* Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL ），这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言，称为 QL ，它允许熟悉 SQL 的用户查询数据。同时，这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reduc...

2018-05-08 18:45:30 144

原创 Hadoop7days-6 使用java接口操作HBase

//插入//插入1000000条数据//获取数据//查询数据范围,注意其查询结果，数据是按字典顺序存储的，所以结果如下图//删除数据

2018-05-07 10:42:18 98

原创 Hadoop7days-6HBase理论知识

HBase的老大是HMaster，小弟是HRegionServer(类似于HDFS中的NodeManager，有多个，保证安全，通过Zookeeper进行协调),HBase数据存储的最小单元是region,Table 在行的方向上分割为多个HRegion，一个region由[startkey,endkey)表示，每个HRegion分散在不同的RegionServer中。HBase中有两张特殊的ta...

2018-05-07 09:09:51 94

原创 Hadoop7days-6 HBASE

HBase利用Hadoop HDFS作为其文件存储系统，利用Hadoop MapReduce来处理HBase中的海量数据，利用Zookeeper作为协调工具。HBase的几个必须知道的3个概念：1：Row Key（主键），是用来检索记录的主键，访问HBase table中的行，只有三种访问方式， A：通过单个Row Key 访问 B：通过Row Key的Range访问 C：全表扫...

2018-05-06 19:29:20 98

原创 Hadoop7days-5 hadoop集群搭建

在hadoop2.0中，namenode抽象成nameservice服务，每个nameservice下有两个namenode节点（nameservice也可以横向扩展，提高了存储元数据的能力），其中一个namenode为active状态，另一个为standby状态。如下图所示。如上图所示，zookeeper可以控制两个namenode的状态的切换，每个namenode所在的主机上都有一个DFSZK...

2018-05-05 16:34:27 102

原创 Hadoop7days-5 ZooKeeper

Hadoop2.0中通常有两个NameNode,一个处于active状态，对外提供服务；另一个处于standby状态，仅同步active NameNode的状态，当active NameNode宕掉时，可以快速切换。Zookeeper是Hadoop的分布式协调服务，分布式应用程序可以基于zookeeper实现多种服务，比如同步服务，配置维护和命名服务等。我们以数据同步服务为例：最上面是一个ZooK...

2018-05-02 16:04:17 103

原创 Hadoop7days-4 MR实现倒排索引

实现倒排索引值得是：将位于不同文件里面的单词，统计出其在不同文件中出现的次数，结果应为“hello”，"a.txt->3,b.txt->2,c.txt->2"的形式。要达成这一目标，需要设置多个mapper和reducer类。可以使用倒退的方法，来确定各个mapper和reducer要实现的功能，其步骤如下：mapper 的输出是context.write("hell0->...

2018-04-27 16:01:21 192

原创 Hadoop7days-4 shuffle

Shuffle是MapReduce的心脏。如上图看到的，数据的流程是Map--->shuffle--->Reduce.但是，shuffle的具体过程是怎样的呢？MAP端： Map的输出并不是简单的写到磁盘，等待Reduce的获取。每一个map都有一个环形内存缓冲区，默认大小为100M，当其中的缓冲内容达到阈值（80%），后台线程便把其中的内容溢写到磁盘（在写磁盘过程中，map输出...

2018-04-27 09:55:53 115

原创 Hadoop7days-4 combiner

每一个map可能会产生大量的输出，combiner的作用就是在map端对输出先做一次合并，以减少传输到reducer的数据量。combiner最基本是实现本地key的归并，combiner具有类似本地的reduce功能。注意：Combiner的输出是Reducer的输入，如果Combiner是可插拔的，添加Combiner绝不能改变最终的计算结果。所以Combiner只应该用于那种Reduce的输...

2018-04-27 09:00:00 87

原创 Hadoop7days -4 Partitioner

一个Reducer会产生一个结果文件，并保存在HDFS文件系统中。设置归属地 Partitioner类是partitioner类的基类，用于将文件进行分区，不同的分区文件会使用不同的Reducer进行后续的运算（因此分多少区就会有多少reducer），自己定制的partitioner类需要继承该类。partitioner类的执行位置位于 Mapper和Reducer之间，因此其输入为Mapp...

2018-04-24 21:48:20 90

转载大数据大框架图

2018-04-22 22:18:56 1402

原创 Hadoop 7days -hadoop序列化机制及使用maven开发 MR统计上下行流量的例子开发

MR执行流程: (1).客户端提交一个mr的jar包给JobClient(提交方式：hadoop jar ...) (2).JobClient通过RPC和ResourceManager进行通信，返回一个存放jar包的地址（HDFS）和jobId (3).client将jar包写入到HDFS当中(path = hdfs上的地址 + jobId) (4).开始提交任务(任务的描述信息，不是jar, 包...

2018-04-22 21:06:01 221

原创 Hadoop 7days-3 MapReduce 以及统计单词出现的次数小练习

MapReduce:MapReduce由两个阶段组成：Map和Reduce，用户只需要实现map()和reduce()两个函数，即可实现分布式计算，非常简单。这两个函数的形参是key、value对，表示函数的输入信息。工作过程：Client把工作的jar包提交到HDFS，当需要工作时，将描述信息发送给ResourceManager,NodeManager使用心跳机制向ResourceManager...

2018-04-18 19:24:32 270

原创 Hadoop 7days-02 HDFS的java接口和流程,Hadoop RPC

RPC：远程过程调用，不同于之前的socket编程，socket编程只是简单的信息的传递，而RPC涉及到不同机器之上的方法的调用。可以看做client得到了一个server的代理对象，可以根据该代理对象调用server上的进程。因此两个不同的进程可以调用。即远程过程调用（不同进程的方法调用）。RPC是通过代理对象实现的，而JDK的动态代理要求Server和Client必须同时实现某个接口。...

2018-04-17 23:11:57 68

原创 Hadoop day2-02 HDFS的shell操作和HDFS架构、原理

也可以使用浏览器直接登录hdfs的文件管理页面，端口号为:50070yarn的管理页面，端口号为8088列出HDFS文件系统上的文件：hadoop fs -ls hdfs://tianyeredhat01:9000/Hadoop1.0里的shell命令为 hadoop fs -各种命令Hadoop2.0之后的命令为 hdfs dfs -shell命令块block：是文件存储的最基本单位，需要注...

2018-04-16 22:08:06 126

原创 Hadoop day2-01HDFS文件系统和原理

HDFS原理：client相当于送货员，NameNode相当于仓库管理员，DataNode相当于各个仓库。client带来货物或者带走货物时，向NameNode询问可以使用的仓库DataNode，确定好DataNode 后，按块申请（Hadoop1.0时，每块block是64M，Hadoop2.0是默认128M），之后将数据依次按块写入到所申请的块，每写完一块就再申请一块（防止一次申请很多，但是出...

2018-04-15 16:02:39 115

原创 Hadoop day1

question 1: what is apache hadoop?The apache hadoop project devlops open-source software for reliable , scalable, distributed computing.解决了什么样的问题：1：海量数据的存储（HDFS） 2:海量数据的分析（MapReduce）Hadoop的核心： ...

2018-04-15 15:57:27 88

原创 Hadoop学习第一天

Hadoop两大核心：①HDFS（Hadoop Distributed File System，分布式文件系统）：存储是大数据技术的基础。②MapRedece编程模型：分布式计算是大数据应用的解决方案。Map:将数据拆分成很多小数据，并在多台机器上并行计算。Reduce:将Map步骤的结果汇总。总结：Hadoop1.0只有上面两个部分，Hadoop2.0添加了YARN：Yet Another Re...

2018-03-14 21:32:18 88

qq_22772465的博客