自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(25)
  • 收藏
  • 关注

翻译 JVM(一)----基本原理

java源程序--->字节码文件(class文件)---->在不同平台的JVM上---->平台上运行的机器码文件。java程序经过一次编译之后,将java代码编译为字节码(即class文件),然后在不同的操作系统上依靠不同的java虚拟机进行解释,最后再转换为不同平台的机器码,最终得到执行。JVM的基本结构:如上图所示,java的内存空间主要包括:方法区、堆、栈、本地方法栈四部分...

2018-06-28 11:40:45 152

原创 事物及事物的隔离级别

2018-06-08 12:21:11 168

原创 JDBC

JDBC定义了三个方面:①数据库的连接  ②SQL语句的执行  ③结果集的查询遍历等。JDBC访问数据库的一般步骤:注册驱动,获取连接,获取statement(相当于控制台),执行SQL返回结果集,遍历结果集,释放连接。注册驱动:DriverManager.registerDriver(new com.mysql.jdbc.Driver());获取数据库连接:Connection conn = D...

2018-06-04 18:39:46 113

转载 三种工厂模式

①:简单工厂模式:把对象的创建放到一个工厂类中,通过参数来创建不同的对象。这个缺点是每添一个对象,就需要对简单工厂进行修改(尽管不是删代码,仅仅是添一个switch case,但仍然违背了“不改代码”的原则)一个栗子: 我喜欢吃面条,抽象一个面条基类,(接口也可以),这是产品的抽象类。public abstract class INoodles { /** * 描述每种面条啥样的...

2018-05-23 17:37:53 327

原创 JAVAEE复习--Servlet

Servlet是一个接口类,重要的两个实现类有:HttpServlet和GenericServletServlet是一个运行在服务器端的小程序,接收和响应浏览器发送过来的请求。Servlet快速入门:(自己实现Servlet的类,重写5个方法、或者继承servlet的实现类)    servlet的配置信息;                                <servlet&g...

2018-05-17 21:52:50 148

原创 JAVAEE复习笔记

WEB和TomCat网络架构:C/S,B/S。* 静态的web资源:HTML、CSS、JAVASCRIPT* 动态的web资源:Servlet/JSP、Servlet:

2018-05-11 16:39:38 297

原创 Hadoop7days -7 flume

Flume是一个数据采集系统,从WebServer上采集数据后通过Agent存储到HDFS上。Agent分为三个组件Source(采集到的资源),Channel(管道,暂时存放采集到的数据),Sink(通过它将数据存储到HDFS中)。Flume不依赖与Hadoop,只要安装有jdk的机器都可以运行它。如下所示的配置文件配置了一个名为a4的Agent,这个配置文件监视a4.sources.r1.ty...

2018-05-08 20:29:16 229

原创 Hadoop7days -7Hive

*  Hive 是建立在 Hadoop  上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL ),这是一种可以存储、查询和分析存储在 Hadoop  中的大规模数据的机制。Hive 定义了简单的类 SQL  查询语言,称为 QL ,它允许熟悉 SQL  的用户查询数据。同时,这个语言也允许熟悉 MapReduce  开发者的开发自定义的 mapper  和 reduc...

2018-05-08 18:45:30 144

原创 Hadoop7days-6 使用java接口操作HBase

//插入//插入1000000条数据//获取数据//查询数据范围,注意其查询结果,数据是按字典顺序存储的, 所以结果如下图//删除数据

2018-05-07 10:42:18 98

原创 Hadoop7days-6HBase理论知识

HBase的老大是HMaster,小弟是HRegionServer(类似于HDFS中的NodeManager,有多个,保证安全,通过Zookeeper进行协调),HBase数据存储的最小单元是region,Table 在行的方向上分割为多个HRegion,一个region由[startkey,endkey)表示,每个HRegion分散在不同的RegionServer中。HBase中有两张特殊的ta...

2018-05-07 09:09:51 94

原创 Hadoop7days-6 HBASE

HBase利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为协调工具。HBase的几个必须知道的3个概念:1:Row Key(主键),是用来检索记录的主键,访问HBase table中的行,只有三种访问方式,    A:通过单个Row Key 访问    B:通过Row Key的Range访问    C:全表扫...

2018-05-06 19:29:20 98

原创 Hadoop7days-5 hadoop集群搭建

在hadoop2.0中,namenode抽象成nameservice服务,每个nameservice下有两个namenode节点(nameservice也可以横向扩展,提高了存储元数据的能力),其中一个namenode为active状态,另一个为standby状态。如下图所示。如上图所示,zookeeper可以控制两个namenode的状态的切换,每个namenode所在的主机上都有一个DFSZK...

2018-05-05 16:34:27 102

原创 Hadoop7days-5 ZooKeeper

Hadoop2.0中通常有两个NameNode,一个处于active状态,对外提供服务;另一个处于standby状态,仅同步active NameNode的状态,当active NameNode宕掉时,可以快速切换。Zookeeper是Hadoop的分布式协调服务,分布式应用程序可以基于zookeeper实现多种服务,比如同步服务,配置维护和命名服务等。我们以数据同步服务为例:最上面是一个ZooK...

2018-05-02 16:04:17 103

原创 Hadoop7days-4 MR实现倒排索引

实现倒排索引值得是:将位于不同文件里面的单词,统计出其在不同文件中出现的次数,结果应为“hello”,"a.txt->3,b.txt->2,c.txt->2"的形式。要达成这一目标,需要设置多个mapper和reducer类。可以使用倒退的方法,来确定各个mapper和reducer要实现的功能,其步骤如下:mapper 的输出是context.write("hell0->...

2018-04-27 16:01:21 192

原创 Hadoop7days-4 shuffle

Shuffle是MapReduce的心脏。如上图看到的,数据的流程是Map--->shuffle--->Reduce.但是,shuffle的具体过程是怎样的呢?MAP端:    Map的输出并不是简单的写到磁盘,等待Reduce的获取。每一个map都有一个环形内存缓冲区,默认大小为100M,当其中的缓冲内容达到阈值(80%),后台线程便把其中的内容溢写到磁盘(在写磁盘过程中,map输出...

2018-04-27 09:55:53 115

原创 Hadoop7days-4 combiner

每一个map可能会产生大量的输出,combiner的作用就是在map端对输出先做一次合并,以减少传输到reducer的数据量。combiner最基本是实现本地key的归并,combiner具有类似本地的reduce功能。注意:Combiner的输出是Reducer的输入,如果Combiner是可插拔的,添加Combiner绝不能改变最终的计算结果。所以Combiner只应该用于那种Reduce的输...

2018-04-27 09:00:00 87

原创 Hadoop7days -4 Partitioner

一个Reducer会产生一个结果文件,并保存在HDFS文件系统中。设置归属地    Partitioner类是partitioner类的基类,用于将文件进行分区,不同的分区文件会使用不同的Reducer进行后续的运算(因此分多少区就会有多少reducer),自己定制的partitioner类需要继承该类。partitioner类的执行位置位于 Mapper和Reducer之间,因此其输入为Mapp...

2018-04-24 21:48:20 90

转载 大数据大框架图

2018-04-22 22:18:56 1402

原创 Hadoop 7days -hadoop序列化机制及 使用maven开发 MR统计上下行流量的例子开发

MR执行流程: (1).客户端提交一个mr的jar包给JobClient(提交方式:hadoop jar ...) (2).JobClient通过RPC和ResourceManager进行通信,返回一个存放jar包的地址(HDFS)和jobId (3).client将jar包写入到HDFS当中(path = hdfs上的地址 + jobId) (4).开始提交任务(任务的描述信息,不是jar, 包...

2018-04-22 21:06:01 221

原创 Hadoop 7days-3 MapReduce 以及 统计单词出现的次数小练习

MapReduce:MapReduce由两个阶段组成:Map和Reduce,用户只需要实现map()和reduce()两个函数,即可实现分布式计算,非常简单。这两个函数的形参是key、value对,表示函数的输入信息。工作过程:Client把工作的jar包提交到HDFS,当需要工作时,将描述信息发送给ResourceManager,NodeManager使用心跳机制向ResourceManager...

2018-04-18 19:24:32 270

原创 Hadoop 7days-02 HDFS的java接口和流程,Hadoop RPC

RPC:远程过程调用,    不同于之前的socket编程,socket编程只是简单的信息的传递,而RPC涉及到不同机器之上的方法的调用。可以看做client得到了一个server的代理对象,可以根据该代理对象调用server上的进程。因此两个不同的进程可以调用。即远程过程调用(不同进程的方法调用)。RPC是通过代理对象实现的,而JDK的动态代理要求Server和Client必须同时实现某个接口。...

2018-04-17 23:11:57 68

原创 Hadoop day2-02 HDFS的shell操作和HDFS架构、原理

也可以使用浏览器直接登录hdfs的文件管理页面,端口号为:50070yarn的管理页面,端口号为8088列出HDFS文件系统上的文件:hadoop fs -ls hdfs://tianyeredhat01:9000/Hadoop1.0里的shell命令为 hadoop fs -各种命令Hadoop2.0之后的命令为   hdfs dfs -shell命令块block:是文件存储的最基本单位,需要注...

2018-04-16 22:08:06 126

原创 Hadoop day2-01HDFS文件系统和原理

HDFS原理:client相当于送货员,NameNode相当于仓库管理员,DataNode相当于各个仓库。client带来货物或者带走货物时,向NameNode询问可以使用的仓库DataNode,确定好DataNode 后,按块申请(Hadoop1.0时,每块block是64M,Hadoop2.0是默认128M),之后将数据依次按块写入到所申请的块,每写完一块就再申请一块(防止一次申请很多,但是出...

2018-04-15 16:02:39 115

原创 Hadoop day1

question 1:    what is apache hadoop?The apache hadoop project devlops open-source software for reliable , scalable, distributed computing.解决了什么样的问题:1:海量数据的存储(HDFS)    2:海量数据的分析(MapReduce)Hadoop的核心:  ...

2018-04-15 15:57:27 88

原创 Hadoop学习第一天

Hadoop两大核心:①HDFS(Hadoop Distributed File System,分布式文件系统):存储是大数据技术的基础。②MapRedece编程模型:分布式计算是大数据应用的解决方案。Map:将数据拆分成很多小数据,并在多台机器上并行计算。Reduce:将Map步骤的结果汇总。总结:Hadoop1.0只有上面两个部分,Hadoop2.0添加了YARN:Yet Another Re...

2018-03-14 21:32:18 88

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除