Yatpif-CSDN博客

原创 Spark-Streaming架构详解

spark_submit==>SparkSubmin==>main===>sumit()==>doRunMain()===>runMain()==>通过反射的反射注册我们自定义的类，得到一个mainClass==>mainClass.getMethod("main",new Array[String](0).getClass)获得到我们编写任务的主类的ma...

2018-04-16 08:32:20 334

原创 akka知识点

基于akka开发的分布式应用程序，分为两种角色：1.master 作用：接收worker的注册信息，并将worker注册的信息保存下来，感知worker的上下线，接收worker的汇报心跳更新worker的相关信息定时检测超时的worker，并将超时的worker从集群中移除2.worker 作用：向master进行注册，加入到集群中定时向master汇报心跳工作流程：0.master启...

2018-04-16 08:31:19 212

day01hbase概念:非结构化的分布式的面向列存储非关系型的开源的数据库，根据谷歌的三大论文之一的bigtable高宽厚表作用:为了解决大规模数据集合多重数据种类带来的挑战，尤其是大数据应用难题。能干什么:存储大量结果集数据，低延迟的随机查询。sql:结构化查询语言nosql:非关系型数据库，列存储和文档存储(查询低延迟),hbase是nosql的一个种类，其特点是列式存储。非关系型数据库--...

2018-04-16 08:30:53 515

原创 Hadoop（四）—— Saprk笔记

什么是spark？基于内存一站式快速的计算框架spark下面有哪些产品？spark core --> spark rdd , spark核心编程，MapReducespark sql --> hivespark streaming --> storm , 流式实时计算spark mllib --> 机器学习，人工智能核心是算法 --> 核心是数学 --> 概...

2018-04-16 08:30:34 744

原创 Hadoop（三）——Hive和Hbase整合

如何创建一个与hbase共享数据的hive表set hbase.zookeeper.quorum=hadoop01:2181,hadoop02:2181,hadoop03:2181; set zookeeper.znode.parent=/hbase;//hive 创建表CREATE EXTERNAL TABLE hbase.hbase_hive02 (rowkey string,family1 ...

2018-03-16 11:16:42 1455

原创 Hive小结

三. Hivesql（关系型数据库）这种工具对mapreduce这种方式优点：不用进行思维转换，同时也更加接近人类语言，使用人群较大 hive用来把sql这种工具通过某种方式跟hadoop结合起来，实现用原来处理问题的思维来处理海量数据hive语句是 HQL 语句，类SQL也就是说的HQL:Hive Query Languagehive 执行流程编译器将一个Hive Query Language...

2018-03-16 11:15:17 392

原创调度器

（1）默认的调度器FIFOHadoop中默认的调度器，它先按照作业的优先级高低，再按照到达时间的先后选择被执行的作业。（2）计算能力调度器Capacity Scheduler支持多个队列，每个队列可配置一定的资源量，每个队列采用FIFO调度策略，为了防止同一个用户的作业独占队列中的资源，该调度器会对同一用户提交的作业所占资源量进行限定。调度时，首先按以下策略选择一个合适队列：计算每个队列中正在运...

2018-03-16 11:14:40 232

原创 Hadoop（二）答辩问题+答案

--------------------------------------------------------------------------------------hadoop 常见问题：1.压缩的几种方式？怎么设置的？default gzip bzip2 lz0 snappy使用怎么设置？map端设置 reduce端即使MapReduce应用使用非压缩的数据来读取和写入，我们也可以受益...

2018-03-16 11:13:51 2331

原创 Hadoop（三）—— kafka

1、kafka是什么类JMS消息队列，结合JMS中的两种模式，可以有多个消费者主动拉取数据，在JMS中只有点对点模式才有消费者主动拉取数据。 kafka是一个生产-消费模型。 Producer：生产者，只负责数据生产，生产者的代码可以集成到任务系统中。数据的分发策略由producer决定，默认是defaultPartition Utils.abs(key.hashCode) % nu...

2018-03-16 11:11:52 1342

原创 Hadoop（二）答辩题问题

1.什么是shuffle？shuffle的流程2.hadoop调度器？3.什么是etl？4.hive的数据类型5.分桶的理解6.hive的四大器7.hive的索引8.hive元数据的三种存储方式9.hadoop内置的输出文件的格式10.hive元数据默认保存的位置11.hive 的内置函数12.hive的优化13.如何理解分区14.hive的存储格式15.如何实现动态分区16.hive最大的优点1...

2018-03-16 11:10:08 752

原创 Hadoop（二）

LinuxLinux是一套免费使用和自由传播的类Unix的操作系统c语言编写以网络为核心特性：（1）一切皆文件（2）每个软件都有固定的用途免费开源多用户、多任务良好的界面（字符界面和图面界面）常用版本：Red Hat 商业版（收费）Fedora Core 由原来的Red Hat桌面版发展而来，免费（家用）Centos：Red Hat社区克隆版本，免费Debian：经常应用于服务器，性能稳定Ubuntu：Debian衍生而来，比较流行的桌面系统Fedora：急于尝试新技术

2018-03-16 11:09:23 599

原创 Hadoop（一）

一、大数据和云计算的关系？　　周围总是充斥着大数据和云计算这两个词，然而，实际上，很多人对于云计算和大数据的关系却总是容易混淆，所以总是将“云计算”和“大数据”放在一起讨论，实则不然。大数据和云计算究竟有什么关系？什么是云？是个概念，虚无缥缈的，天上飘着的，电视云，手机云，百度云，能用，能看得见吗？但是云落地了，是不是就存在了？　　简单来说：云计算是硬件资源的虚拟化，而大数据是海量数据的高效处理...

2018-03-16 11:08:12 1730 1

原创 Java高级笔记

1.类的加载：当程序使用某个类的时候，如果该类还未被加载到内存中，则系统会通过加载，链接，初始化三步来实现对这个类的初始化。步骤：＊＊加载：将class文件读入内存，并为之创建一个Class对象任何类被使用时系统都会创建一个Class对象＊＊连接： ①验证是否正确的内部结构，并和其他类协调一致 ②准备负责为类的静态成员分配内...

2018-03-16 11:06:31 361

原创 Java中级笔记

java 面向对象的特征：抽象；将现实生活中的事物，抽象成为计算机中的类或对象。这个过程，称之为抽象。封装:隐藏其内部细节，提供外部访问的方法。get() set(param pa) 封装的关键字是private 私有化。使用private修饰属性，只能再当前类中访问。构造方法： ...

2018-03-16 11:05:34 269

原创八大排序

排序算法可以分为内部排序和外部排序，内部排序是数据记录在内存中进行排序，而外部排序是因排序的数据很大，一次不能容纳全部的排序记录，在排序过程中需要访问外存。常见的内部排序算法有：插入排序、希尔排序、选择排序、冒泡排序、归并排序、快速排序、堆排序、基数排序等。本文将依次介绍上述八大排序算法。算法一：插入排序插入排序示意图插入排序是一种最简单直

2017-11-26 20:21:09 332

原创 Java初级入门

Java初级入门JAVA:高级语言：1、强类型语言：2、是完全面向对象的语言：C语言面向过程的语言 c++半面向对象的语言3、既是编译型语言，也是解释型语言：首先编写java源程序----> javac命令编译源程序（.class文件（2进制代码，字节码））---->java命令执行得到效果编译：把高级语言写得源程序，整体用一个工具全部转化成为机器语

2017-10-30 16:44:25 569

Yatpif的博客