- 博客(16)
- 收藏
- 关注
原创 Spark-Streaming架构详解
spark_submit==>SparkSubmin==>main===>sumit()==>doRunMain()===>runMain()==>通过反射的反射注册我们自定义的类,得到一个mainClass==>mainClass.getMethod("main",new Array[String](0).getClass)获得到我们编写任务的主类的ma...
2018-04-16 08:32:20 334
原创 akka知识点
基于akka开发的分布式应用程序,分为两种角色:1.master 作用: 接收worker的注册信息,并将worker注册的信息保存下来,感知worker的上下线, 接收worker的汇报心跳更新worker的相关信息 定时检测超时的worker,并将超时的worker从集群中移除2.worker 作用: 向master进行注册,加入到集群中 定时向master汇报心跳工作流程:0.master启...
2018-04-16 08:31:19 212
原创 Hbase知识点总结
day01hbase概念:非结构化的分布式的面向列存储非关系型的开源的数据库,根据谷歌的三大论文之一的bigtable高宽厚表作用:为了解决大规模数据集合多重数据种类带来的挑战,尤其是大数据应用难题。能干什么:存储大量结果集数据,低延迟的随机查询。sql:结构化查询语言nosql:非关系型数据库,列存储和文档存储(查询低延迟),hbase是nosql的一个种类,其特点是列式存储。非关系型数据库--...
2018-04-16 08:30:53 515
原创 Hadoop(四)—— Saprk笔记
什么是spark?基于内存一站式快速的计算框架spark下面有哪些产品?spark core --> spark rdd , spark核心编程,MapReducespark sql --> hivespark streaming --> storm , 流式实时计算spark mllib --> 机器学习,人工智能 核心是算法 --> 核心是数学 --> 概...
2018-04-16 08:30:34 744
原创 Hadoop(三)——Hive和Hbase整合
如何创建一个与hbase共享数据的hive表set hbase.zookeeper.quorum=hadoop01:2181,hadoop02:2181,hadoop03:2181; set zookeeper.znode.parent=/hbase;//hive 创建表CREATE EXTERNAL TABLE hbase.hbase_hive02 (rowkey string,family1 ...
2018-03-16 11:16:42 1455
原创 Hive小结
三. Hivesql(关系型数据库)这种工具对mapreduce这种方式优点:不用进行思维转换,同时也更加接近人类语言,使用人群较大 hive用来把sql这种工具通过某种方式跟hadoop结合起来,实现用原来处理问题的思维来处理海量数据hive语句是 HQL 语句,类SQL也就是说的HQL:Hive Query Languagehive 执行流程编译器将一个Hive Query Language...
2018-03-16 11:15:17 392
原创 调度器
(1)默认的调度器FIFOHadoop中默认的调度器,它先按照作业的优先级高低,再按照到达时间的先后选择被执行的作业。(2) 计算能力调度器Capacity Scheduler支持多个队列,每个队列可配置一定的资源量,每个队列采用FIFO调度策略,为了防止同一个用户的作业独占队列中的资源,该调度器会对同一用户提交的作业所占资源量进行限定。调度时,首先按以下策略选择一个合适队列:计算每个队列中正在运...
2018-03-16 11:14:40 232
原创 Hadoop(二)答辩问题+答案
--------------------------------------------------------------------------------------hadoop 常见问题:1.压缩的几种方式?怎么设置的?default gzip bzip2 lz0 snappy使用怎么设置?map端设置 reduce端即使MapReduce应用使用非压缩的数据来读取和写入,我们也可以受益...
2018-03-16 11:13:51 2331
原创 Hadoop(三)—— kafka
1、kafka是什么类JMS消息队列,结合JMS中的两种模式,可以有多个消费者主动拉取数据,在JMS中只有点对点模式才有消费者主动拉取数据。 kafka是一个生产-消费模型。 Producer:生产者,只负责数据生产,生产者的代码可以集成到任务系统中。 数据的分发策略由producer决定,默认是defaultPartition Utils.abs(key.hashCode) % nu...
2018-03-16 11:11:52 1342
原创 Hadoop(二)答辩题问题
1.什么是shuffle?shuffle的流程2.hadoop调度器?3.什么是etl?4.hive的数据类型5.分桶的理解6.hive的四大器7.hive的索引8.hive元数据的三种存储方式9.hadoop内置的输出文件的格式10.hive元数据默认保存的位置11.hive 的内置函数12.hive的优化13.如何理解分区14.hive的存储格式15.如何实现动态分区16.hive最大的优点1...
2018-03-16 11:10:08 752
原创 Hadoop(二)
LinuxLinux是一套免费使用和自由传播的类Unix的操作系统c语言编写以网络为核心特性:(1)一切皆文件(2)每个软件都有固定的用途免费开源 多用户、多任务 良好的界面(字符界面和图面界面)常用版本:Red Hat 商业版(收费)Fedora Core 由原来的Red Hat桌面版发展而来,免费(家用)Centos:Red Hat社区克隆版本,免费Debian:经常应用于服务器,性能稳定Ubuntu:Debian衍生而来,比较流行的桌面系统Fedora:急于尝试新技术
2018-03-16 11:09:23 599
原创 Hadoop(一)
一、大数据和云计算的关系? 周围总是充斥着大数据和云计算这两个词,然而,实际上,很多人对于云计算和大数据的关系却总是容易混淆,所以总是将“云计算”和“大数据”放在一起讨论, 实则不然。大数据和云计算究竟有什么关系?什么是云?是个概念,虚无缥缈的,天上飘着的,电视云,手机云,百度云,能用,能看得见吗?但是云落地了,是不是就存在了? 简单来说:云计算是硬件资源的虚拟化,而大数据是海量数据的高效处理...
2018-03-16 11:08:12 1730 1
原创 Java高级笔记
1.类的加载 : 当程序使用某个类的时候,如果该类还未被加载到内存中, 则系统会通过加载,链接,初始化三步 来实现对这个类的初始化。 步骤 : ** 加载 : 将class文件读入内存,并为之创建一个Class对象 任何类被使用时系统都会创建一个Class对象 ** 连接 : ①验证 是否正确的内部结构,并和其他类协调一致 ②准备 负责为类的静态成员分配内...
2018-03-16 11:06:31 361
原创 Java中级笔记
java 面向对象的特征: 抽象;将现实生活中的事物,抽象成为计算机中的类或对象。这个过程,称之为抽象。 封装:隐藏其内部细节,提供外部访问的方法。get() set(param pa) 封装的关键字是private 私有化。 使用private修饰属性,只能再当前类中访问。 构造方法: ...
2018-03-16 11:05:34 269
原创 八大排序
排序算法可以分为内部排序和外部排序,内部排序是数据记录在内存中进行排序,而外部排序是因排序的数据很大,一次不能容纳全部的排序记录,在排序过程中需要访问外存。常见的内部排序算法有:插入排序、希尔排序、选择排序、冒泡排序、归并排序、快速排序、堆排序、基数排序等。本文将依次介绍上述八大排序算法。算法一:插入排序 插入排序示意图插入排序是一种最简单直
2017-11-26 20:21:09 332
原创 Java初级入门
Java初级入门JAVA:高级语言:1、强类型语言:2、是完全面向对象的语言:C语言面向过程的语言 c++半面向对象的语言3、既是编译型语言,也是解释型语言:首先编写java源程序----> javac命令编译源程序(.class文件(2进制代码,字节码))---->java命令执行得到效果编译:把高级语言写得源程序,整体用一个工具全部转化成为机器语
2017-10-30 16:44:25 569
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人