TIhmAn1W-CSDN博客

原创 Kafka笔记

Kafka概述:Kafka是一个基于发布、订阅的分布式消息队列,用于大数据实时处理。为什么要用kafka?注册信息的过程,先在网站上填写注册信息,后台会调用其他服务的接口,反馈给网页注册成功信息,最后再显示给用户,并且将短信发送给用户,该过程为同步通信过程,需要同步等待，由于同步通信的过程比较慢效率比较低,引入了消息队列,网页将注册信息放到消息队列中等待,然后直接回复用户注册成功,在一段时间以后用户才收到短信提示,通过消息队列将网页和短信进行了隔离,不用让用户在注册的同时一直等待。同步通信.

2021-04-13 16:15:35 158

原创 Flume笔记

Flume 概述: 特点：高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。选Flume的原因：FLume是流式传输实时处理的。数据的传输过程：没有将用户产生的日志直接传输给大数据平台,而是传给日志服务器,可以按自己的需求方式去日志服务器获取。不希望以你的方式来传输而时希望以我的方式去拿。日志：<1>框架工作时候产生日志;<2>用户的操作行为被后台服务器收集后产生的用户行为日志。 Log4j：通过日志（log4j）的方式打印日志日志的级别：...

2021-04-13 16:13:20 132

原创 HBase笔记

Hbase Hbase是一种分布式、可扩展、支持海量存储的NoSQL数据库。基于Hadoop可分布式,基于HDFS可扩展,数十亿行百万列海量数据说明：虽然HBase的数据存储在HDFS上,且HDFS不支持,但是HBase通过技术手段实现随机、实时读写。 HBase以追加的方式对旧数据进行覆盖,从而实现对文件的修改。 RDBMS：传统关系型数据库。数据仓库:数仓并非仅作为数据的存储,而存储数据最终的目的是为了计算和分析。非关系型数据库：底层的物理存储...

2021-04-13 16:12:31 156

原创 Hive笔记

Hive特点:是一个数据仓库工具,将结构化的数据映射为一张表,并提供SQL查询功能,将SQL解析成Job。本质:数据存储在HDFS上,元数据存储在MySQL上,Hive将HQL语言转化成MapReduce程序,程序运行在yarn上。 Hive将HDFS中的一个文件映射为一个库或一个表，文件中存放的是数据。表中的元数据再MySQL中,Hive只作为一个客户端,不存储任何数据。说明:每张表对应HDFS中的一个目录，Hive时类SQL语言,除了拥有类似的查询语言，与数据库再无类似之处。 ...

2021-04-13 16:05:46 113

原创 Redis笔记

Redis概述： Redis是一种NoSQL非关系型内存数据库,数据没有预定义模式,都是KV值,没有声明性查询语言,基于乐观锁的松散事务控制。支持多种数据结构,内置复制、LUA脚本、LRU驱动时间、事务、和不同级别的磁盘持久化，并通过哨兵和自动分区提供高可用。应用场景：<1>缓存:将数据库中的热点数据存储到Redis缓存服务器中,查询请求会先在Redis中查找所需数据,查到直接返回,可以减缓数据库的压力。<2>数据临时存储位置:通常采用token令牌...

2021-04-13 16:04:08 60

原创 Flink笔记

Flink 概述: Flink 是为分布式、高性能、随时可用以及准确的流处理应用框架,用于对无界和有界数据流进行有状态计算,并且以内存执行速度和任意规模来执行计算,在保证'exactly-once'的同时具有低延迟、高吞吐的处理能力。Flink 特点: <1>基于事件驱动:是有状态的事件驱动,从一个或多个事件流提取数据,并根据事件的到来触发计算、状态更新或其他外部操作等。如Kafka的消息队列几乎都是事件驱动。 <2>流批处...

2021-04-13 16:01:08 419

原创 Scala笔记

Scala -概述: Scala是面向对象和函数式编程的结合,是一门完整的、完全的面向对象的语言,并且依赖JVM为运行环境,需要将Scala代码编译为字节码文件运行在JVM上。 Scala同样可以通过Java代码实现,Scala的学习是为了推动Spark的学习。说明:语言的完整,在任何情况都可以使用,不像mysql只能再查询时才可以使用。完全面向对象,对Java中非面向对象的内容采取相应的处理,如对基本数据类型、Static关键字、Void关键字...

2021-04-13 15:59:30 132

原创 Spark 笔记

Spark概述:Spark在2013年6月发行,早于Yarn的发行,所以内置一套资源调度框架。Spark基于内存进行数据的分析计算,中间过程只要不涉及Shuffle就不会落盘,减少了磁盘IO,所以性能更高。Spark 内置模块: Spark Core: 封装了RDD的API,实现Spark基本不功能,即任务调度、内存管理、错误恢复、与存储系统交互。 Spark SQL :是Spark用来操作结构化数据的程序包。 Spark Streaming:用于实时数据的流式计算,提供了操作数据...

2021-04-13 15:57:48 387

原创 Hadoop笔记

Hadoop Hadoop框架 1.0 MapReduce、HDFS、Common 2.0 MapReduce、Yarn、HDFS、Common MapReduce: 1.X 计算+资源调度 2.X 计算 Yarn：资源调度 HDFS：文件存储 Common：辅助工具 Hadoop1.X 存在的问题: <1>NameNode不能高可用,存在单节点故障问题。 <2>MR框架将资源和任务调度的耦合导致效率低。 <3&g...

2021-04-13 15:41:59 125

Yuexp0825的博客