Ocean.k-CSDN博客

原创 Redis的缓存穿透、缓存雪崩、缓存击穿的区别以及解决方案

1）缓存穿透是指查询一个一定不存在的数据。由于缓存命不中时会去查询数据库，查不到数据则不写入缓存，这将导致这个不存在的数据每次请求都要到数据库去查询，造成缓存穿透。解决方案：是将空对象也缓存起来，并给它设置一个很短的过期时间，最长不超过5分钟② 采用布隆过滤器，将所有可能存在的数据哈希到一个足够大的bitmap中，一个一定不存在的数据会被这个bitmap拦截掉，从而避免了对底层存储系统的查询压力2）如果缓存集中在一段时间内失效，发生大量的缓存穿透，所有的查询都落在数据库上，就会造成缓存雪崩。

2020-10-16 23:59:38 731

原创面试之FLUME经典问题：Flume的Source阶段会丢数据吗？

会，但分情况当source使用的Execsource异步source，当channel 容量设置满了，是无法通知客户端暂停数据生成，会造成数据丢失。如何解决？可以考虑使用SpoolingDirSource或TailDirSource 或者自己写source...

2020-09-28 09:54:10 1912

原创 Flume配置文件案例(端口监听)

Flume配置文件案例定义agent名字为a1source名字叫r1，如果有多个，用空格间隔sink名字叫k1，channel名字叫c1a1.sources = r1a1.sinks = k1a1.channels = c1#组名名.属性名=属性值a1.sources.r1.type=netcata1.sources.r1.bind=hadoop102a1.sources.r1.port=99999#定义sinka1.sinks.k1.type=logger#定义ch

2020-09-27 23:21:22 227

原创快速搞懂kafka是什么？

Kafka是什么？Kafka是一个分布式的基于发布/订阅模式的消息队列（MessageQueue），主要应用于大数据实时处理领域。Kafka是一个分布式的数据流式传输平台。在流式计算中，Kafka一般用来缓存数据，Spark通过消费Kafka的数据进行计算。1）Apache Kafka是一个开源消息系统，由Scala写成。是由Apache软件基金会开发的一个开源消息系统项目。2）Kafka最初是由LinkedIn公司开发，并于2011年初开源。2012年10月从Apache ...

2020-09-26 22:49:37 1058

转载几张图看懂列式存储

最近看到一篇很好资料，里面三言两语配上几个图就把列式存储(Column-based Storage)讲明白了，牛啊！最喜欢的就是这种浅显易懂就把背景知识讲得明明白白，而不是长篇大论的讲概念。1 为什么要按列存储列式存储(Columnar or column-based)是相对于传统关系型数据库的行式存储(Row-basedstorage)来说的。简单来说两者的区别就是如何组织表(翻译不好，直接抄原文了)：Ø Row-based storage stores atable in a sequen.

2020-09-26 12:54:53 441

原创一句话搞懂Hive的4个BY排序

Hive的4个BY排序和实际应用中的使用Order BY 全局排序，生产环境基本不用，数据量太大 Sort BY 分区内排序 Distrbute By类似MR中Partition，进行分区生产环境sort by 和distrbute by 组合用的多 Cluster By 当Distribute by和Sorts by字段相同时，可以使用Cluster by方式。Cluster by除了具有Distribute by的功能外还兼具Sort by的功能。但是排序只能是升序排序，..

2020-09-25 16:57:17 863 3

原创一句话搞懂 Hive 内部表和外部表

什么是HIVE的内部表和外部表？1）内部表（也叫管理表）：当我们删除一个内部表时，表元数据和原始数据都会删除。2）外部表：删除外部表只会删除表的元数据，原始数据不会删除。实际工作中，基本用到的都是外部表。内部表自己单机做测试时候使用。...

2020-09-25 16:25:59 149

原创 MapReduce的Shuffle过程及Hadoop优化

Shuffle

2020-09-21 19:23:34 182

原创一句话掌握ZooKeeper选举机制及生产过程的台数建议

ZooKeeper 选举机制采用的是半数机制，2N+1。安装奇数台。台数安装的越多，提高可靠性。但同时也影响通信时延。生产环境中，10台服务器安装3台ZK即可。20台安装5台zk。50台安装7台。

2020-09-21 00:11:36 339 1

原创一张图完全掌握HDFS写数据流程

详细流程：1）客户端通过Distributed FileSystem模块向NameNode请求上传文件，NameNode检查目标文件是否已存在，父目录是否存在。2）NameNode返回是否可以上传。3）客户端请求第一个 Block上传到哪几个DataNode服务器上。4）NameNode返回3个DataNode节点，分别为dn1、dn2、dn3。5）客户端通过FSDataOutputStream模块请求dn1上传数据，dn1收到请求会继续调用dn2，然后dn2调用dn3，将这个通信管道建立完..

2020-09-14 11:06:48 181

原创 HDFS文件块大小的设置建议

HDFS文件块的大小不能设置太大，也不能设置太小。寻址时间若为10ms，即查找到目标block的时间为10ms。寻址时间为传输时间的1%时，为最佳状态。那么传输时间=10ms/1%=1000ms=1s目前市面上磁盘普通传输速率100MB/s，那block设置为128MB，1s*100MB/s=100MB如果是固态硬盘300MB/s，那block设置应参考1s*300MB/s=300MB，则设置为256MB。（因为大小要为2的n次方，选择最靠近即可）...

2020-09-12 11:55:32 715

原创 Hadoop的组成介绍以及1.x 2.x的版本区别

Hadoop的组成Hadoop1.x和2.x区别1.x 有MR、HDFS、common2.x 有MR、Yarn、HDFS、common1.x 的MR负责计算和资源调度2.x 的MR功能拆分成了MR和YARN 分别负责计算和资源调度。我们主要来说下2.x版本1.HDFS 1>NN:name node 存储文件的元数据 2>DN:data node 存储文件块数据，以及数据的校验和 3>2NN:secondary name node 辅助nn，用...

2020-09-10 23:06:14 653

原创大数据框架用到的软件小结

yarn 集群计算资源的管理。MRmap：并行运算将大的任务拆分成小的。reduce：汇总sqoop：负责把关系型数据库采集到hadoopsql to hadoopflume：采集日志数据到hadoophbase：nosql数据库，对百亿数据库进行秒级查询（非关系型数据库）kafka：消息队列既可以可以存储数据，也可以传输数据mapreduce space stome 内存计算用yarn申请资源调度mr是离线计算：计算不会变化，计算的时候已经封闭了。sp

2020-09-10 21:52:11 93

原创 Apache Phoenix 介绍

什么是Apache PhoenixPhoenix 最早是 saleforce 的一个开源项目，后来成为 Apache 的顶级项目。Phoenix 构建在 HBase 之上的开源 SQL 层. 能够让我们使用标准的 JDBC API 去建表, 插入数据和查询 HBase 中的数据, 从而可以避免使用 HBase 的客户端 API.在我们的应用和 HBase 之间添加了 Phoenix, 并不会降低性能, 而且我们也少写了很多代码.Apache Phoenix 特点将 SQl 查询编.

2020-09-10 11:07:01 897

原创 ZooKeeper集群启动失败案例总结

Client port found: 2181. Client address: localhost.导致这个错误的原因大致分为以下几个方面，一一检查完，基本可以解决。下图是我解决后，已经可以正常启动的zk。[root@hadoop102 bin]# ./zkServer.sh status/usr/bin/javaZooKeeper JMX enabled by defaultUsing config: /opt/module/apache-zookeeper-3.5.7-bin/.

2020-09-06 20:11:42 3174

原创 ORACLE 闪回技术（FLASHBACK）

闪回技术：1.默认是没有开启的，需要手动在 Mount模式下启动alter database open resetlogs2.需要根据实际情况来设定参数3.启动的进程名称为 RVWR4.必须开启归档模式恢复时需要用到的信息：1.误操作前的SCN号2.误操作时的时间点模拟实验：模拟故障：有一个表T,执行了操作 drop tabl

2013-09-09 17:32:17 620

原创 EM 出现oracle unqname未定义的解决方法

原因：由于未定义该变量所导致，解决方法如下。1. export ORACLE_UNQNAME= 2. 启动 emctl start dbconsole3.查看状态：emtcl status dbconsole4.第2步成功后，系统会提示一个连接，那个就是你登陆EM的地址，复制到浏览器里打开即可。

2013-09-05 15:56:39 2631

大数据技术学习