10 HarkerYX

尚未进行身份认证

我要认证

不要跟我拽,我比你更拽! 致力于整合最优的博客集! 商务合作请私信!

等级
TA的排名 1k+

《大数据: HBase 介绍与安装》

一、NoSQL介绍1.有些数据库在实现性能的同时会牺牲一部分一致性,即数据在更新时,不会立刻同步,而是经过了一段时间才达到一致性。这个特性也称之为最终一致性!例如你发了一条朋友圈,你的一部分朋友立马看到了这条信息,而另一部分朋友可能要等到1分钟之后才能刷出这条消息。虽然有延时,但是对于这样一个社交的场景,这个延时是可以容忍的。而如果使用传统关系型数据库,可能这些即时通信软件就早已崩溃 NoSQL数据库最初指不使用SQL标准的数据库,现在泛指非关系型数据库。NoSQL一词最早出现于1998年,...

2020-10-27 19:29:19

《大数据: ZooKeeper watcher监听事件机制》

一、ZooKeeper watcher监听1. 场景数据发布与订阅应用启动时主动到Zookeeper上获取配置信息,并注册watcher监听 配置管理员变更Zookeeper配置节点的内容 Zookeeper推送变更到应用,触发watcher回调函数 应用根据逻辑,主动获取新的配置信息,更改自身逻辑 其实就是多设备共享,监听动态变化...

2020-10-27 18:13:45

《大数据: ZooKeeper 集群搭建》

一、ZooKeeper 集群搭建1. 集群的特点ZooKeeper 集群是一个领导(leader)和多个跟随者(follower)组成的集群 leader负责进行投票的发起和决议,更新系统状态 follower用于接收客户请求并向客户端返回结果,在选举leader过程中参与投票 集群中只要有半数以上的节点存活,ZooKeeper 集群就能正常工作 (如2台挂了1台 就不能工作) ZooKeeper 集群可以主从复制,但是没用读写分离 follower在掉线后重新上线可以同步数据2.zo.

2020-10-27 18:12:48

《大数据: ZooKeeper znode节点结构特性》

一、ZooKeeper znode节点结构特性在 zookeeper 中,可以说 zookeeper 中的所有存储的数据是由 znode 组成的,节点也称为 znode,并以 key/value 形式存储数据。 整体结构类似于 linux 文件系统的模式以树形结构存储。其中根路径以/开头[zk: localhost:2181(CONNECTED) 8] ls /zookeeper[quota]1. Znode 树形图[zk: localhost:2181(CONNECTED) 3...

2020-10-27 16:24:55

《大数据: ZooKeeper 客户端命令》

一、ZooKeeper 客户端命令客户端登入成功后 查看所有命令: (和 redis-cli 很像哦,也可以在外面执行!)[zk: localhost:2181(CONNECTED) 0] helpZooKeeper -server host:port cmd args stat path [watch] set path data [version] ls path [watch] delquota [-n|-b] path

2020-10-26 18:40:33

《大数据: ZooKeeper 介绍与安装》

一、ZooKeeper 介绍与安装官网:https://zookeeper.apache.org/1. 介绍ZooKeeper 是 Apache 软件基金会的一个软件项目,它为大型分布式计算提供开源的分布式配置服务、同步服务和命名注册 ZooKeeper 的架构通过冗余服务实现高可用性 Zookeeper 的设计目标是将那些复杂且容易出错的分布式一致性服务封装起来,构成一个高效可靠的原语集,并以一系列简单易用的接口提供给用户使用 一个典型的分布式数据一致性的解决方案,分布式应用程序可以..

2020-10-26 18:12:18

《大数据: Flume 事务》

一、Flume 事务1. 概念put事务:put事务指source将event放入channel的过程中,开启的事务 流程:source将封装好的event,先放入到putList(事务开启的缓冲区),一批event在放入putList期间,如果发生了异常,就回滚(rollback())事务,此时清空putList,如果没有发生异常,那么就提交(ommit())事务,提交事务将event放入到channel中,这批event就可以写入到channel,写入完成后,清空putList,开始下

2020-10-26 14:45:10

《大数据: Flume 面试题》

一、Flume 面试题1.你是如何实现Flume数据传输的监控的使用第三方框架Ganglia实时监控Flume2.Flume的Source,Sink,Channel的作用?你们Source是什么类型Source组件是专门用来收集数据的,可以处理各种类型、各种格式的日志数据,包括avro、thrift、exec、jms、spooling directory、netcat、sequence generator、syslog、http、legacy Channel组件对采集到的数据进行...

2020-10-24 20:54:07

《大数据: Flume 数据流监控》

一、Flume 数据流监控1. 在使用flume期间,我们需要监控什么? 如何实现?channel当前的容量是多少 channel当前已经使用了多少容量 source向channel中put成功了多少个event sink从channel中take成功了多少个event 使用JMX2. J2EE定义了14种技术规范JDBC: java连接数据库的技术规范Servlet: 所有javaweb写的程序,都最终使用Servlet完成请求的接受和响应JMX(java mon...

2020-10-23 17:33:10

《大数据: Flume 自定义Sink》

一、Flume 自定义Sink官方自定义sink的接口:https://flume.apache.org/FlumeDeveloperGuide.html#sinkMySink需要继承AbstractSink类并实现Configurable接口实现相应方法:configure(Context context) //初始化context(读取配置文件内容)process() //从Channel读取获取数据(event),这个方法将被循环调用需求:Sink端给每条数据添加前缀...

2020-10-23 14:04:30

《大数据: Flume Agent 内部原理》

一、Flume Agent 内部原理重要组件1.ChannelSelectorChannelSelector的作用就是选出Event将要被发往哪个Channel。其共有两种类型,分别是Replicating(复制)和Multiplexing(多路复用) ReplicatingSelector会将同一个Event发往所有的Channel,Multiplexing会根据相应的原则,将不同的Event发往不同的Channel Replicating是默认的选择器,当一个source使用此...

2020-10-20 16:57:41

《大数据: Flume 自定义Interceptor》

一、Flume 自定义Interceptor (拦截器)需求:在实际的开发中,一台服务器产生的日志类型可能有很多种,不同类型的日志可能需要发送到不同的分析系统。此时会用到Flume拓扑结构中的Multiplexing结构,Multiplexing的原理是,根据event中Header的某个key的值,将不同的event发送到不同的Channel中,所以我们需要自定义一个Interceptor,为不同类型的event的Header中的key赋予不同的值::演示案例简单一点,我们就写一个拦截器为

2020-10-22 19:29:21

《大数据: Flume 自定义Source》

一、Flume 自定义SourceSource是负责接收数据到Flume Agent的组件。Source组件可以处理各种类型、各种格式的日志数据,包括avro、thrift、exec、jms、spooling directory、netcat、sequence generator、syslog、http、legacy。官方提供的source类型已经很多,但是有时候并不能满足实际开发当中的需求,此时我们就需要根据实际需求自定义某些source官方文档:https://flume.apache.org.

2020-10-22 19:00:35

《大数据: Kafka 介绍与核心概念》

一、消息队列1. 传统消息队列的应用场景2. 消息队列的两种模式①. 点对点模式(一对一,消费者主动拉取数据,消息收到后消息清除)消息生产者生产消息发送到Queue中,然后消息消费者从Queue中取出并且消费消息。消息被消费以后,queue中不再有存储,所以消息消费者不可能消费到已经被消费的消息。Queue支持存在多个消费者,但是对一个消息而言,只会有一个消费者可以消费②.发布/订阅模式(一对多,消费者消费数据之后不会清除消息)消息生产者(发布)将消息发布到to...

2020-10-21 19:20:54

《大数据: Flume 负载均衡(Load balancing Sink Processor)》

一、Flume 负载均衡Load balancing Sink Processor维持了sink组中active状态的sink,使用round_robin 或 random 算法,来分散sink组中存活的sink之间的负载, 每隔一段时间随机选取某个sink1.组件选择①.Load balancing Sink ProcessorLoad balancing sink processor provides the ability to load-balance flow o...

2020-10-21 18:55:37

《大数据: Flume 故障转移(Failover Sink Processor)》

一、Flume 负载均衡与故障转移Failover Sink ProcessorFailover Sink Processor维护了一个多个sink的有优先级的列表,按照优先级保证,至少有一个sink是可以工作的,如果根据优先级发现,优先级高的sink故障了,故障的sink会被转移到一个故障的池中冷却,在冷却时,故障的sink也会不断尝试发送event,一旦发送成功,此时会将故障的sink再移动到存活的池中1.组件选择①.Failover Sink ProcessorFailov...

2020-10-21 18:25:20

《大数据: Flume (Multiplexing Channel Selector)》

一、Flume 复用channel 选择器Multiplexing Channel Selector根据evnet header中属性,参考用户自己配置的映射信息,将event发送到指定的channel需求基本和 Replicating 一样1.组件选择①. Multiplexing Channel Selector加粗选项是必须要填写 (红色标记),其他是可选项Property Name Default Description selector.type ...

2020-10-21 15:06:45

《大数据: Flume (Replicating Channel Selector)》

一、Flume 复制 channel 选择器

2020-10-20 18:36:42

《大数据: Flume 多个Agent 串联(AvroSource、AvroSink)》

一、Flume 多个Agent 串联如果AgentA需要将Event对象发送到其他的agent进程中,AgentA的sink,必须为AvroSink,其他的agent在接收时,必须选择AvroSource1.组件选择①. Avro SourceListens on Avro port and receives events from external Avro client streams. When paired with the built-in Avro Sink on a..

2020-10-20 17:56:34

《大数据: Flume 实时监控多个文件(Taildir Source)》

一、Flume 实时监控多个文件需求:使用Flume监听整个目录的实时追加文件,并上传至HDFS需求分析:1.组件选择①.Taildir SourceWatch the specified files, and tail them in nearly real-time once detected new lines appended to the each files. If the new lines are being written, this source w...

2020-10-20 16:22:40

查看更多

勋章 我的勋章
  • 脉脉勋章
    脉脉勋章
    绑定脉脉第三方账户获得
  • 签到王者
    签到王者
    累计签到获取,不积跬步,无以至千里,继续坚持!
  • 新人勋章
    新人勋章
    用户发布第一条blink获赞超过3个即可获得
  • 阅读者勋章Lv3
    阅读者勋章Lv3
    授予在CSDN APP累计阅读博文达到30天的你,是你的坚持与努力,使你超越了昨天的自己。
  • 专栏达人
    专栏达人
    授予成功创建个人博客专栏的用户。专栏中添加五篇以上博文即可点亮!撰写博客专栏浓缩技术精华,专栏达人就是你!
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 1024勋章
    1024勋章
    #1024程序员节#活动勋章,当日发布原创博客即可获得
  • 1024超级勋章
    1024超级勋章
    授予原创文章总数达到1024篇的博主,感谢你对CSDN社区的贡献,CSDN与你一起成长。
  • 勤写标兵Lv4
    勤写标兵Lv4
    授予每个自然周发布9篇以上(包括9篇)原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。