11 yimenglin

尚未进行身份认证

我要认证

暂无相关简介

等级
TA的排名 2w+

ORACLE 几种同步灾备手段(OGG,ADG,DSG,高级复制,流复制,logmnr)

目前所接触的Oracle 的灾备以及同步手段主要有ADG,OGG,DSG,高级复制,流复制以及自主开发的基于logmnr的数据同步软件,各有优劣。各自评价如下:1. ADG,最常用的同城,异地灾备解决方案,物理级备份,备机不可写,传输数据为所有redo日志的更改,数据量稍大,不过从以往的使用经验来看,也不太会影响网络,除非应用对网络有很苛刻的要求,即使有,也可以通过vlan或者路由或者多网卡的方法特别建立网络通道,主备库完全一致,缺点是必须全库备份。2. OGG,DSG这两个我觉得是一个类型的,逻辑备.

2020-08-25 15:01:43

大数据平台架构

何谓五横,基本还是根据数据的流向自底向上划分五层,跟传统的数据仓库其实很类似,数据类的系统,概念上还是相通的,分别为数据采集层、数据处理层、数据分析层、数据访问层及应用层。同时,大数据平台架构跟传统数据仓库有一个不同,就是同一层次,为了满足不同的场景,会采用更多的技术组件,体现百花齐放的特点,这是一个难点。具体见下图示例,这张图是比较经典的,也是妥协的结果,跟当前网上很多的大数据架构图都可以作一定的映射。数据采集层:既包括传统的ETL离线采集、也有实时采集、互联网爬虫解析等等。数据处理层:...

2020-08-25 14:48:52

kafka的log存储解析——topic的分区partition分段segment以及索引等

转自:http://blog.csdn.net/jewes/article/details/42970799引言Kafka中的Message是以topic为基本单位组织的,不同的topic之间是相互独立的。每个topic又可以分成几个不同的partition(每个topic有几个partition是在创建topic时指定的),每个partition存储一部分Message。借用官方的一张图,可以直观地看到topic和partition的关系。partition是以文件的形式存储在文件系统中,比如,创建

2020-08-25 14:23:04

flume和kafka区别

kafka和flume都是日志系统,kafka是分布式消息中间件,自带存储;flume每一部分都是可以定制。kafka更合适做日志缓存,flume数据采集部分做的很好,可以定制很多数据源,减少开发量。kafka 和 flume 都是日志系统,kafka 是分布式消息中间件,自带存储,提供 push 和 pull 存取数据功能。flume 分为 agent(数据采集器),collector(数据简单处理和写入),storage(存储器)三部分,每一部分都是可以定制的。比如 agent 采用 RPC(Thri.

2020-08-25 10:56:48

Flume(二)

Flume(二)(Multiple Agent+ Multiple Channel+Custom) </h1> <div class="clear"></div> <div class="postBody"> (Multiple Agent+ Multiple Channel+Custom)Flume(一)文章我们详细介...

2020-08-25 10:44:07

Flume(一)

Flume的定义Flume是一个分布式的、高可靠的、高可用的将大批量的不同数据源的日志数据收集、聚合、移动到数据中心(HDFS)进行存储的系统。即是日志采集和汇总的工具Logstash、FileBeat是ES栈的日志数据抽取工具,他们和Flume很类似,前者是轻量级、后者是重量级,若项目组使用的是ES栈技术,那完全可以使用Logstash取代Flume。版本 NG: 1.x的版本   (N=NEW)OG:0.9.x的版本,不用管(O=OLD)由于...

2020-08-25 10:42:46

Kafka史上最详细原理总结下

Kafka史上最详细原理总结分为上下两部分,承上启下Kafka史上最详细原理总结上Kafka史上最详细原理总结下本篇为Kafka史上最详细原理总结下,承接Kafka史上最详细原理总结上3.Partition Replication原则Kafka高效文件存储设计特点Kafka把topic中一个parition大文件分成多个小文件段,通过多个小文件段,就容易定期清除或删除已经消费完文件,减少磁盘占用。通过索引信息可以快速定位message和确定response的最大大小。通过index元数据全

2020-08-25 09:58:39

Kafka史上最详细原理总结上

Kafka史上最详细原理总结分为上下两部分,承上启下Kafka史上最详细原理总结上Kafka史上最详细原理总结下KafkaKafka是最初由Linkedin公司开发,是一个分布式、支持分区的(partition)、多副本的(replica),基于zookeeper协调的分布式消息系统,它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于hadoop的批处理系统、低延迟的实时系统、storm/Spark流式处理引擎,web/nginx日志、访问日志,消息服务等等,用scala语言编写,

2020-08-25 09:56:52

ClickHouse学习系列之二【用户权限管理】

背景       最近花了些时间看了下ClickHouse文档,发现它在OLAP方面表现很优异,而且相对也比较轻量和简单,所以准备入门了解下该数据库系统。在安装完之后首先做的应该如何设置用户密码以及权限控制。因为和MySQL、MongoDB等数据库的用户管理完全不一样,为方便自己以后直接查阅,本文对其用户权限管理方面进行梳理说明。 说明       ClickHouse作为一个分析类型(OLAP)的数据...

2020-08-25 09:06:31

Clickhouse安装及使用

一、简介Yandex在2016年6月15日开源了一个数据分析的数据库,名字叫做ClickHouse,这对保守俄罗斯人来说是个特大事。更让人惊讶的是,这个列式存储数据库的跑分要超过很多流行的商业MPP数据库软件,例如Vertica。如果你没有听过...

2020-08-24 15:37:29

linux cgroups详细介绍

linux cgroups详细介绍  更新时间:2018年08月23日 11:51:40   转载 作者:sparkdev   cgroups(Control Groups) 是 linux 内核提供的一种机制,这种机制可以根据需求把一系列系统任务及其子任务整合(或分隔)到按资源划分等级的不同组内,从而为系统资源管理提供一个统一的框架。这篇文章主要介绍了linux cgroups 简介...

2020-08-21 10:02:41

通俗理解YARN运行原理

导语:工作中常常和Spark on YARN, Hadoop on YARN打交道,经常在各种日志中摸爬滚打,为提升效率,总结一下YARN的知识点,希望能形成一个比较系统的方法论。本文由三问三答一例组成。1、为什么要使用YARN?为了提升集群的利用率、资源统一管理, 使用YARN为上层应用提供统一的资源管理和调度的平台。2、YARN的优势?    资源的统一管理和调度:     集群中所有节点的资源(内存、CPU、磁盘、网络等)

2020-08-21 09:55:26

yarn工作原理

基本架构概念解析1. ResourceManager    ResourceManager是master上的进程,负责整个分布式系统的资源管理和调度。他会处理来自client端的请求(包括提交作业/杀死作业);启动/监控Application Master;监控NodeManager的情况,比如可能挂掉的NodeManager。2. NodeManager ...

2020-08-21 09:42:00

MapReduce中map阶段和reduce阶段以及shuffle过程内部工作机制记录

mapTask工作原理:我们在写job任务时,指定一个FileInputFormat,设置一个路径,FileInputFormat类继承InputFormat(一个抽象接口),里面提供了一个抽象方法getSplits(),FileInputFormat中重写该方法的逻辑,对文件进行切分成多个split,然后通过RecordReader(默认使用lineRecordReader)按行进行读取文件内容并交给map去执行自...

2020-08-20 10:26:23

了解MapReduce之Partition分区的概念与执行过程(附例子)

Partition1.用户需求            在执行MR程序时我们可能想要将不同的数据放到不同的文件中。2.概念            partition是在map阶段完成后...

2020-08-20 09:30:25

名字节点(NameNode)基本功能介绍

功能图下图为名字节点基本功能图,可能会有遗漏,在以后的源码研读中会更新: 基本功能介绍NameNodeHttpServer:提供Http服务 NameNodeRpcServer:RPC机制实现,名字节点与其他节点之间远程调用的实现(名字...

2020-08-20 08:26:49

数据仓库-拉链表, 流水表, 全量表, 增量表, 切片表

数据仓库-拉链表,流水表,全量表,增量表转载声明本文大量内容系转载自以下文章,有删改,并参考其他文档资料加入了一些内容:数据仓库中的增量表,全量表,快照表,拉链表作者:北京小辉出处:csdn什么是全量表,增量表,快照表,拉链表...

2020-08-19 15:27:39

数仓中的全量表,增量表,拉链表,流水表,快照表

预热:我们先从几个物理概念入手理解什么是流量,存量,增量(1)存量:系统在某一时点时的所保有的数量;(2)流量:是指在某一段时间内流入/出系统的数量(3)增量:则是指在某一段时间内系统中保有数量的变化(4)增量=流入量--流出量(5)本期期末存量=上期期末存量+本期内增量正题一般公司只是简单分成 全量表,增量表,和拉链表。所以重点关注如下三个表就OK了。全量表:每天的所有的最新状态的数据。(1)全量表,有无变化,都要报(2)每次上报的数据都是所有的数据(变化的&nb

2020-08-19 15:13:28

数据仓库中拉链表和流水表

前言本文将会谈一谈在数据仓库中拉链表相关的内容,包括它的原理、设计、以及在我们大数据场景下的实现方式。全文由下面几个部分组成: 先分享一下拉链表的用途、什么是拉链表。 通过一些小的使用场景来对拉链表做近一步的阐释,以及拉链表和常用的切片表的区别。 举一个具体的应用场景,来设计并实现一份拉链表,最后并通过一些例子说明如何使用我们设计的这张表(因为现在Hive的大规模使用,我们会以Hive场景下的设计为例)。 分析一下拉链表的优缺点,并对前面的提到的一些内容进行补充说明,比如说拉链表和流水表的区别.

2020-08-19 15:04:28

数据仓库拉链表

增量数据与历史库做成拉链表首先介绍几个表概念:全量表:每天的所有的最新状态的数据增量表:每天的新增数据拉链表:维护历史状态,以及最新状态数据流水表:对于表中的每一个修改都会记录,可以用于反映实际记录的变更拉链表VS流水表:拉链表:通常是对帐户信息的历史变动进行处理保留的结果;用于统计业务相关情况流水表:每天的交易形成的历史;用于统计账户及客户的情况在数据仓库的数据模型设计过程中,经常会遇到这样的需求:数据量比较大;表中的部分字段会被update,如用户的地址,产品的描述信..

2020-08-19 14:57:47

查看更多

勋章 我的勋章
  • 1024勋章
    1024勋章
    #1024程序员节#活动勋章,当日发布原创博客即可获得
  • 勤写标兵Lv2
    勤写标兵Lv2
    授予每个自然周发布4篇到6篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。