yimenglin-CSDN博客

转载临时表空间概念

临时表空间概念临时表空间用来管理数据库排序操作以及用于存储临时表、中间排序结果等临时对象,当ORACLE里需要用到SORT的时候，并且当PGA中sort_area_size大小不够时，将会把数据放入临时表空间里进行排序。像数据库中一些操作： CREATE INDEX、 ANALYZE、SELECT DISTINCT、ORDER BY、GROUP BY、 UNION ALL、 INTERSECT、MINUS、SORT-MERGE JOINS、HASH JOIN等都可能会用到临时表空间。当操作完成后，.

2020-11-25 23:20:42 841

转载 ORACLE 几种同步灾备手段（OGG，ADG，DSG，高级复制，流复制，logmnr）

目前所接触的Oracle 的灾备以及同步手段主要有ADG，OGG，DSG，高级复制，流复制以及自主开发的基于logmnr的数据同步软件，各有优劣。各自评价如下：1. ADG，最常用的同城，异地灾备解决方案，物理级备份，备机不可写，传输数据为所有redo日志的更改，数据量稍大，不过从以往的使用经验来看，也不太会影响网络，除非应用对网络有很苛刻的要求，即使有，也可以通过vlan或者路由或者多网卡的方法特别建立网络通道，主备库完全一致，缺点是必须全库备份。2. OGG，DSG这两个我觉得是一个类型的，逻辑备.

2020-08-25 15:01:43 4719

转载大数据平台架构

何谓五横，基本还是根据数据的流向自底向上划分五层，跟传统的数据仓库其实很类似，数据类的系统，概念上还是相通的，分别为数据采集层、数据处理层、数据分析层、数据访问层及应用层。同时，大数据平台架构跟传统数据仓库有一个不同，就是同一层次，为了满足不同的场景，会采用更多的技术组件，体现百花齐放的特点，这是一个难点。具体见下图示例，这张图是比较经典的，也是妥协的结果，跟当前网上很多的大数据架构图都可以作一定的映射。数据采集层：既包括传统的ETL离线采集、也有实时采集、互联网爬虫解析等等。数据处理层：...

2020-08-25 14:48:52 1636

转载 kafka的log存储解析——topic的分区partition分段segment以及索引等

转自：http://blog.csdn.net/jewes/article/details/42970799引言Kafka中的Message是以topic为基本单位组织的，不同的topic之间是相互独立的。每个topic又可以分成几个不同的partition(每个topic有几个partition是在创建topic时指定的)，每个partition存储一部分Message。借用官方的一张图，可以直观地看到topic和partition的关系。partition是以文件的形式存储在文件系统中，比如，创建

2020-08-25 14:23:04 1524

转载 flume和kafka区别

kafka和flume都是日志系统，kafka是分布式消息中间件，自带存储；flume每一部分都是可以定制。kafka更合适做日志缓存，flume数据采集部分做的很好，可以定制很多数据源，减少开发量。kafka 和 flume 都是日志系统，kafka 是分布式消息中间件，自带存储，提供 push 和 pull 存取数据功能。flume 分为 agent（数据采集器）,collector（数据简单处理和写入）,storage（存储器）三部分，每一部分都是可以定制的。比如 agent 采用 RPC（Thri.

2020-08-25 10:56:48 1589

转载 Flume（二）

Flume（二）(Multiple Agent+ Multiple Channel+Custom) </h1> <div class="clear"></div> <div class="postBody"> (Multiple Agent+ Multiple Channel+Custom)Flume（一）文章我们详细介...

2020-08-25 10:44:07 208

转载 Flume(一)

Flume的定义Flume是一个分布式的、高可靠的、高可用的将大批量的不同数据源的日志数据收集、聚合、移动到数据中心（HDFS）进行存储的系统。即是日志采集和汇总的工具Logstash、FileBeat是ES栈的日志数据抽取工具，他们和Flume很类似，前者是轻量级、后者是重量级，若项目组使用的是ES栈技术，那完全可以使用Logstash取代Flume。版本 NG: 1.x的版本 (N=NEW)OG：0.9.x的版本,不用管(O=OLD)由于...

2020-08-25 10:42:46 205

转载 Kafka史上最详细原理总结下

Kafka史上最详细原理总结分为上下两部分，承上启下Kafka史上最详细原理总结上Kafka史上最详细原理总结下本篇为Kafka史上最详细原理总结下，承接Kafka史上最详细原理总结上3.Partition Replication原则Kafka高效文件存储设计特点Kafka把topic中一个parition大文件分成多个小文件段，通过多个小文件段，就容易定期清除或删除已经消费完文件，减少磁盘占用。通过索引信息可以快速定位message和确定response的最大大小。通过index元数据全

2020-08-25 09:58:39 709 1

转载 Kafka史上最详细原理总结上

Kafka史上最详细原理总结分为上下两部分，承上启下Kafka史上最详细原理总结上Kafka史上最详细原理总结下KafkaKafka是最初由Linkedin公司开发，是一个分布式、支持分区的（partition）、多副本的（replica），基于zookeeper协调的分布式消息系统，它的最大的特性就是可以实时的处理大量数据以满足各种需求场景：比如基于hadoop的批处理系统、低延迟的实时系统、storm/Spark流式处理引擎，web/nginx日志、访问日志，消息服务等等，用scala语言编写，

2020-08-25 09:56:52 662

转载 ClickHouse学习系列之二【用户权限管理】

背景最近花了些时间看了下ClickHouse文档，发现它在OLAP方面表现很优异，而且相对也比较轻量和简单，所以准备入门了解下该数据库系统。在安装完之后首先做的应该如何设置用户密码以及权限控制。因为和MySQL、MongoDB等数据库的用户管理完全不一样，为方便自己以后直接查阅，本文对其用户权限管理方面进行梳理说明。说明 ClickHouse作为一个分析类型（OLAP）的数据...

2020-08-25 09:06:31 1804

转载 Clickhouse安装及使用

一、简介Yandex在2016年6月15日开源了一个数据分析的数据库，名字叫做ClickHouse，这对保守俄罗斯人来说是个特大事。更让人惊讶的是，这个列式存储数据库的跑分要超过很多流行的商业MPP数据库软件，例如Vertica。如果你没有听过...

2020-08-24 15:37:29 4661 1

转载 linux cgroups详细介绍

linux cgroups详细介绍更新时间：2018年08月23日 11:51:40 转载作者：sparkdev cgroups(Control Groups) 是 linux 内核提供的一种机制，这种机制可以根据需求把一系列系统任务及其子任务整合(或分隔)到按资源划分等级的不同组内，从而为系统资源管理提供一个统一的框架。这篇文章主要介绍了linux cgroups 简介...

2020-08-21 10:02:41 285

转载通俗理解YARN运行原理

导语：工作中常常和Spark on YARN, Hadoop on YARN打交道，经常在各种日志中摸爬滚打，为提升效率，总结一下YARN的知识点，希望能形成一个比较系统的方法论。本文由三问三答一例组成。1、为什么要使用YARN？为了提升集群的利用率、资源统一管理，使用YARN为上层应用提供统一的资源管理和调度的平台。2、YARN的优势？资源的统一管理和调度：集群中所有节点的资源(内存、CPU、磁盘、网络等)

2020-08-21 09:55:26 967

转载 yarn工作原理

基本架构概念解析1. ResourceManager ResourceManager是master上的进程，负责整个分布式系统的资源管理和调度。他会处理来自client端的请求（包括提交作业/杀死作业）；启动/监控Application Master；监控NodeManager的情况，比如可能挂掉的NodeManager。2. NodeManager ...

2020-08-21 09:42:00 329

转载 MapReduce中map阶段和reduce阶段以及shuffle过程内部工作机制记录

mapTask工作原理：我们在写job任务时，指定一个FileInputFormat，设置一个路径，FileInputFormat类继承InputFormat（一个抽象接口），里面提供了一个抽象方法getSplits（），FileInputFormat中重写该方法的逻辑，对文件进行切分成多个split，然后通过RecordReader（默认使用lineRecordReader）按行进行读取文件内容并交给map去执行自...

2020-08-20 10:26:23 1452

转载了解MapReduce之Partition分区的概念与执行过程（附例子）

Partition1.用户需求在执行MR程序时我们可能想要将不同的数据放到不同的文件中。2.概念 partition是在map阶段完成后...

2020-08-20 09:30:25 1093

转载名字节点（NameNode）基本功能介绍

功能图下图为名字节点基本功能图，可能会有遗漏，在以后的源码研读中会更新：基本功能介绍NameNodeHttpServer：提供Http服务 NameNodeRpcServer：RPC机制实现，名字节点与其他节点之间远程调用的实现（名字...

2020-08-20 08:26:49 2484

转载数据仓库-拉链表, 流水表, 全量表, 增量表, 切片表

数据仓库-拉链表，流水表，全量表，增量表转载声明本文大量内容系转载自以下文章，有删改，并参考其他文档资料加入了一些内容：数据仓库中的增量表，全量表，快照表，拉链表作者：北京小辉出处：csdn什么是全量表，增量表，快照表，拉链表...

2020-08-19 15:27:39 1072

转载数仓中的全量表，增量表，拉链表，流水表，快照表

预热：我们先从几个物理概念入手理解什么是流量，存量，增量（1）存量：系统在某一时点时的所保有的数量；（2）流量：是指在某一段时间内流入/出系统的数量（3）增量：则是指在某一段时间内系统中保有数量的变化（4）增量=流入量--流出量（5）本期期末存量=上期期末存量+本期内增量正题一般公司只是简单分成全量表，增量表，和拉链表。所以重点关注如下三个表就OK了。全量表：每天的所有的最新状态的数据。（1）全量表，有无变化，都要报（2）每次上报的数据都是所有的数据（变化的&nb

2020-08-19 15:13:28 383

转载数据仓库中拉链表和流水表

前言本文将会谈一谈在数据仓库中拉链表相关的内容，包括它的原理、设计、以及在我们大数据场景下的实现方式。全文由下面几个部分组成：先分享一下拉链表的用途、什么是拉链表。通过一些小的使用场景来对拉链表做近一步的阐释，以及拉链表和常用的切片表的区别。举一个具体的应用场景，来设计并实现一份拉链表，最后并通过一些例子说明如何使用我们设计的这张表（因为现在Hive的大规模使用，我们会以Hive场景下的设计为例）。分析一下拉链表的优缺点，并对前面的提到的一些内容进行补充说明，比如说拉链表和流水表的区别.

2020-08-19 15:04:28 1153

转载数据仓库拉链表

增量数据与历史库做成拉链表首先介绍几个表概念：全量表：每天的所有的最新状态的数据增量表：每天的新增数据拉链表：维护历史状态，以及最新状态数据流水表：对于表中的每一个修改都会记录，可以用于反映实际记录的变更拉链表VS流水表：拉链表：通常是对帐户信息的历史变动进行处理保留的结果；用于统计业务相关情况流水表：每天的交易形成的历史；用于统计账户及客户的情况在数据仓库的数据模型设计过程中，经常会遇到这样的需求：数据量比较大；表中的部分字段会被update,如用户的地址，产品的描述信..

2020-08-19 14:57:47 786

转载磁盘快照技术

一、概念解释像照相机一样，机器快门一闪，很快就把刚刚的人像停留在了相纸上。存储系统中的数据“快照”与我们生活中所说的“照片”非常相似，所不同的是，照片的对象不是人，而是数据。如同照片留住了我们过去的摸样和岁月，快照把数据在某一时刻的映像也保留了下来。因此我们可以根据快照查找数据在过去某一时刻的映像，常常用来作为增强数据备份系统的一种技术，它可以很大的缩短RTO和RPO两个指标。SNIA（存储网络行业协会）对快照（Snapshot）的定义是：关于指定.

2020-08-13 09:08:30 3540

转载 VMware ESXi 5.5、6.0.x 和 6.5.x 中对大于 2 TB 的虚拟机磁盘的支持 (2058287)

免责声明：本文为 Support for virtual machine disks larger than 2 TB in VMware ESXi 5.5,6.0.x and 6.5.x (2058287) 的翻译版本。尽管我们会不断努力为本文提供最佳翻译版本，但本地化的内容可能会过时。有关最新内容，请参见英文版本。VMware ESXi 5.5 引入了对大于 2 TB 的虚拟机磁盘 (VMDK) 的可支持性。本文介绍了 ESXi 5.5 到 6.5.x 中大容量虚拟磁盘的条件和限制的相关信息。在

2020-08-12 15:14:48 2507

转载 mysql优化案例分析

本文总结了一些工作常见的sql优化例子，虽然比较简单，但很实用，希望对大家有所帮助。sql优化一般分为两类，一类是sql本身的优化，如何走到合适的索引，如何减少排序，减少逻辑读；另一类是sql本身没有优化余地，需要结合业务场景进行优化。即在满足业务需求的情况下对sql进行改造，已提高sql执行速度，减少响应时间。例子1：SELECT ID FROM SENDLOG WHERE TO_DAYS(NOW())-TO_DAYS(GMT_CREATE) &gt...

2020-08-10 14:48:25 322

转载 mysql执行计划

烂sql不仅直接影响sql的响应时间，更影响db的性能，导致其它正常的sql响应时间变长。如何写好sql，学会看执行计划至关重要。下面我简单讲讲mysql的执行计划，只列出了一些常见的情况，希望对大家有所帮助。测试表结构：CREATE TABLE `t1` ( `c1` int(11) NOT NULL DEFAULT '0', `c2` varchar(128) DEFAULT NULL, `c3` varc...

2020-08-10 14:37:39 106

转载教你手工mysql拆库

互联网网站应用大多采用mysql作为DB存储，限于mysql单机性能的瓶颈，为了支撑更大容量和更大的访问量，dba一般通过建立分布式集群，让多个mysql共同提供服务。所谓的mysql分布式集群，实质就是将原有的数据拆成多份，放在多个mysql数据库上存储，应用通过中间层路由到对应的数据库分片，访问所需要数据，基本架构如图1所示。这里的关键点就是“拆”，如何拆库，根据业务场景，一般可以采取水平拆分和垂直拆分。所谓水平拆分是指，将一个大表按一定的规则分片，分...

2020-08-10 14:21:30 383

转载 Miniconda安装虚拟环境创建与包管理

升级conda换源命令查看虚拟环境创建conda和pip区别普通包管理特殊包管理安装python之前安装python包，导致了python里面的包不兼容，用管理工具卸载也下载不掉，重新安装也安装不上，没有办法只能卸掉python重装。安装AnacondaAnaconda指的是一个开源的Python发行版本，其包含了conda、Python等180多个科学包及其依赖项。conda也是一个非常好用的管理工具，只不过1500多个包自己用不了多少，我就选只Minicoda,是Anaconda的精简版

2020-08-10 10:32:11 2967

转载关于扇区、簇、块、页等概念的区分

1、什么是扇区和（磁盘）块？物理层面：一个磁盘按层次分为：磁盘组合 -> 单个磁盘 -> 某一盘面（platter）-> 某一磁道（track）-> 某一扇区（sector）。磁头（head）：读写头，柱面（cylinder）：柱面是我们抽象出来的一个逻辑概念，简单来说就是处于同一个垂直区域的磁道称为柱面，即各盘面上面相同位置磁道的集合。磁盘读写数据是按柱面进行的，磁头读写数据时首先在同一柱面内从 0 磁头开始进行操作，依次向下在同一柱面的不同盘面(即磁头上)进行..

2020-08-07 09:24:52 1037

转载 Linux文件传输scp和rsync断点续传

scp 是通过ssh协议传输数据，如果是想传输一个很大的数据，这几天我就遇到过，一个tar包，400G左右，通过scp拷贝时，有可能遇到服务器断电什么的悲剧问题，那么类似scp拷贝的另一个命令 rsync就可以实现意外中断后，下次继续传，命令如下：rsync -P --rsh=ssh home.tar [email protected]:/home/home.tar-P: 是包含了 “–partial –progress”，部分传送和显示进度-rsh=ssh 表示使用ssh协议传送数据如...

2020-08-05 16:54:37 2789

转载多对多维度或多值维度-桥接表

多对多维度或多值维度维度表和事实表之间的标准关系是一对多关系，这意味着维度表中的一行记录会连接事实表中的多行记录，但是事实表中的一行记录在维度表中只关联一行记录。这种关系很重要，因为它防止了重复计数。幸运的是，在大多数情况下都是这种一对多关系。...

2020-08-05 09:04:54 2531

转载如何在 Linux 上安装设备驱动程序

学习 Linux 设备驱动如何工作，并知道如何使用它们。对于一个熟悉 Windows 或者 MacOS 的人，想要切换到 Linux，它们都会面临一个艰巨的问题就是怎么安装和配置设备驱动。这是可以理解的，因为 Windows 和 MacOS 都有一套机制把这个过程做得非常的友好。比如说，当你插入一个新的硬件设备， Windows 能够自动检测并会弹出一个窗口询问你是否要继续驱动程序的安装。你也可以从网络上下载驱动程序，仅仅需要双击解压或者是通过设备管理器导入驱动程序即可。而这在 Linux 操作系..

2020-08-05 08:39:59 2690

转载 mysqldump备份时出现when using LOCK TABLES

mysqldump备份时出现when using LOCK TABLESmysqldump: Got error: 23: Out of resources when opening file '.\discuz\ecs_user_address.MYD' (Errcode: 24) when using LOCK TABLES解决办法，加上-skip-lock-tables选项即可。例：mysql...

2020-08-04 09:08:19 1166

转载 centos7挂载大于10T及以上硬盘

1、安装yum支持包yum install xfs* parted -y2、fdisk -l查看磁盘信息，查看需要挂载的磁盘创建分区parted -s /dev/sda mklabel gpt mkpart primary 0 -1或 parted -s /dev/sda mkpart primary 0 100%格式化分区mkfs.xfs -...

2020-08-03 10:50:26 6850

转载 CentOS7 安装2T大容量硬盘

1.硬盘连接好之后，开机先使用fdisk -l查询磁盘信息,已经可以发现硬盘位于/dev/sdb目录下# fdisk -l2.接下来需要进行分区操作，由于使用的是2T容量的大容量硬盘，所以必须使用GPT大分区格式进行分区使用的命令是# parted sdb3.首先执行指令修改分区格式,选择yes确认操作(parted) mklabel gpt4.创建主分区，命令是mkpart primary &l...

2020-08-03 10:43:04 1187

转载如何提高mysql插入数据的速度

提高mysql插入数据的速度在myisam engine下:尽量使用insert into table_name values (…), (…),(…)这样的形式插入数据，避免使用inset into table_name values (); inset into table_name values (); inset into table_name values ();增加bulk_insert_buffer_size(默认8M)如果是非空表，使用alter table table_na...

2020-07-31 09:19:25 725

转载 linux中使用split命令分割文件

在生物信息分析中，经常会遇到这种情况，当数据量过大的时候会超出我们服务器的最大资源配置，导致有些软件或者我们自己写的脚本执行不过去，这时我们通常使用的办法就是将输入文件拆成很多份去依次执行，最终将结果文件合并。虽然使用python等语言可以实现拆分文件，但是既然已经有了轮子，我们就没必要去造了，这时我们就用到了linux命令split。在linux中输入 split --help&nb...

2020-07-30 11:43:58 1386

转载 InnoDB Monitor(innodb监视器)

1. InnoDB Monitor 类型有四类InnoDB monitor：Standard Monitor、Lock Monitor、Tablespace Monitor、Table Monitor。其中Tablespace Monitor和Table Monitor将在后续版本（MySQL5.7中移除，对应的信息可从information_schema的表中获取）Standard Monitor：监视活动事务持...

2020-07-29 15:49:48 628 1

转载 BI软件之Tableau学习心得之一——基础入门

学习Tableau也有一段时间了，今天来总结一下哈，希望能帮助到你。刚开始学习Tableau都是自己看一些视频，基本都是在官网上看的，详情请移步Tableau学习视频，第一次观看可能需要注册一个账号，然后就可以安心的学习啦。注意，学习Tableau一定要亲自动手实践，如果有项目的话就更好了，这样可以快速上手。可以去官网下载Tableau desktop Tableau desktop 下载，下载的只能试用14天，如果还想继续使用，可以去淘宝上买一个激活码，或者去Tableau官网上买，如果是学生的话，.

2020-07-28 15:48:36 2328

转载帆软FineBI试用

FineBI是帆软软件有限公司推出的一款商业智能（Business Intelligence）产品，FineBI的本质是通过分析企业已有的信息化数据，帮助企业发现并解决存在的问题，预测模拟企业将来的发展，协助企业及时调整策略做出更好的决策，增强企业的可持续竞争性。FineBI的使用流程：管理员建立进行数据配置，创业务包业务人员基于业务包建立仪表盘管理人员查看分析一、1. 配置数据源　　2. 建立数据包，配置数据源之后，需要建立业务人员使用...

2020-07-28 15:43:57 1466

转载微软Power BI应用实战（1）——实时连接本地数据库

引言：我们知道，微软Power BI可以将本地开发的报表连同数据一起发布到云端，提供给业务用户随时随地访问。但更多的时候，我们希望访问报表时查看到的数据是最新的实时数据。针对这种情况，我们可以利用Power BI提供的本地网关实时访问企业内部的数据，当业务用户访问报表时看到的就是最新的实时数据。本文以连接本地SQL Server为例，介绍如何实现从Power BI到本地数据库的实时访问。一、总体架构出于信息安全考虑，企业本地机房内的数据库服务器是不能直接发布到Interne...

2020-07-28 15:36:14 2999

空空如也

空空如也