自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Data & Analysis

Data & Analysis & Safety

  • 博客(1818)
  • 收藏
  • 关注

转载 HBCK2修复hbase2的常见场景

HBCK2修复hbase2的常见场景

2022-10-09 11:33:09 691

转载 Maven仓库和插件

检查构件的extension(由packing定义),如果extension存在,则加上 . 分隔符和extension:com/companyname/project-group/project/1.0/project-1.0-jdk8.jar。先在/.m2/目录下创建settings.xml文件,然后在~/.m2/settings.xml,设置localRepository元素的值为想要的仓库地址(此时配置的maven本地仓库是属于用户范围的)。如果maven进行升级,那么所有的配置都会被清除。...

2022-08-26 21:40:15 1476

转载 pt-archive使用

pt-archive使用

2022-08-07 18:06:46 1647

转载 大数据开发之被误删的HDFS文件如何有效恢复

大数据开发之被误删的HDFS文件如何有效恢复

2022-08-06 21:48:47 454

转载 HDFS集群数据不均衡处理

HDFS集群数据不均衡处理

2022-08-05 15:48:01 1486

转载 mysql什么是索引下推

索引下推(index condition pushdown )简称ICP,在Mysql5.6的版本上推出,用于优化查询。在不使用ICP的情况下,在使用非主键索引(又叫普通索引或者二级索引)进行查询时,存储引擎通过索引检索到数据,然后返回给MySQL服务器,服务器然后判断数据是否符合条件 。 在使用ICP的情况下,如果存在某些被索引的列的判断条件时,MySQL服务器将这一部分判断条件传递给存储引擎,然后由存储引擎通过判断索引是否符合MySQL服务器传递的条件,只有当索引符合条件时才会将数据检索出来返回给

2022-05-13 09:19:40 470

转载 spark和flink的区别

最大区别flink是基于事件的真正的实时流式处理,Spark是批量或者微批处理Flink 用流处理去模拟批处理的思想,比Spark 用批处理去模拟流处理的思想扩展性更好。Flink最核心的数据结构是Stream,它代表一个运行在多分区上的并行流。在 Stream 上同样可以进行各种转换操作(Transformation)。与 Spark 的 RDD 不同的是,Stream 代表一个数据流而不是静态数据的集合。所以,它包含的数据是随着时间增长而变化的。而且 Stream 上的转换操作都是逐条进行的,

2022-05-03 12:45:02 1462

转载 寻找数据统治力:比较Spark和Flink

本文首先介绍了Spark和Flink的发展背景、基本架构及其设计特点,然后从数据模型、状态处理和编程模型3个角度进行比较优势和限制,最后介绍Spark和Flink的最新发展。本篇文章属于阿里巴巴Flink系列文章之一。当提及大数据时,我们无法忽视流式计算的重要性,它能够完成强大的实时分析。而说起流式计算,我们也无法忽视最强大的数据处理引擎:Spark和Flink。Apache Spark自2014年以来迅速普及。它提供了一个适用常见数据处理场景的统一引擎,如批处理、流处理

2022-05-03 12:43:12 720

转载 Mesos入门介绍

2016年会火的技术之一, Mesos。 花了一些时间, 将Mesos相关的知识整理了一下, 以做备忘。 水平有限, 如有疏漏或谬误之处, 还望指出。Mesos是什么Mesos是一个集群管理平台。 可以理解为是一种分布式系统的kernel, 负责集群资源的分配, 这里的资源指的是CPU资源, 内存资源, 存储资源, 网络资源等。 在Mesos可以运行Spark, Storm, Hadoop, Marathon等多种Framework(框架)。Mesos的架构主要有Masters(主节点)..

2022-04-27 22:05:29 1316

转载 Oracle 12c系列(四)|资源隔离之IO、内存、CPU

服务器主机提供IO、内存、CPU、存储空间等资源为数据库使用,Oracle使用Flex Diskgroup为数据库提供存储空间并做了相应的资源隔离。下面我们来看下Oracle是如何为不同的PDB做IO、内存、CPU限制的。一、IO 资源隔离12cR2中,引入了两个参数MAX_IOPS和MAX_MBPS来限制PDB的物理IO。这两个参数只作用于PDB,不对CDB和非多租户环境生效。另外,这两个参数不限制redo log的写入(LGWR进程)和buffercache脏块写入磁盘(DBWR进程)。IO对

2022-04-07 22:07:22 435

转载 聊一聊 MySQL 中的数据编辑过程中涉及的两阶段提交

MySQL 数据库中的两阶段提交,不知道您知道不?这篇文章就简单的聊一聊 MySQL 数据库中的两阶段提交,两阶段提交发生在数据变更期间(更新、删除、新增等),两阶段提交过程中涉及到了 MySQL 数据库中的两个日志系统:redo 日志和 binlog 文件。redo 日志前面已经介绍过了,就不再介绍了,简单的聊一聊 binlog 文件,binlog 是 MySQL server 层提供的二进制文件,因此所有的存储引擎都可以使用 binlog 功能,binlog 是追加写的逻辑日志,记录了执行语句的原始

2022-04-05 15:15:39 561 1

转载 在Oracle中,Lock、Latch和Pin的区别有哪些?

♣题目部分在Oracle中,Lock、Latch和Pin的区别有哪些?♣答案部分Latch是Oracle提供的轻量级锁,它用于快速,短时间的锁定资源,可防止多个并发进程同时修改内存中的某个共享资源,它只工作在内存中。内存中资源的锁叫Latch(闩),而数据库对象(表,索引等)的锁叫Lock,也被称为队列锁(Enqueue Lock)。如果要读取数据缓存中的某个块,那么Oracle会获得这个块的Latch,这个过程叫做Pin。此时,若另外一个进程恰好要修改这个块,则它也要Pin这个块,此时

2022-04-04 21:53:24 535

转载 【锁】Latch、lock、 pin的区别

我之前写过的几篇锁的文章:【锁】Oracle锁系列:【锁】Oracle锁系列_ITPUB博客【锁】Oracle死锁(DeadLock)的分类及其模拟:http://blog.itpub.net/26736162/viewspace-2127247/【故障处理】队列等待之TX - allocate ITL entry引起的死锁处理:【故障处理】队列等待之TX - allocate ITL entry引起的死锁处理_ITPUB博客Latch是Oracle提供的轻量级锁,它用于快速,短时间的锁定资源..

2022-04-04 21:51:22 1949

转载 Oracle 常见等待事件及处理方法

目录1、 db file scattered read DB 文件分散读取 (太多索引读,全表扫描-----调整代码,将小表放入内存) 2、 db file sequential read DB 文件顺序读取 (表连接顺序不佳-----调整代码,特别是表连接) 3、 free buffer waits 释放缓冲区等待 (增大DB_CACHE_SIZE,加速检查点,调整代码) 4、 buffer busy waits 缓冲区忙等待 (BUFFER热块) 6、enqueue 7、 log buff

2022-04-04 19:09:17 1545

转载 使用10053事件跟踪的几种方法

10053事件:Event 10053 is an internal event that externalises some of the decisions made by the optimizer in to a trace file.对于10053更多的介绍,这里不再重复注:使用10053事件跟踪之前确保TRACE_ENABLED 参数的值是TRUE下面例举三种使用10053事件跟踪的方式1.使用传统alter session2.使用oradebug3.使用DB..

2022-04-04 18:59:33 623

转载 11g 日志传输压缩模式

[20181112]11g 日志传输压缩模式.txt--//由于主备库不在一个局域网内,一样采用级联模式,先传输日志到一台主机,然后在由这台备库传输日志到远端的dataguard备库.--//这样一定程度减轻主库负担,另外加快日志应用,这样影响小一点,另外一种方式日志传输模式采用压缩模式.以前自己也测试过.--//链接:http://blog.itpub.net/267265/viewspace-1143480/--//工作需要,重复验证看看.1.环境:SCOTT@boo

2022-04-04 18:16:55 419

转载 MySQL innoDB 中的锁升级

什么是锁升级?锁升级是指将当前锁的粒度降低,如一把行锁升级唯一把页锁,或者将页锁升级为表锁,如果在数据库设计中认为锁是一中稀有资源,哪么就会频繁有锁升级的现象发生锁升级的现象当一条SQL语句对一个对象上持有的锁数量超锁了阈值,默认这个阈值为5000,但是对于不同对象不会发生锁升级锁资源占用的内存超过激活内存的百分之40 就会发生锁升级但是!!!!!innoDB 引擎不存在锁升级的问题,因为其不是根据每个记录来产生啊行锁的,是根据每个事务访问的每个页对锁进行管理的。其实吧,这个根据页.

2022-03-28 22:10:23 801

转载 日志传输压缩模式oracle,DataGuard日志传输模式

【前言】学习技术跟学习武功一样,之前整理了DataGuard的搭建和切换,这些都是武功招式,但是心法还没有学。本文档介绍DataGuard的重要心法,DataGuard的三种保护模式跟日志传输模式的关系,文章的主要内容来自于Oracle DataGuard 11G的参考手册。【1】DataGuard日志传输模式的介绍DataGuard的原理简单来说就是把ORL写入本地的同时,传送一份到备库上面进行执行,日志传输是整个DataGuard的核心,就很有必要对日志传输的几种模式进行介绍;DATAGUA

2022-03-26 21:18:32 515

转载 influxDB 2.0安装及使用说明

目前influxdb2.0还处于beta阶段,网上的相关资料较少,根据自己的使用过程,特别整理此说明文档。更多内容分享,欢迎关注公众号:Go开发笔记一、安装我们根据官方文档开始:https://v2.docs.influxdata.com/v2.0/get-started/1.下载打开官方文档选则平台,我这里是mac,点击下载即可。2.解压3.设置环境变量(可选)sudo cp influxdb_2.0.0-beta.5_darwin_amd64/{influx,influxd}

2021-12-19 14:50:56 1717

转载 时序数据库InfluxDB 2.0 初探

什么是时间序列数据(Time Series Data,TSD,以下简称时序)就是一串按时间维度索引的数据。用描述性的语言来解释什么是时序数据,简单的说,就是这类数据描述了某个被测量的主体在一个时间范围内的每个时间点上的测量值。包含三个重要部分,分别是:主体,时间点和测量值。下图为一段时序数据,记录了一段时间内的某个集群里各机器上各端口的出入流量,每半小时记录一个观测值。这里以图中的数据为例,介绍下时序数据的数学模型measurement: 度量的数据集,类似于关系型数据库中的 tabl

2021-12-19 11:14:40 1680

转载 Zookeeper同步机制

优点:解决方案、处理问题能力、架构优化/拓展能力零、Zookeeper事务事务id(主从同步Id-每次ack递增+1,64位存储(32位纪元号-leader号,32位自增号))每一个操作都将使节点接收到一个Zxid格式的时间戳ZooKeeper的每个节点维护者两个Zxid值,为别为:cZxid、mZxid。(1)cZxid:是节点的创建时间所对应的Zxid格式时间戳。(2)mZxid:是节点的修改时间所对应的Zxid格式时间戳。一个客户端发起的写请求打到follower时的整个流程。1.f

2021-12-05 15:37:39 473

转载 ZooKeeper运行报错KeeperErrorCode = NoNode for .....

最近遇到一个很尴尬的报错,org.apache.zookeeper.KeeperException$NoAuthException: KeeperErrorCode KeeperErrorCode = NoNode for (节点路径)。java.io.IOException: Failed to process transaction type: 1 error: KeeperErrorCode = NoNode for /cloudera_manager_zookeeper_canary ...

2021-12-04 20:00:37 4477

转载 Zookeeper监控平台

JMX:安装配置1、修改zookeeper的启动脚本vizkServer.sh找到启动参数ZOOMAIN修改为下面值(修改一项,新增4项):-Dcom.sun.management.jmxremote.local.only=false# jconsole.exe 连接的ip地址(zk所在机器的ip)-Djava.rmi.server.hostname=192.168.147.133# jconsole.exe 连接的端口号-Dcom.sun.manage...

2021-12-04 17:41:48 389

转载 Kafka学习理解-listeners配置

listeners#broker 服务器要监听的地址及端口 . 默认是 localhost:9092 ,0.0.0.0的话 ,表示监听本机的所有ip地址.本机配置:localhost: 只监听本机的地址请求, 客户端也只能用localhost来请求 127.0.0.1: 同localhost, 在请求上可能有与区分 , 看client的请求吧 . 客户端也只能用127.0.0.1来请求 192.168.0.1: 有点脑子的都不要用这个 , 你的局域网不一定是192.168段的....

2021-12-03 10:36:09 4453 3

转载 kafka 删除topic 操作指南

kafka 删除topic 操作指南删除topic 有两种方式:开启Kafka的delete.topic.enable=true配置(推荐使用)手动删除Zookeeper相关数据方式一优点:由Kafka来完成Topic的相关删除,只需要修改server.properties配置文件的delete.topic.enable为true就可以了缺点:需要重启Kafka来完成配置文件的生效操作步骤:修改kafka集群的server.properties文件delete.topic.enabl

2021-12-03 10:03:46 1270

转载 delete.topic.enable=true,然后通过kafka manager能删除干净吗?

delete.topic.enable=true ; auto.create.topics.enable=false ; 只有这两个参数同时开启,kafka-manager才可以将某个topic删除干净。 auto.create.topics.enable意思是:produce可以推送消息到一个不存在的topic(即:发消息到一个不存在的topic,系统会帮你按默认参数自动帮你建立这个topic),所以只要这个topic有produce向它推送消息,那么这个topic你是没办法被删除的。...

2021-12-03 09:59:49 521

转载 mongodb命令:日期时间的插入及查询

1. 命令的方式插入时间两种方式,推荐第二种方法一:db.zcy.insert({"time":new Date()})显示:ISODate("2018-05-11T05:58:51.122Z")插入当前的时间,其实当前时间应该是2018-05-11:13:58.51可见比实际少了8小时他的时间是utc的时间,和咱们中国时区少8个小时方法二:推荐 插入指定的时间db.zcy.insert({"time":new Date("2018-05-11T13:58.51Z")

2021-11-28 17:14:30 8741

转载 Redis 主从复制 psync1 和 psync2 的区别

写在前面在分布式环境中,数据副本 (Replica) 和复制 (Replication) 作为提升系统可用性和读写性能的有效手段被大量应用系统设计中,Redis 也不例外。Redis 作为单机数据库使用时,适用常见有限且存在单点宕机问题,无法维持高可用。因此 Redis 允许通过 SLAVEOF 命令或者 slaveof 配置项来让一个 Redis server 复制另一个 Redis server 的数据集和状态,我们称之为主从复制,主服务器下文称 master,从服务器下文称 slave,Redis

2021-11-11 11:08:45 599

转载 redis 主从复制

主服务器负责接收写请求, 从服务器负责接收读请求(从服务器无法进行写操作)2.1 同步模式 完整重同步(redis 2.8以前) 从服务器向主服务器发送PSYNC命令 收到PSYNC命令的主服务器执行BGSAVE命令,在后台生成一个RDB文件。并用一个缓冲区来记录从现在开始执行的所有写命令。 当主服务器的BGSAVE命令执行完后,将生成的RDB文件发送给从服务器,从服务器接收和载入RDB文件。将自己的数据库状态更新至与主服务器执行BGSAVE命令时的状态。

2021-11-11 09:58:50 170

转载 Linux流量监控工具 - iftop (最全面的iftop教程)

在类Unix系统中可以使用top查看系统资源、进程、内存占用等信息。查看网络状态可以使用netstat、nmap等工具。若要查看实时的网络流量,监控TCP/IP连接等,则可以使用iftop。一、iftop是什么?iftop是类似于top的实时流量监控工具。官方网站:iftop: display bandwidth usage on an interface二、iftop有什么用?iftop可以用来监控网卡的实时流量(可以指定网段)、反向解析IP、显示端口信息等,详细的将会在后面的使用参数

2021-11-07 16:21:25 2583

转载 Spark学习之路 (一)Spark初识

目录一、官网介绍 1、什么是Spark 二、Spark的四大特性 1、高效性 2、易用性 3、通用性 4、兼容性 三、Spark的组成 四、应用场景正文回到顶部一、官网介绍1、什么是Spark官网地址:Apache Spark™ - Unified Engine for large-scale data analyticsApache Spark™是用于大规模数据处理的统一分析引擎。从右侧最后一条新闻看,Spark也用于AI人工智能

2021-10-31 10:41:15 325

转载 HBase:MultiWAL支持

每个RegionServer都有一个WAL,RegionServer必须以串行方式写入WAL,因为HDFS文件必须是连续的。这导致WAL成为性能瓶颈。HBase 1.0在HBASE-5699中引入了支持MultiWal 。MultiWAL允许RegionServer通过在底层HDFS实例中使用多个管道来并行写入多个WAL流,从而在写入过程中增加总吞吐量。这种并行化是通过将区域传入的编辑分区来完成的。因此,当前的实现将无助于提高单个区域的吞吐量。使用原始WAL实现的RegionServers和使用..

2021-10-24 16:23:25 352

转载 access control error while attempting to set up short-circuit

due to InvalidToken exception.org.apache.hadoop.security.token.SecretManager$InvalidToken: access control error while attempting to set up short-circuit access to /apps/hbase/data/data/inspur_15/GSD_PERSON_PHOTO_NEW/3aa84f6c9e1d6dd279514911edf18a36/info/

2021-10-19 11:34:57 772

转载 HBase查询优化之Short-Circuit Local Reads

1.概述在《HBase查询优化》一文中,介绍了基于HBase层面的读取优化。由于HBase的实际数据是以HFile的形式,存储在HDFS上。那么,HDFS层面也有它自己的优化点,即:Short-Circuit Local Reads。本篇博客笔者将从HDFS层面来进行优化,从而间接的提升HBase的查询性能。2.内容Hadoop系统在设计之初,遵循一个原则,那就是移动计算的代价比移动数据要小。故Hadoop在做计算的时候,通常是在本地节点上的数据中进行计算。即计算和数据本地化。流程如下图所示:

2021-10-19 11:29:52 427

转载 查看HDFS的元数据文件fsimage和编辑日志edits

本文接着介绍查看edits文件的方法。HDFS查看edits命令hdfs oev用于查看edits文件。该命令需要以下参数:必须参数:-i,–inputFile <arg> 输入edits文件,如果是xml后缀,表示XML格式,其他表示二进制。-o,–outputFile <arg>输出文件,如果存在,则会覆盖。可选参数:-p,–processor <arg> 指定转换类型: binary (二进制格式), xml (默认...

2021-09-18 16:43:45 534

转载 Hbase高级功能过滤(Filter)

1.创建一个Rumenz表// 创建了两个列族user和depart> ./bin/hbase shell> create 'Rumenz','user','depart'2.插入数据> put 'Rumenz','user|id1','user:name','张三'> put 'Rumenz','user|id1','depart:name','开发部'> put 'Rumenz','user|id2','user:name','王五'> pu

2021-09-18 15:21:59 709

转载 HBase Filter 过滤器之RowFilter详解

前言:本文详细介绍了HBase RowFilter过滤器Java&Shell API的使用,并贴出了相关示例代码以供参考。RowFilter 基于行键进行过滤,在工作中涉及到需要通过HBase Rowkey进行数据过滤时可以考虑使用它。比较器细节及原理请参照之前的更文:HBase Filter 过滤器之比较器 Comparator 原理及源码学习一。Java Api头部代码public class RowFilterDemo { private static boolean

2021-09-18 14:53:27 903 1

转载 hadoop fs -getmerge命令的使用

假设在你的hdfs集群上有一个/user/hadoop/output目录里面有作业执行的结果(多个文件组成)part-000000,part-000001,part-000002然后你想把所有的文件合拢来一起看 可以使用命令:hadoop fs -getmerge /user/hadoop/output local_file然后就可以在本地使用vi local_file查看内容了hadoop fs -getmerge :用户合并一个文件夹下面的所有文件至一个文件中。好像是合并

2021-09-17 11:44:52 1988

转载 全网最详细的Hadoop HA集群启动后,两个namenode都是standby的解决办法(图文详解)

多说,直接上干货!解决办法  因为,如下,我的Hadoop HA集群。1、首先在hdfs-site.xml中添加下面的参数,该参数的值默认为false: <property> <name>dfs.ha.automatic-failover.enabled.ns</name> <value>true&l.

2021-09-16 09:28:01 3560 1

转载 ORACLE---ORA-19606(RMAN删除obsolete报错)

===基础知识补充RMAN> CONFIGURE RETENTION POLICY TO REDUNDANCY 3;---配置保留策略,冗余3份RMAN> crosscheck backup;---检查备份集RMAN> delete noprompt expired backup;---删除过期备份集(磁...

2021-09-14 10:10:13 617

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除