5 Resemble_

尚未进行身份认证

我要认证

一只程序猿的奇思妙想 github: https://github.com/Resemble

等级
TA的排名 3w+

Hbase学习笔记

Hbase适合需对数据进行随机读操作或者随机写操作、大数据上高并发操作,比如每秒对PB级数据进行上千次操作以及读写访问均是非常简单的操作。每个Regin是一个切片,多个Regin归一个ReginServer管经常一起用的列放到一个family里面KV如何组织很灵活HFile写HDFS,容量是Hadoop的集群决定构建在HDFS之上的、分布式的、面向列的开源数据库。只有普通的增删改查等操作,没有表之间的关联查询。高效1.1 将随机读写转化为顺序读写,适应高并发写入。1.2 均衡效果好读写性

2020-06-11 23:50:58

学习笔记-spark

概念job:在里面可以看到当前应用分析出来的所有任务,以及所有的excutors中action的执行时间。stage:在里面可以看到应用的所有stage,stage是按照宽依赖来区分的,因此粒度上要比job更细一些。从作业调度角度展示调度的阶段和任务的完成装填storage:我们所做的cache persist等操作,都会在这里看到,可以看出来应用目前使用了多少缓存。从存储角度展示RDD的存储状态environment:里面展示了当前spark所依赖的环境,比如jdk,lib等等。spark以及系统

2020-05-24 10:05:50

学习笔记-zookeeper

Zookeeper是一个分布式协调服务。https://km.sankuai.com/page/28437097去中心化:我们都是相等的中心化:Zookeeper 都是中心化的,围绕 leaderZookeeper 如何解决分布式一致性问题ZAB协议,底层两阶段提交协议选举算法:Paxos 算法应该可以说是  ZooKeeper 的灵魂了。但是,ZooKeeper 并没有完全采用 Paxos算法 ,而是使用 ZAB 协议作为其保证数据一致性的核心算法。另外,在ZooKeeper的官方

2020-05-23 11:25:03

Flink ProcessFunction onTimer 延迟处理数据

ProcessFunction和CoProcessFunction说明DataStream与KeyedStreamd都有Process方法,DataStream接收的是ProcessFunction,而KeyedStream接收的是KeyedProcessFunction(原本也支持ProcessFunction,现在已被废弃)0.AbstractRichFunction介绍1....

2020-04-06 20:48:22

java反射代码留存(invokeSetMethod、invokeGetMethod)

代码:public class JavaBeanUtil { private static final Logger logger = LoggerFactory.getLogger(JavaBeanUtil.class); private static final String SET_METHOD_PREFIX = "set"; private stat...

2020-02-25 14:31:43

Java结束线程的三种方法

线程属于一次性消耗品,在执行完run()方法之后线程便会正常结束了,线程结束后便会销毁,不能再次start,只能重新建立新的线程对象,但有时run()方法是永远不会结束的。例如在程序中使用线程进行Socket监听请求,或是其他的需要循环处理的任务。在这种情况下,一般是将这些任务放在一个循环中,如while循环。当需要结束线程时,如何退出线程呢?有三种方法可以结束线程: 1.设置退出标志,...

2020-02-15 20:16:41

InterruptedException详解

1.线程为什么会抛出InterruptedException?假如现在有两个线程1和2;线程1在正常执行,此时线程2调用了线程1的interrupt方法;代码如下:@RunWith(SpringJUnit4ClassRunner.class)public class SynchronizedTest { @Test public void testSynch...

2020-02-15 20:10:13

kafka各版本新特性介绍(0.8.2-1.0.0版本)--kafka1.0新特性介绍

目录consumer机制consumer机制kafka 0.8--kafka 0.9--kafka 0.10 -- kafka 1.0 各版本的新特性最重要的是,就是consumer的机制。consumer机制各版本的演化:kafka-0.8.2 新特性producer不再区分同步(sync)和异步方式(async),所有的请求以异步方式发送,这样提升了客户端效率。...

2019-11-25 22:37:35

如果你也想做实时数仓…

目录1. 数据仓库简介2. 数据仓库的发展3. 数据仓库建设方法论4. 数据仓库架构的演变5. 实时数仓案例6. 实时数仓与离线数仓的对比数据仓库也是公司数据发展到一定规模后必然会提供的一种基础服务,数据仓库的建设也是“数据智能”中必不可少的一环。本文将从数据仓库的简介、经历了怎样的发展、如何建设、架构演变、应用案例以及实时数仓与离线数仓的对比六个方面全面分享关于数仓的...

2019-11-17 15:03:00

什么是拉链表

在数据仓库的数据模型设计过程中,经常会遇到这样的需求:1. 数据量比较大;2. 表中的部分字段会被update,如用户的地址,产品的描述信息,订单的状态等等;3. 需要查看某一个时间点或者时间段的历史快照信息,比如,查看某一个订单在历史某一个时间点的状态, 比如,查看某一个用户在过去某一段时间内,更新过几次等等;4. 变化的比例和频率不是很大,比如,总共有1000万的会员,每天新...

2019-11-11 23:31:05

数据仓库建模

目录为什么要数据仓库建模范式建模3NF 模型基本组成范式建模的特点ER 模型建模步骤维度建模维度表事实表建模流程维度建模的三种模式Data Vault 模型基本结构Data Vault 模型特点Anchor 模型总结为什么要数据仓库建模数据模型是数据组织和存储方法,它强调从业务、数据存取和使用角度合理存储数据。有了适合业...

2019-11-03 17:23:23

if-else优化之拥抱规则引擎

分享是一种精神,是加深理解最好的方式之一前言现代编程日益复杂,面临如下问题1、为提高效率,管理流程必须自动化,即使现代商业规则异常复杂。2、市场要求业务规则经常变化,IT系统必须依据业务规则的变化快速、低成本的更新。3、为了快速、低成本的更新,业务人员应能直接管理IT系统中的规则,不需要程序开发人员参与插曲世界上最遥远的距离,是我在if里你在else里...

2019-11-03 11:45:41

Java远程调试的原理

JDWP(Java Debug Wire Protocol)两个VM之间通过debug协议进行通信,然后以达到远程调试的目的。两者之间可以通过socket进行通信。其中,调试的程序常常被称为debugger, 而被调试的程序称为debuggee。应用场景当你的开发环境在Window,又在远端linux Server或者移动平台上运行Java应用程序,Java提供了一系列的接...

2019-10-23 17:43:24

MySQL · 答疑解惑 · MySQL 锁问题最佳实践

目录前言设计阶段开发阶段维护阶段总结前言最近一段时间处理了较多锁的问题,包括锁等待导致业务连接堆积或超时,死锁导致业务失败等,这类问题对业务可能会造成严重的影响,没有处理经验的用户往往无从下手。下面将从整个数据库设计,开发,运维阶段介绍如何避免锁问题的发生,提供一些最佳实践供RDS的用户参考。设计阶段在数据库设计阶段,引擎选择和索引设计不当可能导致后期业务...

2019-10-17 21:02:21

从sql关联数据异常看精度丢失问题

目录背景代码测试:测试结果:结果说明:原因分析:float与double的范围和精度解决方案:背景bigint和string做join的时候 会先都隐式转换成double在join,可能会由于精度丢失导致join的结果不符合预期,导致sql不符合预期代码测试: set hive.mapred.mode=nonstrict;select 90000...

2019-10-08 22:54:00

理解ClassNotFoundException与NoClassDefFoundError的区别

上篇文章已经介绍过Java的类加载机制,在类加载的过程中我们最常遇到的异常就是:ClassNotFoundExceptionNoClassDefFoundError但是你知道他们的区别吗?以及什么情况下发生上面的异常? 如果你还不清楚,那么不着急,我们来仔细分析一下:先来说说第一个异常提示名字已经非常友好了,就是告诉我们使用类加载器就加载某个类的时候,发现所有的path下面都没有找...

2019-10-08 09:46:39

MySQL主从数据库同步延迟问题解决

目录1. MySQL数据库主从同步延迟原理。MySQL的主从同步是一个很成熟的架构,优点为:①在从服务器可以执行查询工作(即我们常说的读功能),降低主服务器压力;②在从主服务器进行备份,避免备份期间影响主服务器服务;③当主服务器出现问题时,可以切换到从服务器。相信大家对于这些好处已经非常了解了,在项目的部署中也采用这种方案。但是MySQL的主从同步一直有从库延迟的问题,那么...

2019-10-01 17:39:25

Flink 原理与实现:数据流上的类型和操作

Flink 为流处理和批处理分别提供了 DataStream API 和 DataSet API。正是这种高层的抽象和 flunent API 极大地便利了用户编写大数据应用。不过很多初学者在看到官方 Streaming 文档中那一大坨的转换时,常常会蒙了圈,文档中那些只言片语也很难讲清它们之间的关系。所以本文将介绍几种关键的数据流类型,它们之间是如何通过转换关联起来的。下图展示了 Flink 中...

2019-09-18 20:11:05

Flink乱序处理之allowedLateness使用

1、简介Flink中借助watermark以及window和trigger来处理基于event time的乱序问题,那么如何处理“late element”呢?也许有人会问,out-of-order element与late element有什么区别?不都是一回事么?答案是一回事,都是为了处理乱序问题而产生的概念。要说区别,可以总结如下:1、通过watermark机制来处理out-of-...

2019-07-09 13:10:29

Flink基于EventTime和WaterMark处理乱序事件和晚到的数据

在实际的业务中,我们经常会遇到数据迟到的情况,这个时候基于窗口进行计算的结果就不对了,Flink中watermark就是为了解决这个问题的,理解watermark之前,先来说一下flink中的三个与流数据相关的概念,ProcessTime、EventTime、IngestionTime,不然很难理解watermark是怎么回事.我们先来看一下官网给出的一张图,非常形象地展示了Process Ti...

2019-07-09 12:59:58

查看更多

勋章 我的勋章
  • GitHub
    GitHub
    绑定GitHub第三方账户获取
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。