haibucuoba-CSDN博客

原创 Kappa架构与Lambda架构比较

目标市场上的许多玩家已经建立了成功的MapReduce工作流程来每天处理以TB计的历史数据。但是谁愿意等待24小时才能获得最新的分析结果？这篇博文将向您介绍旨在利用批处理和流处理方法的Lambda架构。我们将利用Apache Spark（Core，SQL，Streaming），Apache Parquet，Twitter Stream等实时流数据快速访问历史数据。还包括清晰的代码和直观的...

2019-07-02 15:05:25 27674 3

原创 Spark使用Bulk Load将大量数据导入HBase以及遇到一些问题及解决方案

1、涉及jar包依赖<properties> <spark.version>2.3.2</spark.version> <java.version>1.8</java.version> <scala.version>2.11.8</scala.version> <scala.major.version>2.11</scala.major.

2020-05-28 22:53:00 1573 9

原创一、初识 TiDB

一、简介TiDB 是 PingCAP 公司设计的开源分布式 HTAP (Hybrid Transactional and Analytical Processing) 数据库，结合了传统的 RDBMS 和 NoSQL 的最佳特性。TiDB 兼容 MySQL，支持无限的水平扩展，具备强一致性和高可用性。TiDB 的目标是为 OLTP (Online Transactional Proces...

2020-01-03 00:00:44 1705

原创 SpringBoot + Druid + Mybatis 配置多数据源（AOP方式）

1、配置文件 application-dev.yml 设置spring: datasource: ds1: url: jdbc:mysql://10.126.89.86:58885/xxxx?useSSL=false username: xxxx password: xxxxx driver-class-name: com.mys...

2019-09-16 20:00:31 739

原创 SpringBoot 线程池配置和异步任务调用

方式一：重写spring默认线程池的方式1、相关参数配置#线程相关配置#核心线程数task.pool.corePoolSize: 5#线程池最大线程数task.pool.maxPoolSize: 20#线程最大空闲时间task.pool.keepAliveSeconds: 300#队列最大容量task.pool.queueCapacity: 50#线程名称前缀task...

2019-09-16 19:53:28 732

转载 ElasticSearch的完整写入流程

elasticsearch写入数据时涉及到的核心概念讲解：segment file: 存储倒排索引的文件，每个segment本质上就是一个倒排索引，每秒都会生成一个segment文件，当文件过多时es会自动进行segment merge（合并文件），合并时会同时将已经标注删除的文档物理删除；commit point（重点理解）: 记录当前所有可用的segment，每个commit p...

2019-07-24 17:21:15 2252 1

转载 Flink CEP 中文API

0. 本文概述简介FlinkCEP是在Flink之上实现的复杂事件处理（CEP）库。它允许你在无界的事件流中检测事件模式，让你有机会掌握数据中重要的事项。本文描述了Flink CEP中可用的API调用。首先介绍Pattern API，它允许你指定要在流中检测的模式，然后介绍如何检测匹配事件序列并对其进行操作。然后，我们将介绍CEP库在处理事件时间延迟时所做的假设。1.入门首先...

2019-07-23 23:53:50 385

原创 Flink的CEP使用流程+使用案例

一、CEP 一个或多个由简单事件构成的事件流通过一定的规则匹配，然后输出用户想得到的数据，满足规则的复杂事件。CEP支持在流上进行模式匹配，根据模式的条件不同，分为连续的条件或不连续的条件；模式的条件允许有时间的限制，当在条件范围内没有达到满足的条件时，会导致模式匹配超时。、CEP就相当于在流上对event进行模式匹配。比如连续两条登录失败日志不超过2秒，则进行错误预...

2019-07-23 23:47:29 6132 1

准确一次(exactly once)的送达保证是实时计算的关键特性之一，这要求作业从失败恢复后的状态以及管道中的数据流要和失败时一致，通常这是通过定期对作业状态和数据流进行快照实现的。然而这种方式主要有两点不足：首先，快照进行期间常常要暂停数据流的摄入，造成额外延迟和吞吐量下降；其次，快照会过度谨慎地将管道里正在计算的数据也随着状态保存下来，导致快照过于庞大。针对以上两个问题，Apache ...

2019-07-23 01:19:44 1964

原创 ElasticSearch 7.1一些API的简单使用

ES 7.X 相比之前6.x版本最大的变化是不再有type的概念，不能再自建type，每个index提供了一个默认不可修改的type _doc。若公司有需求ES6.x升级到ES7.x官网提供了对应的解决方案。参考https://www.elastic.co/guide/en/elasticsearch/reference/7.0/removal-of-types.html以下操作基于k...

2019-06-28 19:16:25 1522

原创 Hive函数总结（三）：数字函数汇总

1、四舍五入取整函数：round 语法：round(double a[,int d])说明：一个参数a四舍五入取整，两个参数a保留d位小数四舍五入举例：hive> select round(123.567) from dual;OK124.0Time taken: 0...

2019-06-22 23:17:21 3537 1

原创 Hive函数总结（二）：时间日期函数

1、时间戳转日期函数：to_date 语法：to_date(string timestamp)说明：将标准格式时间戳转成日期格式举例：hive> select to_date('2019-06-21 13:21:13') from dual;OK2019-06-21...

2019-06-22 18:07:10 2048

转载 Hive函数总结（一）：字符串函数

1、length 字符串长度length(string a)2、reverse反转字符串reverse('string')3、concat字符串连接函数concat('a','b')输出 ab4、concat_ws指定分隔符连接字符串concat_ws('-',...

2019-06-22 13:30:46 2020

原创 java代码中引用了scala类，Maven打包编译时爆出找不到scala类的异常

原因：项目打包时，会先编译java代码，再编译scala代码。编译顺序有问题导致打包时找不到相应的scala类解决：添加一个Maven build的插件 <plugin> <groupId>net.alchim31.maven</groupId> ...

2019-06-21 10:52:15 5736

原创 Azkaban的编译安装使用以及一些常见问题

1、下载源码https://github.com/azkaban/azkaban.git下载完成进行解压2、编译cd 到 azkaban 目录下，执行如下命令生成一系列文件./gradlew distTar编译完成3、创建工作目录，将编译后的jar包拷贝进来mkdirazkaban拷贝tar包cp azka...

2019-06-21 00:18:00 1541 2

原创 CTE的介绍与使用

1、什么是CTECTE可以被认为是在单个SELECT、INSERT、UPDATE、DELETE或CREATE VIEW语句的执行范围内定义的临时结果集。CTE类似于派生表，因为它不作为对象存储，并且仅在查询期间持续。与派生表不同，CTE可以自引用，并且可以在同一查询中多次使用。2、CTE作用：创建递归查询在一般不是必要使用视图时替换视图，这样的话，...

2019-06-11 22:47:15 5055

转载 Hive SQL的编译过程-转自美团团队

Hive是基于Hadoop的一个数据仓库系统，在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建，每天执行近万次的Hive ETL计算流程，负责每天数百GB的数据存储和分析。Hive的稳定性和性能对我们的数据分析非常关键。在几次升级Hive的过程中，我们遇到了一些大大小小的问题。通过向社区的咨询和自己的努力，在解决这些问题的同时我们对Hive将SQL编译为MapReduce的过程有了比...

2019-06-10 23:00:40 196

原创 GC垃圾收集

一、GC的基本原则：分代收集①频繁收集新生代 MinorGC。②较少收集老年代 majorGC。③基本不动永久代。（major可以收集到）二、判断对象是否存活，是否可以被收集。1、引用计数法。对象引用一次，引用计数+1，引用失效，引用计数-1，引用计数0，就可回收了。不足：性能问题，计算计数。循环利用：a.b=new B;b.a= new A.,A、B类之间互相引用

2017-09-20 23:34:34 272

Apache Kafka实战.pdf--有新特性的介绍-强烈推荐

《Apache Kafka实战》是涵盖Apache Kafka各方面的具有实践指导意义的工具书和参考书。作者结合典型的使用场景，对Kafka整个技术体系进行了较为全面的讲解，以便读者能够举一反三，直接应用于实践。同时，本书还对Kafka的设计原理及其流式处理组件进行了较深入的探讨，并给出了翔实的案例。《Apache Kafka实战》共分为10章：第1章全面介绍消息引擎系统以及Kafka的基本概念与特性，快速带领读者走进Kafka的世界；第2章简要回顾了Apache Kafka的发展历史；第3章详细介绍了Kafka集群环境的搭建；第4、5章深入探讨了Kafka客户端的使用方法；第6章带领读者一览Kafka内部设计原理；第7~9章以实例的方式讲解了Kafka集群的管理、监控与调优；第10章介绍了Kafka新引入的流式处理组件。《Apache Kafk...

2019-07-24

SQL基础教程第3版高清-PDF-带目录书签

《SQL基础教程》是人民邮电出版社2009年12月1日出版的图书，作者是费希利（美）。本书是一本SQL的入门书，介绍如何使用最常用的SQL语言维护和查询数据库信息。书中介绍了各种DBMS，关系模型理论，SQL语法，从表中检索数据，操作符和函数，...