anita9999-CSDN博客

原创 flink 实时查数据库引发的异常

1.flink实时从kafka接收数据，插入mysql ,引用HikariDataSource dataSource=BaseConf.baseMysqlDs();Connection connection=HikariCpPool.getConnect(dataSource);没有关闭数据库连接，插入一万条数据，创建一万条连接，造成mysql连接数过多，数据库异常...

2021-12-12 19:31:03 2189 1

1. Watermark介绍Watermark就是设定一个延迟时间，比如水位线设置2秒，当时间缀-2小于，窗口关闭时间时，窗口不关闭，进行接收数据，当时间缀-2等于关闭时间，窗口触发关闭。2. Watermark分类 AssignerWithPeriodicWatermarks AssignerWithPunctuatedWatermarks 以上两个接口都继承自TimestampAssigner。TimestampAssignerAssignerWithPeriodic

2021-11-23 08:40:48 250

原创 flink 报Long.MIN_VALUE timestamp错

错误信息：Flink Record has Long.MIN_VALUE timestamp (= no timestamp marker). Is the time characteristic这是因为flink 1.2之前的版本默认都是processtime ，1.3版本之后都是eventtime具体的参考内容Flink Record has Long.MIN_VALUE timestamp (= no timestamp marker). Is the time characteristi

2021-11-20 17:00:16 1055

原创 flink processing time和event time区别

1.processing time它是系统的操作时间，比如开一个一分钟的窗口，一个分钟流入窗口的数据2. event time事件时间，它与机器时间无关，与数据自带的时间缀有关系，如一分钟的窗口，相关数据在这一分钟之内的时间缀都会进入这个窗口。请参考该实例连接flink笔记10 [实验]体验ProcessingTime和指定EventTime下的区别_Aurora1217的博客-CSDN博客...

2021-11-20 16:57:07 1462

原创 flink窗口介绍

1.窗口分类滚动窗口（滚动时间窗口，滚动计数窗口）滑动窗口（滑动时间窗口，滑动计数窗口）会话窗口全局窗口2.窗口解释滚动窗口（Tumbing Window）：固定时间生成一个窗口，或固定数据生成一个窗口；比如8点到9点，间隔一个小时生成一个窗口，那么8点到9点进来的数据进入这个窗口，窗口相当于一个桶，把数据存储起来；或进来10个数据生成一个窗口，放在这个窗口里。滚动窗口时间间隔固定，采取左闭右开的原则，比如八点到九点，八点封闭，九点开，一个数据是九点进来，他应该是九点到十点的

2021-11-19 08:39:41 1151

原创 flink 基础知识梳理（DataSet、DataStream、map、filter、filterMap）

1.DataSet和DataStream的区别DataSet:有界数据流，数据批处理；处理完一条数据，把它放到缓存里，当缓存空间写满时，把它映射到磁盘上；在所有数据处理完之后，才将其通过网络传输到下一个节点，要求高通吐。DataStream无界数据流，数据流处理；处理完一条数据，把它序列到缓存，并将其通过网络传输到一下个节点进行处理，要求低延迟。2.map、filter、filterMap的区别map:数据流经过map算子处理之后，再流出；它是有多少数据，处理完之后就流出多少数据filt

2021-11-18 22:00:15 923

原创 kudu介绍

1.hdfs与hbase的优缺点hdfs:吞吐能力强，随机读写能力差，适合批处理数据。hbase：随机读写能力强，但吞吐能力差，适合随机分析处理。2.kudu介绍及背景kudu是综合了hdfs与hbase优缺点，即满足高吞吐，高随机读写能力，但处理性能属于折中，高吞吐比hdfs差点，但比hbase强；随机读写能力强，比hdfs好，比hbase差点，但不需要部署二套架构；它是大数据存储引擎，满足传统的olap数据处理分析，也能满足随机读写能力。3.kudu架构kudu是由一个mas

2021-08-30 11:55:11 295

转载 Java hashCode() 和 equals()的若干问题解答

https://www.cnblogs.com/skywang12345/p/3324958.htmlhttps://blog.csdn.net/m_crayon/article/details/105460455

2021-07-31 14:43:56 95

转载 HBase架构详解及读写流程

https://www.jianshu.com/p/7b2b7e4a40b4https://www.jianshu.com/p/cf316eb80137

2021-05-09 18:29:19 113

转载 Centos7下使用mysql离线安装包rpm安装mysql5.7

https://blog.csdn.net/ai_64/article/details/100557530https://blog.csdn.net/ckg8933/article/details/81946742

2021-01-31 13:13:35 128

转载内网环境下如何配置CentOS网络源（阿里云）----nginx代理实现

https://blog.csdn.net/qq_38228830/article/details/100086017

2021-01-21 16:59:26 309

转载 kafka问题解决：org.apache.kafka.common.errors.TimeoutException

https://blog.csdn.net/maoyuanming0806/article/details/80553632

2021-01-17 22:21:55 6526 1

转载 kafka无法消费数据

https://blog.csdn.net/dianxiang0791/article/details/101604282

2021-01-17 20:28:07 339

转载 Impala和Hive之间有什么关系

hive是Java写的，由Facebook开源，目的是将特定的SQL语句编译为MapReduce jar包扔给hadoop去执行，本质上是一个代码转换编译的工具，简化mr的开发，因为pig hive出现以前，mr都需要由熟悉Java或Python和hadoop架构熟悉的比较高级的程序员来写，这就限制了hadoop的使用广度。所以擅长语言翻译的facebook搞了一个hive，来把sql语言翻译成java再跑mr。impala是spark萌芽时期cdh开源的c++编写的sql执行引擎，也用到了有向无...

2021-01-12 17:33:53 395

转载 maven多模块项目出现java文件异常(蓝色标记消失，pom.xml存在但仍不能导入对应的包，不能识别java文件等)

解决方案:A->删除.idea文件，重新导入IdeaB->删除整个项目，重新下载导入IdeaC->Project Structure Module(对应的module)重新设置source rootD->检查pom.xml是否出错，如主pom.xml中的<modules>标签是否包含对应的子模块等...

2020-12-11 16:05:04 1137

转载 2020-11-03

彻底解决SLF4J: Class path contains multiple SLF4J bindings.https://blog.csdn.net/zipo/article/details/84580968

2020-11-03 14:06:36 88

转载 2020-11-02

详细解析kafka之kafka分区和副本本篇主要介绍kafka的分区和副本，因为这两者是有些关联的，所以就放在一起来讲了，后面顺便会给出一些对应的配置以及具体的实现代码，以供参考~1.kafka分区机制分区机制是kafka实现高吞吐的秘密武器，但这个武器用得不好的话也容易出问题，今天主要就来介绍分区的机制以及相关的部分配置。首先，从数据组织形式来说，kafka有三层形式，kafka有多个主题，每个主题有多个分区，每个分区又有多条消息。而每个分区可以分布到不同的机器上，这样一来，从服务端来

2020-11-02 14:03:58 102

转载数据仓库分层作用及作用

数据仓库解决什么问题1、将各种数据源整合到一起统一数据中心，解决数据壁垒。 <仓库的集成性特点> 2、脏数据清洗，简化业务复杂结构数据。 3、规范表、字段名称，统一字段数据格式，完善注释内容。 4、保留历史变更数据，提供对细节变化分析支持。 5、生产适合OLAP的大宽表，方便用户多维度快速分析。 <仓库的主题性特点> 6、数据质量的保证和指标口径的一致性分层设计的优势一般来说数据仓库有如下几层：ODS 操作数据层 DWD 明细数据层 DWS 汇总数据层

2020-10-20 09:49:00 2538

原创 navicate premium 15输入汉字倒立

因为字体之前被设置成@官宋体，多了@

2020-10-12 20:16:27 864

转载 ETL数据抽取方案

ETL 过程中的主要环节就是数据抽取、数据转换和加工、数据装载。为了实现这些功能，ETL 工具会进行一些功能上的扩充，例如工作流、调度引擎、规则引擎、脚本支持、统计信息等。一、数据抽取数据抽取是从数据源中抽取数据的过程。实际应用中，数据源较多采用的是关系数据库。从数据库中抽取数据一般有以下几种方式：1.全量抽取全量抽取类似于数据迁移或数据复制，它将数据源中的表或视图的数据原封不动的从数据库中抽取出来，并转换成自己的ETL 工具可以识别的格式。全量抽取比较简单。2.增量抽取...

2020-10-07 14:01:15 5251

转载 springboot（服务端接口）获取URL请求参数的几种方法

转自：https://www.cnblogs.com/zhanglijun/p/9403483.html

2020-10-07 10:23:11 254

转载解决问题：mysql 1040 too many connections

转自：https://blog.csdn.net/smd2575624555/article/details/86010183?utm_medium=distribute.pc_relevant_t0.none-task-blog-BlogCommendFromMachineLearnPai2-1.edu_weight&depth_1-utm_source=distribute.pc_relevant_t0.none-task-blog-BlogCommendFromMachineLearnPai2

2020-10-06 14:43:49 89

原创 svn 地址变更

svn 地址变更，把工程.svn删除，不会默认之前的svn地址

2020-09-29 19:23:10 137

转载 MySQL的binlog日志

binlog 基本认识 MySQL的二进制日志可以说是MySQL最重要的日志了，它记录了所有的DDL和DML(除了数据查询语句)语句，以事件形式记录，还包含语句所执行的消耗的时间，MySQL的二进制日志是事务安全型的。一般来说开启二进制日志大概会有1%的性能损耗(参见MySQL官方中文手册 5.1.24版)。二进制有两个最重要的使用场景: 其一：MySQL Replication在Master端开启binlog，Mster把它的二进制日志传递给slaves来达到master-s...

2020-09-29 13:42:11 293

转载 SpringBoot系列——加载自定义配置文件

　前言　　SpringBoot启动时默认加载bootstrap.properties或bootstrap.yml（这两个优先级最高）、application.properties或application.yml，如果我们配置了spring.profiles，同时会加载对应的application-{profile}.properties或application-{profile}.yml，profile为对应的环境变量，比如dev，如果没有配置，则会加载profile=default的配置文件　　虽

2020-09-28 15:29:04 1163

转载 Springboot使用RestTemplate发送Post请求postForEntity (application/json)的坑

当使用RestTemplate进行http请求时，的确很方便，但是当需要进行post请求时遇到了坑1POST传递参数：采用 LinkedMultiValueMap ，不能使用HashMap String url = 'http://posturl'; MultiValueMap<String, String> map= new LinkedMultiValueMap<String, String>(); map.add("shopid",".

2020-09-27 17:56:49 13085 3

转载 Hive的Transform的实现

Hive 的 TRANSFORM 关键字提供了在 SQL 中调用自写脚本的功能。适合实现 Hive 中没有的功能又不想写 UDF 的情况，脚本一般都是python写的。Json 数据： {"movie":"1193","rate":"5","timeStamp":"978300760","uid":"1"}需求：把json的字段timeStamp转换为日期编号。1、先加载 rating.json 文件到 hive 的一个原始表 rate_jsoncreate table rate_jso

2020-09-16 18:53:42 276

转载 hive之UDF函数编程详解

UDF的定义UDF（User-Defined Functions）即是用户定义的hive函数。hive自带的函数并不能完全满足业务需求，这时就需要我们自定义函数了UDF的分类UDF：one to one，进来一个出去一个，row mapping。是row级别操作，如：upper、substr函数 UDAF：many to one，进来多个出去一个，row mapping。是row级别操作，如sum/min。 UDTF：one to many ，进来一个出去多个。如alteral view与ex

2020-09-16 18:22:39 1289

转载 hive 基础知识汇总

Hive建表方式共有三种：直接建表法查询建表法 like建表法首先看官网介绍’[]’ 表示可选，’|’ 表示二选一1.直接建表法：Hive将HDFS上的文件映射成表结构，通过分隔符来区分列（比如’,’ ‘;’ or ‘^’ 等），row format就是用于指定序列化和反序列化的规则。比如对于以下记录：1,xiaoming,book-TV-code,beijing:chaoyang-shagnhai:pudong2,lilei,book-code,nanjing:j...

2020-09-16 16:40:33 196

原创大数据相关技术入门了解

Hadoop（重点中的重点）：这是现在流行的大数据处理平台几乎已经成为大数据的代名词，所以这个是必学的。Hadoop里面包括几个组件HDFS、MapReduce和YARN，HDFS是存储数据的地方就像我们电脑的硬盘一样文件都存储在这个上面，MapReduce是对数据进行处理计算的，它有个特点就是不管多大的数据只要给它时间它就能把数据跑完，但是时间可能不是很快所以它叫数据的批处理。YARN是体现Hadoop平台概念的重要组件有了它大数据生态体系的其它软件就能在hadoop上运行了，这样就能更好的利用HDFS大

2020-08-01 16:35:59 246

oracle11g下载.rar

32位java jdk1.8|jdk.rar

精通Oracle10g PL/SQL编程

junit4.jar

首个字的拼音自动匹配

tomcate优化,集群

深入浅出extjs第二版源码

空空如也