发条橙1226-CSDN博客

原创 flink内容总结

一、flink简介flink介绍flink是一个分布式处理引擎，用于对无界和有界数据流进行有状态的计算。* 流处理：数据大小未知，简单操作，及时响应，再次提取数据代价大，数据到达次序独立* 批处理：数据大小固定，复杂操作，需要一段时间，数据量大，方便查询计算结果无界流和有界流无界流有一个开始但没有定义的结束。它们不会在生成时终止并提供数据。必须持续处理无界流，即必须在摄取事件后立即处理事件。无法等待所有输入数据到达，因为输入是无界的，并且在任何时间点都不会完成。处理无界数据通常要求以特定

2021-10-08 09:51:12 431

原创 flink ClassTag,?: TypeInfomation[String],

如上图，学习flink常用算子的时候，报异常ClassTag,?: TypeInfomation[String],代码并没有问题。后来想到可能是Scala的flink api的问题，解决如下：修改为：import org.apache.flink.api.scala._

2021-09-26 10:43:23 210

原创日志及日志规范

1、日志概述日志主要是用来记录系统的问题信息的，用户做了哪些操作，发生了什么错误，并且进一步定位问题的原因。日志可以帮助我们快速地定位问题。2、日志作用1、打印调试：即可以用日志记录变量或记录一段逻辑。记录程序运行的流程，即程序运行了那些代码，方便排查逻辑问题。2、问题定位：程序出异常或者出谷中时快速定位问题，方便后期解决问题。因为线上无法debug，在测试环境模拟一套生产环境，费时费力。所以依靠日志记录的信息定位问题，这点非常重要。3、用户行为日志：记录用户的操作欣慰，用于大数据分

2021-09-22 17:44:16 3150

原创 mysql规范总结

参考文献：https://www.cnblogs.com/qlqwjy/p/8425861.htmlhttps://blog.csdn.net/u010498753/article/details/85966709一、基本规范要求1、没有特殊情况使用InnoDB作为存储引擎InnoDB与MyISAM的对比对比项 MyISAM InnoDB 外键不支持支持

2021-09-22 17:33:51 501

原创实时数仓建设规范

1、实时数仓与离线数仓的区别1、架构上：实时数仓在离线数仓的基础上，数据集成改为实时的数据集成，例如采用canal、dts和消息中间件（kafka）来及时采集和更新数据。2、数据处理上：增加了流式ETL和流式汇总。离线数据仓库主要采用T+1的方式处理数据，即第二天处理前一天的数据（这里可以是天，周或者是年，看具体业务情况）。而实时数仓则需要在秒级别内实现对数据的处理，因此通常情况下，会使用flink或spark streaming来计算数据，实现实时计算。总结：实时数仓相较于离线数仓数据来源

2021-09-22 17:27:34 746

原创离线数仓建设规范

1、规范命名的目的便于数据的统一管理和使用，达到见表识义的目的。易于后期的维护和问题的快速定位追踪。通过一定规则的命名，将不同的业务线、不同数据源、不同维度、不同周期的数据分开。2、业务流程的规范命名通过不同的编号来区分不同的迭代数据，再组合上下划线“-”和迭代数据输出的落地页名称，直接明了地表示数据的输出和输入位置。例如：经分迭代三十_落地页名称3、节点名称规范当ads层中某个指标只有唯一计算的话，则计算节点和数据集成节点的名称保持一致。节点依赖规范：业务中节点之间的

2021-09-22 17:17:04 368

原创 Kafka内容总结

一、kafka的消费模式Kafka的消费模式主要有两种：一种是一对一的消费，也即点对点的通信，即一个发送一个接收。第二种为一对多(发布/订阅模式)的消费，即一个消息发送到消息队列，消费者根据消息队列的订阅拉取信息消费。发布/订阅模式：即利用Topic存储消息，消息生产者将消息发布到Topic中，同时有多个消费者订阅此topic，消费者可以从中消费消息，注意发布到Topic中的消息会被多个消费者消费，消费者消费数据之后，数据不会被清除，而是按照时间策略来删除，Kafka会默认保留一段时间，然后再删除。

2021-09-22 16:55:02 9198

原创 DataWorks：一站式大数据开发治理平台

1、DataWorks概念DataWorks（数据工场，原大数据开发套件）是阿里云重要的PaaS（Platform-as-a-Service）平台产品，提供了数据集成、数据开发、数据地图、数据质量和数据服务等全方位的产品服务和一站式开发管理的界面。DataWorks基于MaxCompute/EMR/MC-Hologres等大数据计算引擎，提供专业高效、安全可靠的一站式大数据开发和治理的平台，自带阿里巴巴数据中台和数据治理的最佳实践。计算和存储主要在计算引擎上，任务的调度和开发在DataWork上

2021-08-30 20:45:49 2512

原创 spark总结

1、RDD的五大特性RDD默认不保存数据，数据流过每一个RDD。1、A list of partitions RDD是由一组分区组成的，默认一个切片对应一个分区。2、A function for computing each split 算子实际上是作用在每一个分区上面的，每一个分区由一个task处理。3、A list of dependencies on other RDDs RDD之间存在一系列的依赖关系，后一个RDD依赖于前一个RDD。依赖又分为Narrow D

2021-07-30 10:30:06 198

原创 maven导入了junit还是使用不了@Test注解

maven导入了junit还是使用不了@Test注解maven导入junit成功，但是就是用不了junit的注解 <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>4.13</version> <scope>t

2021-04-06 09:38:19 1035

原创 java.lang.ArrayIndexOutOfBoundsException: 1 字符串分割数组越界，报错为1

java.lang.ArrayIndexOutOfBoundsException: 1split()分割字符串，出现数据越界异常，报错为1split()分割字符串，出现数据越界异常，报错为1今天学习redis数据库过程中，在实现读取txt文件，分割每一行数据，存储到hashmap集合中，再写入到redis数据库，但是就是报数组越界，我确定数据没有越界。代码如下：FileReader file = new FileReader("data\\student.txt"); Buffere

2021-04-01 23:02:34 12612 4

原创 i++和++i的异同之处

i++和++i的区别相同点：1.i++和++i都是变量自增1，都等价于i=i+1；2.如果i++，++i是一条单独的语句，两者没有任何区别3.i++和++i的使用仅仅针对变量。5++和++5会报错，因为5不是变量。不同点：如果i++和++i不是一条单独的语句，它们就有区别，i++是先运算后再增1；++i是先增1后再运算。...

2021-01-19 09:28:35 399

原创 java中if和switch的区别

if多分支语句和switch语句的异同之处相同点：- if和switch都是分支语句，都是对超过一种情况的事件进行处理。* 不同点：- switch更适合处理分支情况较多，判断条件类型单一，只有一个入口的事件if更适合处理分支情况较少，判断条件类型不是单一的事件- switch在分支执行完成后，如果没有break跳出的话，会继续向下面的分支执行if只要一个分支被执行了，后面的分支就不再执行了- switch为等值判断，不允许比如 >= <= 等判断if为等值和区间都可以，if

2021-01-19 09:26:08 465

原创 SQL字符串不能为空

WrongArgumentException: SQL String cannot be empty今天，web页面写插入功能时，一直报空指针异常，断点追踪发现逻辑没有出错啊，反正肯定的是应该是jdbc或者reflect工具类其中一个出错了，找了好久终于找到了。原来是，SQL字符串不能为空，通过检查发现，在进行预编译的时候，将SQL语句赋值为空了Caused by: com.mysql.cj.exceptions.WrongArgumentException: SQL String cannot be

2020-12-18 20:40:59 2685 1

原创关于web.xml配置默认欢迎页面问题

IDEA中配置web.xml的默认欢迎页面未生效今天写了一个登陆页面，配置默认欢迎页面时，发现默认页面不生效，查看了配置信息，文件路径，文件名都没有错。下面是IDEA中web/WEB-INF文件下的web.xml文件配置信息后来才发现，Tomcat会先去Tomcat安装目录的conf下的web.xml去寻找配置文件信息。我将里面的信息加上login.html就可以。但是，我感觉这样太不方便了，应该有更好的方法，可以直接在IDEA中的web.xml直接配置就可以的，希望有知道的大佬可以指教一下

2020-12-15 14:43:54 1805

原创 java的两种常见集合嵌套

一、集合嵌套之ArrayList嵌套HashMap需求: 创建一个ArrayList集合，存储三个元素，每一个元素都是HashMap, 每一个HashMap的健和值都是String, 并遍历。思路:①创建ArrayList集合②创建HashMap集合,井添加键值对元素③把HashMap作为元素添加到ArrayList集合import java.util.ArrayList;import java.util.HashMap;import java.util.Set;//ArrayLis

2020-11-06 21:38:10 311

原创 java中Map集合遍历的两种方式

java中Map集合遍历的两种方式Map集合的遍历Map集合的遍历（方式一） - 获取所有键的集合。用keySet()方法实现 - 遍历键的集合, 获取到每一个键。用增强for实现 - 根据键去找值。用get(Object key)方法实现import java.util.HashMap;import java.util.Map;import java.util.Set;//map集合遍历方式一public class MapDemo02 { public static

2020-11-06 20:07:48 163

原创 HTML总结

HTML第一天总结

2020-07-02 16:55:57 69

原创 VMware软件安装

VMware软件安装VMware 的安装一、VMware安装详细安装步骤安装步骤打开VMware的安装程序点击下一步；点击接受条款，点击下一步；选择自定义安装勾选插件，选择安装目录新建文件夹，选择自定义的安装路径，下一步；设置虚拟机存储目录，点击下一步；去掉检查更新，下一步；开始安装…完成安装...

2020-06-30 12:24:09 152