csdn-延-CSDN博客

原创数据字典和数据目录的含义及区别

数据目录通常采用规范化的语言表达数据流程图中的各组成部分，以便用户能够更方便地查找和利用数据。它可以包含数据的元数据信息，如数据的来源、数据的含义、数据的质量等，以帮助用户更好地理解和利用数据。数据字典和数据目录在大数据中都是用于描述和管理数据的工具，但它们的目的和功能略有不同。在实现方式上，数据字典通常是由数据库管理系统（DBMS）自动更新的，因为数据字典中的信息是与数据库的结构和属性密切相关的。综上所述，数据字典和数据目录都是大数据中重要的数据管理工具，但它们的目的和功能略有不同。

2023-10-29 12:42:34 283

转载大数据之Yarn和Spark配置与说明

Executor关闭后，其输出的文件，也就无法供其他Executor使用了。在将NodeManager的总内存平均分配给每个Executor，最后再将单个Executor的内存按照大约10:1的比例分配到spark.executor.memory和spark.executor.memoryOverhead。此处的Executor个数是指分配给一个Spark应用的Executor个数，Executor个数对于Spark应用的执行速度有很大的影响，所以Executor个数的确定十分重要。

2023-08-20 21:35:49 263

转载 Linux ssh/sftp/scp免密登录

Linux上实现SSH、SFTP和SCP免密登录

2023-08-16 21:41:55 713

转载 Hadoop大数据平台数据迁移方案（跨集群）

保证数据必须TextFile文件格式（Orc等压缩文件格无用），可以将压缩表数据插入非压缩表中insert ****** select ******]上述命令会把nn1集群的/source目录下的所有文件或目录展开并存储到一个临时文件中，这些文件内容的拷贝工作被分配给多个map任务，[服务器2]创建Hive外表，其中外表的（location）地址远程指向迁移地址[服务器1]数据的（location）地址，在我们的Hive中创建Hive外部引用表，将引用路径指向需要迁移的服务器地址。

2023-08-15 22:12:49 606

转载从大数据平台CDP的架构看大数据的发展趋势

随着各行各业数字化转型的推进，当前企业的业务系统，上云是一大趋势，且上云的最终形态，是多个公有云和私有云的混合部署形态，即混合云。随着组织在云环境中采用基于 Hadoop 的大数据部署，他们还需要企业级的安全性和治理、多种分析功能、管理工具和技术支持-所有这些需求都是 CDP 平台的一部分，下图展示了 CDP 平台的功能地图。其中：CDH和HDP都重点涵盖了数据工程和数据仓库场景，同时CDH对AI,ML和数据科学场景有侧重，而HDP对IoT数据摄取和流场景有侧重。已经不仅仅是最早概念的Hadoop，

2023-08-15 20:09:55 885

原创 github访问加速

C:\Windows\System32\drivers\etc hosts配置文件中加上以上内容。

2023-08-10 23:03:07 103

转载如何使用Sentry实现Hive/Impala的数据脱敏

1.环境准备及描述2.创建脱敏视图3.权限分配及测试4.总结。

2023-08-09 15:33:28 157

转载微服务架构之雪崩效应

雪崩效应，在微服务系统中，是一个很常见的现象，对于其解决或者避免方式，每个开发人员的理解见仁见智，但方案无非就是以上几种，具体使用哪种，则依赖于具体的场景。比如，笔者从业于某互联网公司的广告相关业务，在节假日的时候，流量会较平时增加，也遇到过因为流量变大导致的整个系统短时间内访问异常的情况，解决方案有以下几种：1、提前扩容，针对可能存在性能瓶颈的服务实例，节前提前扩容，做到临时以防万一。2、服务降级。

2023-08-08 16:48:39 125

转载一文搞懂Mysql中的共享锁、排他锁、悲观锁、乐观锁及使用场景

其实mysql中的引擎有很多种类，其中InnoDB和MyISAM引擎最常用在mysql5.5版本前默认使用MyISAM引擎，之后使用InnoDB引擎查看数据库引擎命令如下。

2023-08-07 13:57:46 1120 1

转载 MySQL数据库中的锁有哪些类型

InnoDB行锁是通过给索引上的索引项加锁来实现的，这一点MySQL与Oracle不同，后者是通过在数据块中对相应数据行加锁来实现的。InnoDB这种行锁实现特点意味着：只有通过索引条件检索数据，InnoDB才使用行级锁，否则，InnoDB将使用表锁！如果一个事务对对象加了排他锁，其他事务就不能再给它加任何锁了。锁定粒度大，发生锁冲突的概率最高,并发度最低。MySQL数据库中的锁有共享锁，排他锁，行锁，表级锁，行级锁以及页面锁。根据锁的级别或密度来划分，MySQL有三种锁的级别：页级、表级、行级。

2023-08-07 13:37:28 126

转载 java常用数据结构有哪些

假如我们要从上图中查找 5 个元素，先从根节点 7 开始找，5 必定在 7 的左侧，找到 4，那 5 必定在 4 的右侧，找到 6，那 5 必定在 6 的左侧，找到了。尽管可能性极小，但仍然会发生，如果哈希冲突了，Java 的 HashMap 会在数组的同一个位置上增加链表，如果链表的长度大于 8，将会转化成红黑树进行处理——这就是所谓的拉链法（数组+链表）。同理，栈按照“后进先出”、“先进后出”的原则来存储数据，先插入的数据被压入栈底，后插入的数据在栈顶，读出数据的时候，从栈顶开始依次读出。

2023-08-04 08:26:17 313

原创数据库中脏读、幻读、不可重读是什么意思?

幻读（Phantom Read）指在一个事务中，读取到了其他事务插入的符合条件的新数据，或者其他事务已经删除的数据。例如，事务A执行了“SELECT * FROM table WHERE column=1”，然后事务B在这个表中插入了一条符合条件的新数据，那么当事务A再次执行同样的查询时，会返回另两条记录，如同出现幻觉一般，这就是幻读。在多个事务同时操作同一数据时，要么调整事务隔离级别，控制事务对数据的访问，避免出现问题，要么通过其他的方法来避免这些问题的出现，例如行级锁、加表锁等。

2023-08-04 00:54:55 378

转载聊聊 Sharding-JDBC 数据脱敏

上文介绍到了Sharding-JDBC支持的两种加密策略，肯定都是要实现一下，下面将会针对两种策略去介绍一下如何自定义。自定义很简单，直接实现Encryptor 接口即可，重写其中的加密、解密方法。下面自定义一个SHA256加密算法器，这是一种不可逆的算法，如下：复制/*** @author 不才陈某公众号：码猿技术专栏* 自定义的加密解密算法，基于sha256*/@Data/*** 别名，配置时需要*/@Override/*** 加密。

2023-08-03 23:56:00 189

转载营销数字化下越来越火的CDP，究竟和DMP有什么不同？

（3）体验数据，来自于非结构化数据，比如客服机器人通过文字或语音跟消费者的交互，甚至一些更先进的客户可以通过音频跟视频，来捕捉用户整个在服务过程中的一些问题以及他的期望。数据治理是最容易被忽视的，明略科技在过往的很多年中，帮客户做数据治理的工作都是前置的，所以很多客户都从来不知道还有这么一个环节。大量地依赖外部数据，少量用到自己内部的数据，所以它可以呈现SaaS的模式。而CDP要用到大量脱敏的一方数据，还对于场景的实时性有更高的一些要求，同时需要一些行业特征的区隔，这个时候产品是不是行业化，又变得不一样。

2023-08-03 23:32:57 151

转载 CDP、DMP、CRM都是什么，你分得清楚吗?

编辑导语：数据化管理时代，每个企业都在为业务的精细化运营做打算。为了提高数据化运营的效率，纷纷开始自建或外采运营工具。市面上衍生出了CRM系统、DMP平台、CDP平台，这三者有何区别？在场景的使用上有何差异？作者在文中进行了三者的区分，一起来看下。数据化管理时代，几乎每个企业都在推行业务的精细化运营，新用户的获取，老用户的分层运营。为了提升数据化运营的效率，纷纷自建或外采运营工具。

2023-08-03 22:57:42 319

原创 Java中各种数据类型占字节数

Java是广泛应用于大型企业系统的一种面向对象编程语言，它被广泛应用于多种物联网应用、移动应用开发，以及网站后台的开发中。在Java语言中，数据类型对于变量的定义起到了至关重要的作用，这些数据类型的选取除了需要根据语言的规范进行选择之外，还需要根据数据类型所占用的字节数位数进行评估，以保证系统的效率和稳定性。本文将简要介绍在Java语言中数据类型的占用字节数以及其对Java程序的影响。

2023-08-03 21:09:40 622

原创 springcloud五大组件

Spring Cloud是一系列框架的有序集合。它利用Spring Boot的开发便利性巧妙地简化了分布式系统基础设施的开发，如服务发现注册、配置中心、消息总线、负载均衡、断路器、数据监控等，都可以用Spring Boot的开发风格做到一键启动和部署。Spring Cloud并没有重复制造轮子，它只是将各家公司开发的比较成熟、经得起实际考验的服务框架组合起来，通过Spring Boot风格进行再封装屏蔽掉了复杂的配置和实现原理，最终给开发者留出了一套简单易懂、易部署和易维护的分布式系统开发工具包。

2023-08-03 19:41:10 226

原创 Doris比MySQL快的原因

在数据存储和数据分析领域，MySQL和Doris是比较流行的数据库管理系统的代表。在如今的大数据时代，数据量和数据分析的速度是很重要的。在数据分析和数据处理中，Doris比MySQL快，这个问题一直是许多人关心的问题。可以看出，Doris具有列式存储、分布式计算、并行多线程等特点。正是这些特点，让Doris在数据分析中表现出更高的性能，相比MySQL更加快速。由于实际使用场景的不同，选择MySQL还是Doris，需要根据个人和业务需求综合考虑。

2023-08-03 18:56:23 2148

转载 Hive常见的压缩格式

完成对Hive表的压缩，有两种方式：配置MapReduce压缩、开启Hive表压缩功能。当然为了方便起见，Hive中的特定表支持压缩属性，自动完成压缩的功能。其中压缩比bzip2 > zlib > gzip > deflate > snappy > lzo > lz4，在不同的测试场景中，会有差异，这仅仅是一个大概的排名情况。从压缩性能上来看：lz4 > lzo > snappy > deflate > gzip > bzip2，其中lz4、lzo、snappy压缩和解压缩速度快，压缩比低。

2023-08-02 00:28:45 304

转载 hive视图与物化视图使用详解

对比两者的查询过程不难看出，第一个查询执行了map-reduce任务，耗时2秒多，第二个查询，没有执行map-reduce任务，由于会命中物化视图，重写query查询物化视图，查询速度会加快（没有启动MR，只是普通的table scan），查询时间提升了一倍多，这要是在数据量非常大的情况下性能将是巨大的改善；从上面的内容我们知道，物化视图创建后即可用于相关查询的加速，即：用户提交查询query，若该query经过重写后可以命中已经存在的物化视图，则直接通过物化视图查询数据返回结果，以实现查询加速。

2023-08-01 23:25:35 963

转载 Kafka中的数据不丢失机制

在消费者消费数据的时候，只要每个消费者记录好offset值即可，就能保证数据不丢失。注：如果broker迟迟不给ack，而buffer又满了，开发者可以设置是否直接清空buffer中的数据。生产者数据发送出去，需要服务端返回一个确认码，即ack响应码；1：partition的leader收到数据，不管follow是否同步完数据，响应的状态码为1。在broker中，保证数据不丢失主要是通过副本因子（冗余），防止数据丢失。0：生产者只负责发送数据，不关心数据是否丢失，丢失的数据，需要再次发送。

2023-08-01 13:04:30 716

转载 Kafka为什么性能这么快？4大核心原因详解

通过这种分区分段的设计，Kafka 的 message 消息实际上是分布式存储在一个一个小的 segment 中的，每次文件操作也是直接操作的 segment。这种分区分段+索引的设计，不仅提升了数据读取的效率，同时也提高了数据操作的并行度。另一个主要功能是 kafka 写数据的时候，是以磁盘顺序写的方式来写的，也就是说仅仅将数据追加到文件的末尾，不是在文件的随机位置来修改数据。即采用磁盘顺序写，这样就不需要寻道时间，只需很少的旋转时间，将数据追加到文件的末尾，不是在文件的随机位置来修改数据。

2023-08-01 12:37:09 570

转载实时数仓建设核心

接着需要新起一个任务，从原来比较早的一个时间节点去消费 Kafka 上的数据，然后当这个新的任务运行的进度已经能够和现在的正在跑的任务齐平的时候，你就可以把现在任务的下游切换到新的任务上面，旧的任务就可以停掉，并且原来产出的结果表也可以被删掉。对于实时数仓来说，怎么去解决数据重算问题？实时明细层：在明细层，为了解决重复建设的问题，要进行统一构建，利用离线数仓的模式，建设统一的基础明细数据层，按照主题进行管理，明细层的目的是给下游提供直接可用的数据，因此要对基础层进行统一的加工，比如清洗、过滤、扩维等。

2023-07-31 00:37:25 75

转载 Hive经典面试题之连续N天登录

在日常工作进行数据的ETL或者面试时，经常遇到类似的问题，比如"统计连续N天交易额超过100万的店铺"、"统计连续登录天数超过3天的用户"等。对于这类问题，思路基本都是一样的。本文将介绍常用的两种解决方案。2.用登录日期与rn求date_sub，得到的差值日期如果是相等的，则说明这两天肯定是连续的。3.根据id和日期差date_diff分组，登录次数即为分组后的count(1)1.先把数据按照用户id分组，根据登录日期排序。以"统计连续登录天数超过3天的用户"为需求。注：以下用到的SQL函数，建议参考。

2023-07-31 00:30:28 118

原创 UDF和UDAF、UDTF的区别

简单说就是输入一行输出一行的自定义算子。是大多数 SQL 环境的关键特性，用于扩展系统的内置功能。

2023-07-31 00:25:13 445

原创 Flink On Yarn模式部署与验证

该模式下分为2步，即使用yarn-session.sh申请资源，然后 flink run提交任务。

2023-07-30 23:57:42 532

原创 Apache Doris和StarRocks的区别

StarRocks采用了列式存储模型，并利用Hadoop的分布式计算框架来管理数据和提供高性能的数据处理。是一个分布式的列式存储系统，它的设计目标是提供大规模数据处理的可靠性和高性能。：Doris提供高性能的数据处理能力，而StarRocks利用Hadoop的分布式计算框架来处理数据。：Doris使用列式存储模型，而StarRocks使用Hadoop中的HDFS文件系统来存储数据。：Doris是一个独立的分布式存储系统，而StarRocks是建立在Hadoop之上的。

2023-07-30 23:49:26 3115

转载 Flink 流批一体在 Shopee 的大规模实践

所以我们一直想优化这个流程，在最近发布的 1.16 中，支持了接入外部 log 的功能，我们针对日志较少的 Batch 任务，直接使用该特性跳转到 yarn 的 history log，十分方便查看问题 Task 的全量日志。我们最后使用了自己开发的 SlotGroup 级别的资源配置，整体思路是不同的 SlotGroup 申请不同规格的 TM，Slot 依然是均分 TaskManager 的资源，但可以通过为不同的 Operator 设置不同的 SlotGroup，进而设置不同的资源量。

2023-07-30 23:33:13 60

转载实时数仓一般性总结

但是有两个问题，第一个问题是小文件很多，但这不是最关键的，第二个问题是最致命的，上游每分钟提交了很多文件到HDFS上，下游消费的Flink是不知道哪些文件是最新提交的，因此下游Flink就不知道应该去消费处理哪些文件。这个问题才是离线数仓做不到实时的最关键原因之一，离线数仓的玩法是说上游将数据全部导入完成了，告诉下游说这波数据全部导完了，你可以消费处理了。这类需求是需要一个可以支持更新的存储系统的，而离线数仓做更新的话需要全量数据覆盖，这也是离线数仓做不到实时的关键原因之一，数据湖是需要解决掉这个问题的。

2023-07-30 23:22:22 84

转载 flink join 之 interval join

还有一个很重要的点是：与regular join相比较，interval join只支持带有时间属性的append-only流。Flink Regular Join是最为基础的、没有缓存剔除策略的Join，两个表的输入和更新都会对全局可见，会影响之后所有的Join 结果。Interval join需要至少一个 equi-join 谓词和一个限制了双方时间的 join 条件。interval join 其实就是一种开窗的 regular join，他由flink自身维护状态缓存Row无限增大的问题。

2023-07-30 23:05:36 262

原创 FLinkCDC读取MySQl时间戳时区相关问题解决汇总

FlinkCDC时间问题timestamp等FLinkCDC读取MySQl中的日期问题关于flink1.11 flink sql使用cdc时区差8小时问题flinksql 中使用处理时间时，时区差八个小时的问题（在 flink 1.13 以后不会在出现时区问题了）flink cdc同步MySQL-->MySQL，时间少了13个小时实测解决 flink cdc mysql 时间字段差8小时/差13小时问题

2023-07-30 17:08:42 774

转载事务事实表、周期快照事实表、累计快照事实表对比

1、事务事实表是稀疏的，只有当天发生的业务过程，事实表才会记录该业务过程的事实，如下单、支付等；而快照事实表是稠密的，无论当天是否有业务过程发生，都会记录行，比如针对卖家的历史至今的下单和支付金额，无论当天卖家是否有下单支付事实，都会给该卖家记录一行。3、累计快照会记录整个业务过程，数据是不断更新的，而事务事实和周期快照则是不更新。2、事务事实表是可加的，周期快照是半可加的。

2023-07-27 18:56:02 290

原创 hive 全量表、增量表、快照表、切片表和拉链表

切片表根据基础表，往往只反映某一个维度的相应数据。其表结构与基础表结构相同，但数据往往只有某一维度，或者某一个事实条件的数据。：记录每条信息的生命周期，当一条记录的生命周期结束，就会重新开始一条新的记录，并把当前日期放入生效开始日期。3）合并变动数据和旧拉链表数据（有更新的信息需要修改生效结束日期，无更新的信息生效结束日期不变）之后插入到临时表中。生效结束日期>=某个日期，能够得到某个时间点的数据全量切片。：记录每天的新增数据，增量数据是上次导出之后的新数据。：记录每天的所有的最新状态的数据，

2023-07-27 18:37:19 2264

转载 21条 MySQL 规范、优化最佳实践！

NOT NULL 列更节省空间，NULL 列需要一个额外字节作为判断是否为 NULL 的标志位。NULL 列需要注意空指针问题，NULL 列在计算和比较的时候，需要注意空指针问题。修改或者删除SQL，先写WHERE查一下，确认后再补充 delete 或 update（SQL后悔药）尤其在操作生产的数据时，遇到修改或者删除的 SQL，先加个 where 查询一下，确认 OK 之后，再执行 update 或者 delete 操作。

2023-07-26 22:50:04 253

转载 MySQL数据库查询性能优化的4个技巧干货

MySQL性能优化是一个老生常谈的问题，无论是在实际工作中还是面试中，都不可避免遇到相应的场景，下面博主就总结一些能够帮助大家解决这个问题的小技巧。SQL优化之前需要确认哪些SQL需要优化，这时就需要引起SQL性能分析工具，主要优化的是查询语句。

2023-07-26 22:26:38 332

转载 mysql中聚集索引、辅助索引、覆盖索引、联合索引怎么用

本文主要介绍"mysql中聚集索引、辅助索引、覆盖索引、联合索引怎么用" 有关的知识，希望能够解决您遇到有关问题，下面我们一起来看看这篇 "mysql中聚集索引、辅助索引、覆盖索引、联合索引怎么用" 文章。

2023-07-26 21:48:47 333

转载 Mysql索引分类及其使用实例详解

MySQL 索引MySQL索引的建立对于MySQL的高效运行是很重要的，索引可以大大提高MySQL的检索速度。打个比方，如果合理的设计且使用索引的MySQL是一辆兰博基尼的话，那么没有设计和使用索引的MySQL就是一个人力三轮车。拿汉语字典的目录页（索引）打比方，我们可以按拼音、笔画、偏旁部首等排序的目录（索引）快速查找到需要的字。索引分单列索引和组合索引。单列索引，即一个索引只包含单个列，一个表可以有多个单列索引，但这不是组合索引。组合索引，即一个索引包含多个列。

2023-07-26 21:35:37 446

转载 Mysql MVCC机制原理详解

MVCC，全称Multi-Version Concurrency Control，即多版本并发控制。MVCC是一种并发控制的方法，一般在数据库管理系统中，实现对数据库的并发访问，在编程语言中实现事务内存。我们知道，一般情况下我们使用mysql数据库的时候使用的是Innodb存储引擎，Innodb存储引擎是支持事务的，那么当多线程同时执行事务的时候，可能会出现并发问题。这个时候需要一个能够控制并发的方法，MVCC就起到了这个作用。

2023-07-26 21:24:02 102

转载数据仓库的MPP架构

举个例子，Teradata就是基于MPP技术的一个关系数据库软件（这是最早采用MPP架构的数据库），基于此数据库来开发应用时，不管后台服务器由多少节点组成，开发人员面对的都是同一个数据库系统，而无需考虑如何调度其中某几个节点的负载。MPP的系统扩展和NUMA不同，MPP是由多台SMP服务器通过一定的节点互联网络进行连接，协同工作，完成相同的任务，从用户的角度来看是一个服务器系统。但是访问的速度是不一样的，因为CPU访问本地内存的速度远远高于系统内其他节点的内存速度，这也是非一致存储访问NUMA的由来。

2023-07-25 17:48:10 1982 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

flume-interceptor-1.0.0-jar-with-dependencies.jar

json-serde-1.3.8-jar-with-dependencies.jar

json-array-1.0-SNAPSHOT.jar

SpringCloud与Docker实战

Spring Boot实战

Head First java&设计模式

Kubernetes实战经典

Dcoker技术入门与实战&Docker; 容器与容器云（第2版）

eclipse样式文件

高级大数据工程师面试题库

git64位安装包

java随机动态生成汉字验证码图片

HTML5+CSS3

myAcl权限项目

myeclipse集成SVN插件

空空如也