thy822-CSDN博客

转载 Hive调优篇

不过，某个特定的 job 可能包含众多的阶段，而这些阶段可能并非完全互相依赖的，也就是说有些阶段是可以并行执行的，这样可能使得整个 job 的执行时间缩短。如果向 orc 格式表中，通过 load 方式装载数据，因为文件格式的问题，是会报错的。谓词下推，就是在将过滤条件下推到离数据源更近的地方，最好就是在table_scan时就能过滤掉不需要的数据，在关系代数中谓词是可以左右上下移动的，由于join查询的特殊性，在优化 join condition 中的谓词时，对应不同的 join 类型，有不同的策略。

2023-01-11 12:56:16 394

转载 SQLserver 索引

索引基本概念在数据库中建立索引是为了加快数据的查询速度。数据库中的索引与书籍中的目录或书后的术语表类似。在一本书中，利用目录或术语表可以快速查找所需信息，而无须翻阅整本书。在数据库中，索引使对数据的查找不需要对整个表进行扫描，就可以在其中找到所需数据。书籍的索引表是一个词语列表，其中注明了包含各个词的页码。而数据库中的索引是一个表中所包含的列值的列表，其中注明了表中包含各个值的行数据所在的存储位置。可以为表中的单个列建立索引，也可以为一组列建立索引。索引一般采用B树结构。索引由索引项组成，索引项由来自

2022-08-14 10:54:09 2961

转载 SQL Server索引存储结构

一、存储结构　　在SQL Server中，有许多不同的可用排列规则选项。　　二进制：按字符的数字表示形式排序(ASCII码中，用数字32表示空格，用68表示字母"D")。因为所有内容都表示为数字，所以处理起来速度最快，遗憾的是，它并不总是如人们所想象，在WHERE子句中进行比较时，使用该选项会造成严重的混乱。　　字典顺序：这种排序方式与在字典中看到的排序方式一样，但是少有不同，可以设置大量不同的额外选项来决定是否区分大小写、音调和字符集。　　1、平衡树(B-树)　　平衡树或B-树仅是提供了一种以一致且相对

2022-08-13 21:22:14 803

原创 sqlserver中的锁/事务/隔离级别

sqlserver中的锁共享锁(s)/更新锁（U）/排它锁(独占锁X)共享 (S) 锁允许并发事务读取 (SELECT) 一个资源。资源上存在共享 (S) 锁时，任何其它事务都不能修改数据。更新 (U) 锁可以防止通常形式的死锁。若要避免这种潜在的死锁问题，请使用更新 (U) 锁。一次只有一个事务可以获得资源的更新 (U) 锁。如果事务修改资源，则更新 (U) 锁转换为排它 (X) 锁。否则，锁转换为共享锁。排它 (X) 用于数据修改操作，例如 INSERT、UPDATE 或 DELETE。确保不会

2022-08-13 10:22:31 748

转载 Hive进阶篇」详解存储格式及压缩方式

hive优化除了有hql语句逻辑优化，hql参数调优等等，还有一个不起眼的细节容易被忽视掉，那便是hive数仓模型表的存储格式和压缩方式，hive底层数据是依托在hadoop，以HDFS文件存储在集群上的，hive数仓模型表选择一个合适的存储格式和压缩方式也是hive优化的一点。本篇就来聊一聊这块知识点吧。😄通过大纲提问式进行概览，你能通过文章学到什么：1. hive主要有几种存储格式&压缩方式2. 每种存储格式和压缩方式的细节3. 什么场景使用什么存储格式&压缩方式适场景而选定压缩方式。...

2022-08-07 17:00:12 935

转载 Hive进阶篇」万字长文超详述hive企业级优化

正在上传…重新上传取消一览群山.jpeghive离线数仓开发，一个良好的数据任务，它的运行时长一般是在合理范围内的，当发现报表应用层的指标数据总是产出延迟，排查定位发现是有些任务执行了超10小时这样肯定是不合理的，此时就该想想如何优化ETL任务链路，主要从以下几个角度来考虑问题解决：附上一份个人梳理总结的思维导图部分截图正在上传…重新上传取消hive企业级优化思维导图.png下面就先分享下常见的hive优化策略吧~ 1. 列裁剪和分区裁剪尽量减少直接这种操作，首先可读性不好，根本不知道具体用到哪几个列，其

2022-08-07 15:23:16 186

转载 hive优化之——控制hive任务中的map数和reduce数

map的数量通常是由hadoop集群的DFS块大小确定的，也就是输入文件的总块数，正常的map数量的并行规模大致是每一个Node是 10~100个，对于CPU消耗较小的作业可以设置Map数量为300个左右，但是由于hadoop的没一个任务在初始化时需要一定的时间，因此比较合理的情况是每个map执行的时间至少超过1分钟。前面三个参数确定合并文件块的大小，大于文件块大小128m的，按照128m来分隔，小于128m,大于100m的，按照100m来分隔，把那些小于100m的（包括小文件和分隔大文件剩下的），...

2022-08-07 13:45:48 2864 1

转载 Hive数据倾斜解决方案

数据倾斜是系统不可避免的问题，任何分布式系统都有几率发生数据倾斜，但有些小伙伴在平时工作中感知不是很明显。这里要注意本篇文章的标题—“千亿级数据”，，因为如果一个任务的数据量只有几百万，它即使发生了数据倾斜，所有数据都跑到一台机器去执行，对于几百万的数据量，一台机器执行起来还是毫无压力的，这时数据倾斜对我们感知不大，只有数据达到一个量级时，一台机器应付不了这么多数据，这时如果发生数据倾斜，最后就很难算出结果。所以就需要我们对数据倾斜的问题进行优化，尽量避免或减轻数据倾斜带来的影响。...

2022-08-07 11:14:04 338

转载 Hive优化的十大方法

hive 优化

2022-08-06 15:07:29 9737 2

原创 informatica优化

infotmatica 优化

2022-03-31 09:26:10 1542

原创 test

package com.dwh.util;import java.util.Arrays;public class BizLicenseTools { public static boolean isContainLetter(String str){ for (int i = 0; i < str.length(); i++) { if(Character.isLetter(str.charAt(i))){ return...

2020-07-11 11:09:42 215

原创 wf

################################################################################# Folder: STAGING_ARCHIVE### Workflow: wf_1002_Transaction_Clearing_Settlement_Output#################################################################################[STAGI

2020-06-20 09:37:03 249

原创 sqlserver 文章

https://docs.microsoft.com/zh-cn/sql/t-sql/data-types/date-and-time-types?view=sql-server-ver15https://docs.microsoft.com/zh-cn/sql/t-sql/database-console-commands/dbcc-dbreindex-transact-sql?view=sql-server-ver15https://blog.csdn.net/kk185800961/article

2020-05-31 20:11:51 284

原创 informatica

Transformation Naming Convention Targets Aggregator AGG_TransformationName The naming convention for targets is: T_TargetName. Application Source Qualifier ASQ_TransformationName ...

2020-04-20 16:28:28 242

原创 sqlserver语句总结

动态查询declare @sql = select * from table;exec(@sql)统计信息会在每个新创建的索引中自动创建统计信息。如果数据库中AUTO_CREATE_STATISTICS被设置为ON，SQLServer将会自动对查询中用到的，且没有索引的列自动创建统计信息。--Create statistics on all rowsCREATE STATISTI...

2020-04-20 15:17:57 354

原创 sqlserver 备份

方式一、打开SQL Server Management Studio，点击新建查询，弹出界面，然后在界面中开始写创建数据库代码。create database UnionDong--UnionDong是你想创建数据库的名字on [ primary ] --指定文件为主文件，一个数据库只能有一个主文件，若不表示则默...

2020-04-20 15:17:25 284

原创备份恢复

【例17.1】添加一个名为mydiskdump的磁盘备份设备，其物理名称为 d:\dump\testdump.bak，输入语句如下。USE master;GOEXEC sp_addumpdevice 'disk', 'mydiskdump', ' d:\dump\testdump.bak ';【例17.2】删除备份设备mydiskdump，输入语句如下。EXEC sp_dropdevi...

2020-04-20 15:16:06 250

原创 SQL Server 非聚集索引的覆盖，连接，交叉和过滤（第二篇）

在SQL Server中，非聚集索引其实可以看做是一个含有聚集索引的表，但相对实际的表来说，非聚集索引中所存储的表的列数要少得多，一般就是索引列，聚集键(或RID)。非聚集索引仅仅包含源表中的非聚集索引的列和指向实际物理表的指针。一、非聚集索引之INCLUDE　　非聚集索引其实可以看做一个含有聚集索引的列表，当这个非聚集索引中包含了查询所需要的所有信息的时候，则就不再需要去查基本表，...

2020-04-20 13:16:05 245

原创 SqlServer2008数据备份以及远程备份

对开发人员来说数据库备份是非常重要的，无论是正常开发的版本保留还是运维数据的备份，昨天备份数据库时发现点问题整理下供大家参考:本文是拿sql server 2008 r2为例的1.数据库本身就有自带的数据库备份，在数据库-管理-维护计划右键新建维护计划(维护计划向导效果一样)，在弹出窗口中输入计划名称(MMDBBackUp)，确认后，在整个窗口左下角将”备份数据“任务拖到设计界面...

2020-04-20 11:49:32 453

原创一、存储结构　　在SQL Server中，有许多不同的可用排列规则选项。　　二进制：按字符的数字表示形式排序(ASCII码中，用数字32表示空格，用68表示字母"D")。因为所有内容都表示为数字

一、存储结构　　在SQL Server中，有许多不同的可用排列规则选项。　　二进制：按字符的数字表示形式排序(ASCII码中，用数字32表示空格，用68表示字母"D")。因为所有内容都表示为数字，所以处理起来速度最快，遗憾的是，它并不总是如人们所想象，在WHERE子句中进行比较时，使用该选项会造成严重的混乱。　　字典顺序：这种排序方式与在字典中看到的排序方式一样，但是少有不同，可以设置...

2020-04-20 11:37:30 485

原创主键就是聚集索引吗

聚集索引：在表内排序和存储这些数据行。每个表只能有一个聚集索引，因为数据行本身只能按一个顺序存储。创建或重建聚集索引，会对硬盘中的数据重新排列非聚集索引：非聚集索引具有完全独立于数据行的结构，使用非聚集索引不用将物理数据页的数据按列排序。非聚集索引包含索引键值和指向表数据存储位置的行定位器。索引：聚集索引/非聚集索引/条件索引/唯一索引/在计算列上建索引，实现“函数索引”的功能主键：唯一，非...

2020-04-17 08:05:44 1366

原创找出执行时间最长的10条SQL

ALTER TABLE [dbo].[PRIMARYCODE] DROP CONSTRAINT [PK__PRIMARYC__AA1D437813BCEBC1]GOALTER TABLE [dbo].[PRIMARYCODE] ADD PRIMARY KEY CLUSTERED( [CODE] ASC)--平均耗CPU最多的前个SQL （SQL SERVER 2005或以...

2020-04-17 08:05:14 711

原创索引

--总结：SQLServer 中没有函数索引和Hash索引，而某些业务需求或者说是为了性能考虑1，在计算列上建索引，实现“函数索引”的功能SQLServer在建表的时候允许使用计算列，可以借助这个计算列来实现函数索引的功能，这里举例说明一下Create Table TestFunctionIndex( id int identity(1,1),val varchar(50),...

2020-04-17 08:04:43 165

原创碎片

第二：关于碎片对于性能影响的结论：SQL Server 中数据存储的基本单位是页，一页包含8KB数据。磁盘 I/O 操作在页级执行。也就是说，SQL Server 读取或写入的基本单位是数据页。连续的8个页面组成一个区（extent）。数据的insert和update操作可以引起页面分割产生碎片。如果分割后的两个页面在同一个区内，这种碎片称为内部碎片，如果分割后的两个页面处于不同的区内，这种碎...

2020-04-17 08:03:58 178

原创数据库修复

盐酸特比萘芬凝胶CREATE UNIQUE NONCLUSTERED INDEX [pk_idcode] ON [dbo].[IDCODE]( [IDCODE] ASC)数据库 CHECKDB 发现了x个分配错误和 x 个一致性错误现在以数据库text为例，说明该问题的处理方法：--1、在SQL查询分析器中执行以下语句：（注以下所用的text为数据库名称，请用户手工改为自己...

2020-04-17 08:03:10 358

原创收缩数据库

收缩数据库一般情况下，SQL数据库的收缩并不能很大程度上减小数据库大小，其主要作用是收缩日志大小，应当定期进行此操作以免数据库日志过大开sqlserver2008，找到你的数据库，右键-》任务-》收缩-》选择收缩数据库，不要选择收缩文件。然后执行完就可以了。会把空间还给操作系统的注意此操作是在所有用户都未进行数据库操作同时进行了数据库备份的情况下操作。一、进入企业管理器，在...

2020-04-17 08:02:39 810

原创区分大小写

设置大SQL脚本大小写敏感USE [master]GOALTER DATABASE [DatabaseName] COLLATE Chinese_PRC_CS_AIGO　设置参考值　　_CI_AI不区分大小写、不区分重音、不区分假名类型、不区分宽度　　_CI_AI_WS不区分大小写、不区分重音、不区分假名类型、区分宽度　　_...

2020-04-16 21:17:10 363

原创聚集索引重建之后

聚集索引重建之后，对非聚集索引是否有影响首先，暂且先不扯聚集表堆表啥的了，直接说聚集表，非聚集索引在叶级直接存储的是聚集索引的key值，在重建聚集索引（或者重组）前后，非聚集索引存储的对应的key值是不变的重建聚集索引之后，数据的屋里存储位置可能会发生变化，这是会影响到聚集索引的物理存储和碎片情况但是对于非聚集索引来说，非聚集索引存储的对应的聚集索引的key值是不变的，那非聚集索...

2020-04-16 21:16:39 245

原创获取SQL Server数据库元数据的几种方法

元数据简介https://www.jb51.net/article/70668.htm元数据 (metadata) 最常见的定义为“有关数据的结构数据”，或者再简单一点就是“关于数据的信息”，日常生活中的图例、图书馆目录卡和名片等都可以看作是元数据。在关系型数据库管理系统 (DBMS) 中，元数据描述了数据的结构和意义。比如在管理、维护 SQL Server 或者是开发数据库应用程序的时候，我...

2020-04-16 21:16:09 539

原创当前正在执行的SQL

--当前正在执行的SQLSELECT [Spid] = session_id , ecid , [Database] = DB_NAME(sp.dbid) , [User] = nt_username , [Status] = er.status , [Wait] = wait_type , ...

2020-04-16 21:15:39 158

原创 txt导入到table

create table Test(ID int identity(1,1) primary key ,Name nvarchar(20),Sex nvarchar (2),IsWork bit)下面我们通过以下的简单的SQL语句即可实现数据的批量导入，代码如下：Bulk insert test From 'C:\Users\Olive\Desktop\test.txt'...

2020-04-16 21:15:06 346

原创 SQLServer批量重建索引（整理）

SQLServer批量重建索引（整理）当SQLServer的数据积累到一定的数量，查询效率往往急剧下降，常常让人无法忍受，这时我们会想到各种方法对系统进行优化。DBCC是一组功能强大的控制台命令，其中DBCC DBREINDEX经常用到，它可以帮助我们重建指定表的索引，以提高查询的速度。该命令的用法比较简单，比如：dbcc dbreindex ([customer],'',90)第一...

2020-04-16 21:14:31 767

原创 sqlserver常用函数大全

一、字符串函数datalength(Char_expr) 返回字符串包含字符数,但不包含后面的空格substring(expression,start,length) 不多说了,取子串right(char_expr,int_expr) 返回字符串右边int_expr个字符left(<character_expression>， <integer_expressio...

2020-04-16 21:13:57 2762

原创 SQL SEVER碎片化及压缩整理

对于有聚集索引的表，如果存在碎片。（1）索引重新组织（2）索引重新生成对于堆，如果存在碎片。（1）将数据插入临时表，Truancate，再insert（2）在表中创建聚集索引后，再删除聚集索引，因为创建聚集索引会重新分布数据，这种分布一般是最优的。如果表中存在非聚集索引，需要在drop 聚集索引后重新生成所有非聚集索引。对于索引的碎片处理。（1）索引重新组织（2）索引重新...

2020-04-16 21:13:24 378

原创 SQL SERVER常用语法汇总

一、SQL分类二、基础语句三、sql技巧四、（MS SQL Server）SQL语句导入导出大全回到目录一、SQL分类DDL—数据定义语言(CREATE，ALTER，DROP，DECLARE)DML—数据操纵语言(SELECT，DELETE，UPDATE，INSERT)DCL—数据控制语言(GRANT，REVOKE，COMMIT，ROLLBACK)回到目录二、基础语...

2020-04-16 21:12:51 1075

原创 IDENTITY_INSERT

DROP TABLE [dbo].[red_envelope_original]GOCREATE TABLE [dbo].[red_envelope_original] ([id] int NOT NULL IDENTITY(1,1) ,[qrcode] varchar(64) NULL ,[creation_time] datetime NULL DEFAULT (getdate()...

2020-04-16 21:11:18 190

转载上海社保基数又上涨，对积分、落户有什么影响？

　2015年5451　　2016年5953　　2017年6504　　2018年7132　　公众号后台一直有网友问2017年的平均工资，今天上海发布了相关数据，2017年月平均工资为7132元，因此2018年4月1日起，1倍社保基数为7132元，2倍社保基数为14264元，3倍封顶社保基数为21396，0.8倍社保基数为5706元，最低0.6倍社保基数为4279元。对上海居住证积分、...

2018-08-22 15:26:47 9152 1

原创普通住宅和非普通住宅的区别，上海普通住宅标准调整

据上海房管局网站公布信息称，自2014年11月20日起上海执行新的普通住房新标准。可以享受优惠政策的普通住房，应同时满足以下条件：1、五层以上（含五层）的多高层住房，以及不足五层的老式公寓、新式里弄、旧式里弄等；2、单套建筑面积在140平方米以下；3、实际成交价格：低于同级别土地上住房平均交易价格1.44倍以下，坐落于内环线以内的低于450万元/套，内环线与外环线之间的低于310万元/套，外...

2018-08-15 10:32:52 1844

原创上海公积金贷款

贷款科关于最新公积金政策解释：一、公积金贷足 50 万需满足条件: (1)余额大于 12500 元; (2)月缴额大于 780 元。（连续正常交6个月）二、当公积金月缴额大于 780 元而余额丌足 12500 元时,以余额的 40 倍计算; 当余额大于 12500 元而月缴额丌足 780 元时,可贷金额=月缴额/0.14*6*可贷年限。例 1:客户公积金已经连续正常缴纳 6 个月以上...

2018-08-15 10:10:31 501

转载 python的学习之旅---Mysql数据库

1 什么是数据库（DataBase，简称DB）数据库即存放数据的仓库，只不过这个仓库是在计算机存储设备上，而且数据是按一定的格式存放的过去人们将数据存放在文件柜里，现在数据量庞大，已经不再适用数据库是长期存放在计算机内、有组织、可共享的数据即可。数据库中的数据按一定的数据模型组织、描述和储存，具有较小的冗余度、较高的数据独立性和易扩展性，并可为各种用户共享2 什么是数据库管理...

2018-07-27 13:49:00 308

ssas5部署与管理.rar

powercenter使用教程.doc

20120926-Informatica_Hello_World_Program.rar

sqlserver2008sql.rar

MSTR Admin

MSTR_AdvancedReporting

Teradata Physical

MicroStrategy 英文教程

空空如也