Xlucas-CSDN博客

■ 有研究发现，数字化相关技术可为企业提升约60%的作业效率，降低20%的人力成本，提升50%的管理效率■ 数字化转型可能面临资金短缺、人才匮乏、技术不足、沉没成本高等一系列挑战，集中体现在“三不”现象：不想、不敢、不会■ 国企数字化转型方案往往只能是“一企一策”的定制化操作，几乎没有统一标准和通用模板可以套用不久前，国务院印发《“十四五”数字经济发展规划》，明确要求加快企业数字化转型升级。推进数字化转型，究竟能给企业带来什么？华为公司高级副总裁、中国区总裁鲁勇提供了

2022-02-22 08:45:45 384

原创数据治理-DAMA元数据模块总结

最近在看DAMA元数据模块做了如下的总结，供大家参考学习1、什么是元数据元数据的定义是关于数据的数据，它不仅仅包括了技术和业务流程、数据规则和约束，还包括逻辑数据结构和物理数据结构等。它描述的是数据本身。2、元数据的作用元数据对于数据管理和数据使用来说都是必不可少的元数据管理提供了获取和管理组织数据的主要方法技术元数据成为数据迁移和集成方法中不可或缺的一部分3、元数据管理的定义通过计划、实施和控制活动确保访问到高质量的、整合的元数据4、元数据管理的目标提供业务可理解的业务术

2022-02-18 08:36:26 1098

原创 hive2.3版本编译异常

最近在编译hive2.3.9的时候遇到一个问题。错误信息如下：Could not transfer artifact org.apache.directory.client.ldap:ldap-client-api:pom:0.1-SNAPSHOT from/to central (http://repo1.maven.org/maven2/): transfer failed for http://repo1.maven.org/maven2/org/apache/directory/client/l

2021-09-17 23:46:24 511

原创数据治理-数据质量-数据质量管理方法和工具

常用质量管理工具目前，在质量管理领域，有一系列常用的数据质量管理工具，主要分为传统的质量管理工具、新的质量管理工具和其他质量管理工具。传统的质量管理七大工具传统的七种工具包含分层法、检查表、帕累托图、因果分析图、直方图、散布图、控制图。分层法：又称层别法、分类法、分组法，是整理数据的重要方法之一，分层法

2021-08-04 01:01:12 1772

原创数据治理-数据质量-数据质量实施方法

质量实施方法数据质量领域研究学者和专家结合自身实践，先后提出了一系列质量管理得项目实施方法，其中以全面信息质量管理、全面数据质量管理、数据管理十步法、六西格玛等。与传统数据质量管理一样，数据GIGO规则仍然发挥作用，但在由于大数据的多样性、广泛性和价值密度低等特性，使得对“垃圾数据”的认识存在较大得差异。在具体项目

2021-08-04 00:59:54 1900 1

原创数据治理-数据质量-数据质量参考架构

参考架构大数据质量管理框架覆盖组织在大数据生态链中的所有质量管理相关活动，为组织提供了数据治理管理的方法论，以支撑组织开展大数据质量管理工作，指导决策者将大数据质量管理纳入组织日常工作，建立团队来管理组织的数据资产，确保数据质量能够满足业务运行和管理决策的需要。结合国内大数据质量管理领域的特点，提出了大数据质量参考

2021-07-26 23:36:37 1498 6

原创数据治理-数据质量-数据质量的概念和维度

大数据质量的基本概念数据是表示事物各种属性的基本元素，通常情况下，只要符合数据应用的需要，就可以将它视为合格数据，即数据质量合格。结合质量的定义分析可知，数据质量就是“一组固有特征满足表示事物属性的程度”或“每个元素对于某种应用场景的适合度”。数据质量不但依赖于数据本身的特征，还依赖于使用数据时所处的业务环境，包含数据业务流程和业务用户。

2021-07-22 00:41:29 1209

原创数据治理-数据质量-数据质量管理的复杂性

大数据的特性分析组织在信息化过程中，传感器、智能设备、企业数据化等技术的应用，致使数据呈爆炸的趋势增长。金融、电信、零售、医疗、保险等数据密集型领域，都已经开展了大数据相关的研究和应用，尝试从大数据挖掘价值、获取洞察，从而有效地协助组织降低风险、提高效率和创造价值，为产业的发展和转型提供支撑。从大数据应用和发展的视

2021-07-19 23:20:17 533 2

原创数据治理-数据生命周期管理-大数据归档与销毁

数据归档在大数据时代，存储成本显著降低的情况，企业希望在技术方案的能力范围之内尽量存储更多的数据。但大数据时代同样带来了数据的急剧增长，因此数据归档仍然是数据管理必须考虑的问题。与传统的数据备份和数据归档不同的是，大数据时代的数据归档更需要关注数据选择性恢复的功能。在大数据的正常运行过程中，热数据到温数据、温数据到

2021-07-13 12:54:11 1366

原创数据治理-数据生命周期管理-大数据分析与使用

数据分析与应用的策略大数据建设的目的在于分析与应用，只有进行分析与应用，才能够体现大数据的价值，企业应该以下角度，明确大数据的分析与应用的相关策略大数据分析与应用的方向大数据分析与应用一般可以分为两个方向业务驱动：以业务需求为导向的数据分析与应用。根据业务发展要求提出数据分析与应用的需求。业务人员明确分析

2021-07-13 12:52:51 682

原创数据治理-数据生命周期管理-大数据呈现与使用

数据可视化数据可视化是大数据发展的必然趋势，大数据的不断发展，要求每个人都能够从数据中发现价值，这就必然要求每个人都能看懂数据，能够从不同的角度分析数据。而数据的规模越来越大，属性越来越复杂，各类庞大的数据集无法直接通过读数的方式进行理解和分析，这对数据的可视化提出了要求。数据可视化主要旨在借助于图形化手段，清晰有

2021-07-12 07:33:16 494

原创数据治理-数据生命周期管理-大数据整合

批量数据的整合传统的数据整合一般采用ETL方式，即抽取(Elect)、转换(Transfer)、加载(Load)，随着数据量的加大，以及数据平台自身数据处理技术的发展，目前较为通用的方式为ELT模式，即抽取、加载、转换。数据抽取业务类系统或流程类系统负责数据的采集，但哪些数据需要整合到数据平台，则需要根据数据

2021-07-09 22:53:54 779 3

原创数据治理-数据生命周期管理-大数据存储

数据的热度（热数据、温数据与冷数据）大数据时代，首先意味着数据的容量在急剧扩大，这对于数据存储和处理的成本带来了很大的挑战。采用传统的统一技术来存储和处理所有数据的方法将不再适用。而应针对不同热度的数据采用不同的技术进行处理。以优化存储和处理成本并提升可用性。所谓数据的热度，即根据数据的价值、使用频次、使用方式的不

2021-07-07 21:19:34 1530 6

原创数据治理-数据生命周期管理-大数据采集

大数据采集为满足企业或组织不同层次的管理与应用的需求，数据采集分为三个层次。第一层次，业务电子化。为满足业务电子化的需求，实现业务流程的信息化记录，在本阶段中，主要实现对于手工单证的电子化存储，并实现流程的电子化，确保业务的过程被真实记录。本层次数据采集的关注重点是数据的真实性，即数据质量第二层次，管理数据化，为满足企业管理的信息需求，实现对企业和相关方信息的全面采集和整合。在业务电子化的过程中，企业逐步学会了通过数据统计分析来对企业的经营和业务进行管理，因此，对数据的需求不仅仅满足于记录和流程的电

2021-07-05 23:18:55 1483

原创数据治理-数据生命周期管理一

数据本身存在着从生产到消亡的生命周期，在数据的生命周期中，数据的价值会随着时间的变化而发生变化，数据的被采集粒度与时效性、存储方式、整合状况、呈现和展示的可视化程度、分析的深度，以及和应用衔接的程度，都会对数据的价值的体现产生影响。大数据的治理需要结合大数据生命周期的各个阶段的特点，采取不同的管理和控制手段。与传统数据生命周期出发点不同，大数据生命周期实践中，主要关注的是如何在成本可控的情况下，有效地使大数据产生

2021-07-01 13:15:37 4978 1

原创 hive小文件优化

小文件产生的原因直接向表里面插入数据比如我们要往一张表里面写入几行特定的数据，如下，每次运行都会往表里写入一个文件，这种一般生产很少见，因为这种操作一般说在位置的时候采用，如果有也是建议先将所有数据放在一个文件再做batch load的方式，这样就只有一个文件了。insert into table A values('201','2','北京')通过load方式加载数据这种操作一般是将某一个或者一批文件上传到一个表里面，本地的多少个文件映射到hive就有多少个文件，运行语句如下load

2021-06-29 09:06:21 504 1

原创 CPU上下文切换

前言Linux 是一个多任务操作系统，它支持远大于 CPU 数量的任务同时运行。当然，这些任务实际上并不是真的在同时运行，而是因为系统在很短的时间内，将 CPU 轮流分配给它们，造成多任务同时运行的错觉。而在每个任务运行前，CPU都需要知道任务从哪里加载、又从哪里开始运行，也就是说，需要系统事先帮它设置好 CPU寄存器和程序计数器。CPU寄存器，是CPU内置的容量小、但速度极快的内存。而程序计数器，则是用来存储 CPU正在执行的指令位置、或者即将执行的下一条指令位置。它们都是CPU在运行任何任务前，必须

2021-06-12 23:44:58 254

selenium2.53包

selenium2.53软件包

空空如也