自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(353)
  • 资源 (2)
  • 收藏
  • 关注

原创 Doris数据模型

本文档主要从逻辑层面,描述 Doris 的数据模型,以帮助用户更好的使用 Doris 应对不同的业务场景

2023-04-17 00:10:30 1008 1

原创 Doris集群的安装部署

该文档主要介绍了部署 Doris 所需软硬件环境、建议的部署方式、集群扩容缩容,以及集群搭建到运行过程中的常见问题。

2023-04-16 02:29:01 2384 1

原创 centos7.2环境下使用rpm命令安装gcc

centos7.2环境下使用rpm命令安装gcc

2023-04-15 20:52:02 724

原创 Linux通过磁盘挂载来安装包

通过挂载镜像安装rpm包

2023-04-15 20:37:31 489

原创 Doris的基本概述

一个现代化的MPP分析型数据库产品支持压秒级别响应架构非常简洁,易于运维支持10PB以上的超大数据集高并发的点查询场景,吞吐量高的复杂分析场景

2023-04-15 17:49:13 712

原创 同态加密计算的介绍

同态加密的应用场景

2023-02-17 08:32:49 1035

原创 多方安全计算简介

多方安全计算的研究主要是针对无可信第三方的情况下,如何安全地计算一个约定函数的问题。多方安全计算是电子选举、门限签名以及电子拍卖等诸多应用得以实施的密码学基础

2023-02-14 08:27:25 742

原创 隐私计算概览

隐私计算保护原始数据的隐私、计算过程中的隐私保护以及计算结果的隐私,主要目的是对计算的正确性、保密性、完整性等进行保护

2023-02-09 01:04:34 704

原创 YARN核心组件功能特性分析

YARN组件介绍说明

2022-07-15 08:55:09 754

原创 YARN的产生背景和架构剖析

YARN的产生背景和架构剖析

2022-07-06 08:53:17 243

原创 Clickhouse表引擎-日志系列

了解Clickhouse表引擎的作用,重点介绍了日志系列的操作

2022-03-26 09:36:01 2692

原创 Clickhouse的数据类型(一)

Clickhouse的数据类型细说

2022-03-22 14:34:38 3632

原创 Clickhouse的单机安装

Clickhouse的安装

2022-03-21 00:40:05 2791

原创 Clickhouse的基本介绍

Clickhouse的基本介绍

2022-03-19 16:25:12 13901

原创 为什么国企要加快推进数字化转型?

■ 有研究发现,数字化相关技术可为企业提升约60%的作业效率,降低20%的人力成本,提升50%的管理效率■ 数字化转型可能面临资金短缺、人才匮乏、技术不足、沉没成本高等一系列挑战,集中体现在“三不”现象:不想、不敢、不会■ 国企数字化转型方案往往只能是“一企一策”的定制化操作,几乎没有统一标准和通用模板可以套用不久前,国务院印发《“十四五”数字经济发展规划》,明确要求加快企业数字化转型升级。推进数字化转型,究竟能给企业带来什么?华为公司高级副总裁、中国区总裁鲁勇提供了

2022-02-22 08:45:45 384

原创 数据治理-DAMA元数据模块总结

最近在看DAMA元数据模块做了如下的总结,供大家参考学习1、什么是元数据元数据的定义是关于数据的数据,它不仅仅包括了技术和业务流程、数据规则和约束,还包括逻辑数据结构和物理数据结构等。 它描述的是数据本身。2、元数据的作用元数据对于数据管理和数据使用来说都是必不可少的元数据管理提供了获取和管理组织数据的主要方法技术元数据成为数据迁移和集成方法中不可或缺的一部分3、元数据管理的定义通过计划、实施和控制活动确保访问到高质量的、整合的元数据4、元数据管理的目标提供业务可理解的业务术

2022-02-18 08:36:26 1096

原创 hive2.3版本编译异常

最近在编译hive2.3.9的时候遇到一个问题。错误信息如下:Could not transfer artifact org.apache.directory.client.ldap:ldap-client-api:pom:0.1-SNAPSHOT from/to central (http://repo1.maven.org/maven2/): transfer failed for http://repo1.maven.org/maven2/org/apache/directory/client/l

2021-09-17 23:46:24 510

原创 数据治理-数据质量-数据质量管理方法和工具

常用质量管理工具        目前,在质量管理领域,有一系列常用的数据质量管理工具,主要分为传统的质量管理工具、新的质量管理工具和其他质量管理工具。传统的质量管理七大工具         传统的七种工具包含分层法、检查表、帕累托图、因果分析图、直方图、散布图、控制图。分层法:又称层别法、分类法、分组法,是整理数据的重要方法之一,分层法

2021-08-04 01:01:12 1761

原创 数据治理-数据质量-数据质量实施方法

质量实施方法        数据质量领域研究学者和专家结合自身实践,先后提出了一系列质量管理得项目实施方法,其中以全面信息质量管理、全面数据质量管理、数据管理十步法、六西格玛等。        与传统数据质量管理一样,数据GIGO规则仍然发挥作用,但在由于大数据的多样性、广泛性和价值密度低等特性,使得对“垃圾数据”的认识存在较大得差异。在具体项目

2021-08-04 00:59:54 1897 1

原创 数据治理-数据质量-数据质量参考架构

参考架构        大数据质量管理框架覆盖组织在大数据生态链中的所有质量管理相关活动,为组织提供了数据治理管理的方法论,以支撑组织开展大数据质量管理工作,指导决策者将大数据质量管理纳入组织日常工作,建立团队来管理组织的数据资产,确保数据质量能够满足业务运行和管理决策的需要。        结合国内大数据质量管理领域的特点,提出了大数据质量参考

2021-07-26 23:36:37 1496 6

原创 数据治理-数据质量-数据质量的概念和维度

大数据质量的基本概念        数据是表示事物各种属性的基本元素,通常情况下,只要符合数据应用的需要,就可以将它视为合格数据,即数据质量合格。结合质量的定义分析可知,数据质量就是“一组固有特征满足表示事物属性的程度”或“每个元素对于某种应用场景的适合度”。数据质量不但依赖于数据本身的特征,还依赖于使用数据时所处的业务环境,包含数据业务流程和业务用户。      

2021-07-22 00:41:29 1204

原创 数据治理-数据质量-数据质量管理的复杂性

大数据的特性分析        组织在信息化过程中,传感器、智能设备、企业数据化等技术的应用,致使数据呈爆炸的趋势增长。金融、电信、零售、医疗、保险等数据密集型领域,都已经开展了大数据相关的研究和应用,尝试从大数据挖掘价值、获取洞察,从而有效地协助组织降低风险、提高效率和创造价值,为产业的发展和转型提供支撑。        从大数据应用和发展的视

2021-07-19 23:20:17 531 2

原创 数据治理-数据生命周期管理-大数据归档与销毁

数据归档        在大数据时代,存储成本显著降低的情况,企业希望在技术方案的能力范围之内尽量存储更多的数据。但大数据时代同样带来了数据的急剧增长,因此数据归档仍然是数据管理必须考虑的问题。与传统的数据备份和数据归档不同的是,大数据时代的数据归档更需要关注数据选择性恢复的功能。        在大数据的正常运行过程中,热数据到温数据、温数据到

2021-07-13 12:54:11 1355

原创 数据治理-数据生命周期管理-大数据分析与使用

数据分析与应用的策略        大数据建设的目的在于分析与应用,只有进行分析与应用,才能够体现大数据的价值,企业应该以下角度,明确大数据的分析与应用的相关策略大数据分析与应用的方向        大数据分析与应用一般可以分为两个方向业务驱动:以业务需求为导向的数据分析与应用。根据业务发展要求提出数据分析与应用的需求。业务人员明确分析

2021-07-13 12:52:51 682

原创 数据治理-数据生命周期管理-大数据呈现与使用

数据可视化        数据可视化是大数据发展的必然趋势,大数据的不断发展,要求每个人都能够从数据中发现价值,这就必然要求每个人都能看懂数据,能够从不同的角度分析数据。而数据的规模越来越大,属性越来越复杂,各类庞大的数据集无法直接通过读数的方式进行理解和分析,这对数据的可视化提出了要求。        数据可视化主要旨在借助于图形化手段,清晰有

2021-07-12 07:33:16 493

原创 数据治理-数据生命周期管理-大数据整合

批量数据的整合        传统的数据整合一般采用ETL方式,即抽取(Elect)、转换(Transfer)、加载(Load),随着数据量的加大,以及数据平台自身数据处理技术的发展,目前较为通用的方式为ELT模式,即抽取、加载、转换。数据抽取        业务类系统或流程类系统负责数据的采集,但哪些数据需要整合到数据平台,则需要根据数据

2021-07-09 22:53:54 778 3

原创 数据治理-数据生命周期管理-大数据存储

数据的热度(热数据、温数据与冷数据)        大数据时代,首先意味着数据的容量在急剧扩大,这对于数据存储和处理的成本带来了很大的挑战。采用传统的统一技术来存储和处理所有数据的方法将不再适用。而应针对不同热度的数据采用不同的技术进行处理。以优化存储和处理成本并提升可用性。        所谓数据的热度,即根据数据的价值、使用频次、使用方式的不

2021-07-07 21:19:34 1521 6

原创 数据治理-数据生命周期管理-大数据采集

大数据采集为满足企业或组织不同层次的管理与应用的需求,数据采集分为三个层次。第一层次,业务电子化。为满足业务电子化的需求,实现业务流程的信息化记录,在本阶段中,主要实现对于手工单证的电子化存储,并实现流程的电子化,确保业务的过程被真实记录。本层次数据采集的关注重点是数据的真实性,即数据质量第二层次,管理数据化,为满足企业管理的信息需求,实现对企业和相关方信息的全面采集和整合。在业务电子化的过程中,企业逐步学会了通过数据统计分析来对企业的经营和业务进行管理,因此,对数据的需求不仅仅满足于记录和流程的电

2021-07-05 23:18:55 1481

原创 数据治理-数据生命周期管理一

        数据本身存在着从生产到消亡的生命周期,在数据的生命周期中,数据的价值会随着时间的变化而发生变化,数据的被采集粒度与时效性、存储方式、整合状况、呈现和展示的可视化程度、分析的深度,以及和应用衔接的程度,都会对数据的价值的体现产生影响。大数据的治理需要结合大数据生命周期的各个阶段的特点,采取不同的管理和控制手段。与传统数据生命周期出发点不同,大数据生命周期实践中,主要关注的是如何在成本可控的情况下,有效地使大数据产生

2021-07-01 13:15:37 4968 1

原创 hive小文件优化

小文件产生的原因直接向表里面插入数据比如我们要往一张表里面写入几行特定的数据,如下,每次运行都会往表里写入一个文件,这种一般生产很少见,因为这种操作一般说在位置的时候采用,如果有也是建议先将所有数据放在一个文件再做batch load的方式,这样就只有一个文件了。insert into table A values('201','2','北京')通过load方式加载数据这种操作一般是将某一个或者一批文件上传到一个表里面,本地的多少个文件映射到hive就有多少个文件,运行语句如下load

2021-06-29 09:06:21 502 1

原创 CPU上下文切换

前言Linux 是一个多任务操作系统,它支持远大于 CPU 数量的任务同时运行。当然,这些任务实际上并不是真的在同时运行,而是因为系统在很短的时间内,将 CPU 轮流分配给它们,造成多任务同时运行的错觉。而在每个任务运行前,CPU都需要知道任务从哪里加载、又从哪里开始运行,也就是说,需要系统事先帮它设置好 CPU寄存器和程序计数器。CPU寄存器,是CPU内置的容量小、但速度极快的内存。而程序计数器,则是用来存储 CPU正在执行的指令位置、或者即将执行的下一条指令位置。它们都是CPU在运行任何任务前,必须

2021-06-12 23:44:58 252

原创 uptime的讲解

每次发现系统变慢时,我们通常做的第一件事,就是执行 top 或者 uptime 命令,来了解系统的负载情况。[root@xlucas1 ~]# uptime 10:39:24 up 16 min, 2 users, load average: 0.00, 0.01, 0.04这个显示的含义是什么?10:39:24 up #当前系统时间 16 min #系统运行时长 2 users #当前登录用户个数而最后三个数字呢,依次则是过去 1 分钟、5 分钟、15 分钟

2021-06-11 23:40:50 949 2

原创 centos之sysstat版本升级

centOS默认情况下的sysstat版本比较老的,我们在pidstat很多新特性没有办法使用通过源码安装该方式可以解决,yum安装版本过低导致部分命令信息展示不全的问题,比如pidstat没有展示%wait通过git下载源码[root@xlucas1 ~]# git clone git://github.com/sysstat/sysstatCloning into 'sysstat'...remote: Enumerating objects: 14291, done.remote: Cou

2021-06-11 21:54:48 543

原创 Cypher语句-最短路径

1、所有最短路径找到两个节点之间的所有最短路径查找到’Kevin Pollak’和’Lilly Wachowski’之间的两条最短路径Match (Kevin:Person{name:'Kevin Pollak'}),(Lilly:Person{name:"Lilly Wachowski"}),p=allShortestPaths((Kevin)-[*]-(Lilly))return p2、通过id查询节点或关系2.1、通过id查询节点可以在断言中使用id()函数来根据id查询节点节点

2021-06-05 20:45:25 688

原创 Cypher语句-Create语句

Create语句用于创建图元素:节点和关系1、创建节点1.1、创建单个节点create(n)除了影响到的节点数之外,这个查询什么也不返回1.2、创建多个节点创建多个节点,中间以逗号分隔create(n),(m)1.3、创建带有标签的节点创建带有标签的节点采用如下格式create(n:Person)1.4、创建带有多个标签的节点如下语句在创建节点的时候,为其添加了两个标签create(n:Person:Swedish)1.5、创建同时带有标签和属性的节点当创建一个

2021-06-05 18:13:53 1001

原创 Cypher语句-查找关系的深度

查找关系的深度1、多个关系关系可以多语句以()–()的形式来表达,或者它们相互连接在一起查询’Kevin Pollak’演的电影和该电影的导演MATCH(charlie{name:'Kevin Pollak'})-[:ACTED_IN]->(movie)<-[:DIRECTED]-(director)return movie.title,director.name2、可变长关系可变长关系和节点的语法如下:-[:TYPE*minHops..maxHops]->min

2021-06-05 16:06:53 1643

原创 Cypher语句-查找关系

Cypher查找关系1、外向关系关系的方向通过–>或者<–来表示查询与Person 'Mike Nichols’外向连接的所有节点MATCH(:Person { name: 'Mike Nichols'})-->(movie) RETURN movie.title2、有向关系和变量当需要过滤关系中的属性,或者返回关系的时候,变量就很有必要了查询’Mike Nichols’的外向关系的类型MATCH(:Person { name: 'Mike Nichols'})-[r

2021-06-05 14:23:27 2672

原创 oceanbase安装

环境信息: CentOS Linux release 7.2.1511安装版本: 3.1.0 单机1、安装步骤通过 YUM 软件源安装 OBDsudo yum install -y yum-utilssudo yum-config-manager --add-repo https://mirrors.aliyun.com/oceanbase/OceanBase.reposudo yum install -y ob-deploy2、部署 OceanBase 数据库2.1、增加配置文件本地安

2021-06-01 22:58:54 6096 14

原创 Cypher语句-MATCH查找节点

Cypher的语句可以分为三类,读语句,写语句和通用语句读语句:MATCH、OPTIONAL MATCH、WHERE、START、Aggregation和LOAD CSV写语句:CREATE、MERGE、SET、DELETE、REMOVE、FOREACH和CREATE UNIQUE通用语句:RETURN、ORDER BY、LIMIT、SKIP、WITH、UNWIND、UNION和CALLMATCH    MATCH语句用指定的模式检索数据库,它常与带有约束或

2021-05-25 23:55:46 3124

原创 Cypher概述

    Cypher是一种图数据库查询语言,查询效率高,类似于关系型数据库中的SQL。cypher由Neo Technology 公司为了Neo4j创建,Cypher是什么    Cypher是一种声明式图数据库查询语言,它具有丰富的表现力,能高效地查询和更新图数据,对于初学者Cypher使用相对简单,    Cypher查询语言设计很人性化,既适合开发人员,也适合专业的运营人员。

2021-05-11 23:22:49 1147

selenium2.53包

此包包含了IE、google的驱动文件,是selenium2.53的软件,详细的环境搭建请查看博客

2016-10-08

selenium2.53软件包

自动化测试selenium2.53软件包,包含了ide 和IE、google的驱动包

2016-10-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除