自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(29)
  • 资源 (3)
  • 收藏
  • 关注

原创 LINUX 操作系统命令(持续更新)

LINUX 操作系统命令VI命令:w 保存:wq 保存并退出:q! 退出但不修改

2021-01-28 15:12:26 264

原创 HADOOP-HDFS

HADOOP-HDFSHDFS简介HDFS优缺点HDFS支持的命令HDFS简介HDFSHadoop分布式文件系统Hadoop Distributed File SystemHDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能够提供高吞度量的数据访问,非常适合大规模数据集的使用。HDFS放宽了POSIX约束、实现流式读取文件系统数据的目的。POSIX:可移植操作系统接口,Portable Operating System Interface。HDFS体系结构HDFS采用了主从

2021-01-19 14:16:30 228 2

原创 数据仓库-Hadoop

数据仓库-Hadoop大数据定义Hadoop简介Hadoop构成Hadoop主要特点Hadoop架构Hadoop基本组件大数据定义所谓大数据就是这样一个数据集合,它的数据量和复杂度是传统数据处理应用无法应对的。大数据带来的挑战包括:数据分析、数据捕获、数据治理、搜索、共享、存储、传输、可视化、查询、更新和信息安全等。大数据更像是一套处理数据的方法和解决方案。换句话说普通软件没办法可以在容忍的时间范围内完成大数据的捕获和处理。现在普遍认可的大数据具有4Vvolume 数据量大velocity

2021-01-07 16:00:20 266

原创 数据仓库-Data Vault模型

数据仓库-Data Vault模型Data Vault模型简介Data Vault模型的组成部分中心表链接表附属表Data vault模型的特点Data vault模型的构建Data vault模型示例Data Vault模型简介一种数据仓库建模方法,用于存储来自多个操作型系统的完整的历史数据。每个数据行都包含数据来源和装载时间属性,用以审计和跟踪数据值所对应的源系统。Data Vault(DV)模型用于企业级的数据仓库建模,是Dan Linstedt在20世纪90年代提出的。在最近几年,获得很多关注

2021-01-07 14:59:50 3328

原创 数据仓库-设计基础

数据仓库-设计基础数据模型关系数据模型关系数据模型中的结构关系完整性数据模型关系数据模型、多维数据模型和Data Vault模型关系数据模型关系模型由E.F.Codd在1970年提出的一种通用数据模型。由于关系数据模型简单明了,并且由坚实的数学理论基础。关系模型被广泛用于数据处理和数据存储。尤其在数据库领域,现在主流的数据库管理系统几乎都是以关系模型基础实现的。关系数据模型中的结构关系属性属性域元组关系数据库关系表的属性关系数据模型汇中的键关系完整性未完待续...

2021-01-05 15:55:10 392

原创 数据仓库-数据仓库需求

数据仓库-数据仓库需求基本需求安全性可访问性自动化数据需求准确性时效性历史可追溯性基本需求数据仓库的目的就是能够让用户方便地访问大量数据。允许用户查询和分析其中的业务信息。要求数据仓库是安全的、可访问的、自动化的。安全性适当的授权机制对于用户数据是只读的划分数据安全等级,公开、机密、秘密、绝密制定访问控制方案,那些用户访问哪些数据设计授予、回收、变更用户范文权限方法添加对数据访问的审计功能。可访问性指的是用户访问和检索数据的能力数据仓库最终用户通常是业务人员、管理人员、数据分

2021-01-05 15:19:21 469

原创 数据仓库-抽取-转换-装载

数据仓库-抽取-转换-装载抽取-转换-装载数据抽取逻辑抽取全量抽取增量抽取物理抽取联机抽取脱机抽取变化数据捕获数据转换数据装载开发ETL系统的方法常见的ETL工具抽取-转换-装载ETL是Extract、Transform、Load三个英文单词的首字母简写。中文是抽取、转换、装载ETL是建立数据仓库最重要的处理过程,也是最体现工作量的环节。一般会占到真个数据仓库项目的工作量的一半以上。建立数据仓库,需要将多个异构的源系统的数据集成在一起,放置于一个集中的位置用于数据分析。ETL系统的工作就是把异

2021-01-05 14:50:40 1241

原创 数据仓库-架构

数据仓库-架构基本架构主要数据仓库架构数据集市架构独立数据集市架构另外一种数据集市是从属数据集市Inmon企业信息工厂架构Kimball数据仓库架构混合型数据仓库架构操作数据存储ODS作用基本架构架构是什么?在软件行业普遍接受的架构定义是,指系统的一个或多个结构,包括软件的构建,构建外部可以看到的属性以及他们之间的相互关系。把数据仓库架构理解成构成数据仓库的组件及其之间的关系。数据仓库架构如图操作型系统由各种形式业务数据组成这其中可能有关系数据库、TXT、CSV、HTML、XML、还可能有

2021-01-05 14:02:51 976

原创 数据仓库-简介

数据仓库-简介数据仓库定义建立数据仓库的原因为什么不直接访问业务系统用于数据分析使用数据仓库的好处操作型系统与分析型系统操作型系统分析型系统数据仓库定义20世纪80年代,IBM研究人员开发出“商业数据仓库”。本质上,数据仓库试图提供一种从操作型系统到决策支持环境的数据流架构模型。数据仓库之父Bill Inmon在1991年出版的Building the data warehouse一书中首次提出被广泛认可的数据仓库定义。面向主题主题是一个抽象的概念,与业务相关的数据的类型,每一个主题基本对应一

2021-01-03 17:55:27 427

原创 CDH 7.1.4 大数据平台搭建-新手指南

CDH 7.1.4 大数据平台搭建-新手指南环境介绍笔记本硬件软件及版本环境准备虚拟系统安装挂载离线安装ISO文件安装httpd搭建http服务器下载CM和CDH安装包安装createrepo软件打包CM文件配置hostname和hostshostnamehosts建立互信重新制作ISO的repo,方便其他机器访问通过http升级软件和系统内核(未执行)禁用SELinux关闭防火墙集群时钟同步(未完成)设置swap设置透明大页面关闭iptables(未执行)设置limits按照Mysql安装jdbc驱动安装

2020-12-17 20:37:03 6570 14

原创 HADOOP文件操作命令

HADOOP文件操作命令欢HADOOP文件操作命令命令格式欢HADOOP文件操作命令命令格式hadoop fs -cmd argsLShadoop fs -ls /dirPUThadoop fs -put localfile hdfsfileadoop fs -put - hdfsfileGEThadoop fs -get hdfsfile local file or dirRMhadoop fs -rm hdfsfilehadoop fs -rm -r hdfsdirMK

2020-12-14 10:35:47 167

原创 CDH认证考试资料汇总

CDH认证考试资料汇总CDH认证考试https://www.cnblogs.com/davidzhu/category/1344548.html转发持续更新.

2020-12-03 21:07:33 515

原创 ETL工具 KETTLE数据抽取简介

ETL工具 KETTLE数据抽取简介KETTLE简介KETTLE工具下载KETTLE 8.1http://mirror.bit.edu.cn/pentaho/Pentaho%208.1/client-tools/pdi-ce-8.1.0.0-365.zipKETTLE 8.2http://mirror.bit.edu.cn/pentaho/Pentaho%208.2/client-tools/pdi-ce-8.2.0.0-342.zipKETTLE安装...

2020-11-19 14:57:56 834

原创 DataX 3.0的介绍及使用情况

DataX 3.0的介绍及使用情况DataX 3.0 介绍DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。设计理念为了解决异构数据源同步问题,DataX将复杂的网状的同步链路变成了星型数据链路,DataX作为中间传输载体负责连接各种数据源。当需要接入一个新的数据源的时候,只需要将此数据源对接到DataX,便能跟已有的数据源做到无缝数据同步。使用现状Da

2020-10-14 11:10:58 404

原创 素材网收集

素材网收集图片素材网卓特图片素材图片素材ICON素材制作ICON证件照文字素材网词云PPT插件ISLIDE标准库标准库标准库

2020-09-04 11:29:56 99

原创 PYTHON学习笔记之(一)2020.08

PYTHON学习笔记之(一)2020.08Python基础数据类型1 列表 list1.1 列表转换字符串stu = ['王一', '李二', '张三']print(stu)nStu = ' - '.join(stu)print(nStu)[‘王一’, ‘李二’, ‘张三’]王一 - 李二 - 张三1.2 字符串转列表strT = 'a good day'lst = strT.split(' ')print(lst)[‘a’, ‘good’, ‘day’]2 字典

2020-08-22 12:07:32 2008 2

原创 PPT之写好PPT的关键要素及流程

PPT之写好PPT的关键要素及流程写PPT的主要流程 列好提纲,主要是标题,列全列清所有要写的主题 按照主题顺序,进行主题先后排序,可以是事件发展的顺序,总分的顺序等等,主题间不要跳跃 根据主题细化内容 按照内容进行一定程度的字体格式化,比如增加字数,减少字数,方便排版布局整洁美观PPT美化关键要素 确定PPT演示客户范围,演讲环境 颜色的选择,选好一套待使用的颜色值,不要选择明亮刺眼的颜色,可以是中间色,或者在色环上选择等分的6种颜色,方式很多。 选择好使用的字体,规定不同位置使

2020-08-21 16:25:27 775 1

原创 数据仓库之主题模型之IBM与TD金融模型

数据仓库之主题模型之IBM与TD银行模型IBM与TDIBM BDWM (Banking Date Warehouse Model)TD FS-LDM (Financal Services Logical Data Model)IBM 银行九大主题模型主题模型主题名称英文缩写主题描述关系人IP银行业务开展过程中的各相关方,包含个人、机构、柜员(个人理解:业务开展系统碰到的各类实体,包含客户、职员、机构、团体、组织)合约AR各参与者在参与过程中达成的各类条款,

2020-08-21 14:12:07 6639

原创 数据仓库之建模过程之业务调研

数据仓库之建模过程之系统调研数据仓库的数据来源自各个源业务系统,不同业务系统使用不同的数据库,不同的物理表结构。为了创建统一的数据仓库系统,需要了解各个业务系统的具体情况。系统调研流程明确需求和确认调研系统范围。针对各个业务系统建立畅通的源系统沟通机制,保证仓库建模人员对系统有足够深入的了解。可以提前列举调研提纲,需要确认的问题提前发给对应系统的联络人员,减少沟通次数,提高沟通效率。针对不同业务回复的问题内容,记录问题汇总表以及相关会议纪要,可供其他系统调研人员使用。...

2020-08-20 15:26:01 1101

原创 数据仓库之模型评估与优化

数据仓库之模型评估模型数据全面性模型数据应具备满足各个应用的需求以及未来潜在需求的能力。模型数据应该保证任意时点的历史数据可追溯的能力。模型数据应能全面满足基于模型支持准入原则所确定的应用 。模型数据准确性模型数据应能正确反应业务与数据之间关系。模型数据应保证模型加工逻辑正确,和源系统数据保持一致 。模型数据应可以提供给下游数据的准确性。模型数据可访问业务人员应该方便查询和使用。技术人员应该容易理解表之间关系。模型数据时效性数据对外服务时间应该满足业务需要。模型和设

2020-08-19 17:45:26 1883

原创 数据仓库存储方式之拉链表简介

数据仓库存储方式拉链表简介拉链表简述拉链表:维护历史状态,以及最新状态数据的一种表,拉链表根据拉链粒度的不同,实际上相当于快照,只不过做了优化,去除了一部分不变的记录,通过拉链表可以很方便的还原出拉链时点的客户记录。(百度百科)拉链表应用场景数据量比较大,变化频率变化比例不高。例如2000万条数据,每天只有10万条数据发生改变。如果按照一年来计算。每天全量不变的情况下,2000万*365=730000万条数据,73亿条数据。如果以拉链的方式,则数据量为2000万+3650万=5650万条,节约1

2020-08-19 16:21:16 1495

原创 PYTHON几种常见获取帮助的方式

PYTHON几种常见获取帮助的方式使用HELP()命令直接在执行命令窗口输入help()命令,可以连续的查询帮助文档。help()输入常用的比如print退出帮助也可以直接使用help(print)方式作用同上面所列一致help(print)使用DIR()命令print(dir())可以查看当前对象属性import tkinterprint(dir(tkinter))使用__DOC__命令import tkinterprint(tkinter.__doc_

2020-08-18 18:08:27 1167

原创 PYTHON标准库链接(参考用)

PYTHON标准库链接(参考用)具体链接如下:Python标准库官方具体内容如下Python 标准库Python语言参考 描述了 Python 语言的具体语法和语义,这份库参考则介绍了与 Python 一同发行的标准库。它还描述了通常包含在 Python 发行版中的一些可选组件。Python 标准库非常庞大,所提供的组件涉及范围十分广泛,正如以下内容目录所显示的。这个库包含了多个内置模块 (以 C 编写),Python 程序员必须依靠它们来实现系统级功能,例如文件 I/O,此外还有大量以 Pyt

2020-08-18 17:06:36 482

原创 数据仓库整合各系统码表和参数表

数据仓库整合各系统码表和参数表在建立数据仓库时,需要调研涉及到各个源系统,根据各源系统的码值,可分为如下几种类型,针对不同类型的代码做整合。各码表及参数表类型通用类代码通用代码,包含有行政区划、币种、行业分类、国别与地区等。GB/T 2260-2007 中华人民共和国行政区划代码GB/T 2659-2000 世界各国和地区名称代码GB/T 4754-2017 国民经济行业分类GB/T 12406-2008 表示货币和资金的代码...

2020-08-18 11:57:51 3582 1

原创 项目经理PM应该了解的事(面试参考)

项目经理PM应该了解的事(面试参考)PM的工作范畴SOW的认识对于项目的理解SOW的含义和作用SOW与合同的关系项目的建设背景和目标都包含哪些项目的验收标准是否已经确认WEB的含义包含哪些内容范围管理如何应对客户对产品的个性化开发需求确认环节需要确认哪些事项公司管理层要求增加项目工作范围如何处理客户要求新增需求部分如何处理如何处理客户要求的额外项目工作且不计入项目报价时间管理方法项目里程碑和计划是否确认涉及客户及第三方的里程碑计划是否确认项目暂停和变更的条件和场景有哪些

2020-08-15 14:02:42 464

原创 EXCEL破解VBA密码(测试有效)

EXCEL破解VBA密码(测试有效)准备1)待破解的EXCEL文件(通常可能是.xlsm)格式2)Notepad++开始步骤一将待破解.xlsm文件另存为97-2003工作簿(*.xls)步骤二用Notepad++打开文件待破解文件.xls,并搜索"DPB="文本,区分大小写。如下:步骤三保存后,正常打开xls文件,用Alt + F11打开宏命令文件可以任意修改一个密码(比如123),如下:点击确定后,便可以打开VBA宏了。重新用Notepadd++打开.xls文档后,再

2020-08-14 11:03:30 13387 3

原创 PYTHON将.PY文件打包为.EXE可执行文件

PYTHON将.PY文件打包为.EXE可执行文件如何将自己编写的代码封装为一个Exe的可执行文件,找到了这个第三方的库。安装第三方库pyinstaller前提条件:安装了Pip工具,这里不做介绍安装pyinstaller工具:cmd命令窗口下输入 pip install pyinstallerpip install pyinstaller安装成功后,尝试输入pyinstaller确认是否安装成功。pyinstaller常用命令介绍可以使用pyinstaller -h命令查询帮助-

2020-08-11 13:59:33 167

原创 PYTHON装饰器(DECORATOR)简单介绍

PYTHON装饰器简单介绍装饰器的简介Python装饰器就是用于拓展原来函数功能的一种函数,这个函数的特殊之处在于它的返回值也是一个函数,使用Python装饰器的好处就是在不用更改原函数的代码前提下给函数增加新的功能。装饰器的应用装饰器的常见应用:1.插入日志2.性能测试3.事务处理4.缓存5.权限校验装饰器的举例性能测试:需求是检验每个函数的调用时间。原始函数都没有追加函数调用时间的逻辑,如果改造每一个函数则花费大量时间,且改变每一个函数的逻辑代码,容易出错。如何在不修改原始函

2020-08-07 12:08:01 120

原创 正则表达式非贪婪匹配

正则表达式关于贪婪与非贪婪匹配方式贪婪匹配方式非贪婪匹配方式关于贪婪与非贪婪匹配方式在日常项目中,总是避免不了对于字符串文本的查找和替换,正则表达式的使用可以大量的节约时间并提升工作效率。所谓的(so-called)贪婪匹配方式就是尽可能多的匹配字符,而非贪婪匹配方式则是尽可能少的匹配字符串。贪婪匹配方式对于一个原始字符串:“今天天气不错”贪婪模式(.*):(.*天),匹配的内容则是“今天天”。非贪婪匹配方式非贪婪模式(.*?):(.*?天),匹配的内容则是“今天”。...

2020-08-05 14:04:41 939

GaussDB 200 6.5.1 产品文档 03.chm

GaussDB 200是企业级的大规模并行处理关系型数据库。GaussDB 200采用MPP(Massively Parallel Processing)架构,支持行存储与列存储,提供PB(Petabyte,2的50次方字节)级别数据量的处理能力。 GaussDB 200在核心技术上跟传统数据库相比有巨大优势,可以解决很多行业用户的数据处理性能问题,可以为超大规模数据管理提供高性价比的通用计算平台,并可用于支撑各类数据仓库系统、BI(Business Intelligence)系统和决策支持系统,统一为上层应用的决策分析等提供服务。

2020-08-20

Data Studio 6.5.1.SPC1 用户手册 01.pdf

Data Studio是一个集成开发环境,帮助数据库开发人员便捷地构建应用程序的一款工 具,以图形化界面形式提供数据库关键特性。 数据库开发人员仅需掌握少量的编程知识,即可使用该工具进行数据库对象操作。 Data Studio提供多个特性,例如创建和管理数据库对象(数据库对象包含数据库、模 式、函数、存储过程、表、序列、索引、视图和表空间),执行SQL语句/SQL脚本, 以及编辑和执行PL/SQL语句,查看图形化的查询执行计划和开销,导出表数据,以及 调试。Data Studio同样提供SQL助手用于在“SQL终端”和“PL/SQLViewer”中执行 各种查询/过程/函数。

2020-08-20

数据模型评价与优化2019.pdf

模型的评价框架:通过对客户的数据仓库基础模型设计、管理等多维度进 行阶段性评估,结合调研,分析当前存在的问题;并根 据TERADATA实施方法论以及行业经验,提出提升建议。确保基础模型健康持续发展 ,提升基础模型应用服务质量 ,提前预防,及早发现与解决问题 ,提高数据资产的经济效益。 模型优化流程与方案 模型优化案例

2020-08-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除