2 微笑、只是一个表情

尚未进行身份认证

暂无相关简介

等级
TA的排名 18w+

Linux多版本python切换

[root@hadoop102 ~]# ln -s /usr/bin/python2.7 /usr/bin/pythonln: 无法创建符号链接"/usr/bin/python": 文件已存在[root@hadoop102 ~]# mv /usr/bin/python /usr/bin/python2.6.6[root@hadoop102 ~]# ln -s /usr/bin/python2.7 /usr/bin/python[root@hadoop102 ~]# python这样2.6.6就切

2020-05-22 14:48:08

卸载linux系统自带JDK,安装自己的jdk

卸载linux系统自带JDK,安装自己的jdk先确认jdk的具体版本号:[root@hadoop102 ~]# rpm -qa|grep jdk卸载jdk:卸载成功。安装JDK就不在这里介绍了,还是比较简单的,解压安装包然后配置环境变量就OK .

2020-05-20 09:51:10

MapReduce与Spark

MapReduce是一种分布式编程模型,采用‘分而治之’的思想,将一个大规模数据集分解成多个小规模数据,然后分发给集群中多个节点共同计算。这样可以有效的降低每一部分的运算复杂度,达到提高运算效率的目的。MapReduce模型将计算分为两个阶段:Map阶段和Reduce阶段。Hadoop将MapReduce的输入数据划分为等长的数据块,称为输入分片(split),为每一个分片构建一个Map任务,并且由该任务来运行用户自定义的Map函数,以处理分片的每条记录。Map任务输出时要按照Reduce任务的数量进行分

2020-05-19 11:31:38

GreenPlum--备份与恢复

备份恢复操作概述-关于并行备份(gp_dump)GP同时备份Master和所有活动的Segment实例备份消耗的时间与系统中实例的数据没有关系在Master主机上备份所有DDL文件和GP相关的数据字典表每个Segment备份各自的数据所有备份文件组成一个完整的备份集合,通过唯一14位数字的时间戳来识别缺点:1、还有一分部内容没有备份,比如说用户角色信息、服务器配置信息,日志等,这时候可以用gpcrondump2、没有增量备份的机制关于非并行备份(pg_dump)GP依然支持常规的Post

2020-05-09 11:16:38

磁盘阵列简介

磁盘阵列磁盘阵列是一种把若干硬磁盘驱动器按照一定要求组成一个整体,整个磁盘阵列由阵列控制器管理的系统。1.1.2 磁盘阵列的工作原理与特征RAID的基本结构特征就是组合(Striping),捆绑2个或多个物理磁盘成组,形成一个单独的逻辑盘。组合套(Striping Set)是指将物理磁盘组捆绑在一块儿。在利用多个磁盘驱动器时,组合能够提供比单个物理磁盘驱动器更好的性能提升。数据是以块(Ch...

2020-05-08 09:25:57

GreenPlum--表存储方式选择

本文主要讨论的是GP中在创建表时可以选择的表的存储方式,有两类:1、行存储,列存储2、堆存储还是追加优化存储首先我们来讨论一下行存和列存行存储的具体形式:行方向是传统的存储数据库元组的方式。组成一行的列被连续地存储在磁盘上,因此整个行可以被以单次I/O从磁盘上读出。行存储是行为单位存储数据,一行中越是靠后的列,那么查询需要的cost相对越大,这个以前oracle做过相应比较,都是一样...

2020-05-06 13:44:00

虚拟机--NAT,HOST-NOLY,桥接网络

一、桥接模式(bridged networking):在桥接模式下,此时虚拟机相当于网络上的一台独立的主机,拥有一个独立的IP地址,它可以访问该类网段内任何一台机器。桥接网络环境下需要做到:1.手动为虚拟机系统配置IP地址、子网掩码。2.在桥接的模式下虚拟机必须与物理机处于同一网段,(举个例子,物理机IP:192.168.1.2,虚拟机IP:192.168.1.3)这样虚拟系统才能和真实...

2020-04-30 14:41:57

GreenPlum--分区维护需求(1)

通过编写存储过程,完成如下功能:1. 对于5年以前(以当年1月1日往前推导)的数据,进入历史分区(单一分区)。2. 对于1年以上,5年以内的数据,使用年分区。3. 1个月以上,1年以内的数据,按月分区。4. 1个月以内的数据,按天分区。-- Table: daw.employeeDROP TABLE daw.employee;CREATE TABLE daw.employee(...

2020-04-24 17:34:07

Postgresql-转义字符

背景:今天碰到一个问题,就是postgresql中怎么在引号中定义变量,想了各种方法,也没有解决,下面是我找到的神似的内容。正文在PostgreSQL 9之前的版本中,可以直接使用反斜杠\进行转义;比如:\b表示退格, \n表示换行, \t表示水平制表符,\r标示回车,\f表示换页。除此之外还支持\digits和\xhexdigits,分别表示转义八进制和十六进制数据。但是在Postgre...

2020-04-24 16:41:07

GreenPlum--一些整理

1、创建数据库:create database 库名;2、删除数据库:drop database 库名;3、创建表:create table 表名(id integer,name text,price numeric {精确度较高的小数型,同mysql的decimal});3-1、GP建表指定列级约束create table 表名(id integer primary ke...

2020-04-22 17:38:05

从GP中卸载数据

两种类型:并行(可写外部表)和非并行(COPY)两种方式的可写外部表:基于文件和基于WEB定义基于文件的可写外部表使用CREATE WRITABLE EXTERNAL TABLE 命令地定义外部表并指出输出文件的位置和格式使用gpfdist协议的可写外部表GP segment将数据发送给gpfdist进程,该进程将数据写到指定名称的文件;若希望输出的数据分割到多个文件,可以在外部表的定...

2020-04-22 16:45:28

GreenPlum--数据装载性能技巧

1、在装载前删除索引在已存在的数据上创建索引比不断的递增索引要快2、在装载之后运行ANALYZE执行ANALYZE确保查询计划拥有最新的统计信息3、在装载出错后执行VACUUM错误发生前的记录无法访问,但是仍然占据磁盘空间...

2020-04-22 16:28:56

GreenPlum--gpfdist,gpfdists,file和gphdfs

三种用来访问外部表数据源的协议:gpfdist,gpfdists和gphdfsgpfdist在外部表指定文件的所有主机上运行GP文件分发程序(gpfdist)。该程序指向一个给定的目录,并行的为所有segment实例提供外部数据文件服务。如果文件使用了gzip或者bzip2压缩,gpfdist会自动解压可以使用多个gpfdist来提升外部表的扫描性能可以使用通配符或者C风格的模式匹配多...

2020-04-22 10:02:27

GreenPlum--装载数据

1、关于gpload·gpload是一个数据并行装载命令·需要创建一个按照YAML格式定义的装载说明控制文件例如:将txt文件导入表中gpload -f my_load.ymlyml文件内容:VERSION: 1.0.0.1DATABASE: edwUSER: gpadminHOST: mdwPORT: 5432GPLOAD:INPUT: - SOURCE: FILE...

2020-04-22 09:57:16

GreenPlum--外部表

外部表:1、外部表允许用户像访问标准数据库表一样的访问外部表。2、结合GP的并行文件分配程序(gpfdist),外部表支持在装载和卸载数据时全并行化利用所有segment实例的资源。3、GP还可以利用Hadoop分布式文件系统的并行架构来访问文件。GP提供了两种类型的外部表:可读外部表:用于数据装载,不允许对数据进行修改。可写外部表:用于数据卸载,从数据库表中选择记录并输出到文件、命令...

2020-04-22 09:45:58

PostgreSQL--数据类型总结

一、数值类型:下面是PostgreSQL所支持的数值类型的列表和简单说明:名字 存储空间 描述 范围 smallint 2 字节 小范围整数 -32768 到 +32767 integer 4 字节 常用的整数 -2147483648 到 +2147483647 bigint 8 字节 大范围的整数 -9...

2020-04-21 09:46:00

GreenPlum--系统数据字典

系统数据字典:所有的系统数据字典存放在pg_catalog模式下。标准的PostgreSQL系统数据字典为pg_*。GP特有的字典目录:gp_configurationgp_distribution_policygp_distributed_loggp_idgp_version_at_initdbgp_master_mirroringgp_pgdatabase在psql总列...

2020-04-20 16:48:59

GreenPlum--阅读解释计划

如何阅读解释计划解释计划是一份报告,它详细描述了Greenplum数据库优化器确定的执行查询要遵循的步骤。计划是一棵节点构成的树,应该从底向上阅读,每一个节点都会将其结果传递给其直接上层节点。每个节点表示计划中的一个步骤,每个节点对应的那一行标识了在该步骤中执行的操作——例如扫描、连接、聚集或者排序操作。节点还标识了用于执行该操作的方法。例如,扫描操作的方法可能是顺序扫描或者索引扫描。而连接操作...

2020-04-16 17:44:29

GP-SQL优化之explain analyze

通过explain观察执行计划,从而确定如何优化SQL查询优化器使用数据库的数据统计信息来选择具有最小总代价的查询计划,查询代价通过磁盘I/O取得的磁盘页面数作为单位来度量。 可以使用EXPLAIN和EXPLAIN ANALYZE语句发现和改进查询计划。EXPLAIN的语法如下:1、EXPLAIN [ ANALYZE ] [ VERBOSE ] statementANALYZE:执行命...

2020-04-16 17:32:33

GPkafka使用过程中遇到的问题

1、gpkafka.yaml文件配置如下:报错信息如下:在网上查了很久也没有找到解决方法,然后根据经验,大概率是yaml文件内容有问题,实验了很多次,修改成下面这样就成功了。...

2020-04-16 16:22:48

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv3
    勤写标兵Lv3
    授予每个自然周发布7篇到8篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。