微笑、只是一个表情-CSDN博客

原创免密

SSH免密登录配置hadoop102对hadoop102、hadoop103、hadoop104三台服务器免密登录。1）生成公钥和私钥：[root@hadoop102 .ssh]$ ssh-keygen -t rsa然后敲（三个回车），就会生成两个文件id_rsa（私钥）、id_rsa.pub（公钥）2）将公钥拷贝到要免密登录的目标机器上[root@hadoop102 .ssh]$ ssh-copy-id hadoop102[root@hadoop102 .ssh]$ ssh-copy-id

2020-08-18 14:43:21 175

原创 1.Centos7.6下1.安装2+4节点Greenplum集群

Greenplum 2+4测试集群搭建概述：本文档用于Centos7.6系统下搭建Grennplum 5.25版本“2+4节点”的测试集群。集群规划如下：主机名角色硬件配置网卡配置mastermaster节点4core+8G+2*30G192.168.0.137；192.168.0.138standbystandby节点4core+8G+2*30G192.168.0.139；192.168.0.140seg-1计算节点14core+8G+2*3

2020-07-06 15:15:39 686 1

原创 Linux多版本python切换

[root@hadoop102 ~]# ln -s /usr/bin/python2.7 /usr/bin/pythonln: 无法创建符号链接"/usr/bin/python": 文件已存在[root@hadoop102 ~]# mv /usr/bin/python /usr/bin/python2.6.6[root@hadoop102 ~]# ln -s /usr/bin/python2.7 /usr/bin/python[root@hadoop102 ~]# python这样2.6.6就切

2020-05-22 14:48:08 210

原创卸载linux系统自带JDK，安装自己的jdk

卸载linux系统自带JDK，安装自己的jdk先确认jdk的具体版本号：[root@hadoop102 ~]# rpm -qa|grep jdk卸载jdk:卸载成功。安装JDK就不在这里介绍了，还是比较简单的，解压安装包然后配置环境变量就OK .

2020-05-20 09:51:10 378

原创 MapReduce与Spark

MapReduce是一种分布式编程模型，采用‘分而治之’的思想，将一个大规模数据集分解成多个小规模数据，然后分发给集群中多个节点共同计算。这样可以有效的降低每一部分的运算复杂度，达到提高运算效率的目的。MapReduce模型将计算分为两个阶段：Map阶段和Reduce阶段。Hadoop将MapReduce的输入数据划分为等长的数据块，称为输入分片(split)，为每一个分片构建一个Map任务，并且由该任务来运行用户自定义的Map函数，以处理分片的每条记录。Map任务输出时要按照Reduce任务的数量进行分

2020-05-19 11:31:38 477

原创 GreenPlum--备份与恢复

备份恢复操作概述-关于并行备份（gp_dump）GP同时备份Master和所有活动的Segment实例备份消耗的时间与系统中实例的数据没有关系在Master主机上备份所有DDL文件和GP相关的数据字典表每个Segment备份各自的数据所有备份文件组成一个完整的备份集合，通过唯一14位数字的时间戳来识别缺点：1、还有一分部内容没有备份，比如说用户角色信息、服务器配置信息，日志等，这时候可以用gpcrondump2、没有增量备份的机制关于非并行备份（pg_dump）GP依然支持常规的Post

2020-05-09 11:16:38 651

原创磁盘阵列简介

磁盘阵列磁盘阵列是一种把若干硬磁盘驱动器按照一定要求组成一个整体，整个磁盘阵列由阵列控制器管理的系统。1．1．2 磁盘阵列的工作原理与特征RAID的基本结构特征就是组合(Striping)，捆绑2个或多个物理磁盘成组，形成一个单独的逻辑盘。组合套(Striping Set)是指将物理磁盘组捆绑在一块儿。在利用多个磁盘驱动器时，组合能够提供比单个物理磁盘驱动器更好的性能提升。数据是以块(Ch...

2020-05-08 09:25:57 835

原创 GreenPlum--表存储方式选择

本文主要讨论的是GP中在创建表时可以选择的表的存储方式，有两类：1、行存储，列存储2、堆存储还是追加优化存储首先我们来讨论一下行存和列存行存储的具体形式：行方向是传统的存储数据库元组的方式。组成一行的列被连续地存储在磁盘上，因此整个行可以被以单次I/O从磁盘上读出。行存储是行为单位存储数据，一行中越是靠后的列，那么查询需要的cost相对越大，这个以前oracle做过相应比较，都是一样...

2020-05-06 13:44:00 1013

原创虚拟机--NAT,HOST-NOLY,桥接网络

一、桥接模式（bridged networking）：在桥接模式下，此时虚拟机相当于网络上的一台独立的主机，拥有一个独立的IP地址，它可以访问该类网段内任何一台机器。桥接网络环境下需要做到：1.手动为虚拟机系统配置IP地址、子网掩码。2.在桥接的模式下虚拟机必须与物理机处于同一网段，(举个例子,物理机IP:192.168.1.2，虚拟机IP:192.168.1.3)这样虚拟系统才能和真实...

2020-04-30 14:41:57 199

原创 GreenPlum--分区维护需求（1）

通过编写存储过程，完成如下功能：1. 对于5年以前（以当年1月1日往前推导）的数据，进入历史分区（单一分区）。2. 对于1年以上，5年以内的数据，使用年分区。3. 1个月以上，1年以内的数据，按月分区。4. 1个月以内的数据，按天分区。-- Table: daw.employeeDROP TABLE daw.employee;CREATE TABLE daw.employee(...

2020-04-24 17:34:07 276

原创 Postgresql-转义字符

背景：今天碰到一个问题，就是postgresql中怎么在引号中定义变量，想了各种方法，也没有解决，下面是我找到的神似的内容。正文在PostgreSQL 9之前的版本中，可以直接使用反斜杠\进行转义；比如：\b表示退格， \n表示换行， \t表示水平制表符，\r标示回车，\f表示换页。除此之外还支持\digits和\xhexdigits，分别表示转义八进制和十六进制数据。但是在Postgre...

2020-04-24 16:41:07 1992

原创 GreenPlum--一些整理

1、创建数据库：create database 库名;2、删除数据库：drop database 库名;3、创建表：create table 表名(id integer,name text,price numeric {精确度较高的小数型，同mysql的decimal});3-1、GP建表指定列级约束create table 表名(id integer primary ke...

2020-04-22 17:38:05 819

原创从GP中卸载数据

两种类型：并行（可写外部表）和非并行（COPY）两种方式的可写外部表：基于文件和基于WEB定义基于文件的可写外部表使用CREATE WRITABLE EXTERNAL TABLE 命令地定义外部表并指出输出文件的位置和格式使用gpfdist协议的可写外部表GP segment将数据发送给gpfdist进程，该进程将数据写到指定名称的文件；若希望输出的数据分割到多个文件，可以在外部表的定...

2020-04-22 16:45:28 407

原创 GreenPlum--数据装载性能技巧

1、在装载前删除索引在已存在的数据上创建索引比不断的递增索引要快2、在装载之后运行ANALYZE执行ANALYZE确保查询计划拥有最新的统计信息3、在装载出错后执行VACUUM错误发生前的记录无法访问，但是仍然占据磁盘空间...

2020-04-22 16:28:56 156

原创 GreenPlum--gpfdist,gpfdists,file和gphdfs

三种用来访问外部表数据源的协议：gpfdist，gpfdists和gphdfsgpfdist在外部表指定文件的所有主机上运行GP文件分发程序（gpfdist）。该程序指向一个给定的目录，并行的为所有segment实例提供外部数据文件服务。如果文件使用了gzip或者bzip2压缩，gpfdist会自动解压可以使用多个gpfdist来提升外部表的扫描性能可以使用通配符或者C风格的模式匹配多...

2020-04-22 10:02:27 1082

原创 GreenPlum--装载数据

1、关于gpload·gpload是一个数据并行装载命令·需要创建一个按照YAML格式定义的装载说明控制文件例如：将txt文件导入表中gpload -f my_load.ymlyml文件内容：VERSION: 1.0.0.1DATABASE: edwUSER: gpadminHOST: mdwPORT: 5432GPLOAD:INPUT: - SOURCE: FILE...

2020-04-22 09:57:16 491

原创 GreenPlum--外部表

外部表：1、外部表允许用户像访问标准数据库表一样的访问外部表。2、结合GP的并行文件分配程序（gpfdist），外部表支持在装载和卸载数据时全并行化利用所有segment实例的资源。3、GP还可以利用Hadoop分布式文件系统的并行架构来访问文件。GP提供了两种类型的外部表：可读外部表：用于数据装载，不允许对数据进行修改。可写外部表：用于数据卸载，从数据库表中选择记录并输出到文件、命令...

2020-04-22 09:45:58 1653

原创 PostgreSQL--数据类型总结

一、数值类型：下面是PostgreSQL所支持的数值类型的列表和简单说明：名字存储空间描述范围 smallint 2 字节小范围整数 -32768 到 +32767 integer 4 字节常用的整数 -2147483648 到 +2147483647 bigint 8 字节大范围的整数 -9...

2020-04-21 09:46:00 395 1

原创 GreenPlum--系统数据字典

系统数据字典：所有的系统数据字典存放在pg_catalog模式下。标准的PostgreSQL系统数据字典为pg_*。GP特有的字典目录：gp_configurationgp_distribution_policygp_distributed_loggp_idgp_version_at_initdbgp_master_mirroringgp_pgdatabase在psql总列...

2020-04-20 16:48:59 331

原创 GreenPlum--阅读解释计划

如何阅读解释计划解释计划是一份报告，它详细描述了Greenplum数据库优化器确定的执行查询要遵循的步骤。计划是一棵节点构成的树，应该从底向上阅读，每一个节点都会将其结果传递给其直接上层节点。每个节点表示计划中的一个步骤，每个节点对应的那一行标识了在该步骤中执行的操作——例如扫描、连接、聚集或者排序操作。节点还标识了用于执行该操作的方法。例如，扫描操作的方法可能是顺序扫描或者索引扫描。而连接操作...

2020-04-16 17:44:29 255

原创 GP-SQL优化之explain analyze

通过explain观察执行计划，从而确定如何优化SQL查询优化器使用数据库的数据统计信息来选择具有最小总代价的查询计划，查询代价通过磁盘I/O取得的磁盘页面数作为单位来度量。可以使用EXPLAIN和EXPLAIN ANALYZE语句发现和改进查询计划。EXPLAIN的语法如下：1、EXPLAIN [ ANALYZE ] [ VERBOSE ] statementANALYZE：执行命...

2020-04-16 17:32:33 5719

原创 GPkafka使用过程中遇到的问题

1、gpkafka.yaml文件配置如下：报错信息如下：在网上查了很久也没有找到解决方法，然后根据经验，大概率是yaml文件内容有问题，实验了很多次，修改成下面这样就成功了。...

2020-04-16 16:22:48 679 3

原创 GreenPlum--GPkafka使用教程

背景部门老大说熟悉一下GPkafka的使用，昨天把ZK和kafka刚装完，今天就要实验一下kafka与GP的数据交互，从网上参考了一下教程，现在把他们整理一下，准备走一遍流程。Kafka是分布式消息订阅系统，有非常好的横向扩展性，可实时存储海量数据，是流数据处理中间件的事实标准。当通过Kafka和GP搭建流处理管道时，如何高速可靠的完成流数据加载，这是个问题。从5.10开始，GP发布了新的工具...

2020-04-16 14:19:31 3512 4

原创 kafka集群搭建--亲测

1、软件环境1、三台虚拟机192.168.0.66（mdw），192.168.0.67（sdw1），192.168.0.68（sdw2）2、已经搭建好的zookeeper集群，ZK的搭建可以参考链接https://blog.csdn.net/weixin_43120559/article/details/1055312753、软件版本kafka_2.11-0.9.0.1.tgz2、准备好...

2020-04-16 09:30:44 491

原创 Linux下ZooKeeper集群的安装

1、开启三台虚拟机mdw(192.168.0.66),sdw1(192.168.0.67),sdw2(192.168.0.68)2、本次安装使用普通用户 “hadoop” 安装 ,该用户应该具备root权限useradd hadooppasswd hadoop3、本次所有软件都安装在/opt 目录下，因此需要给/opt目录相关可读可写的权限sudo chmod -R guo+wr ...

2020-04-15 16:42:37 875

原创 GreenPlum--管理日志

数据库服务日志文件1、GP的日志输出量大而且不需要无期限的保存这些日志，管理员需要定期的滚动日志文件。2、GP在Master和所有Segment实例上开启了日志文件按天滚动。3、服务器日志文件存放在每个实例数据目录的pg_log目录下格式：gpdb-YYYY-MM-DD_TIME.csv4、搜索数据库服务日志文件通过gplogfilter工具来查找匹配指定标准的日志数据默认只查找默认目...

2020-04-13 17:31:20 514

原创 GreenPlum--回收空间和分析

回收空间和分析· 事务ID管理数据库的每个事务对应着一个ID，当ID个数超过数据库限定的阈值时，就会重复用前面的ID，造成混乱。在每个数据空每2百万个事务的时候，对每张表执行VACUUM是很有必要的。· 系统目录维护大量的CREATE和DROP命令会导致系统表的迅速膨胀，以至于影响系统性能。· 由于MVCC事务并发模型的原因，已经删除或者更新的记录仍然占据着磁盘空间。· 如果数据...

2020-04-13 15:43:18 536

原创 GreenPlum--事务管理

定义事务允许将多个SQL语句放在一起作为一个整体操作，左右SQL一起成功或失败使用事务：在GP中执行事务的SQL 命令：使用BEGIN或START TRANSACTION 开始一个事务块使用END或COMMIT提交事务块使用ROLLBACK回滚事务而不提交任何修改使用SAVEPOINT选择性的保存事务点，之后可以使用ROLLBACK TO SAVEPOINT回滚之前保存的事务。事务隔...

2020-04-13 14:44:52 1510

原创 GreenPlum--增、删、改

插入新记录1、需要表名和该表每列的值使用INSERT命令插入数据INSERT INTO tb_cp_02 VALUES (1,‘2013-12-31’,9.99);2、显式的指定列名插入数据INSERT INTO tb_cp_02(data,id,amt) VALUES (‘2013-12-31’,2,9.99);3、从另一个表中获取并插入到当前表INSERT INTO tb_cp_0...

2020-04-13 12:05:07 1774

原创 GreenPlum--并发控制

GP的并发控制GP使用多版本控制模型（Mutltiiversion Concurrency Control/MVCC）保持数据一致性MVCC以避免给数据库事务显示锁定的方式，最大化减少锁挣用以确保多用户环境下的性能GP提供了各种锁机制来控制对表数据的并发访问GP为每个事务提供事务隔离插入新记录更新记录删除记录事务管理...

2020-04-10 16:07:18 575

原创 GreenPlum--视图篇

对于那些使用频繁或比较复杂的查询，通过创建视图（VIEW）可以把其当作访问表一样使用SELECT语句来访问：视图不能存在与物理介质上创建视图视图会忽略ORDER BY 或者排序操作；使用CREATE VIEW命令将查询语句定义为一个视图。例如：CREATE VIEW vm_01 AS SELECT * FROM table WHERE gender=‘F’;删除视图使用DROP VIE...

2020-04-10 15:07:31 856

原创期货

衍生产品（derivative）是指由某种更为基本的变量派生出来的产品。衍生产品的标的变量常常是某种交易资产的价格。例如，股票期权是由股票价格派生出的衍生产品。然而，衍生产品价值可以依赖于几乎任何变量，其中包括从猪肉价格到某个滑雪胜地的降雪量。期货的概念：期货，期有两个意思：1、日期、期限；2、预期。通俗理解，期货就是一种商品，一种在将来约定的时间期限交割的商品。我们预期某种商品在...

2020-04-10 14:51:30 147

原创 GreenPlum--索引详解

一、索引的类型：PostgreSQL提供了多　　种索引类型：B-Tree、Hash、GiST和GIN，由于它们使用了不同的算法，因此每种索引类型都有其适合的查询类型，缺省时，CREATE INDEX命令将创建B-Tree索引。1. B-Tree:CREATE TABLE test1 ( id integer, content varchar);CREATE INDEX ...

2020-04-09 14:32:10 1945

原创 PostgreSQL--索引篇

一、索引的类型：PostgreSQL提供了多种索引类型：B-Tree、Hash、GiST和GIN，由于它们使用了不同的算法，因此每种索引类型都有其适合的查询类型。缺省时，CREATE INDEX命令将创建B-Tree索引。PostgreSQL中没有Bitmap索引，而GP中删除了Hash索引。1. B-Tree:平衡树通过树形结构将所有数据组织，然后开枝散叶分布在每一个枝叶上，通过二分法...

2020-04-08 14:31:38 336

原创 GP--表分区管理(二)

定义日期范围分区表日期范围分区表使用单个date或者timestamp字段作为分区键。可以通过使用START值、 END值和EVERY子句定义分区增量让GPDB自动产生分区。缺省情况下， START值总是被包含而END值总是被排除（左闭右开）。CREATE TABLE sales (id int, date date, amt decimal(10,2)) DISTRIBUTE...

2020-04-02 15:05:54 2505 1

原创 GreenPlum--创建与管理模式（schema）

模式： DB内组织对象的一种逻辑结构。位于每一个数据库（DB）下面。PUBLIC 模式：每一个DB都自带的schema。创建的任何对象，在没有指定schema时，默认创建到PUBLIC下。创建模式：使用CREATE SCHEMA命令==>CREATE SCHEMA sc01；访问模式的对象：schema.table将Owner设置为其他的Role： create schema...

2020-04-02 10:32:00 2443

原创 GP--创建与管理序列

创建与管理序列序列常用于在新增记录时自动生成唯一标识符，序列的管理包括创建序列、使用序列、修改序列以及删除序列。(1)创建序列gpadmin=# \h CREATE SEQUENCE 查看创建序列的帮助创建名为myserial 的序列CREATE SEQUENCE myserial START 101;devdw=# \ds ...

2020-04-01 16:15:20 1082

原创 GP--大表分区管理(一)

表分区使用背景：表分区用以解决特别大的表的问题，比如事实表，解决办法就是将表分成很多小且更容易管理的部分。在CREATE TABLE时使用PARTITION BY(以及可选的SUBPARTITION BY)子句来做分区。在GPDB中对一张表做分区，实际上是创建了一张顶层(父级)表和多个低层(子级)表。在内部， GPDB在顶级表与低级表之间创建了继承关系(类似于PostgreSQL中的继承/...

2020-04-01 14:53:02 1247

原创 OLTP与OLAP简介

一、两者的概述不同：1、OLTP的概述：On-Line Transaction Processing 联机事务处理过程（OLTP），也称为面向交易的处理过程。2、OLAP的概述：联机分析处理OLAP是一种软件技术，它使分析人员能够迅速、一致、交互地从各个方面观察信息，以达到深入理解数据的目的。二、两者的特点不同：1、OLTP的特点：结构复杂、实时性要求高。2、OLAP的特点：联机分析处...

2020-03-30 10:21:02 1358

原创使用pgadminⅢ连接GreenPlum 出现的错误

1、在安装完成pgadmin后，运行pgadmin连接服务器主机数据库，会报错解决方案：master主机ip：192.168.xx.xx在/data/master/gpseg-1/pg_hba.conf 找到pg_hba.conf文件，添加：host all all 192.168.xx.x/x md5最好不要改md5为 trust，trust是不需要密码就可以进入，安全性低；/dat...

2020-03-26 17:04:48 536

空空如也

空空如也