自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(470)
  • 资源 (1)
  • 收藏
  • 关注

原创 Hierarchical Queries in Oracle

有一些表存在层级关系,例如Oracle的示例表hr.employees:LAST_NAME EMPLOYEE_ID MANAGER_ID King 100 - Kochhar 101 100 De Haan 102 100 Hunold 103 102 Ernst 104 103 可以看到每个员工有自己的manager,从而形成类似这样的层级关系:King是最大的领导,因此他就是root,下面有.

2021-09-26 18:27:57 320 1

原创 SQL left/right join

记一下left/right join中,使用不同条件的不同结果。测试表:create table yan_test1 ( id int,test VARCHAR(20))create table yan_test2 ( id int,test VARCHAR(20))Query1select a.*, b.*from yan_test1 a, yan_test2 bwhere a.id = b.id (+)------------------------1 test_string

2021-09-18 09:57:09 250

转载 Oracle中的物化视图

原文A materialized view is a replica of a target master from a single point in time. The master can be either a master table at a master site or a master materialized view at a materialized view site.A materialized view can be either read-only, updatable..

2021-04-06 20:55:35 432

原创 Oracle中的表概览

表是Oracle数据库中数据组织的基本单元。Oracle支持多种表,从不同的角度可划分为多种类型:关系型表(Relational tables)和对象型表(Object tables)关系型表是最常见的表类型。关系型表是一张二维表,其中“关系”是指不同字段值组合在一起构成的关系,以及表与表之间的关系(也就是外键)。熟悉Java等面向对象语言的同学应该对“对象”这个概念很熟悉。对象型表是指表中的数据支持封装,继承等面向对象特性的那些表。堆表(heap-organized table)和索引组织

2021-02-01 19:59:56 550

原创 Oracle数据库架构

参考文档多租户架构Instance由内存中的SGA和一系列的进程组成。CDB由control file,online redo files and data files组成。instance + CDB则组成了一个Oracle database。PDBs是由用户创建的,物理上由一个或多个data files组成。由于PDBs只有data files,显然PDBs需要“plug”到CDB才能使用。PDBs也可以被unplugged,unplugged后的PDBs包含一个或.

2021-02-01 11:39:52 335 1

原创 Oracle中的row结构

参考文档Oracle中一行数据是由一个或多个row piece组成的。如果一整行数据可以被放入一个单独的data block中,则这一整行数据就是一个row piece。如果由于一行数据太长,需要将一行数据放入多个data block中,则将这一整行数据拆分成多个row piece,一个row piece放入一个data block。一个data block通常也只会存储一行数据的一个row piece。每一行数据在data block header的row directory中都有一个slot,记

2021-01-29 18:20:01 1268

原创 记录几个Oracle官方文档

Oracle Database ConceptsSQL Tunning GuideDatabase Performance Tunning GuideData Warehouse Guide

2021-01-29 15:21:34 141

原创 Pandas中的groupby方法

参考文档Pandas中的groupby可以分成split-apply-combine来理解: 1,Split the data into groups 2,Apply a function to each group independently 3,Combine the results into a data structure其中第一步就是由groupby方法实现的。例如将dataframe按照性别分组。>>> file.groupby("Se...

2021-01-22 15:39:01 5698 1

原创 将数组中的数字按出现次数排序打印

l= [0,1,2,0,2,2,1,1,4]dic = {}for v in l: # 统计每个数字出现的次数并存入dictionary,数字本身为key,出现的次数为value。 if v in dic: dic[v] = dic[v] + 1 else: dic[v] = 1l_new = [None] * len(l) # 生成一个listfor k,v in dic.items(): # 将dictionary中统计的数字放入lis...

2021-01-21 19:12:33 647

原创 找出数组中两个元素相加等于10的组合

1,O(N^2) 双重循环:def get_pair(input_list): # 简单双重循环,结果会有很多重复值。 for v1 in input_list: for v2 in input_list: if v1 + v2 == 10: print(v1, v2)l = [2,3,5,1,8,9,5,7,4,6,9]get_pair(l)--------------------------------

2021-01-18 12:29:26 3427 1

原创 Python的进阶话题

1,Closuredef outer_f(x): def inner_f(y): return x + y return inner_f # 注意这里只写函数名,不能带(),因为不是调用,而且把函数的identifier送出去。test = outer_f(3) # closure的意思是,将outer_f(3)的逻辑和状态作为一个整体封装起来,因此称为closure。print(test(5))2,Generatordef f(): # 这个函数称为一

2021-01-16 14:19:01 213

原创 用Python访问Elasticsearch

首先,虽然Python提供访问网络资源的module,但是不好用。更常用的是第三方的requests类库:官网1,在浏览器中输入url:http://localhost:9200/,则会返回如下Elasticsearch的基本信息。{ "name" : "ubuntu", "cluster_name" : "elasticsearch", "cluster_uuid" : "chev4_PcSg2Lfw_Me1o2xg", "version" : { "number" :

2021-01-15 15:09:58 652

原创 Python常用类库

官方文档1和官方文档21,OSThe os module provides dozens of functions for interacting with the operating system。>>> import os>>> os.getcwd() # 其实看起来和命令行操作很像。'/home/PycharmProjects/pythonProject1'>>> os.chdir('/home')>>> o

2021-01-15 10:36:16 454

原创 Elasticsearch 简介

Elasticsearch现在在数据处理领域得到了广泛使用。在Elasticsearch中,数据的逻辑单元称为index(类似数据库中的表),而其中的数据成为document(类似数据库中的一行数据)。当我们把数据load到Elasticsearch时,例如load一个JSON文件,该文件中的数据会被load到一个index中,且一行JSON数据成为一个document。而每个value需要被自动映射到datatype上,这个过程是Elasticsearch自动完成的,称为dynamic mappin.

2021-01-14 15:14:32 798

原创 Python基础(二)

1,Lambda函数Lambda是一种简洁的表达方式,且只能是一行代码。例如:def add(x, y): return x + yadd(5, 3)和如下Lambda函数是等效的:add = lambda x,y:x+yadd(5,3) # 由此可见lambda表达式返回的是一个function# 甚至等同于下面更为简洁的写法,即不需要给函数命名:(lambda x, y: x + y)(5, 3)2,Local and Global ScopeLocal sc

2021-01-12 09:57:47 145

转载 Oracle的primary key

转载:https://www.oracletutorial.com/oracle-basics/oracle-primary-key/

2021-01-12 08:09:02 274

原创 PL/SQL中的循环控制

参考原文:controlling-the-flow-of-execution1, For loopFor loop分为numeric and a cursor FOR loop两种:PROCEDURE display_multiple_years ( -- numeric FOR loop的例子 start_year_in IN PLS_INTEGER ,end_year_in IN PLS_INTEGER)ISBEGIN FOR l_current_year --

2021-01-11 16:27:26 187

原创 PL/SQL中的BULK COLLECT/FORALL

本文参考文档:bulk collect and forall我们通常会在PL/SQL中同时使用PL/SQL和SQL statements。PL/SQL statements are run by the PL/SQL statement executor; SQL statements are run by the SQL statement executor. When the PL/SQL runtime engine encounters a SQL statement, it stops and

2021-01-11 16:05:36 173

原创 PL/SQl基础概览

本文参考了官方文档:https://www.oracle.com/database/technologies/appdev/plsql.htmlPL/SQL的特点:a,PL/SQL is case-insensitive with regard to identifiers. 通常的做法是关键字大写,变量名等使用小写且用下划线分割。b,Unless you put double quotation marks around the names of those database objects(t

2021-01-11 12:32:56 271

原创 Oracle中的分析函数

Oracle中的分析函数功能强大,非常方便,因此要重点掌握。现在SQL Server,MySQL也都提供了类似的函数。1,基本语法

2020-10-10 12:46:50 815

原创 Oracle中的内置函数

Oracle中的内置函数非常多,这里只介绍比较常用的。1,字符型函数LOWER/UPPER – 大小写转换select upper('this is a lower string.') from dual;CONCAT – 连接两个字符串select concat('abc','def') from dual;SUBSTR – 从字符串中截取子字符串select substr('abcdef',0,4) from dual; --0表示从第一位开始截取,4表示截取4个字符。省略4表示截取到

2020-10-09 19:57:16 276

原创 Oracle中的基础数据类型

一,字符型CHAR - 定长字符类型,单位可以使用字节数或字符数。例如:CHAR(2 BYTE) -- 长度为2个字节CHAR(2 CHAR) -- 长度为2个字符,具体占几个字节还要看编码。比如存储双字节的汉字,则实际长度是4个字节。CHAR(2) -- 不指定则表示长度为2个字节VARCHAR/VARCHAR2varchar和varchar2在Oracle里是同义词,但是Oracle建议使用VARCHAR2。变长字符类型,和char类似,其单位可以使用字节数或字符数。VARCHAR2(2

2020-10-09 16:48:21 779

原创 聊一聊float和double数字类型

一,什么是浮点?“浮点”是相对“定点”而言的,表示存储时小数点的位置是不固定的,浮动的。为什么要使用浮点数呢?答案是为了节约存储空间。例如:如果一个变量可能会被用来存储这两个数:10000.0和0.00001。如果用定点数,那么这个变量至少可以保存:10000.0000000000.00001可见用定点数,必须一个0都不能少,原原本本地保存下来。而使用浮点数,就可以保存:小数:1 指数:10的4次方小数:1 指数:10的-4次方只需要保存小数部分和小数点的位置就可以了。这样就大大节省了存储

2020-10-09 14:56:53 1381

原创 分布式数据处理系统的基本原则与设计理念

本文涉及ACID,CAP,和BASE的含义。

2020-10-07 10:24:05 531

转载 Spark学习笔记六(Spark和Hadoop的关系)

Spark is an in-memory distributed computing engine.Hadoop is a framework for distributed storage (HDFS) and distributed processing (YARN).Spark can run with or without Hadoop components (HDFS/YARN)Distributed Storage:Since Spark does not have its own d

2020-10-06 21:15:25 212

原创 Spark学习笔记二(SparkSessions)

正如连接到数据库需要定义连接字符串并使用session一样,要连接到Spark需要使用SparkContext或SparkSession。SparkContext is an entry point to Spark programming with RDD and to connect to Spark Cluster, Since Spark 2.0 SparkSession has been introduced and became an entry point to start programm

2020-10-06 07:16:16 1095

原创 详解PostgreSQL中的继承

Inheritance是PostgreSQL独有的,也是前文中我们提到的“使用面向对象的思想来组织数据库”的具体体现之一。一, 表的继承。这里我们使用官网说明中的例子,原文在这里:https://www.postgresql.org/docs/12/tutorial-inheritance.htmlCREATE TABLE cities (name text,population real,elevation int – (in ft));CREATE TABLE

2020-10-03 21:51:27 2609

原创 SQLAlchemy--Python专用ORM

https://www.sqlalchemy.org/SQLAlchemySQLAlchemy includes dialects for SQLite, Postgresql, MySQL, Oracle, MS-SQL, Firebird, Sybase and others, most of which support multiple DBAPIs. Other dialects are published as external projects.

2020-10-03 10:09:54 160

原创 使用Python连接PostgreSQL

在Python脚本中连接PostgreSQL数据库,并取回一些数据。

2020-10-03 09:02:55 1739

原创 在Linux中安装PostgreSQL并连接

一步步完成安装并连接PostgreSQL

2020-10-02 11:17:44 5253

原创 Python基础(一)

Python基础介绍。

2020-09-30 08:56:14 207

原创 Pandas简介

本文介绍了Pandas的基本功能:导入数据,对数据实现类似SQL的查询,可视化数据等。

2020-09-30 07:49:26 267

原创 Java中的Collection介绍

https://docs.oracle.com/javase/tutorial/collections/interfaces/index.htmlCollection可以说是把多个元素组合在一起的一种对象。Java中的collection分为5大类。对于这6类分别有对应的interface:set/list/queue/deque/map interfaces。These interfaces...

2019-08-18 07:44:39 3751

原创 Java中的annotation

Annotations, a form of metadata, provide data about a program that is not part of the program itself. Annotations have no direct effect on the operation of the code they annotate.Annotations have a ...

2019-08-18 07:11:13 285

原创 Java类中的常用关键字介绍

public class Bicycle { private int cadence; //field private int gear; private int speed; static final int test = 1; public Bicycle(int startCadence, int sta...

2019-08-17 21:13:24 693

原创 MongoDB简介

MongeDB是一个开源的文档数据库(Document Database),旨在将数据作为类 JSON 文档存储和查询。文档数据库让开发人员可以使用他们在其应用程序代码中使用的相同文档模型格式,更轻松地在数据库中存储和查询数据。文档和文档数据库的灵活、半结构化和层级性质允许它们随应用程序的需求而变化。document database是内容管理应用程序的一个绝佳选择,例如博客和视频平台。通过文档...

2019-08-15 14:36:12 478

原创 DynamoDB简介

https://docs.aws.amazon.com/amazondynamodb/latest/developerguide/HowItWorks.CoreComponents.htmlDynamoDB是AWS提供的key/value和document型数据库。DynamoDB既是key/value数据库,也是document数据库,原因在下面解释。1,所有的数据都存储在SSD中,可以...

2019-08-15 14:13:44 2687

原创 大数据系统常用文件存储格式File format

常见的文件存储格式有行式存储,列式存储和混合式存储。在大数据系统中,列式存储和混合式存储更常见。对于HDFS这样的文件存储系统来说,其实并不关心存储的是什么形式的存储文件。只是在解析数据时,需要知道是什么类型的文件。例如Hive对RCFile和ORCFile的支持就在于,Hive知道这两种文件中数据的存储方式,并正确地解析数据并查询。1,行式存储广泛使用于主流关系型数据库及HDFS中。优势...

2019-08-15 10:24:28 2799

原创 Hadoop2.0架构

Hadoop1.0的架构请参考另外一篇文章。Hadoop2.0中对HDFS1和MRv1进行了改进,分别称为HDFS2和YARN(MRv2)。HDFS的改进在HDFS 1.0中,NameNode是master node,仅有一个节点,是单机失败的。因此在Hadoop2.0中对单个Namenode做了HA改进:NameNode成为了:Active Namenode和Standby Na...

2019-08-14 17:32:10 582

原创 Redshift 简介

Redshift是AWS提供的关系型数据库管理系统(RDBMS),基于PostgreSQL,但二者的差别非常大。可以通过自带的Redshift客户端连接Redshift数据仓库,也可以使用第三方的SQL WorkbenchJ来连接。Redshift架构Redshift集群由一个leader node和多个compute nodes构成,如下文中图所示。leader node负责多个comp...

2019-08-13 20:38:07 5680

Camel in action

Camel In Action PDF.英文版。

2015-04-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除