6 fly_air

尚未进行身份认证

暂无相关简介

等级
TA的排名 2w+

hadoop平台存储文件格式的概念及对比

背景在实施大数据平台项目或直接说hadoop平台类的项目时,开发设计人员总会对"文件格式"感到困惑,不知道该如何理解和使用。常见的问题有以下几种:hdfs支持哪些文件格式? txt格式、rc格式和orc格式有什么区别? orc格式和parquet格式哪个好? 该怎么去选择这些格式,这些格式的文件都有什么优缺点? Hbase和ElasticSearch为什么也是文件存储格式的一种?...

2019-12-15 02:00:49

pg数据库的结构理解

1 概述PostgreSQL官方介绍称是最先进的开源关系型数据库,支持所有主流的平台,目前已经更新到了最新版本的12.0,在MySQL被Oracle收购后,PostgreSQL开源社区越来越活跃了,同时还有分布式集群的开源方案GreenPlum,目前也非常受欢迎。本篇文章讨论PostgreSQL内部的架构,内部的组件是如何工作的,这对一个DBA是非常重要的内容。2 PostgreSQL架构...

2019-12-09 14:59:10

在Java中集成Python,Java与Python协作方式

写在前面在微服务架构大行其道的今天,对于将程序进行嵌套调用的做法其实并不可取,甚至显得有些愚蠢。当然,之所以要面对这个问题,或许是因为一些历史原因,或者仅仅是为了简单。恰好我在项目中就遇到了这个问题,需要在Java程序中调用Python程序。关于在Java中调用Python程序的实现,根据不同的用途可以使用多种不同的方法,在这里就将在Java中调用Python程序的方式做一个总结。直接通过...

2019-12-02 16:33:54

数据血缘关系简述

数据的血缘关系作为数据治理很重要的部分,需要引起格外的重视。数据血缘关系的概念在人类社会中,血缘关系是指由婚姻或生育而产生的人际关系。如父母与子女的关系,兄弟姐妹关系,以及由此而派生的其他亲属关系。它是人先天的与生俱来的关系,在人类社会产生之初就已存在,是最早形成的一种社会关系。大数据时代,数据爆发性增长,海量的、各种类型的数据在快速产生。这些庞大复杂的数据信息,通过联姻融合、转换变换...

2019-12-02 14:03:53

彻底搞清楚javascript中的require、import和export

为什么有模块概念理想情况下,开发者只需要实现核心的业务逻辑,其他都可以加载别人已经写好的模块。但是,Javascript不是一种模块化编程语言,在es6以前,它是不支持”类”(class),所以也就没有”模块”(module)了。require时代Javascript社区做了很多努力,在现有的运行环境中,实现”模块”的效果。原始写法模块就是实现特定功能的一组方法。只要把不...

2019-10-26 21:50:31

大数据专业术语

1、CDM概念数据模型(Conceptual Data Model),简称概念模型,是面向数据库用户的现实世界的模型,主要用来描述世界的概念化结构,它使数据库的设计人员在设计的初始阶段,摆脱计算机系统及DBMS的具体技术问题,集中精力分析数据以及数据之间的联系等,与具体的数据库管理系统(Database Management System,简称DBMS)无关。https://baike.b...

2019-10-26 17:45:51

Apache Flink 1.9 重大特性提前解读

今天在 Apache Flink meetup ·北京站进行 Flink 1.9 重大新特性进行了讲解,两位讲师分别是 戴资力/杨克特,zhisheng 我也从看完了整个 1.9 特性解读的直播,预计 Flink 1.9 版本正式发布时间大概是 7 月底 8 月初左右正式发布,下面一起来看看直播内容:架构改动...

2019-08-10 12:41:11

MapReduce中partition、sort、group

partition是分区,默认根据key的hash值分区,确定各个key分到哪个reducer中去,计算方法一般是HashValue%Num(reducer),如果只有一个分区,则全都分配到一个区。sort是在分区内根据key进行排序。group是分组,是在partition里面再分组,相同的key分到一个组中去,实现方法是compare(o1,o2),相同为一个group。有些问题需...

2019-07-30 22:40:54

MapReducek shuffle过程解析(setPartitionerClass、setSortComparatorClass和setGroupingComparatorClass三者关系)

Map首先将输出写到环形缓存当中,开始spill过程:job.setPartitionerClass(PartitionClass.class);【按key分区】map阶段最后调用。对key取hash值(或其它处理),指定进入哪一个reducejob.setSortComparatorClass(SortComparator.class);【按key排序】每个分区内,对 键 或 键的部分 ...

2019-07-30 22:20:07

一文带你彻底理解Linux的各种终端类型及概念

每天使用Linux每天都要接触到Bash,使用Bash时似乎永远都让人摸不着头脑的概念就是终端,坐在这台运行着Linux的机器的显示器前面,这个显示器就是终端的输出,而插在机器上的USB键盘或者PS/2键盘就是终端的输入,看来这是一种最直白意义上关于终端的解释。但是有的时候,机器上并没有看到显示器或者键盘接口,但是却有一个串口,想操作这台机器想必只能通过这个串口来进行了,这个时候,串口另一端的...

2019-07-29 23:06:17

分享:阿里P8架构师深度概述分布式架构

简介作为一名架构师,我们要专业,要能看懂代码,及时光着臂膀去机房,也能独挡一面!及时同事搞不定问题,或者撂挑子,你也能给老大一个坚定的眼神:不怕,有我在!还能在会议室上滔滔不绝,如若无人,让不懂技术的妹子看你时眼神迷离,就好想落霞与孤鹜齐飞!分布式架构是一个非常复杂的体系,任何技术都不是孤立的存在,任何技术都无法适应所有场景。作为一名分布式系统架构或者资深研发人员,我们必须尽可能多的学习与...

2019-05-05 13:43:01

阿里P8架构师谈:从单体架构、到SOA、再到微服务的架构设计详解

本文涉及的内容以及知识点如下:1、单体架构2、单体架构的拆分3、SOA与微服务的区别4、微服务的优缺点5、微服务的消息6、服务集成7、数据的去中心化单体架构Web应用程序发展的早期,大部分web工程是将所有的功能模块(service side)打包到一起并放在一个web容器中运行,很多企业的Java应用程序打包为war包。其他语言(Ruby,Python或者...

2019-05-05 13:21:37

Scrapy简单入门及实例讲解

Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。Scrapy 使...

2019-05-05 12:35:07

linux 发行版族谱

早期继承关系截止2018继承关系

2018-12-23 12:23:50

git图谱

git图谱

2017-11-21 18:03:41

maven生命周期(lifecycle)—— maven权威指南学习笔记(四)

定义: 生命周期是包含在一个项目构建中的一系列有序的阶段举个例子来说就是maven 对一个工程进行:验证(validate)……编译源码(compile)……编译测试源码(test-compile)……单元测试(test)……打包(package)……安装至本地仓库(install)复制到远程仓

2017-11-07 21:06:26

SOAP和WSDL的一些必要知识

SOAP和WSDL对Web Service、WCF进行深入了解的基础,因此花一些时间去了解一下是很有必要的。一、SOAP(Simple Object Access Protocol)如果我们要调用远程对象的方法,就必定要告诉对方,我们要调用的是一个什么方法,以及这个方法的参数的值等等。然后对方把数据返回给我们。这其中就涉及到两个问题:1、数据如何在网络上传输。2、如何表示数

2017-08-12 11:50:00

Javascript异步编程的4种方法

你可能知道,Javascript语言的执行环境是"单线程"(single thread)。所谓"单线程",就是指一次只能完成一件任务。如果有多个任务,就必须排队,前面一个任务完成,再执行后面一个任务,以此类推。这种模式的好处是实现起来比较简单,执行环境相对单纯;坏处是只要有一个任务耗时很长,后面的任务都必须排队等着,会拖延整个程序的执行。常见的浏览器无响应(假死),往往就是

2017-07-05 13:29:55

JVM的内存区域划分Eden Space、Survivor Space、Tenured Gen,Perm Gen

JVM的内存区域划分Eden Space、Survivor Space、Tenured Gen,Perm Gen

2017-03-29 12:38:09

Maven新手介绍如何使用Eclipse创建Maven Web工程的方法

Maven新手介绍如何使用Eclipse创建Maven Web工程的方法http://jingyan.baidu.com/article/9f63fb91a7d2a5c8400f0e20.html

2017-01-15 11:53:12

查看更多

勋章 我的勋章
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。