15 天地不仁以万物为刍狗

尚未进行身份认证

我要认证

天之道,损有余而补不足 人之道,损不足以奉有馀

等级
TA的排名 1w+

AWS Big Data - Athena presto和hive适用场景

presto和hive的一些对比 1.本质区别Hive是把一个查询转化成多个MapReduce任务,然后一个接一个执行。执行的中间结果通过对磁盘的读写来同步。然而,Presto没有使用MapReduce,它是通过一个定制的查询和执行引擎来完成的。它的所有的查询处理是在内存中,这也是它的性能很高的一个主要原因。2.执行速度presto由于是基于内存的,而hive是在磁盘上读写的,因此presto比hive快很多,但是由于是基于内存的当多张大表关联操作时易引起内存溢出错误3.处理json类型...

2020-07-03 19:15:07

阿里云Big Data - 漫谈数据仓库之维度建模

漫谈数据仓库之维度建模下面的内容,是笔者在学习和工作中的一些总结,其中概念性的内容大多来自书中,实践性的内容大多来自自己的工作和个人理解。由于资历尚浅,难免会有很多错误,望批评指正!概述数据仓库包含的内容很多,它可以包括架构、建模和方法论。对应到具体工作中的话,它可以包含下面的这些内容:以hadoop、Spark、Hive等组建为中心的数据架构体系。各种数据建模方法,如维度建模。调度系统、元数据系统、ETL系统、可视化系统这类辅助系统。我们暂且不管数据仓库的范围到底有多大,在数据仓库体系中

2020-07-02 21:59:46

阿里云Big Data - dataworks和MaxCompute之间的关系与区别

dataworks和MaxCompute之间的关系与区别MaxCompute做数据存储和数据分析处理,Dataworks是集成了数据集成、数据开发调试、作业编排及运维、元数据管理、数据质量管理、数据API服务等等功能的大数据开发IDE套件。类似Spark和HUE的关系,不知道这个对比是否准确。MaxCompute存储目前只暴露表,能处理非结构化数据吗?可以,非结构化数据可以存放在OSS上,一种方式是通过外表方式,通过自定义Extractor来实现非结构化处理为结构化数据的逻辑。另外,也可以用

2020-07-02 21:58:12

阿里云Big Data - dataworks和dataphin两款产品的区别

区别1:产品功能不同1、Dataworks,在阿里集团内部为大家所熟知的部分是D2,在阿里云则是数加平台的主体-数据工厂。DataWorks(数据工场)具备全栈数据研发能力(数据集成与开发、 生产运维调度、离线与实时分析、数据质量治理与资产管理、安全防护、数据共享与服务、机器学习、数据应用搭建)的大数据平台;2、Dataphin,通过输出阿里数据中台实战沉淀的大数据建设体系OneData+OneID +OneService(产品+技术+方法论),一站式提供集数据引入、规范定义、数据建模、数据研发、数据萃

2020-07-02 19:44:16

阿里云Big Data - 如何优雅地设计数据分层 ODS DW DM层级

数据仓库更多代表的是一种对数据的管理和使用的方式,它是一整套包括了etl、调度、建模在内的完整的理论体系。现在所谓的大数据更多的是一种数据量级的增大和工具的上的更新。 两者并无冲突,相反,而是一种更好的结合。话说,单纯用用Hadoop、Spark、Flume处理处理数据,其实只是学会几种新的工具,这是搞工具的,只是在数据仓库中etl中的一部分。当然,技术的更新往往能领到一个时代的变革,比如Hadoop的诞生,光是深入研究一个大数据组件就要花很大的时间和精力。但是在热潮冷却之后,我们更应该考虑地是如何

2020-07-02 16:13:35

阿里云Big Data - |分层| ODS& DWD& DWS& ADS| 行为数仓

有基础了解大致情况, 详细请参考原文数仓分层ODS:Operation Data Store原始数据DWD(数据清洗/DWI)data warehouse detail数据明细详情,去除空值,脏数据,超过极限范围的明细解析具体表DWS(宽表-用户行为,轻度聚合)data warehouse service ----->有多少个宽表?多少个字段服务层--留存-转化-GMV-复购率-日活点赞、评论、收藏;轻度聚合对DWDADS(APP/DAL/DF)-出报表结...

2020-07-02 15:28:26

阿里云Big Data - 阿里云大数据利器Maxcompute学习之-假如你使用过hive

记录一下关键内容详细内容请参照原文https://yq.aliyun.com/articles/86574如果您是一个大数据开发工程师并且使用过hadoop的hive框架,那么恭喜您,阿里云的大数据计算服务-Maxcompute,您已经会了90%。这篇文章就来简单对比下Maxcompute和hive的异同,来方便刚开始使用Maxcompute的用户,从hive秒速迁移到Maxcompute的使用上。首先,回顾下hive的概念。1、hive是基于hadoop的,以表的形式来存储数据,实际.

2020-07-02 14:28:03

spring boot 打成jar包后 获取通过命令行传入的参数

方式一:java -jar xx-1.1.2.RELEASE.jar aaa bbb cccc通过main方法的参数获取:System.out.println("java -jar xxx.jar aaa bbb cccc 方式传参:"+args[0]+","+args[1]+","+args[2]); 方式二:java -jar xx-1.1.2.RELEASE.jar --a1=aaa --b1=bbb --c1=ccc或者java -a1=aaa -b1=bbb -c1=cc.

2020-05-13 10:04:20

CentOS7 使用yum命令安装Java SDK(openjdk)

CentOS 6.X 和 7.X 自带有OpenJDK runtime environment(openjdk)。它是一个在linux上实现开源的java 平台。安装方式:1、输入以下命令,以查看可用的JDK软件包列表;yum search java | grep -i --color JDK2、在CentOS linux安装 JAVA SDK在命令行终端以root用户 输入以下命令yum安装 OpenSDK :yum install java-1.8.0-openjdkjav...

2020-05-12 14:58:45

[系统架构] ElasticSearch详解

0. 带着问题上路——ES是如何产生的?(1)思考:大规模数据如何检索?如:当系统数据量上了10亿、100亿条的时候,我们在做系统架构的时候通常会从以下角度去考虑问题:1)用什么数据库好?(mysql、sybase、oracle、达梦、神通、mongodb、hbase…)2)如何解决单点故障;(lvs、F5、A10、Zookeep、MQ)3)如何保证数据安全性;(热备、冷备...

2020-03-27 11:10:14

数据治理 - 数据仓库 解释

一、数据仓库数据仓库是一个面向主题的、集成的、相对稳定的、反应历史变化的数据集合,用于支持管理决策。l 面向主题:传统的数据库是面向事务处理的,而数据仓库是面向某一领域而组织的数据集合,主题是指用户关心的某一联系紧密的集合。l 集成:数据仓库中数据来源于各个离散的业务系统数据库、外部数据、非结构化数据的集合,数据仓库数据是集成的。l 相对稳定:数据仓库中的数据不应该支持dml操作,...

2020-03-04 13:44:38

数据治理 - 漫谈数据仓库之维度建模

概述数据仓库包含的内容很多,它可以包括架构、建模和方法论。对应到具体工作中的话,它可以包含下面的这些内容:以Hadoop、Spark、Hive等组建为中心的数据架构体系。 各种数据建模方法,如维度建模。 调度系统、元数据系统、ETL系统、可视化系统这类辅助系统。我们暂且不管数据仓库的范围到底有多大,在数据仓库体系中,数据模型的核心地位是不可替代的。因此,下面的将详细地阐述数据...

2020-03-03 20:54:37

数据治理 - 数据仓库历史数据存储 - 拉链表

什么是拉链表拉链表是针对数据仓库设计中表存储数据的方式而定义的,顾名思义,所谓拉链,就是记录历史。记录一个事物从开始,一直到当前状态的所有变化的信息。我们先看一个示例,这就是一张拉链表,存储的是用户的最基本信息以及每条记录的生命周期。我们可以使用这张表拿到最新的当天的最新数据以及之前的历史数据。注册日期 用户编号 手机号码 t_start_date t_en...

2020-03-03 15:27:39

【大数据安全】基于Kerberos的大数据安全验证方案

1.背景互联网从来就不是一个安全的地方。很多时候我们过分依赖防火墙来解决安全的问题,不幸的是,防火墙是假设“坏人”是来自外部的,而真正具有破坏性的攻击事件都是往往都是来自于内部的。近几年,在thehackernews等网站上总会时不时看到可以看到一些因为数据安全问题被大面积攻击、勒索的事件。在Hadoop1.0.0之前,Hadoop并不提供对安全的支持,默认集群内所有角色都是可靠的。用户访...

2020-01-16 13:57:09

kerberos认证原理---讲的非常细致,易懂

前几天在给人解释Windows是如何通过Kerberos进行Authentication的时候,讲了半天也别把那位老兄讲明白,还差点把自己给绕进去。后来想想原因有以下两点:对于一个没有完全不了解Kerberos的人来说,Kerberos的整个Authentication过程确实不好理解——一会儿以这个Key进行加密、一会儿又要以另一个Key进行加密,确实很容易把人给弄晕;另一方面是我讲解方式有问题...

2020-01-16 13:39:02

开源大数据平台如何才能保证身份认证安全?Kerberos

在古希腊神话中,Kerberos是住在冥河岸边的三头犬,负责看守冥界的入口。而在信息技术界,Kerberos是一种被广泛采用的网络认证协议,通过对称加密的技术,保护网络系统的安全。特别是在Hadoop开源大数据平台,Kerberos是内置支持的安全的用户认证方式。它可以独立于各服务组件,保证只有通过身份认证的节点才可以访问对应的服务,进而维护开源大数据的系统安全。作为开源大数据卫士的Kerbe...

2020-01-16 13:27:39

CentOS中环境变量和配置文件

https://www.cnblogs.com/woshimrf/p/shell-environment.html/etc/profile $HOME/.bash_profile $HOME/.bashrc $HOME/.bash_login $HOME/.profile

2019-11-28 16:09:39

rancher跟k8s有那些不同

rancher:1、采用图形化方式:易用的Web管理界面,在Docker易用性的基础上,再一次降低了使用容器技术部署容器应用的难度。2、支持多种调度器:通过环境模板,很容易地创建和部署Cattle、Swarm、K8S、Mesos容器集群管理调度平台。3、管理主机集群:管理对象是多台主机的集群,而不仅仅是单台容器主机,创建和管理几台、几十台应用服务器集群,只需要Ctrl+C、Ctrl+V...

2019-11-18 16:35:27

(验证过)使用Win10系统远程桌面连接CentOS7系统方法 CentOS7使用GNOME Desktop可视化桌面

1.CentOS安装桌面在安装系统时如果没有选用最精简安装的话,可以在装系统时候默认安装GNOME,如果忘记此步骤了可以使用# yum -y groups install "GNOME Desktop"# startx #进入图形界面2.安装相关软件# yum install epel* -y如果此安装步骤出现问题请参考:https://blo...

2019-11-15 14:47:20

现在真是简单至极了 - SpringBoot之使用JPA完成简单的rest api

一、 前言在前面我们已经知道在springboot中如何使用freemark与thymeleaf之类的视图模板引擎去渲染我们的视图页面,但是没涉及跟数据库交互的东西,所以今天在这里我们将介绍了一下如何在springboot中通过spring data jpa操作mysql数据库,并且构建一套简单的rest api接口。1.1、Spring Data Jpa 介绍Spring Data ...

2019-11-14 11:36:50

查看更多

勋章 我的勋章
  • GitHub
    GitHub
    绑定GitHub第三方账户获取
  • 专栏达人
    专栏达人
    授予成功创建个人博客专栏的用户。专栏中添加五篇以上博文即可点亮!撰写博客专栏浓缩技术精华,专栏达人就是你!
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。