自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

tianyeshiye

天之道,损有余而补不足.人之道,则不然,损不足以奉有余.孰能有余以奉天下?唯有道者

  • 博客(579)
  • 收藏
  • 关注

原创 BigData - “ 时 空 “ 思想 - 存储和计算 (待续中)

思想 :时间和空间的平衡一直都是软件开发过程中永恒的话题架构师的设计中一直都有计算时间 和 存储空间 的平衡工作在大数据领域里面,这个思想尤为突出。实例举例说明几种时空思想的利用实例1, 压缩压缩的本质就是利用CPU的处理时间,换取磁盘的存储空间。2,预查询apache kylin,作为OPAL 框架,它的数据存储会比原始数shi据多出几倍,本质...

2019-04-12 17:11:51 234

原创 悟 - 软件工程 各种架构理解

Service Mesh就是为了解耦*(数据层 和 控制层),有多抽象出来了一层软件架构里面有句俗语,任何事情是没有再抽象出一层解决不了的,如解决不了,那就再多抽象出一层Service lessServerless(无服务器架构)并不意味着没有任何服务器去运行代码,Serverless是无需管理服务器,只需要关注代码,而提供者将处理其余部分工作...

2019-03-29 17:29:14 337

原创 悟 - 带头大哥 应该拥有的关键行为,思想

做事1,海纳百川,有容乃大尽最大能力的发挥出 队员 的能力及优点2,让利对外,不揽功;对内,让利给队员;3,责任对外,一切责任一身肩;对内,划分好责任,奖罚分明。考虑问题1:换位思考是基础2:从时间和空间的角度去考虑问题 ex:换一个空间环境,人的想法就不一样了 半年后,或者再长一些,一年后,就会觉得现在的想法...

2019-03-27 17:07:24 153

原创 大数据框架、概念等 简短总结 (持续总结中)

数据仓库 更关注数据分析层面(OLAP)一次写入、多次读取HDFS 分布式文件系统HDFS适合批处理场景,不支持数据随机查找,不适合增量数据处理且不支持数据更新Habse分布式文件系统的动态查询,HDFS的随机读写操作HBase并不适合传统的事物处理程序或关联分析,不支持复杂查询Hive分布式文件系统的类SQL 查询Hive不是为在线事务处理而设计Spa...

2018-08-29 23:30:56 478

原创 Book Collection

Essential Netty in Action 《Netty 实战(精髓)》https://github.com/waylau/essential-netty-in-actionEssential Netty in Action 《Netty 4.x 用户指南》https://github.com/waylau/netty-4-user-guideDistributed Jav...

2018-06-26 21:54:43 301

原创 编程思想总结 - 堆排序,少做无用功

堆排序,用于解决一下通用问题消费前十名总成绩最好的前十名思想源自吴军

2018-06-26 20:27:37 197

原创 编程思想总结 - 分解问题,解决问题

1, 先把问题理解清楚       确认好场景,考虑的因素       沟通并确认好已知2, 基于已知信息,分解问题        在已知的基础上,把一个问题分解成几个子问题3, 解决问题 (避免做无用功)        解决子问题,找到更好的解决方法4, 基于分布的子问题解决,重构解决方案, 全局优化        时间和空间的平衡        缓存        分布式数据库的多份备份存储 ...

2018-04-15 13:05:03 760

转载 【华为云技术分享】快速理解spark-on-k8s中的external-shuffle-service

【摘要】 external-shuffle-service是Spark里面一个重要的特性,有了它后,executor可以在不同的stage阶段动态改变数量,大大提升集群资源利用率。但是这个特性当前在k8s上并不能很好的运行。让我们来看看,在k8s上要实现这个external-shuffle-service特性的最新进展吧。如果你想在kubernetes集群中运行Spark任务,那么你可能会对:如何在k8s上运行external-shuffle-service感兴趣。把Driver和Executor都

2021-01-29 15:12:30 706

转载 什么是MPP数据库?

大规模并行分析(MPP)数据库(Analytical Massively Parallel Processing (MPP) Databases)是针对分析工作负载进行了优化的数据库:聚合和处理大型数据集。MPP数据库往往是列式的,因此MPP数据库通常将每一列存储为一个对象,而不是将表中的每一行存储为一个对象(事务数据库的功能)。这种体系结构使复杂的分析查询可以更快,更有效地处理。这些分析数据库将其数据集分布在许多机器或节点上,以处理大量数据(因此得名)。这些节点都包含自己的存储和计算功能,从而使每个节

2021-01-21 19:10:47 22994 1

转载 2020-10-20

前言随着大数据技术的不断更新和迭代,数据管理工具得到了飞速的发展,相关概念如雨后春笋一般应运而生,如从最初决策支持系统(DDS)到商业智能(BI)、数据仓库、数据湖、数据中台等,这些概念特别容易混淆,本文对这些名词术语及内涵进行系统的解析,便于读者对数据平台相关的概念有全面的认识。一数据仓库数据仓库平台逐步从BI报表为主到分析为主、到预测为主、再到操作智能为目标。图1.数据仓库发展阶段划分商务智能(BI,Business Intelligence)是一种以提供决策分析性的运营数据

2020-10-20 21:41:51 374

原创 AWS - Internet Gateway和NATGateway

在亚马逊云上,创建VPC后,VPC内的实例(instance)如何访问Internet呢? 通常有两种方法:1、直接分配公网IP地址将VPC关联到互联网网关(Internet Gateway)这种方式,instance所在的子网,属于公共子网2、通过NAT Gateway 或 NAT instance在每个子网的路由表中,将默认路由设置为NAT Gateway 或 NAT instance这种方式,instance所在的子网,属于私有子网3、使用ELB(弹性负载均衡器)从I

2020-07-10 10:31:31 2460

原创 (个评)Big Data - 云中数据湖组件 OSS(对象存储服务)与 AWS S3(Amazon Simple Storage Service)

云中数据湖组件 ()1、AWS S3对象存储2、Azure Bold块存储 (ADLS的一个功能)3、Ali 云 OSS(对象存储服务)对于应用者来说,类似的东西,只是不同的云平台,不同的组件个人评测 : Azure的ADLS更方便易懂一些,毕竟是后出来的云,肯定是比先出现的云有改进,建议AWS S3 也稍微改进一些,提出一种专门做数据湖的场景应用,哈哈一下内容转载:https://blog.csdn.net/makenothing/article/details/1...

2020-07-06 16:28:35 457

转载 AWS Big Data - Athena presto和hive适用场景

presto和hive的一些对比 1.本质区别Hive是把一个查询转化成多个MapReduce任务,然后一个接一个执行。执行的中间结果通过对磁盘的读写来同步。然而,Presto没有使用MapReduce,它是通过一个定制的查询和执行引擎来完成的。它的所有的查询处理是在内存中,这也是它的性能很高的一个主要原因。2.执行速度presto由于是基于内存的,而hive是在磁盘上读写的,因此presto比hive快很多,但是由于是基于内存的当多张大表关联操作时易引起内存溢出错误3.处理json类型...

2020-07-03 19:15:07 817

转载 阿里云Big Data - 漫谈数据仓库之维度建模

漫谈数据仓库之维度建模下面的内容,是笔者在学习和工作中的一些总结,其中概念性的内容大多来自书中,实践性的内容大多来自自己的工作和个人理解。由于资历尚浅,难免会有很多错误,望批评指正!概述数据仓库包含的内容很多,它可以包括架构、建模和方法论。对应到具体工作中的话,它可以包含下面的这些内容:以hadoop、Spark、Hive等组建为中心的数据架构体系。各种数据建模方法,如维度建模。调度系统、元数据系统、ETL系统、可视化系统这类辅助系统。我们暂且不管数据仓库的范围到底有多大,在数据仓库体系中

2020-07-02 21:59:46 661

原创 阿里云Big Data - dataworks和MaxCompute之间的关系与区别

dataworks和MaxCompute之间的关系与区别MaxCompute做数据存储和数据分析处理,Dataworks是集成了数据集成、数据开发调试、作业编排及运维、元数据管理、数据质量管理、数据API服务等等功能的大数据开发IDE套件。类似Spark和HUE的关系,不知道这个对比是否准确。MaxCompute存储目前只暴露表,能处理非结构化数据吗?可以,非结构化数据可以存放在OSS上,一种方式是通过外表方式,通过自定义Extractor来实现非结构化处理为结构化数据的逻辑。另外,也可以用

2020-07-02 21:58:12 5616

转载 阿里云Big Data - dataworks和dataphin两款产品的区别

区别1:产品功能不同1、Dataworks,在阿里集团内部为大家所熟知的部分是D2,在阿里云则是数加平台的主体-数据工厂。DataWorks(数据工场)具备全栈数据研发能力(数据集成与开发、 生产运维调度、离线与实时分析、数据质量治理与资产管理、安全防护、数据共享与服务、机器学习、数据应用搭建)的大数据平台;2、Dataphin,通过输出阿里数据中台实战沉淀的大数据建设体系OneData+OneID +OneService(产品+技术+方法论),一站式提供集数据引入、规范定义、数据建模、数据研发、数据萃

2020-07-02 19:44:16 7344

转载 阿里云Big Data - 如何优雅地设计数据分层 ODS DW DM层级

数据仓库更多代表的是一种对数据的管理和使用的方式,它是一整套包括了etl、调度、建模在内的完整的理论体系。现在所谓的大数据更多的是一种数据量级的增大和工具的上的更新。 两者并无冲突,相反,而是一种更好的结合。话说,单纯用用Hadoop、Spark、Flume处理处理数据,其实只是学会几种新的工具,这是搞工具的,只是在数据仓库中etl中的一部分。当然,技术的更新往往能领到一个时代的变革,比如Hadoop的诞生,光是深入研究一个大数据组件就要花很大的时间和精力。但是在热潮冷却之后,我们更应该考虑地是如何

2020-07-02 16:13:35 1263

转载 阿里云Big Data - |分层| ODS& DWD& DWS& ADS| 行为数仓

有基础了解大致情况, 详细请参考原文数仓分层ODS:Operation Data Store原始数据DWD(数据清洗/DWI)data warehouse detail数据明细详情,去除空值,脏数据,超过极限范围的明细解析具体表DWS(宽表-用户行为,轻度聚合)data warehouse service ----->有多少个宽表?多少个字段服务层--留存-转化-GMV-复购率-日活点赞、评论、收藏;轻度聚合对DWDADS(APP/DAL/DF)-出报表结...

2020-07-02 15:28:26 2805 1

转载 阿里云Big Data - 阿里云大数据利器Maxcompute学习之-假如你使用过hive

记录一下关键内容详细内容请参照原文https://yq.aliyun.com/articles/86574如果您是一个大数据开发工程师并且使用过hadoop的hive框架,那么恭喜您,阿里云的大数据计算服务-Maxcompute,您已经会了90%。这篇文章就来简单对比下Maxcompute和hive的异同,来方便刚开始使用Maxcompute的用户,从hive秒速迁移到Maxcompute的使用上。首先,回顾下hive的概念。1、hive是基于hadoop的,以表的形式来存储数据,实际.

2020-07-02 14:28:03 187

转载 spring boot 打成jar包后 获取通过命令行传入的参数

方式一:java -jar xx-1.1.2.RELEASE.jar aaa bbb cccc通过main方法的参数获取:System.out.println("java -jar xxx.jar aaa bbb cccc 方式传参:"+args[0]+","+args[1]+","+args[2]); 方式二:java -jar xx-1.1.2.RELEASE.jar --a1=aaa --b1=bbb --c1=ccc或者java -a1=aaa -b1=bbb -c1=cc.

2020-05-13 10:04:20 1374

转载 CentOS7 使用yum命令安装Java SDK(openjdk)

CentOS 6.X 和 7.X 自带有OpenJDK runtime environment(openjdk)。它是一个在linux上实现开源的java 平台。安装方式:1、输入以下命令,以查看可用的JDK软件包列表;yum search java | grep -i --color JDK2、在CentOS linux安装 JAVA SDK在命令行终端以root用户 输入以下命令yum安装 OpenSDK :yum install java-1.8.0-openjdkjav...

2020-05-12 14:58:45 465

转载 [系统架构] ElasticSearch详解

0. 带着问题上路——ES是如何产生的?(1)思考:大规模数据如何检索?如:当系统数据量上了10亿、100亿条的时候,我们在做系统架构的时候通常会从以下角度去考虑问题:1)用什么数据库好?(mysql、sybase、oracle、达梦、神通、mongodb、hbase…)2)如何解决单点故障;(lvs、F5、A10、Zookeep、MQ)3)如何保证数据安全性;(热备、冷备...

2020-03-27 11:10:14 435 1

转载 数据治理 - 数据仓库 解释

一、数据仓库数据仓库是一个面向主题的、集成的、相对稳定的、反应历史变化的数据集合,用于支持管理决策。l 面向主题:传统的数据库是面向事务处理的,而数据仓库是面向某一领域而组织的数据集合,主题是指用户关心的某一联系紧密的集合。l 集成:数据仓库中数据来源于各个离散的业务系统数据库、外部数据、非结构化数据的集合,数据仓库数据是集成的。l 相对稳定:数据仓库中的数据不应该支持dml操作,...

2020-03-04 13:44:38 2169

转载 数据治理 - 漫谈数据仓库之维度建模

概述数据仓库包含的内容很多,它可以包括架构、建模和方法论。对应到具体工作中的话,它可以包含下面的这些内容:以Hadoop、Spark、Hive等组建为中心的数据架构体系。 各种数据建模方法,如维度建模。 调度系统、元数据系统、ETL系统、可视化系统这类辅助系统。我们暂且不管数据仓库的范围到底有多大,在数据仓库体系中,数据模型的核心地位是不可替代的。因此,下面的将详细地阐述数据...

2020-03-03 20:54:37 928

转载 数据治理 - 数据仓库历史数据存储 - 拉链表

什么是拉链表拉链表是针对数据仓库设计中表存储数据的方式而定义的,顾名思义,所谓拉链,就是记录历史。记录一个事物从开始,一直到当前状态的所有变化的信息。我们先看一个示例,这就是一张拉链表,存储的是用户的最基本信息以及每条记录的生命周期。我们可以使用这张表拿到最新的当天的最新数据以及之前的历史数据。注册日期 用户编号 手机号码 t_start_date t_en...

2020-03-03 15:27:39 1040

转载 【大数据安全】基于Kerberos的大数据安全验证方案

1.背景互联网从来就不是一个安全的地方。很多时候我们过分依赖防火墙来解决安全的问题,不幸的是,防火墙是假设“坏人”是来自外部的,而真正具有破坏性的攻击事件都是往往都是来自于内部的。近几年,在thehackernews等网站上总会时不时看到可以看到一些因为数据安全问题被大面积攻击、勒索的事件。在Hadoop1.0.0之前,Hadoop并不提供对安全的支持,默认集群内所有角色都是可靠的。用户访...

2020-01-16 13:57:09 670

转载 kerberos认证原理---讲的非常细致,易懂

前几天在给人解释Windows是如何通过Kerberos进行Authentication的时候,讲了半天也别把那位老兄讲明白,还差点把自己给绕进去。后来想想原因有以下两点:对于一个没有完全不了解Kerberos的人来说,Kerberos的整个Authentication过程确实不好理解——一会儿以这个Key进行加密、一会儿又要以另一个Key进行加密,确实很容易把人给弄晕;另一方面是我讲解方式有问题...

2020-01-16 13:39:02 385

转载 开源大数据平台如何才能保证身份认证安全?Kerberos

在古希腊神话中,Kerberos是住在冥河岸边的三头犬,负责看守冥界的入口。而在信息技术界,Kerberos是一种被广泛采用的网络认证协议,通过对称加密的技术,保护网络系统的安全。特别是在Hadoop开源大数据平台,Kerberos是内置支持的安全的用户认证方式。它可以独立于各服务组件,保证只有通过身份认证的节点才可以访问对应的服务,进而维护开源大数据的系统安全。作为开源大数据卫士的Kerbe...

2020-01-16 13:27:39 575

转载 CentOS中环境变量和配置文件

https://www.cnblogs.com/woshimrf/p/shell-environment.html/etc/profile $HOME/.bash_profile $HOME/.bashrc $HOME/.bash_login $HOME/.profile

2019-11-28 16:09:39 235

转载 rancher跟k8s有那些不同

rancher:1、采用图形化方式:易用的Web管理界面,在Docker易用性的基础上,再一次降低了使用容器技术部署容器应用的难度。2、支持多种调度器:通过环境模板,很容易地创建和部署Cattle、Swarm、K8S、Mesos容器集群管理调度平台。3、管理主机集群:管理对象是多台主机的集群,而不仅仅是单台容器主机,创建和管理几台、几十台应用服务器集群,只需要Ctrl+C、Ctrl+V...

2019-11-18 16:36:43 365

转载 (验证过)使用Win10系统远程桌面连接CentOS7系统方法 CentOS7使用GNOME Desktop可视化桌面

1.CentOS安装桌面在安装系统时如果没有选用最精简安装的话,可以在装系统时候默认安装GNOME,如果忘记此步骤了可以使用# yum -y groups install "GNOME Desktop"# startx #进入图形界面2.安装相关软件# yum install epel* -y如果此安装步骤出现问题请参考:https://blo...

2019-11-15 14:50:50 402

转载 现在真是简单至极了 - SpringBoot之使用JPA完成简单的rest api

一、 前言在前面我们已经知道在springboot中如何使用freemark与thymeleaf之类的视图模板引擎去渲染我们的视图页面,但是没涉及跟数据库交互的东西,所以今天在这里我们将介绍了一下如何在springboot中通过spring data jpa操作mysql数据库,并且构建一套简单的rest api接口。1.1、Spring Data Jpa 介绍Spring Data ...

2019-11-14 11:39:26 475

转载 数据仓库

数据仓库1 . 数据仓库的基本概念数据仓库,英文名称为 Data Warehouse,可简写为 DW 或 DWH。数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(DecisionSupport)。它出于分析性报告和决策支持目的而创建。 数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的数据,数据来源于外部,并且开放给外部应用,这也是为什么叫“仓库”,而不叫...

2019-11-13 17:38:10 135

转载 YAML 语言教程

YAML 语言教程http://www.ruanyifeng.com/blog/2016/07/yaml.html

2019-10-31 15:27:37 121

转载 【Docker&VM】docker容器与虚拟机有什么区别?

各种虚拟机技术开启了云计算时代;而Docker,作为下一代虚拟化技术,正在改变我们开发、测试、部署应用的方式。那虚拟机与Docker究竟有何不同呢?首先,大家需要明确一点,Docker容器不是虚拟机!第一次接触Docker的时候,我把它比做一种轻量级的虚拟机。这样做无可厚非,因为Docker最初的成功秘诀,正是它比虚拟机更节省内存,启动更快。Docker不停地给大家宣传,"虚拟机需要数分钟...

2019-10-29 15:45:52 266

转载 Docker与VM虚拟机的区别以及Docker的特点

一、本质上的区别:VM(VMware)在宿主机器、宿主机器操作系统的基础上创建虚拟层、虚拟化的操作系统、虚拟化的仓库,然后再安装应用;Container(Docker容器),在宿主机器、宿主机器操作系统上创建Docker引擎,在引擎的基础上再安装应用。那么问题来了,没有操作系统,怎么运行程序?可以在Docker中创建...

2019-10-29 10:34:36 121

转载 k8s-存储篇

本章目录存储分类 emptydir hostpath pvc,pv,nfs一 k8s存储分类  我一直相信画出图来再去了解比较直观,下面是我总结的k8s存储的分类,供参考  k8s的存储常用的就是上面几种模式,分为临时存储,半持久化存储,与持久化存储这三类,本章我们着重讲解emptydir与hostpath与pvc跟pv等二 emptydir  1 emptydi...

2019-10-22 11:44:36 976

转载 敏捷开发优点和缺点

https://blog.csdn.net/jpmsdn/article/details/94625843一、敏捷开发技术的几个特点和优势:1.个体和交互胜过过程和工具2.可以工作的软件胜过面面俱到的文档3.客户合作胜过合同谈判4.响应变化胜过遵循计划二、敏捷开发技术的12个原则:1.我们最优先要做的是通过尽早的、持续的交付有价值的软件来使客户满意。2.即使到了开发...

2019-10-15 13:20:58 16121

转载 linux 新添加的硬盘格式化并挂载到目录下

https://www.cnblogs.com/jyzhao/p/4778657.htmlhttps://www.cnblogs.com/ddbear/p/7009736.html需求: 新增加一块硬盘sdb,将sdb分区,只分一个区,格式化,挂载到目录/ssd下。1、 查看现在已有的分区状态  # df –l  图中显示,没有看到sdb硬盘2、 查看服...

2019-09-17 18:58:34 837

转载 (验证过)centos7系列安装vnc服务并授权用户访问

https://blog.51cto.com/shaonian/2090283今天心情不错 写个文章把,好久没写了,今天无聊看了半天内涵段子笑了半天,也每人找 我玩,就写了一个博客,希望你们能看懂,不懂的可以联系我。 由于最近服务器流量偏高导致一些问题,需要给网络组那边弄一台机器,需要抓包用,wireshark需要图形界面,所以要安装VNC让网络那边可以登录用图形的软件...

2019-09-12 16:45:09 348

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除