自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 从0学大数据 5比MapReduce更快的计算框架Spark

在Spark出现之前,人们并没有对MapReduce的执行速度和编程复杂度不满在Spark出现之后,人们才开始对MapReduce不满。原来大数据计算速度可以快这么多,编程也可以更简单。而且Spark支持Yarn和HDFS,公司迁移到Spark上的成本很小,于是很快,越来越多的公司用Spark代替MapReduce。Spark编程模型—RDD使用Scala语言在Spark上编写Word...

2019-09-13 12:24:12 260

原创 从0学大数据 4Hadoop大数据仓库Hive

Hive的架构Hive能够直接处理我们输入的SQL语句(Hive的SQL语法和数据库标准SQL略有不同),调用MapReduce计算框架完成数据分析操作。下面是它的架构图,我们结合架构图来看看Hive是如何实现将SQL生成MapReduce可执行代码的。我们通过Hive的Client(Hive的命令行工具,JDBC等)向Hive提交SQL命令。如果是创建数据表的DDL(数据定义语言),...

2019-09-11 21:43:48 153

原创 Oracle SQL语句优化总结

一、合理使用索引创建索引的根本目的:提高查询效率使用规则:1.在条件中经常用到的不同值较多的列上建立索引2.在不同值少的列上,不要建立索引及位图索引(不但不会提高查询效率,反而会降低更新速度)3.在经常进行连接的列上建立索引4.在频繁进行排序或分组的列上建立索引如:order by D,E 需要注意:在建立复合索引时,D列、E列和排序后面的顺序要相同5.如...

2019-09-10 23:04:16 871

原创 从0学大数据 3初识Yarn

Hadoop主要是由三部分组成,除了分布式文件系统HDFS、分布式计算框架MapReduce,还有一个是分布式集群资源调度框架Yarn。Yarn是“Yet Another Resource Negotiator”的缩写,字面意思就是“另一种资源调度器”。先回忆一下MapReduce的架构,在MapReduce应用程序的启动过程中,最重要的就是要把MapReduce程序分发到大数据集群的服务...

2019-09-10 22:59:28 130

原创 从0学大数据 2初识MapReduce

使用MapReduce,我们只需要关心业务逻辑,不用关心系统调用与运行环境,这和目前的主流开发方式是一致的。大数据计算的核心思路是移动计算比移动数据更划算。Hadoop解决大规模数据分布式计算的方案——MapReduceMapReduce既是一个编程模型,又是一个计算框架编程模型假设有两个数据块的文本数据需要进行词频统计,MapReduce计算过程如下图所示。在Map阶...

2019-09-10 19:23:27 88

原创 SQL必知必会3

2019-09-10 19:12:16 59

原创 从0学大数据 1初识HDFS

HDFSHDFS是在一个大规模分布式服务器集群上,对数据分片后进行并行读写及冗余存储。HDFS的关键组件有两个:DataNode,NameNode。DataNode负责文件数据的存储和读写操作,HDFS将文件数据分割成若干数据块(Block),每个DataNode存储一部分数据块,这样文件就分布存储在整个HDFS服务器集群中。应用程序客户端(Client)可以并行对这些数据块进行访...

2019-09-09 21:25:47 130

原创 SQL必知必会2

数据库调优索引数据库服务器有两种存储介质,分别为硬盘和内存。内存属于临时存储,容量有限,且当发生意外时(如断电或者发生故障重启)会造成数据丢失;硬盘相当于永久存储介质,这也是为什么我们需要把数据保存到硬盘上。 Hash索引数据库中的存储结构数据库中管理存储空间的基本单位是页(Page) :不论是读一行还是多行,都是讲这些行所在的页进行加载区...

2019-09-03 22:22:51 124

原创 SQL必知必会1

【个人学习记录】不同的人编写出来的SQL的效率是不同的,比如说一份好的SQL执行计划就会尽量减少I/O操作,因为I/O是DBMS最容易出现瓶颈的地方,可以说数据库操作中有大量的时间都花在了I/O上。此外,还需要考虑如何降低CPU的计算量,在SQL语句中使用GROUP BY、ORDER BY等这些语句会消耗大量的CPU计算资源,因此我们需要从全局出发,不仅需要考虑数据库的I/O性能,还需要考虑C...

2019-08-26 22:45:42 171

转载 1.VMware安装centos7

1.安装VMware Workstation 14 Pro,下载地址http://www.onlinedown.net/soft/1172736.htmCG54H-D8D0H-H8DHY-C6X7X-N2KG62.下载centos7 , 下载地址http://isoredirect.centos.org/centos/7/isos/x86_64/CentOS-7-x86_64-DVD...

2019-07-20 14:10:48 80

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除