自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

转载 小文件危害

在HDFS中,一个bolck块的默认大小是128M,当一个文件的大小小于一个block的大小,则被认为是小文件危害:1、NameNode需要的内存大大增大,增加NameNode压力,这样会限制了集群的扩展。2、在HDFS中,小文件的读写处理速度要远远小于大文件3、Hive中,小文件会开很多map,一个map开一个JVM去执行,所以这些任务的初始化,启动,执行会浪费大量的资源,严重影响性能...

2019-07-10 18:12:18 367

原创 HDFS详解二之读写流程

1.读流程1.1 、Client通过FileSystem.open(filePath)方法,与NN节点进行【rpc】协议通信,校验是否有权限是否存在,假如都ok,返回该文件的部分或全部的block的列表(包含各个block块的分布在DN地址的列表),也就是返回【FSDataInputStream】对象;1.2、Clinet调用FSDataInputStream.read方法。a.与第一个块...

2019-07-10 18:11:15 116

原创 HDFS详解一

前言:一、HDFS的一些基本概念:数据块(block):大文件会被分割成多个block进行存储,block大小默认为128MB。每一个block会在多个datanode上存储多份副本,默认是3份。namenode:namenode负责管理文件目录、文件和block的对应关系以及block和datanode的对应关系。datanode:datanode就负责存储了,当然大部分容错机制都是在d...

2019-07-10 17:45:23 353

原创 hadoop的pid文件

pid文件默认存放路径:/tmp/hsperfdata_(用户名称)pid文件重要性:缺少pid文件 启动停止都有问题如果删除pid文件,则会导致停止服务的时候有问题。同时linux对/tmp目录有30天删除不常用文件或文件夹的情况。所以需要修改pid文件存储路径3…修改pid文件存储路径[hadoop@hadoop001 hadoop]$ vi etc/hadoop/hadoop-e...

2019-07-07 11:07:01 658

转载 CentOS7的/tmp目录自动清理(转载)

https://blog.51cto.com/kusorz/2051877?utm_source=oschina-app

2019-07-07 10:19:37 630

原创 hadoop YARN部署并运行MapReduce测试程序

前记:yarn:资源和作业的调度,需部署MapReduce:hadoop计算引擎, 是java开发的jar包,代码复杂,企业不用,一般用hive sql不需要部署,运行在Yarn上yarn部署参数配置:1.修改mapred-site.xml文件[hadoop@Hadoop001 hadoop]$ cp mapred-site.xml.template mapred-site.xml[...

2019-07-07 10:01:41 286

原创 hadoop hdfs 伪分布式部署

1、部署环境需安装jdk:https://blog.csdn.net/sz_lili/article/details/947362812、部署版本:hadoop-2.6.0-cdh5.7.03.、创建hadoop管理用户4、创建管理文件夹及准备软件包上传hadoop-2.6.0-cdh5.7.0安装包到software文件:wget http://archive.cloudera.c...

2019-07-05 16:50:25 162

原创 centos 安装JDK 1.8

手动解压tar包1.新建Java文件夹:mkdir /usr/local/java2.用rz命令上传已下载的jdk包3.解压,命令: tar -xzvf jdk-8u45-linux-x64.gz -C /usr/local/java/遇到问题:Not found in archive,命令需加 -C4.配置环境: vi /etc/profile5.source /etc/p...

2019-07-05 15:29:15 112

原创 centos 修改主机名

centos6下修改hostname1.查看命令:hostname2.编辑network文件修改hostname行(重启生效)vim /etc/sysconfig/networkNETWORKING=yesHOSTNAME=hadoop0013.检查cat /etc/sysconfig/network立即生效方法:1.hostname hadoop0012.编辑hosts文件,...

2019-07-04 17:17:49 112

转载 Mysql 1044错误代码:Access denied for user ''@'localhost'

解决办法:https://blog.csdn.net/silence_change/article/details/83472289

2019-06-28 11:11:22 1638

原创 mysql部署

采用tar包方式部署1、安装位置/usr/localcd /usr/local2、rz命令上传mysql-5.6.23-linux-glibc2.5-x86_64.tar.gz3、查找本机是否已安装mysql[root@ruozedata001 local]# ps -ef|grep mysqldroot 4685 4182 0 16:55 pts/0 00:00:...

2019-06-27 17:46:50 113

转载 不得不会的Spark SQL常见4种数据源

转载原地址:https://mp.weixin.qq.com/s?__biz=MzA5ODY0NzgxNA==&mid=2247485255&idx=1&sn=f06cb78d09668aea2b07a7656a3890c8&chksm=908f2d2ea7f8a438efd7cc2bc0ec368ebeda004f21b3f843d4f85bd61b28e721f...

2019-06-20 16:24:08 302

转载 Azkaban

大数据场景中调度的作用:以ETL为例大数据场景中,较为常见的一个ETL流程:RDBMS =Sqoop=> Hadoop Sqoop> RDBMS/NoSQL/…完成上述场景需要经历3个过程:数据抽取 01:00 3h ==> 凌晨1点开始数据抽取,需要3个小时数据处理 04:00 4h ==> 凌晨4点开始数据处理,需要3个小时数据入库 08:00一个完整的E...

2019-06-20 16:21:05 160

原创 Linux基础命令一

Linux基础命令一这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导...

2019-06-18 12:52:41 65

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除