自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

转载 tail -f、tail -F三者区别

tail -f 等同于--follow=descriptor,根据文件描述符进行追踪,当文件改名或被删除,追踪停止tail -F 等同于--follow=name --retry,根据文件名进行追踪,并保持重试,即该文件被删除或改名后,如果再次创建相同的文件名,会继续追踪tailf等同于tail -f -n 10(貌似tail -f或-F默认也是打印最后...

2019-03-09 14:46:09 323

原创 random的使用技巧

一般来说random是随机数必不可少的方法例子:>>>import random>>>random.random()0.05655136772680869//random取0-1的浮点型数据>>>print random.randint(0,10)3//seed是取到相同的随机数种子,只要seed函数的值一样 随机到的数据...

2019-02-14 23:31:59 214

原创 hive的四种文件存储格式

hive分为四种存储格式:        1.TEXTFILE2.SEQUENCEFILE3.RCFILE4.ORCFILE在其中textfile为默认格式,如果在创建hive表不提及,会默认启动textfile格式,导入数据时会直接把数据文件拷贝到hdfs上不进行处理;与此同时,sequencefile,rcfile,orcfile自己不能直接从本地导入数据,需要将数据转为te...

2019-01-22 14:57:17 8329

转载 spark架构基础---RDD理解及宽依赖和窄依赖

1)RDD概念:Resilient Distributed Datasets  弹性分布式数据集,是一个容错的、并行的数据结构,可以让用户显式地将数据存储到磁盘和内存中,并能控制数据的分区。同时,RDD还提供了一组丰富的操作来操作这些数据。RDD是只读的记录分区的集合,只能通过在其他RDD执行确定的转换操作(transformation操作)而创建。RDD可看作一个spark的对象,它本身存在于内...

2019-01-16 18:48:33 238

原创 spark算子讲解(20_Transformation + 12_Action)

                                               Spark的算子的分类从大方向来说,Spark 算子大致可以分为以下两类:        1)Transformation 变换/转换算子:这种变换并不触发提交作业,完成作业中间过程处理。      Transformation 操作是延迟计算的,也就是说从一个RDD 转换生成另一个 RDD ...

2019-01-16 18:13:58 437

原创 Hadoop搭建

http://hadoop.apache.org/docs/r1.0.4/cn/index.html  里面详细阐述几千节点大集群或几个节点小集群的搭建等重要架构的设计

2019-01-10 08:54:14 180 3

原创 关于index of网址所在

http://distfiles.macports.org/ 

2019-01-10 08:51:38 714

转载 hadoop之datanode节点超时时间设置与HDFS冗余数据块的自动删除

一  Datanode节点超时时间设置datanode进程死亡或者网络故障造成datanode无法与namenode通信,namenode不会立即把该节点判定为死亡,要经过一段时间,这段时间暂称作超时时长。HDFS默认的超时时长为10分钟+30秒。如果定义超时时间为timeout,则超时时长的计算公式为:    timeout  = 2 * heartbeat.recheck.interv...

2019-01-08 20:22:48 380

原创 关于自搭建hadoop出现slave服务器没出现DataNode节点的解决方法

首先先看正确hadoop下的master,slave服务器节点情况异常情况:slave服务器未出现DataNode节点问题描述:一般是格式化hdfs出现的情况,例如hadoop namenode -format或 hdfs namenode -format 强制性多次初始化数据,导致VERSION里面的nameid,clusterID,blockpoolID变化,导致m...

2019-01-08 20:03:57 5278

原创 【Python小技巧】Python四种数据结构的解析及其调用

数据结构:存储大量数据的容器    此文主要介绍Python四种数据结构分为:列表,字典,元组,集合格式如下:列表:list = [val_1, val_2, val_3, val_4],用中括号表示; 字典:dict = {key_11:val_1,key_2:val_2}, 用大括号表示,并且每个元素是带有冒号的K,V组成的对应关系组; 集合:set = {val_1, val_2...

2018-12-29 19:10:50 322

原创 【python技巧篇】 在MR里面写 reload(sys)的原因

python在安装时,默认的编码是ascii,当程序中出现非ascii编码时,python的处理常常会报错UnicodeDecodeError: 'ascii' codec can't decode byte 0x?? in position 1: ordinal not in range(128)出现这个问题的原因是python没办法处理非ascii编码,需要自己设置python的默认编...

2018-12-28 21:16:17 74

转载 sudo apt-get 和dpkg命令大全

一、APT的使用(Ubuntu Linux软件包管理工具一)apt-cache search # ------(package 搜索包)apt-cache show #------(package 获取包的相关信息,如说明、大小、版本等)sudo apt-get install # ------(package 安装包)sudo apt-get install

2016-08-04 15:38:52 259

原创 ctag使用的方法

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl

2016-08-04 14:27:29 972

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除