4 星河scorpion

尚未进行身份认证

希望以后多多交流

等级
TA的排名 1w+

error in shuffle in fetcher#5,Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-out

Error:org.apache.hadoop.mapreduce.task.reduce.Shuffle$ShuffleError:errorinshuffleinfetcher#5Causedby:java.io.IOException:ExceededMAX_FAILED_UNIQUE_FETCHES;bailing-out图为错误信息,运行的是example...

2019-10-14 16:08:02

单元测试详解(Mockito、MockBean)

一个测试方法主要包括三部分:1)setup2)执行操作3)验证结果publicclassCalculatorTest{CalculatormCalculator;@Before//setuppublicvoidsetup(){mCalculator=newCalculator();}@...

2019-09-19 13:48:00

机器学习-聚类系算法-DBSCAN

概念DBSCAN中的几个定义:Ε邻域:给定对象半径为Ε内的区域称为该对象的Ε邻域;核心对象:如果给定对象Ε邻域内的样本点数大于等于MinPts,则称该对象为核心对象;直接密度可达:对于样本集合D,如果样本点q在p的Ε邻域内,并且p为核心对象,那么对象q从对象p直接密度可达。密度可达:对于样本集合D,给定一串样本点p1,p2….pn,p=p1,q=pn,假如对象pi从pi-1...

2019-08-29 13:36:27

机器学习-聚类系算法-k-means

K-means举例shi'li1K-means算法简介k-means算法是一种聚类算法,所谓聚类,即根据相似性原则,将具有较高相似度的数据对象划分至同一类簇,将具有较高相异度的数据对象划分至不同类簇。聚类与分类最大的区别在于,聚类过程为无监督过程,即待处理数据对象没有任何先验知识,而分类过程为有监督过程,即存在有先验知识的训练数据集。2K-means算法原理k-means算法中...

2019-08-29 10:17:37

机器学习-聚类系算法-层次聚类

层次聚类  层次聚类(HierarchicalClustering)是聚类算法的一种,通过计算不同类别数据点间的相似度来创建一棵有层次的嵌套聚类树。在聚类树中,不同类别的原始数据点是树的最低层,树的顶层是一个聚类的根节点。创建聚类树有自下而上合并和自上而下分裂两种方法。  作为一家公司的人力资源部经理,你可以把所有的雇员组织成较大的簇,如主管、经理和职员;然后你可以进一步划分为较小的簇,...

2019-08-29 10:03:24

hadoop生态圈

环境组件 Hadoopcommon 该项目是为了hadoop整体框架提供基础的支持功能,主要包括了文件系统(FileSystem)、远程过程调用协议(RPC)、数据串行化库。 HDFS Hdfs是运行在由廉价计算机组成的大规模集群上的分布式文件系统。具有成本低、高可靠性、高吞吐量的特点。 MapReduce 是一个分布式的数据处理模式和执行环境。用于在大规模集群上编...

2019-08-28 22:23:36

Hbase(六) hbase Java API

一、几个主要HbaseAPI类和数据模型之间的对应关系:1、HBaseAdmin关系:org.apache.hadoop.hbase.client.HBaseAdmin作用:提供了一个接口来管理HBase数据库的表信息。它提供的方法包括:创建表,删除表,列出表项,使表有效或无效,以及添加或删除表列族成员等。2、HBaseConfiguration关系:...

2019-08-20 17:11:23

hive从查询中获取数据插入到表或动态分区

Hive的insert语句能够从查询语句中获取数据,并同时将数据Load到目标表中。现在假定有一个已有数据的表staged_employees(雇员信息全量表),所属国家cnty和所属州st是该表的两个属性,我们做个试验将该表中的数据查询出来插入到另一个表employees中。INSERTOVERWRITETABLEemployeesPARTITION(country='中国'...

2019-06-18 15:46:19

linux及hadoop修改权限

inux下修改文件权限:在shell环境里输入:ls-l或者ls-lhdrwxr-xr-x2nsfusers102412-1017:37下载文件备份对应:文件属性连接数文件拥有者所属群组文件大小文件修改时间文件名例如:  d rwx r-x r-x第一个字符指定了文件类型。在通常意义上,一个目录也是一个文件。如果第一个字符是横线...

2019-06-18 14:03:08

Hadoop:查看任务管理相关——操作命令

1.查看Job信息:hadoopjob-list2.杀掉Job:hadoopjob–killjob_id3.指定路径下查看历史日志汇总:hadoopjob-historyoutput-dir4.作业的更多细节:hadoopjob-historyalloutput-dir5.打印map和reduce完成百分比和所有计数器:hadoopjo...

2019-06-17 13:33:15

HBase Java API类介绍

几个相关类与HBase数据模型之间的对应关系java类 HBase数据模型 HBaseAdmin 数据库(DataBase) HBaseConfiguration HTable 表(Table) HTableDescriptor 列族(ColumnFamily) Put 列修饰符(ColumnQualifier) Get Sc...

2019-04-28 09:10:29

tar命令

tar命令用于对文件打包压缩或解压,格式为:“tar[选项][文件]”。打包并压缩文件:“tar-czvf压缩包名.tar.gz文件名”解压并展开压缩包:“tar-xzvf压缩包名.tar.gz”参数作用-c创建压缩文件-x解开压缩文件-t查看压缩包内有那些文件-z用Gzip压缩或解压-j用bzip2压缩或解压-v显示压缩或解压的过程-f目标文件...

2019-04-19 19:07:00

kafka工作原理介绍

原文链接:https://blog.csdn.net/qq_29186199/article/details/80827085两张图读懂kafka应用:Kafka中的术语broker:中间的kafkacluster,存储消息,是由多个server组成的集群。topic:kafka给消息提供的分类方式。broker用来存储不同topic的消息数据。...

2019-04-15 18:02:47

HBase数据库相关知识

1、HBase相关概念模型l表(table),与关系型数据库一样就是有行和列的表l行(row),在表里数据按行存储、行由行键(rowkey)唯一标识,没有数据类型统一为byte[]数组l列族(columnfamily),行里的数据按列族分组String类型,每个表必须至少有一个列族l列限定符(columnqualifier),列族里的数据用列限定符定位。类似关...

2019-04-02 13:50:03

HBase 列族数据库

数据模型我们可以将一个表想象成一个大的映射关系,通过行健、行健+时间戳或行键+列(列族:列修饰符),就可以定位特定数据,HBase是稀疏存储数据的,因此某些列可以是空白的, RowKey TimeStamp ColumnFamily:c1 ColumnFamily:c2 ...

2019-04-02 11:28:54

Region和Available Zone的区别

亚马逊AWS是公共云计算的先驱,一些云计算中重要的产品设计和基础概念可以说都是亚马逊引入的。这其中有两个非常重要的概念:地域(Region)和可用区(AZ:AvailableZone)。很多第一次接触云计算的同学,光看这两个名字的字面意义,虽然也能够猜出大致的意思,但深入的学习了解云计算一段时间之后,才能深刻的体会这两个概念对于云计算的重要影响。包括国内的这些云计算服务商,也是过了很长时间才陆续...

2019-04-02 09:54:50

hbase批量入库遇到的坑

详细请参考链接内容:https://blog.csdn.net/weixin_40861707/article/details/79105753

2019-04-01 16:17:19

mr 过程setSortComparatorClass和setGroupingComparatorClass

代码:Customer.upsmart.recommend.TestReduceSortjob.setPartitionerClass(PartitionClass.class);对key取hash值(或其它处理),进入不同的reducejob.setSortComparatorClass(SortComparator.class);对进入同一个reduce的键或键的...

2019-03-27 16:32:44

UUID的定义以及作用

UUID含义是通用唯一识别码(UniversallyUniqueIdentifier),这是一个软件建构的标准,也是被开源软件基金会(OpenSoftwareFoundation,OSF)的组织应用在分布式计算环境(DistributedComputingEnvironment,DCE)领域的重要部分。作用:UUID的目的是让分布式系统中的所有元素,都能有唯一...

2019-03-25 17:22:29

Hive 快速入门,MapReduce原理,优化方案

原文http://gitbook.cn/books/5924bd0523245b0aa3776b65/index.htmlHive快速入门作者:鸣宇淳前言我写这篇文章的目的是尽可能全面地对Hive进行入门介绍,这篇文章是基于hive-1.0.0版本介绍的,这个版本的Hive是运行在MapReduce上的,新的版本可以运行在Tez上,会有一些不同。Hive是对数据仓库进行管...

2019-03-25 15:24:48

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。