自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(45)
  • 收藏
  • 关注

转载 Apache Ranger原理与应用实践

确实好文章!

2020-07-02 12:07:41 421

原创 spark2学习(3) 之Spark SQL

Spark SQL是用于结构化数据处理的Spark模块。与基本的Spark RDD API不同,Spark SQL提供的接口为Spark提供了有关数据结构和正在执行的计算的更多信息。在内部,Spark SQL使额外的优化。有几种与Spark SQL交互的方法,包括SQL和Dataset API。创建sparksessionimport org.apache.spark.sql.Spark...

2018-08-12 22:27:14 2206

原创 spark2学习(2) 之RDD编程

 RDD编程指南实际上从spark2开始就不推荐使用rdd了,使用dataset操作更加简单高效,但是我们还是简单介绍一下内容吧弹性分布式数据集(RDD)Spark围绕弹性分布式数据集(RDD)的概念展开,RDD是可以并行操作的容错的容错集合。创建RDD有两种方法:并行化 驱动程序中的现有集合,或引用外部存储系统中的数据集,例如共享文件系统,HDFS,HBase或提供Hadoop ...

2018-08-10 23:57:38 391

原创 spark2学习(1) 之Spark Shell

在Spark 2.0之前,Spark的主要编程接口是弹性分布式数据集(RDD)。在Spark 2.0之后,RDD被数据集取代,数据集类似于RDD一样强类型,但在底层有更丰富的优化。这里强调以下,我们使用的ambari去安装集群的,所以不描述安装的问题。使用Spark Shell进行交互式分析启动sparkshell   /usr/hdp/current/spark2-client/bi...

2018-08-10 22:16:07 1315

原创 谈谈phoenix salt buckets 的使用问题

首先说,这个是一不错的方案,但是乱用的问题特别的严重。在没有使用phoenix之前,对hbase的rowkey的设计是一门学问。难道有了phoenix我们就可以不在考虑这样rowkey的问题了吗,答案是千万不要这样干。只要当你的主键必须是单调递增的时候,而且我们使用这个主键去检索数据,那么这个salt bucket 就是完美的选择了。如果我们想当然的将主键设计成uuid,然后再用saltbucke...

2018-07-06 17:48:37 2392 5

原创 phoenix的特性 OFFSET DUPLICATE

从4.6开始可以使用 OFFSET了样例:例如,如果页面大小为10,则要选择第二页,可以使用以下查询(行将从11返回到20):ELECT title, author, isbn, descriptionFROM libraryWHERE published_date > 2010ORDER BY title, author, isbnLIMIT 10 OFFSET 10看了phoen...

2018-07-06 17:32:51 916

原创 phoenix学习四节 Secondary Indexing 二级索引

1.Secondary Indexing二级索引二级索引就是从主要访问路径的另一个hbase表的方式。1.覆盖索引机制 phoenix提供了一个强大的覆盖机制,就是一旦从索引中找到检索的条目就不去访问主表了。就是说它将关心的数据绑定到索引中,这样就可以节省读取时间,典型的用空间换时间的案例。 例如,以下内容将在v1和v2列上创建索引,并在索引中包含v3列,以防止必须从数据表中获取它:CREATE ...

2018-07-06 16:51:43 1300 1

原创 phoenix学习第三节 User-defined functions(UDFs) 自定义函数

User-defined functions(UDFs)自定义函数U 概要用户可以创建临时/永久的函数。UDF可以与查询中的内置函数一样使用,例如select,upsert,delete,create functions index。临时函数在特定的回话和连接中生效,但是不能在其他的回话和连接中使用。永久函数的元信息将保存在SYSTEM.FUNCION的系统表中。支持租户特定函数,在特定的租户的连...

2018-07-06 15:21:37 1987

原创 phoenix学习第二节 特性一 事务

Phoenix TRANSACTIONS 事务phoenix除了有hbase的行级事务外,通过和Tephra集成,添加了完整的ACID事务支持。在phoenix中启动事务需要两个步骤1.   修改配置文件并启动hbase 1.配置hbase-site.xml文件<property> <name> phoenix.transactions.enabled </ n...

2018-07-06 11:24:33 945 1

原创 phoenix学习第一节

总览phoenix是低延迟的基于hadoop的OLTP服务,支持标准的sql和全部的事务4要素,它是在nosql的hbase基础上添加元数据完成的,而且元数据保存在hbase的表中。sql的支持apche phoenix 将标准的sql编译成为hbase的scans,并且将结果数据转换成标准的jdbc结果集合。支持的sql包括,select、from、where、group by、having、o...

2018-07-05 17:17:54 659

原创 springboot配置文件优先级

官网地址:https://docs.spring.io/spring-boot/docs/current/reference/html/boot-features-external-config.htmlSpring Boot uses a very particular PropertySource order that is designed to allow sensible overrid...

2018-04-19 09:44:54 298

转载 springConfigserver git 本地文件设置

1、config 默认Git加载通过spring.cloud.config.server.git.uri指定配置信息存储的git地址,比如:https://github.com/spring-cloud-samples/config-repo2、加载本地开发环境### config server nativespring.profiles.active=nativespring.cloud.con...

2018-04-17 15:17:47 920

原创 Elasticsearch使用templates的restapi

定义模板:curl -XPUT localhost:9200/_template/xxxtemplate -d ' { "template" : "ehl*", "settings" : { "number_of_shards" : 1 }, "mappings" : { "type1" : {

2018-02-28 14:23:05 648

原创 说说maven快照配置问题

maven快照管理问题,怎么使用好快照呢?aliyunaliyunhttp://maven.aliyun.com/nexus/content/groups/public/truenevertruealways红色部分一条要加上,要不然不管是releases还是snapshots都不及时更新哦。是不是快照不是在私服中配置,二是在创建

2017-12-20 11:29:55 710

转载 spark on yarn的cpu使用

在yarn-site.xml中,可以配置virutal core的个数,请注意不是physical core的个数,相关配置如下:  yarn.nodemanager.resource.cpu-vcores  30  NodeManager总的可用虚拟CPU个数virutal core的概念是将所有physical cpu组成8个可调度的队列,linux

2017-12-13 11:08:39 435

原创 spark on yarn 在HA nn1关闭的时候问题

当 nn1关闭的时候,spark提交任务不能执行报错如下:spark官方文档说明了这个问题的存在,应该很快就解决了,我们提交任务后,需要等待50*2秒,没有太大影响

2017-12-11 17:23:55 374

原创 Spark on Yarn:任务提交参数配置

当在YARN上运行Spark作业,每个Spark executor作为一个YARN容器运行。Spark可以使得多个Tasks在同一个容器里面运行。以下参数配置为例子spark-submit--master yarn-cluster  / yarn-client    #使用集群调度模式/客户端模式--num-executors  2         # ex

2017-12-11 14:08:09 2222

转载 ambari中删除journalnode节点

之前谈过如何在ambari中增加journalnode节点服务,这篇将说明如何删除journalnode服务说明:hadooptest 为集群的名字,不是HA的名字http://10.11.32.53:8080 为ambari管理界面hadooptest.bj 为需要删除服务的主机正常情况,首先journalnode服务最少需要3个节点,保障在删除操作的开始,你的journ

2017-12-01 10:56:58 374

转载 ambari增加journalnode服务节点

原生态方式:以hadoop用户执行以下操作:1.修改etc/hadoop/hdfs-site.xml,在dfs.namenode.shared.edits.dir 配置项中增加相应的新的journal的地址和端口.2.把etc/hadoop/hdfs-site.xml分发到集群中各服务器.3.把现有journal中的数据目录拷贝到新journal服务器.4.在新jour

2017-12-01 10:56:09 979

原创 如何判断ftp上传文件完毕

问题描述:ftp上传文件的时候总是先创建了文件,然后再上传。如果此时程序读取文件可能就读取一部分不完成的数据。那么怎么解决才合理呢方案1.上传文件的客户端先创建一个临时文件名称,然后上传完毕再重命名。而重命名是修改注册表所以不会产生过程中数据不一致的问题方案2.在ftp客户端上传文件不由我们控制的时候,不能实施第一方案怎么办呢。打开文件在文件尾追加一个标识内容,关闭打开文件

2017-11-16 16:58:16 9825 2

原创 VSFTP 添加用户

在Linux 下添加VSFTP的用户一、添加 Linux 用户.    添加用户:     useradd -s /sbin/nologin     设置密码:    passwd 二、添加用户到vsftp的配置文件中。    打开配置文件: vi /etc/vsftpd/vsftpd.confuserlist_enable是指NO三、给用户家目录授权。

2017-09-26 11:34:39 2043

原创 hadoop之fsimage和edits工作机制和元数据namenode宕机恢复

hadoop之fsimage和edits工作机制和元数据namenode宕机恢复

2016-09-29 14:30:12 6246

原创 使用mapreduce读取hfile

使用mapreduce读取hfile这里主要说是hbase提供的一个HFileScanner的使用。以下代码使用HFileScanner写一个inputformat

2016-06-08 16:15:53 1640

原创 hadoop的mapreduce配置理解一

最近搞了一个从hdfs中导出数据到本地磁盘上,结果数据块太多程序跑一会就因为某个块数据损坏而报错失败。其实我希望的是能恢复多少恢复多少,忽略错误的块文件。这里说两个配置项1. mapred.map.max.attempts 默认4 map时报错重试几次,在这里我就设置1,,错就错了别耽误时间2.mapred.max.map.failures.percent 默认0 map报错以后容忍报错的map百分比,这里我设置了50,不怕错错就错呗。可是使用 -D mapred.map.max.atte

2016-06-08 16:03:11 666

原创 kafka0.7x到kafka0.8x改变一

kafka0.7x到kafka0.8x改变一 0.8x版本开始新group读取数据时从最新的开始,之前版本反之。kafka0.7x版本配置项autooffset.reset 默认smallest 从最老数据开始kafka0.8x版本配置项auto.offset.reset 默认largest 从最新数据开始

2016-06-08 15:49:08 671

转载 分布式搜索elasticsearch------索引修复

分布式搜索elasticsearch------索引修复

2016-04-09 10:58:58 500

原创 kafka0.72扩容和磁盘优化

kafka0.72扩容 增加机器 增加节点 使用多磁盘 磁盘io优化

2016-04-08 17:11:07 2735

转载 成为Java GC专家(5)

转载地址:http://www.importnew.com/13954.html这是“成为Java GC专家”系列的第五篇文章。在第一篇深入浅出Java垃圾回收机制中,我们已经学习了不同的GC算法流程、GC的工作原理、新生代(Young Generation)和老年代(Old Generation)的概念。你应该了解了JDK7中5种GC类型以及各种类型对应用程序的影响。在第二篇

2016-03-17 15:14:43 437

转载 成为Java GC专家(4)

转载地址:http://www.importnew.com/3151.html这是“成为Java GC专家系列文章”的第四篇。在第一篇文章 成为JavaGC专家Part I — 深入浅出Java垃圾回收机制 中我们学习了不同GC算法的执行过程,GC如何工作,新生代及老年代的基本概念,在JDK7中你应该了解的5种GC类型以及他们的性能如何。在第二篇文章 成为JavaGC专

2016-03-17 15:11:32 426

转载 成为Java GC专家(3)

转载地址:http://www.importnew.com/3146.html本文是成为Java GC专家系列文章的第三篇。在第一篇《成为JavaGC专家Part I — 深入浅出Java垃圾回收机制》中我们学习了不同GC算法的执行过程,GC是如何工作的,什么是新生代和老年代,你应该了解的JDK7中的5种GC类型,以及这5种类型对于应用性能的影响。在第二篇《成为JavaGC专家

2016-03-17 15:09:26 458

转载 成为JavaGC专家(2)

转载地址:http://www.importnew.com/2057.html本文是成为Java GC专家系列文章的第二篇。在第一篇《深入浅出Java垃圾回收机制》中我们学习了不同GC算法的执行过程,GC是如何工作的,什么是新生代和老年代,你应该了解的JDK7中的5种GC类型,以及这5种类型对于应用性能的影响。在本文中,我将解释JVM到底是如何执行垃圾回收处理的。什么是

2016-03-17 15:07:54 401

转载 成为JavaGC专家(1)

转载地址:http://www.importnew.com/1993.html对于Java开发人员来说,了解垃圾回收机制(GC)有哪些好处呢?首先可以满足作为一名软件工程师的求知欲,其次,深入了解GC如何工作可以帮你写出更好的Java应用。这仅仅代表我个人的意见,但我坚信一个精通GC的人往往是一个好的Java开发者。如果你对GC的处理过程感兴趣,说明你已经具备较大规模应

2016-03-17 15:05:10 348

转载 nginx 安装手记

Nginx需要依赖下面3个包1. gzip 模块需要 zlib 库 ( 下载: http://www.zlib.net/ )  zlib-1.2.8.tar.gz2. rewrite 模块需要 pcre 库 ( 下载: http://www.pcre.org/ )  pcre-8.21.tar.gz3. ssl 功能需要 openssl 库 ( 下载: http://www.openssl

2016-03-02 11:38:31 2668

原创 elasticsearch2.2多表联查分析及其hdsf支持说明

一、多表联查问题首先开门见山的说,elasticsearch对多表的联查是不支持的,暂时只能说支持“过车数据可以打标记”1.分析案例一网上有个案例地址为:http://www.wowtools.org/blog/articles/2015/09/08/1441692036407.html截图如下: 图中1和2是建立学生和班级关系图中3和4是插入数据,注意4的url中

2016-03-01 12:52:28 5519

原创 hadoop2.6数据导入elasticsearch2.2(解析hbase导出数据)

参考网址:https://www.elastic.co/guide/en/elasticsearch/hadoop/current/mapreduce.html1.下载依赖jarelasticsearch-hadoop2.2.0.jar这个从私服下载吧。2.数据流向是:hbase导出数据-》hdfs-》es23.以下直接粘贴代码import java.ut

2016-03-01 11:56:08 2495 1

原创 elasticsearch2.2-yarn(hadoop)安装

序言: 首先说说es2.2在yarn上跑的好处和不足,在hadoop上跑可以统一使用yarn资源,不用单独给es搞物理机了。这里要注意es并没有使用hdfs,网上资料说可以使用hdfs来管理es备份文件,本人费很大劲没有找到成功安装方式。 参考网址:https://github.com/elastic/elasticsearch-hadoop 源码地址https://www

2016-03-01 11:30:21 2181

原创 elasticsearch2.2的单机安装

elasticsearch2.2的单机安装 使用 启动

2016-03-01 09:41:03 1591 2

转载 如何确定Kafka的分区数、key和consumer线程数

在Kafak中国社区的qq群中,这个问题被提及的比例是相当高的,这也是Kafka用户最常碰到的问题之一。本文结合Kafka源码试图对该问题相关的因素进行探讨。希望对大家有所帮助。 怎么确定分区数?    “我应该选择几个分区?”——如果你在Kafka中国社区的群里,这样的问题你会经常碰到的。不过有些遗憾的是,我们似乎并没有很权威的答案能够解答这样的问题。其实这也不奇怪,毕竟

2016-02-23 12:44:29 687

转载 使用ToolRunner运行Hadoop程序基本原理分析

为了简化命令行方式运行作业,Hadoop自带了一些辅助类。GenericOptionsParser是一个类,用来解释常用的Hadoop命令行选项,并根据需要,为Configuration对象设置相应的取值。通常不直接使用GenericOptionsParser,更方便的方式是:实现Tool接口,通过ToolRunner来运行应用程序,ToolRunner内部调用GenericOptionsPars

2016-02-19 14:10:53 490

转载 HBase备份之导入导出

我们在上一篇文章《HBase复制》中讲述了如何建立主/从集群,实现数据的实时备份。但是,HBase复制只对设置好复制以后的数据生效,也即,配置好复制之后插入HBase主集群的数据才能同步复制到HBase从集群中,而对之前的历史数据,采用HBase复制这种办法是无能为力的。本文介绍如何使用HBase的导入导出功能来实现历史数据的备份。1)将HBase表数据导出到hdfs的一个指定目录中,具体

2016-02-17 11:28:06 467

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除