willwill1101-CSDN博客

原创 spark2学习(3) 之Spark SQL

Spark SQL是用于结构化数据处理的Spark模块。与基本的Spark RDD API不同，Spark SQL提供的接口为Spark提供了有关数据结构和正在执行的计算的更多信息。在内部，Spark SQL使额外的优化。有几种与Spark SQL交互的方法，包括SQL和Dataset API。创建sparksessionimport org.apache.spark.sql.Spark...

2018-08-12 22:27:14 2206

原创 spark2学习(2) 之RDD编程

RDD编程指南实际上从spark2开始就不推荐使用rdd了，使用dataset操作更加简单高效，但是我们还是简单介绍一下内容吧弹性分布式数据集（RDD）Spark围绕弹性分布式数据集（RDD）的概念展开，RDD是可以并行操作的容错的容错集合。创建RDD有两种方法：并行化驱动程序中的现有集合，或引用外部存储系统中的数据集，例如共享文件系统，HDFS，HBase或提供Hadoop ...

2018-08-10 23:57:38 391

原创 spark2学习(1) 之Spark Shell

在Spark 2.0之前，Spark的主要编程接口是弹性分布式数据集（RDD）。在Spark 2.0之后，RDD被数据集取代，数据集类似于RDD一样强类型，但在底层有更丰富的优化。这里强调以下，我们使用的ambari去安装集群的，所以不描述安装的问题。使用Spark Shell进行交互式分析启动sparkshell /usr/hdp/current/spark2-client/bi...

2018-08-10 22:16:07 1315

原创谈谈phoenix salt buckets 的使用问题

首先说，这个是一不错的方案，但是乱用的问题特别的严重。在没有使用phoenix之前，对hbase的rowkey的设计是一门学问。难道有了phoenix我们就可以不在考虑这样rowkey的问题了吗，答案是千万不要这样干。只要当你的主键必须是单调递增的时候，而且我们使用这个主键去检索数据，那么这个salt bucket 就是完美的选择了。如果我们想当然的将主键设计成uuid，然后再用saltbucke...

2018-07-06 17:48:37 2392 5

原创 phoenix的特性 OFFSET DUPLICATE

从4.6开始可以使用 OFFSET了样例：例如，如果页面大小为10，则要选择第二页，可以使用以下查询（行将从11返回到20）：ELECT title, author, isbn, descriptionFROM libraryWHERE published_date > 2010ORDER BY title, author, isbnLIMIT 10 OFFSET 10看了phoen...

2018-07-06 17:32:51 916

原创 phoenix学习四节 Secondary Indexing 二级索引

1.Secondary Indexing二级索引二级索引就是从主要访问路径的另一个hbase表的方式。1.覆盖索引机制 phoenix提供了一个强大的覆盖机制，就是一旦从索引中找到检索的条目就不去访问主表了。就是说它将关心的数据绑定到索引中，这样就可以节省读取时间，典型的用空间换时间的案例。例如，以下内容将在v1和v2列上创建索引，并在索引中包含v3列，以防止必须从数据表中获取它：CREATE ...

2018-07-06 16:51:43 1300 1

原创 phoenix学习第三节 User-defined functions(UDFs) 自定义函数

User-defined functions(UDFs)自定义函数U 概要用户可以创建临时/永久的函数。UDF可以与查询中的内置函数一样使用，例如select，upsert，delete，create functions index。临时函数在特定的回话和连接中生效，但是不能在其他的回话和连接中使用。永久函数的元信息将保存在SYSTEM.FUNCION的系统表中。支持租户特定函数，在特定的租户的连...

2018-07-06 15:21:37 1987

原创 phoenix学习第二节特性一事务

Phoenix TRANSACTIONS 事务phoenix除了有hbase的行级事务外，通过和Tephra集成，添加了完整的ACID事务支持。在phoenix中启动事务需要两个步骤1. 修改配置文件并启动hbase 1.配置hbase-site.xml文件<property> <name> phoenix.transactions.enabled </ n...

2018-07-06 11:24:33 945 1

原创 phoenix学习第一节

总览phoenix是低延迟的基于hadoop的OLTP服务，支持标准的sql和全部的事务4要素，它是在nosql的hbase基础上添加元数据完成的，而且元数据保存在hbase的表中。sql的支持apche phoenix 将标准的sql编译成为hbase的scans，并且将结果数据转换成标准的jdbc结果集合。支持的sql包括，select、from、where、group by、having、o...

2018-07-05 17:17:54 659

原创 springboot配置文件优先级

官网地址：https://docs.spring.io/spring-boot/docs/current/reference/html/boot-features-external-config.htmlSpring Boot uses a very particular PropertySource order that is designed to allow sensible overrid...

2018-04-19 09:44:54 298

转载 springConfigserver git 本地文件设置

1、config 默认Git加载通过spring.cloud.config.server.git.uri指定配置信息存储的git地址，比如：https://github.com/spring-cloud-samples/config-repo2、加载本地开发环境### config server nativespring.profiles.active=nativespring.cloud.con...

2018-04-17 15:17:47 920

原创 Elasticsearch使用templates的restapi

定义模板：curl -XPUT localhost:9200/_template/xxxtemplate -d ' { "template" : "ehl*", "settings" : { "number_of_shards" : 1 }, "mappings" : { "type1" : {

2018-02-28 14:23:05 648

原创说说maven快照配置问题

maven快照管理问题，怎么使用好快照呢？aliyunaliyunhttp://maven.aliyun.com/nexus/content/groups/public/truenevertruealways红色部分一条要加上，要不然不管是releases还是snapshots都不及时更新哦。是不是快照不是在私服中配置，二是在创建

2017-12-20 11:29:55 710

转载 spark on yarn的cpu使用

在yarn-site.xml中，可以配置virutal core的个数，请注意不是physical core的个数，相关配置如下： yarn.nodemanager.resource.cpu-vcores 30 NodeManager总的可用虚拟CPU个数virutal core的概念是将所有physical cpu组成8个可调度的队列，linux

2017-12-13 11:08:39 435

原创 spark on yarn 在HA nn1关闭的时候问题

当 nn1关闭的时候，spark提交任务不能执行报错如下：spark官方文档说明了这个问题的存在，应该很快就解决了，我们提交任务后，需要等待50*2秒，没有太大影响

2017-12-11 17:23:55 374

原创 Spark on Yarn：任务提交参数配置

当在YARN上运行Spark作业，每个Spark executor作为一个YARN容器运行。Spark可以使得多个Tasks在同一个容器里面运行。以下参数配置为例子spark-submit--master yarn-cluster / yarn-client　　　　#使用集群调度模式/客户端模式--num-executors 2 　　 # ex

2017-12-11 14:08:09 2222

转载 ambari中删除journalnode节点

之前谈过如何在ambari中增加journalnode节点服务，这篇将说明如何删除journalnode服务说明：hadooptest 为集群的名字，不是HA的名字http://10.11.32.53:8080 为ambari管理界面hadooptest.bj 为需要删除服务的主机正常情况，首先journalnode服务最少需要3个节点，保障在删除操作的开始，你的journ

2017-12-01 10:56:58 374

转载 ambari增加journalnode服务节点

原生态方式：以hadoop用户执行以下操作:1.修改etc/hadoop/hdfs-site.xml,在dfs.namenode.shared.edits.dir 配置项中增加相应的新的journal的地址和端口.2.把etc/hadoop/hdfs-site.xml分发到集群中各服务器.3.把现有journal中的数据目录拷贝到新journal服务器.4.在新jour

2017-12-01 10:56:09 979

原创如何判断ftp上传文件完毕

问题描述：ftp上传文件的时候总是先创建了文件，然后再上传。如果此时程序读取文件可能就读取一部分不完成的数据。那么怎么解决才合理呢方案1.上传文件的客户端先创建一个临时文件名称，然后上传完毕再重命名。而重命名是修改注册表所以不会产生过程中数据不一致的问题方案2.在ftp客户端上传文件不由我们控制的时候，不能实施第一方案怎么办呢。打开文件在文件尾追加一个标识内容，关闭打开文件

2017-11-16 16:58:16 9825 2

原创 VSFTP 添加用户

在Linux 下添加VSFTP的用户一、添加 Linux 用户. 添加用户： useradd -s /sbin/nologin 设置密码： passwd 二、添加用户到vsftp的配置文件中。打开配置文件： vi /etc/vsftpd/vsftpd.confuserlist_enable是指NO三、给用户家目录授权。

2017-09-26 11:34:39 2043

原创 hadoop之fsimage和edits工作机制和元数据namenode宕机恢复

hadoop之fsimage和edits工作机制和元数据namenode宕机恢复

2016-09-29 14:30:12 6246

原创使用mapreduce读取hfile

使用mapreduce读取hfile这里主要说是hbase提供的一个HFileScanner的使用。以下代码使用HFileScanner写一个inputformat

2016-06-08 16:15:53 1640

原创 hadoop的mapreduce配置理解一

最近搞了一个从hdfs中导出数据到本地磁盘上，结果数据块太多程序跑一会就因为某个块数据损坏而报错失败。其实我希望的是能恢复多少恢复多少，忽略错误的块文件。这里说两个配置项1. mapred.map.max.attempts 默认4 map时报错重试几次，在这里我就设置1，,错就错了别耽误时间2.mapred.max.map.failures.percent 默认0 map报错以后容忍报错的map百分比，这里我设置了50，不怕错错就错呗。可是使用 -D mapred.map.max.atte

2016-06-08 16:03:11 666

原创 kafka0.7x到kafka0.8x改变一

kafka0.7x到kafka0.8x改变一 0.8x版本开始新group读取数据时从最新的开始，之前版本反之。kafka0.7x版本配置项autooffset.reset 默认smallest 从最老数据开始kafka0.8x版本配置项auto.offset.reset 默认largest 从最新数据开始

2016-06-08 15:49:08 671

转载分布式搜索elasticsearch------索引修复

分布式搜索elasticsearch------索引修复

2016-04-09 10:58:58 500

原创 kafka0.72扩容和磁盘优化

kafka0.72扩容增加机器增加节点使用多磁盘磁盘io优化

2016-04-08 17:11:07 2735

转载成为Java GC专家（5）

转载地址：http://www.importnew.com/13954.html这是“成为Java GC专家”系列的第五篇文章。在第一篇深入浅出Java垃圾回收机制中，我们已经学习了不同的GC算法流程、GC的工作原理、新生代（Young Generation）和老年代（Old Generation）的概念。你应该了解了JDK7中5种GC类型以及各种类型对应用程序的影响。在第二篇

2016-03-17 15:14:43 437

转载成为Java GC专家（4）

转载地址：http://www.importnew.com/3151.html这是“成为Java GC专家系列文章”的第四篇。在第一篇文章成为JavaGC专家Part I — 深入浅出Java垃圾回收机制中我们学习了不同GC算法的执行过程，GC如何工作，新生代及老年代的基本概念，在JDK7中你应该了解的5种GC类型以及他们的性能如何。在第二篇文章成为JavaGC专

2016-03-17 15:11:32 426

转载成为Java GC专家（3）

转载地址：http://www.importnew.com/3146.html本文是成为Java GC专家系列文章的第三篇。在第一篇《成为JavaGC专家Part I — 深入浅出Java垃圾回收机制》中我们学习了不同GC算法的执行过程，GC是如何工作的，什么是新生代和老年代，你应该了解的JDK7中的5种GC类型，以及这5种类型对于应用性能的影响。在第二篇《成为JavaGC专家

2016-03-17 15:09:26 458

转载成为JavaGC专家（2）

转载地址：http://www.importnew.com/2057.html本文是成为Java GC专家系列文章的第二篇。在第一篇《深入浅出Java垃圾回收机制》中我们学习了不同GC算法的执行过程，GC是如何工作的，什么是新生代和老年代，你应该了解的JDK7中的5种GC类型，以及这5种类型对于应用性能的影响。在本文中，我将解释JVM到底是如何执行垃圾回收处理的。什么是

2016-03-17 15:07:54 401

转载成为JavaGC专家（1）

转载地址：http://www.importnew.com/1993.html对于Java开发人员来说，了解垃圾回收机制（GC）有哪些好处呢？首先可以满足作为一名软件工程师的求知欲，其次，深入了解GC如何工作可以帮你写出更好的Java应用。这仅仅代表我个人的意见，但我坚信一个精通GC的人往往是一个好的Java开发者。如果你对GC的处理过程感兴趣，说明你已经具备较大规模应

2016-03-17 15:05:10 348

转载 nginx 安装手记

Nginx需要依赖下面3个包1. gzip 模块需要 zlib 库 ( 下载: http://www.zlib.net/ ) zlib-1.2.8.tar.gz2. rewrite 模块需要 pcre 库 ( 下载: http://www.pcre.org/ ) pcre-8.21.tar.gz3. ssl 功能需要 openssl 库 ( 下载: http://www.openssl

2016-03-02 11:38:31 2668

原创 elasticsearch2.2多表联查分析及其hdsf支持说明

一、多表联查问题首先开门见山的说，elasticsearch对多表的联查是不支持的，暂时只能说支持“过车数据可以打标记”1.分析案例一网上有个案例地址为：http://www.wowtools.org/blog/articles/2015/09/08/1441692036407.html截图如下：图中1和2是建立学生和班级关系图中3和4是插入数据，注意4的url中

2016-03-01 12:52:28 5519

原创 hadoop2.6数据导入elasticsearch2.2（解析hbase导出数据）

参考网址：https://www.elastic.co/guide/en/elasticsearch/hadoop/current/mapreduce.html1.下载依赖jarelasticsearch-hadoop2.2.0.jar这个从私服下载吧。2.数据流向是：hbase导出数据-》hdfs-》es23.以下直接粘贴代码import java.ut

2016-03-01 11:56:08 2495 1

原创 elasticsearch2.2-yarn（hadoop）安装

序言：首先说说es2.2在yarn上跑的好处和不足，在hadoop上跑可以统一使用yarn资源，不用单独给es搞物理机了。这里要注意es并没有使用hdfs，网上资料说可以使用hdfs来管理es备份文件，本人费很大劲没有找到成功安装方式。参考网址：https://github.com/elastic/elasticsearch-hadoop 源码地址https://www

2016-03-01 11:30:21 2181

原创 elasticsearch2.2的单机安装

elasticsearch2.2的单机安装使用启动

2016-03-01 09:41:03 1591 2

转载如何确定Kafka的分区数、key和consumer线程数

在Kafak中国社区的qq群中，这个问题被提及的比例是相当高的，这也是Kafka用户最常碰到的问题之一。本文结合Kafka源码试图对该问题相关的因素进行探讨。希望对大家有所帮助。怎么确定分区数？ “我应该选择几个分区？”——如果你在Kafka中国社区的群里，这样的问题你会经常碰到的。不过有些遗憾的是，我们似乎并没有很权威的答案能够解答这样的问题。其实这也不奇怪，毕竟

2016-02-23 12:44:29 687

转载使用ToolRunner运行Hadoop程序基本原理分析

为了简化命令行方式运行作业，Hadoop自带了一些辅助类。GenericOptionsParser是一个类，用来解释常用的Hadoop命令行选项，并根据需要，为Configuration对象设置相应的取值。通常不直接使用GenericOptionsParser，更方便的方式是：实现Tool接口，通过ToolRunner来运行应用程序，ToolRunner内部调用GenericOptionsPars

2016-02-19 14:10:53 490

转载 HBase备份之导入导出

我们在上一篇文章《HBase复制》中讲述了如何建立主/从集群，实现数据的实时备份。但是，HBase复制只对设置好复制以后的数据生效，也即，配置好复制之后插入HBase主集群的数据才能同步复制到HBase从集群中，而对之前的历史数据，采用HBase复制这种办法是无能为力的。本文介绍如何使用HBase的导入导出功能来实现历史数据的备份。1）将HBase表数据导出到hdfs的一个指定目录中，具体

2016-02-17 11:28:06 467

空空如也

空空如也