徐雄辉-CSDN博客

原创 org.apache.hadoop.ipc.RemoteException(javax.securi ty.sasl.SaslException): GSS initiate failed

hdfs开启kerberos之后，namenode报错，连不上journalnode2019-03-15 18:54:46,504 WARN org.apache.hadoop.security.UserGroupInformation: PriviledgedActionException as:hdfs/[email protected] (auth:KERBEROS) caus...

2019-12-05 09:26:55 1897 1

原创 java.lang.RuntimeException: HRegionServer Aborted

date1配置时间服务器1.检查时区$ date -R1+0800东八区区时2.检查软件包如果ntp工具不存在，则需要使用yum安装$ sudo rpm -qa | grep ntp1如果不存在则安装$ sudo yum -y install ntp13.先以网络时间为标准，纠正集群的时间服务器的时间$ sudo ntpdate pool.ntp.org1...

2019-12-04 10:19:06 381

原创大数据发展历程

一：大数据概念大数据是由数量巨大、结构复杂、类型众多的数据结构的数据集合，在合理时间内，通过对该该数据集合的管理、处理、并整理成为能帮助政府机构和企业进行管理、决策的讯息。二：大数据特点大数据通常具有以下几种特点：1、大量：即数据体量庞大，包括采集、存储和计算的量都非常大。2、高速：要求处理速度快，从各类型的数据中快速获得高价值的信息3、多样：数据种类繁多4、价值：价值...

2019-11-26 16:48:29 8648

通过elasticsearch-hadoop可以将spark 处理后的数据保存在Elastic上，后续数据的检查和查询非常方便。https://db-blog.web.cern.ch/blog/prasanth-kothuri/2016-05-integrating-hadoop-and-elasticsearch-%E2%80%93-part-2-%E2%80%93-writing-and...

2019-11-26 14:09:33 194

原创使用spark-submit提交到的各个模式原理图解

Standalone-client提交任务方式提交命令./spark-submit--master spark://node1:7077--class org.apache.spark.examples.SparkPi../lib/spark-examples-1.6.0-hadoop2.6.0.jar1000或者./spark-submit--master s...

2019-11-25 14:06:34 731

原创一文揭秘HBase 上的 SQL 引擎，Kylin 和 Phoenix 有什么不同

1.1 Apache Kylin 介绍Kylin 是一个分布式的大数据分析引擎，提供在 Hadoop 之上的 SQL 接口和多维分析能力（OLAP），可以做到在 TB 级的数据量上实现亚秒级的查询响应。 ...

2019-11-21 11:36:54 348

原创记录一次HBase2.x之RIT问题解决方案

1 问题描述Region-In-Trasition机制从字面意思来看，Region-In-Transition说的是Region变迁机制，实际上是指在一次特定操作行为中Region状态的变迁，例如merge、split、assign、unssign等操作。RIT问题指的是在RIT过程中出现了异常情况，然后导致region的状态一直保持在RIT，使得HBase出现异常。2 ...

2019-11-18 20:33:30 1674

原创 Hbase常用可靠的数据迁移方案

常用的HBASE数据迁移目前的方案有非常多种，本文主要介绍两种一种为Hadoop手动数据迁移，另一种为Snapshot数据迁移原理不多介绍，直接实战一、Hadoop层手动数据迁移需要注意：1.Hadoop/hbase版本也要注意是否一致，如果版本不一致，最终load表时会报错2.迁移实时写的表，最好是停止集群对表的写入，在以下方式需要迁移的表为Test步骤说明：将需要迁移的...

2019-11-14 20:33:42 682

原创 Github上最常用的Java16个工具类

在Java中，工具类定义了一组公共方法，这篇文章将介绍Java中使用最频繁及最通用的Java工具类。以下工具类、方法按使用流行度排名，参考数据来源于Github上随机选取的5万个开源项目源码。一. org.apache.commons.io.IOUtilscloseQuietly：关闭一个IO流、socket、或者selector且不抛出异常，通常放在finally块toString：...

2019-11-12 20:21:46 1651

转载 docker centos安装

Docker从1.13版本之后采用时间线的方式作为版本号，分为社区版CE和企业版EE。社区版是免费提供给个人开发者和小型团体使用的，企业版会提供额外的收费服务，比如经过官方测试认证过的基础设施、容器、插件等。社区版按照stable和edge两种方式发布，每个季度更新stable版本，如17.06，17.09；每个月份更新edge版本，如17.09，17.10。一、安装docker...

2019-03-11 16:13:46 115

转载 hbase数据迁移

一、前言HBase数据迁移是很常见的操作，目前业界主要的迁移方式主要分为以下几类：图1.HBase数据迁移方案从上面图中可看出，目前的方案主要有四类，Hadoop层有一类，HBase层有三类。下面分别介绍一下。二、Hadoop层数据迁移2.1 方案介绍Hadoop层的数据迁移主要用到DistCp(Distributed Copy)，官方描述是：DistCp...

2018-09-17 13:55:22 234

转载 Spark 序列化问题全解

本文主要从以下三个方面解释Spark 应用中序列化问题。 1、Java序列化含义。 2、Spark代码为什么需要序列化。 3、如何解决Spark序列化问题。 1、Java序列化含义。Spark是基于JVM运行的进行，其序列化必然遵守Java的序列化规则。序列化就是指将一个对象转化为二进制的byte流（注意，不是bit流），然后以文件的方式进行保存或通过网络传输，等待被反序列化读取出...

2018-09-17 11:08:02 1512

原创 Spark：Driver和Job，Stage概念

Driver Program, Job和Stage是Spark中的几个基本概念。Spark官方文档中对于这几个概念的解释比较简单，对于初学者很难正确理解他们的涵义。官方解释如下（http://spark.apache.org/docs/latest/cluster-overview.html）： Driver Program: 运行应用程序的main()函数并创建SparkContext的过程...

2018-09-15 18:36:41 1094

转载 spark : foreachpartition

spark的运算操作有两种类型：分别是Transformation和Action，区别如下：Transformation：代表的是转化操作就是我们的计算流程，返回是RDD[T]，可以是一个链式的转化，并且是延迟触发的。Action：代表是一个具体的行为，返回的值非RDD类型，可以一个object，或者是一个数值，也可以为Unit代表无返回值，并且action会立即触发job的执行。Tr...

2018-09-15 17:18:23 2078

转载 RESTful理解

一.什么是RESTful 面向资源简单的说：RESTful是一种架构的规范与约束、原则，符合这种规范的架构就是RESTful架构。先看REST是什么意思，英文Representational state transfer 表述性状态转移其实就是对资源的表述性状态转移。资源的地址在web中就是URL （统一资源标识符）资源是REST系统的核心概念。所有的设计都是以资源...

2018-08-31 09:20:26 168

原创 Spark 整合springboot问题整合

1.netty包冲突 common包跟spark自带的netty冲突需要删掉其他的包java.lang.AbstractMethodError: org.apache.spark.network.protocol.MessageWithHeader.touch(Ljava/lang/Object;)Lio/netty/util/ReferenceCounted;at io.netty....

2018-08-30 11:32:18 3367

转载 java lambda 双冒号

前面的章节我们提及到过双冒号运算符，双冒号运算就是Java中的[方法引用],[方法引用]的格式是类名::方法名注意是方法名哦，后面没有括号“()”哒。为啥不要括号，因为这样的是式子并不代表一定会调用这个方法。这种式子一般是用作Lambda表达式，Lambda有所谓懒加载嘛，不要括号就是说，看情况调用方法。例如表达式:person -> person.getAge...

2018-08-24 15:01:00 797

转载 JavaSpark-sparkSQL

入门起点：SparkSession Spark中所有功能的入口点就是这个SparkSession类。要创建一个基本的SparkSession，只需使用SparkSession.builder()：import org.apache.spark.sql.SparkSession;SparkSession spark = SparkSession .builder() .app...

2018-08-17 09:18:43 3231

原创 SparkContext转化为JavaSparkContext

自动Spark2.0发布以来，官方最开始推荐的代码由final SparkConf conf = new SparkConf().setMaster("local").setAppName("---");final JavaSparkContext ctx = new JavaSparkContext(conf);这种形式转化成为了SparkSession spark = Spa...

2018-08-16 15:41:51 3139

转载 spark与缓存

Spark与缓存预期成果1.1 当前问题当前以图搜图应用存在的问题：当前使用spark RDD方案无法达到数据实时加载（每10分钟加载一次，虽然可配，但太短可能会有问题） Spark RDD内存会被分为两部分，一部分用来缓存数据一部分用来计算，Spark默认配置只有差不多50%的内存用于缓存（也就是说executor配了100G，只有50多G可以被用来做缓存），虽然比例可以进...

2018-08-16 09:55:09 283

转载 spark java rdd

package com.hand.study;import scala.Tuple2;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.ja...

2018-08-09 09:53:54 345

转载 JavaSpark-RDD编程-常见操作、持久化、函数传递、reduce求平均

RDD是Spark的核心抽象，全称弹性分布式数据集（就是分布式的元素集合）。Spark中对数据的所有操作无外乎创建RDD、转化已有RDD和调用RDD的操作进行求值。Spark 会自动将 RDD 中的数据分发到集群上，并将操作并行化执行 RDD在抽象上来说是一种不可变的分布式数据集合(外部文本文件是在创建RDD时自动被分为多个分区)。它是被分为多个分区，每个分区分布在集群的不同节点（自动分发）...

2018-08-08 20:51:17 765

转载 hbase默认配置

hbase.rootdir：这个目录是region server的共享目录，用来持久化Hbase。URL需要是'完全正确'的，还要包含文件系统的scheme。例如，要表示hdfs中的 '/hbase'目录，namenode 运行在namenode.example.org的9090端口。则需要设置为hdfs://namenode.example.org:9000 /hbase。默认情况下Hbas...

2018-08-03 09:42:12 5221

转载 StringTokenizer

StringTokenizer是字符串分隔解析类型，属于：java.util包。1.StringTokenizer的构造函数 StringTokenizer（String str）：构造一个用来解析str的StringTokenizer对象。java默认的分隔符是“空格”、“制表符（‘\t’）”、“换行符(‘\n’）”、“回车符（‘\r’）”。 StringTokenizer（String...

2018-07-30 09:53:22 5946

转载 hbase自带性能测试

1）顺序写：sequentialWrite例如，预分区100 regions，100线程并发，顺序写1亿条数据：hbase org.apache.hadoop.hbase.PerformanceEvaluation--nomapred --rows=1000000 --presplit=100 sequentialWrite 100注意事项：a. hbase PE默认使用mapred...

2018-07-24 16:53:30 3998 3

转载 hbase 参数说明

一、服务端调优 1、参数配置 1）、hbase.regionserver.handler.count：该设置决定了处理RPC的线程数量，默认值是10，通常可以调大，比如：150，当请求内容很大（上MB，比如大的put、使用缓存的scans）的时候，如果该值设置过大则会占用过多的内存，导致频繁的GC，或者出现OutOfMemory，因此该值不是越大越好。 2）、hbase.h...

2018-07-24 16:15:30 1041

转载 HBase的几种调优（GC策略，flush，compact，split）

一：GC的调优1.jvm的内存　　新生代：存活时间较短，一般存储刚生成的一些对象　　老年代：存活时间较长，主要存储在应用程序中生命周期较长的对象　　永久代：一般存储meta和class的信息 2.GC策略　　Parrallel New Collector，垃圾回收策略　　并行标记回收器（Concurrent Mark-Sweep Collector） 3.Par...

2018-07-24 16:06:12 923

转载 hbase 内存规划

线上HBase集群应该如何进行参数配置？这其实是很多HBase初学者在实践环节都可能会遇到的问题，有些人会选择默认配置，有些人会选择其他公司的推荐配置；诚然，这样的参数配置在大多数情况下都能正常工作，但性能却未必最佳、资源未必都能被合理利用。本文结合笔者的实践经验，针对不同应用场景，对多种工作模式下的参数进行详细说明，并结合相关示例对集群规划中最核心模块-内存规划进行介绍。一方面希望读者能够了解H...

2018-07-24 12:14:14 169

转载 HBase内存规划

线上HBase集群应该如何进行参数配置?这其实是很多HBase初学者在实践环节都可能会遇到的问题，有些人会选择默认配置，有些人会选择其他公司的推荐配置;诚然，这样的参数配置在大多数情况下都能正常工作，但性能却未必最佳、资源未必都能被合理利用。本文结合笔者的实践经验，针对不同应用场景，对多种工作模式下的参数进行详细说明，并结合相关示例对集群规划中最核心模块-内存规划进行介绍。一方面希望读者能够了解H...

2018-07-24 11:17:03 224

转载 HBase BlockCache系列 – 走进BlockCache

和其他数据库一样，优化IO也是HBase提升性能的不二法宝，而提供缓存更是优化的重中之重。最理想的情况是，所有数据都能够缓存到内存，这样就不会有任何文件IO请求，读写性能必然会提升到极致。然而现实是残酷的，随着请求数据的不断增多，将数据全部缓存到内存显得不合实际。幸运的是，我们并不需要将所有数据都缓存起来，根据二八法则，80%的业务请求都集中在20%的热点数据上，因此将这部分数据缓存起就可以极大地...

2018-07-24 10:45:23 3314 1

原创 js 创建类似java map集合

// Map map = new HashMap();var map = {};// map.put(key, value);map[key] = value; // Object value = map.get(key);var value = map[key]; // boolean has = map.containsKey(key);var has = key in...

2018-07-19 10:08:42 6042 1

原创 java调用shell脚本里的函数

public static void main(String[] args) {try { // bash /opt/ts.sh 脚本路径 restart 脚本里的函数 String shellSql="bash /opt/ts.sh restart"; Process process = Runtime.getRuntime().exec(shellS...

2018-06-12 15:45:38 629

转载爬虫出现Forbidden by robots.txt

先说结论，关闭scrapy自带的ROBOTSTXT_OBEY功能，在setting找到这个变量，设置为False即可解决。使用scrapy爬取淘宝页面的时候，在提交http请求时出现debug信息Forbidden by robots.txt，看来是请求被拒绝了。开始因为是淘宝页面有什么保密机制，防止爬虫来抓取页面，于是在spider中填入各种header信息，伪装成浏览器，结果还是不行。。。用...

2018-06-08 16:48:16 375

原创例子1.link_scrapy

#!/usr/bin/env python# -*- encoding: utf-8 -*-"""Topic: 爬取链接的蜘蛛Desc : """import loggingfrom coolscrapy.items import CoolscrapyItemimport scrapyfrom scrapy.spiders import CrawlSpider, Rulefro...

2018-06-08 16:36:17 141

原创 scrapy 爬取京东例子

#-*- encoding: UTF-8 -*-#---------------------------------import------------------------------------import scrapyimport refrom tutorial.items import TutorialItemfrom scrapy import Request#------...

2018-06-08 13:46:22 588

转载 pycharm下打开、执行并调试scrapy爬虫程序

首先得有一个Scrapy项目，我在Desktop上新建一个Scrapy的项目叫test，在Desktop目录打开命令行，键入命令：scrapy startproject test1 目录结构如下：打开Pycharm，选择open 选择项目，ok 打开如下界面之后，按alt + 1，打开project 面板在test1/spiders/，文件夹下，新建一个爬虫spider.py， ...

2018-06-08 11:20:26 591

原创 scrapy -----ImportError: No module named 'win32api'

今天在搭建一个虚拟环境过程中，遇到了点问题，在此记录一二。安装完scrapy后，再去安装pywin32，之后再通过命令行调试scrapy项目时，发现任然爆出了如下错误：?12import win32apiImportError: DLL load failed: 找不到指定的模块。按以往经验只要安装了pywin32就可以了，而且我也找到了\venv\Lib\site-packages\win32\...

2018-06-03 11:56:27 181

转载 Python3.6下scrapy框架的安装

首先考虑使用最简单的方法安装[plain] view plain copy pip install scrapy 命令安装，提示 Failed building wheel for TwistedMicrosoft Visual C++ 14.0 is required...于是开始问度娘应该怎样安装，看了几篇博客，虽然和我的问题不十分相同，但是也收到了启发，知道应该怎样解决我的问题了。解决...

2018-06-03 10:51:55 217

转载 hbase jstack工具分析

在分析线上问题时常使用到jstack <PID>命令将当时Java应用程序的线程堆栈dump出来。面对jstack 日志，我们如何查看？首先要清楚线程的状态线程的状态有：new、runnable、running、waiting、timed_waiting、blocked、dead线程状态变迁图：各状态说明：New: 当线程对象创建时存在的状态，此时线程不可能执行；Runnable：当调...

2018-05-20 20:54:19 678