自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(63)
  • 资源 (17)
  • 收藏
  • 关注

原创 org.apache.hadoop.ipc.RemoteException(javax.securi ty.sasl.SaslException): GSS initiate failed

hdfs开启kerberos之后,namenode报错,连不上journalnode2019-03-15 18:54:46,504 WARN org.apache.hadoop.security.UserGroupInformation: PriviledgedActionException as:hdfs/[email protected] (auth:KERBEROS) caus...

2019-12-05 09:26:55 1897 1

原创 java.lang.RuntimeException: HRegionServer Aborted

date1配置时间服务器1.检查时区$ date -R1+0800东八区区时2.检查软件包如果ntp工具不存在,则需要使用yum安装$ sudo rpm -qa | grep ntp1如果不存在则安装$ sudo yum -y install ntp13.先以网络时间为标准,纠正集群的时间服务器的时间$ sudo ntpdate pool.ntp.org1...

2019-12-04 10:19:06 381

原创 大数据发展历程

一:大数据概念大数据是由数量巨大、结构复杂、类型众多的数据结构的数据集合,在合理时间内,通过对该该数据集合的管理、处理、并整理成为能帮助政府机构和企业进行管理、决策的讯息。二:大数据特点大数据通常具有以下几种特点:1、大量:即数据体量庞大,包括采集、存储和计算的量都非常大。2、高速:要求处理速度快,从各类型的数据中快速获得高价值的信息3、多样:数据种类繁多4、价值:价值...

2019-11-26 16:48:29 8648

原创 Spark整合Elastic

通过elasticsearch-hadoop可以将spark 处理后的数据保存在Elastic上,后续数据的检查和查询非常方便。https://db-blog.web.cern.ch/blog/prasanth-kothuri/2016-05-integrating-hadoop-and-elasticsearch-%E2%80%93-part-2-%E2%80%93-writing-and...

2019-11-26 14:09:33 194

原创 使用spark-submit提交到的各个模式原理图解

Standalone-client提交任务方式提交命令./spark-submit--master spark://node1:7077--class org.apache.spark.examples.SparkPi../lib/spark-examples-1.6.0-hadoop2.6.0.jar1000或者./spark-submit--master s...

2019-11-25 14:06:34 731

原创 一文揭秘HBase 上的 SQL 引擎,Kylin 和 Phoenix 有什么不同

1.1 Apache Kylin 介绍Kylin 是一个分布式的大数据分析引擎,提供在 Hadoop 之上的 SQL 接口和多维分析能力(OLAP),可以做到在 TB 级的数据量上实现亚秒级的查询响应。 ...

2019-11-21 11:36:54 348

原创 记录一次HBase2.x之RIT问题解决方案

1 问题描述Region-In-Trasition机制从字面意思来看,Region-In-Transition说的是Region变迁机制,实际上是指在一次特定操作行为中Region状态的变迁,例如merge、split、assign、unssign等操作。RIT问题指的是在RIT过程中出现了异常情况,然后导致region的状态一直保持在RIT,使得HBase出现异常。2 ...

2019-11-18 20:33:30 1674

原创 Hbase常用可靠的数据迁移方案

常用的HBASE数据迁移目前的方案有非常多种,本文主要介绍两种一种为Hadoop手动数据迁移,另一种为Snapshot数据迁移原理不多介绍,直接实战一、Hadoop层手动数据迁移需要注意:1.Hadoop/hbase版本也要注意是否一致,如果版本不一致,最终load表时会报错2.迁移实时写的表,最好是停止集群对表的写入,在以下方式需要迁移的表为Test步骤说明:将需要迁移的...

2019-11-14 20:33:42 682

原创 Github上最常用的Java16个工具类

在Java中,工具类定义了一组公共方法,这篇文章将介绍Java中使用最频繁及最通用的Java工具类。以下工具类、方法按使用流行度排名,参考数据来源于Github上随机选取的5万个开源项目源码。一. org.apache.commons.io.IOUtilscloseQuietly:关闭一个IO流、socket、或者selector且不抛出异常,通常放在finally块toString:...

2019-11-12 20:21:46 1651

转载 docker centos安装

Docker从1.13版本之后采用时间线的方式作为版本号,分为社区版CE和企业版EE。社区版是免费提供给个人开发者和小型团体使用的,企业版会提供额外的收费服务,比如经过官方测试认证过的基础设施、容器、插件等。社区版按照stable和edge两种方式发布,每个季度更新stable版本,如17.06,17.09;每个月份更新edge版本,如17.09,17.10。一、安装docker...

2019-03-11 16:13:46 115

转载 hbase数据迁移

一、前言HBase数据迁移是很常见的操作,目前业界主要的迁移方式主要分为以下几类: 图1.HBase数据迁移方案 从上面图中可看出,目前的方案主要有四类,Hadoop层有一类,HBase层有三类。下面分别介绍一下。二、Hadoop层数据迁移2.1 方案介绍Hadoop层的数据迁移主要用到DistCp(Distributed Copy), 官方描述是:DistCp...

2018-09-17 13:55:22 234

转载 Spark 序列化问题全解

本文主要从以下三个方面解释Spark 应用中序列化问题 。 1、Java序列化含义。 2、Spark代码为什么需要序列化。 3、如何解决Spark序列化问题。 1、Java序列化含义。Spark是基于JVM运行的进行,其序列化必然遵守Java的序列化规则。序列化就是指将一个对象转化为二进制的byte流(注意,不是bit流),然后以文件的方式进行保存或通过网络传输,等待被反序列化读取出...

2018-09-17 11:08:02 1512

原创 Spark:Driver和Job,Stage概念

Driver Program, Job和Stage是Spark中的几个基本概念。Spark官方文档中对于这几个概念的解释比较简单,对于初学者很难正确理解他们的涵义。官方解释如下(http://spark.apache.org/docs/latest/cluster-overview.html): Driver Program: 运行应用程序的main()函数并创建SparkContext的过程...

2018-09-15 18:36:41 1094

转载 spark : foreachpartition

spark的运算操作有两种类型:分别是Transformation和Action,区别如下:Transformation:代表的是转化操作就是我们的计算流程,返回是RDD[T],可以是一个链式的转化,并且是延迟触发的。Action:代表是一个具体的行为,返回的值非RDD类型,可以一个object,或者是一个数值,也可以为Unit代表无返回值,并且action会立即触发job的执行。Tr...

2018-09-15 17:18:23 2078

转载 RESTful理解

一.什么是RESTful 面向资源简单的说:RESTful是一种架构的规范与约束、原则,符合这种规范的架构就是RESTful架构。 先看REST是什么意思,英文Representational state transfer 表述性状态转移 其实就是对 资源 的表述性状态转移。资源的地址 在web中就是URL (统一资源标识符)资源是REST系统的核心概念。 所有的设计都是以资源...

2018-08-31 09:20:26 168

原创 Spark 整合springboot问题整合

1.netty包冲突  common包跟spark自带的netty冲突 需要删掉 其他的包java.lang.AbstractMethodError: org.apache.spark.network.protocol.MessageWithHeader.touch(Ljava/lang/Object;)Lio/netty/util/ReferenceCounted;at io.netty....

2018-08-30 11:32:18 3367

转载 java lambda 双冒号

  前面的章节我们提及到过双冒号运算符,双冒号运算就是Java中的[方法引用],[方法引用]的格式是类名::方法名注意是方法名哦,后面没有括号“()”哒。为啥不要括号,因为这样的是式子并不代表一定会调用这个方法。这种式子一般是用作Lambda表达式,Lambda有所谓懒加载嘛,不要括号就是说,看情况调用方法。 例如表达式:person -> person.getAge...

2018-08-24 15:01:00 797

转载 JavaSpark-sparkSQL

入门 起点:SparkSession Spark中所有功能的入口点就是这个SparkSession类。要创建一个基本的SparkSession,只需使用SparkSession.builder():import org.apache.spark.sql.SparkSession;SparkSession spark = SparkSession .builder() .app...

2018-08-17 09:18:43 3231

原创 SparkContext转化为JavaSparkContext

自动Spark2.0发布以来,官方最开始推荐的代码由final SparkConf conf = new SparkConf().setMaster("local").setAppName("---");final JavaSparkContext ctx = new JavaSparkContext(conf);这种形式转化成为了SparkSession spark = Spa...

2018-08-16 15:41:51 3139

转载 spark与缓存

Spark与缓存预期成果1.1   当前问题当前以图搜图应用存在的问题:当前使用spark RDD方案无法达到数据实时加载(每10分钟加载一次,虽然可配,但太短可能会有问题) Spark RDD内存会被分为两部分,一部分用来缓存数据一部分用来计算,Spark默认配置只有差不多50%的内存用于缓存(也就是说executor配了100G,只有50多G可以被用来做缓存),虽然比例可以进...

2018-08-16 09:55:09 283

转载 spark java rdd

package com.hand.study;import scala.Tuple2;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.ja...

2018-08-09 09:53:54 345

转载 JavaSpark-RDD编程-常见操作、持久化、函数传递、reduce求平均

RDD是Spark的核心抽象,全称弹性分布式数据集(就是分布式的元素集合)。Spark中对数据的所有操作无外乎创建RDD、转化已有RDD和调用RDD的操作进行求值。Spark 会自动将 RDD 中的数据分发到集群上,并将操作并行化执行 RDD在抽象上来说是一种不可变的分布式数据集合(外部文本文件是在创建RDD时自动被分为多个分区)。它是被分为多个分区,每个分区分布在集群的不同节点(自动分发)...

2018-08-08 20:51:17 765

转载 hbase默认配置

hbase.rootdir:这个目录是region  server的共享目录,用来持久化Hbase。URL需要是'完全正确'的,还要包含文件系统的scheme。例如,要表示hdfs中的 '/hbase'目录,namenode  运行在namenode.example.org的9090端口。则需要设置为hdfs://namenode.example.org:9000 /hbase。默认情况下Hbas...

2018-08-03 09:42:12 5221

转载 StringTokenizer

StringTokenizer是字符串分隔解析类型,属于:java.util包。1.StringTokenizer的构造函数 StringTokenizer(String str):构造一个用来解析str的StringTokenizer对象。java默认的分隔符是“空格”、“制表符(‘\t’)”、“换行符(‘\n’)”、“回车符(‘\r’)”。 StringTokenizer(String...

2018-07-30 09:53:22 5946

转载 hbase自带性能测试

1)  顺序写:sequentialWrite例如,预分区100 regions,100线程并发,顺序写1亿条数据:hbase org.apache.hadoop.hbase.PerformanceEvaluation--nomapred --rows=1000000 --presplit=100 sequentialWrite 100注意事项:a.  hbase PE默认使用mapred...

2018-07-24 16:53:30 3998 3

转载 hbase 参数说明

一、服务端调优 1、参数配置   1)、hbase.regionserver.handler.count:该设置决定了处理RPC的线程数量,默认值是10,通常可以调大,比如:150,当请求内容很大(上MB,比如大的put、使用缓存的scans)的时候,如果该值设置过大则会占用过多的内存,导致频繁的GC,或者出现OutOfMemory,因此该值不是越大越好。   2)、hbase.h...

2018-07-24 16:15:30 1041

转载 HBase的几种调优(GC策略,flush,compact,split)

一:GC的调优1.jvm的内存  新生代:存活时间较短,一般存储刚生成的一些对象  老年代:存活时间较长,主要存储在应用程序中生命周期较长的对象  永久代:一般存储meta和class的信息 2.GC策略  Parrallel New Collector,垃圾回收策略  并行标记回收器(Concurrent Mark-Sweep Collector) 3.Par...

2018-07-24 16:06:12 923

转载 hbase 内存规划

线上HBase集群应该如何进行参数配置?这其实是很多HBase初学者在实践环节都可能会遇到的问题,有些人会选择默认配置,有些人会选择其他公司的推荐配置;诚然,这样的参数配置在大多数情况下都能正常工作,但性能却未必最佳、资源未必都能被合理利用。本文结合笔者的实践经验,针对不同应用场景,对多种工作模式下的参数进行详细说明,并结合相关示例对集群规划中最核心模块-内存规划进行介绍。一方面希望读者能够了解H...

2018-07-24 12:14:14 169

转载 HBase内存规划

线上HBase集群应该如何进行参数配置?这其实是很多HBase初学者在实践环节都可能会遇到的问题,有些人会选择默认配置,有些人会选择其他公司的推荐配置;诚然,这样的参数配置在大多数情况下都能正常工作,但性能却未必最佳、资源未必都能被合理利用。本文结合笔者的实践经验,针对不同应用场景,对多种工作模式下的参数进行详细说明,并结合相关示例对集群规划中最核心模块-内存规划进行介绍。一方面希望读者能够了解H...

2018-07-24 11:17:03 224

转载 HBase BlockCache系列 – 走进BlockCache

和其他数据库一样,优化IO也是HBase提升性能的不二法宝,而提供缓存更是优化的重中之重。最理想的情况是,所有数据都能够缓存到内存,这样就不会有任何文件IO请求,读写性能必然会提升到极致。然而现实是残酷的,随着请求数据的不断增多,将数据全部缓存到内存显得不合实际。幸运的是,我们并不需要将所有数据都缓存起来,根据二八法则,80%的业务请求都集中在20%的热点数据上,因此将这部分数据缓存起就可以极大地...

2018-07-24 10:45:23 3314 1

原创 js 创建类似java map集合

// Map map = new HashMap();var map = {};// map.put(key, value);map[key] = value; // Object value = map.get(key);var value = map[key]; // boolean has = map.containsKey(key);var has = key in...

2018-07-19 10:08:42 6042 1

原创 java调用shell脚本里的函数

public static void main(String[] args) {try {        // bash /opt/ts.sh 脚本路径    restart 脚本里的函数       String shellSql="bash /opt/ts.sh restart";       Process process = Runtime.getRuntime().exec(shellS...

2018-06-12 15:45:38 629

转载 爬虫出现Forbidden by robots.txt

先说结论,关闭scrapy自带的ROBOTSTXT_OBEY功能,在setting找到这个变量,设置为False即可解决。 使用scrapy爬取淘宝页面的时候,在提交http请求时出现debug信息Forbidden by robots.txt,看来是请求被拒绝了。开始因为是淘宝页面有什么保密机制,防止爬虫来抓取页面,于是在spider中填入各种header信息,伪装成浏览器,结果还是不行。。。用...

2018-06-08 16:48:16 375

原创 例子1.link_scrapy

#!/usr/bin/env python# -*- encoding: utf-8 -*-"""Topic: 爬取链接的蜘蛛Desc : """import loggingfrom coolscrapy.items import CoolscrapyItemimport scrapyfrom scrapy.spiders import CrawlSpider, Rulefro...

2018-06-08 16:36:17 141

原创 scrapy 爬取京东例子

#-*- encoding: UTF-8 -*-#---------------------------------import------------------------------------import scrapyimport refrom tutorial.items import TutorialItemfrom scrapy import Request#------...

2018-06-08 13:46:22 588

转载 pycharm下打开、执行并调试scrapy爬虫程序

首先得有一个Scrapy项目,我在Desktop上新建一个Scrapy的项目叫test,在Desktop目录打开命令行,键入命令:scrapy startproject test1  目录结构如下:    打开Pycharm,选择open  选择项目,ok 打开如下界面之后,按alt + 1, 打开project 面板  在test1/spiders/,文件夹下,新建一个爬虫spider.py, ...

2018-06-08 11:20:26 591

原创 scrapy -----ImportError: No module named 'win32api'

今天在搭建一个虚拟环境过程中,遇到了点问题,在此记录一二。安装完scrapy后,再去安装pywin32,之后再通过命令行调试scrapy项目时,发现任然爆出了如下错误:?12import win32apiImportError: DLL load failed: 找不到指定的模块。按以往经验只要安装了pywin32就可以了,而且我也找到了\venv\Lib\site-packages\win32\...

2018-06-03 11:56:27 181

转载 Python3.6下scrapy框架的安装

首先考虑使用最简单的方法安装[plain] view plain copy pip install scrapy   命令安装,提示  Failed building wheel for TwistedMicrosoft Visual C++ 14.0 is required...于是开始问度娘应该怎样安装,看了几篇博客,虽然和我的问题不十分相同,但是也收到了启发,知道应该怎样解决我的问题了。解决...

2018-06-03 10:51:55 217

转载 hbase jstack工具分析

在分析线上问题时常使用到jstack <PID>命令将当时Java应用程序的线程堆栈dump出来。面对jstack 日志,我们如何查看?首先要清楚线程的状态线程的状态有:new、runnable、running、waiting、timed_waiting、blocked、dead线程状态变迁图:各状态说明:New: 当线程对象创建时存在的状态,此时线程不可能执行;Runnable:当调...

2018-05-20 20:54:19 678

原创 from sklearn import * 出错

导入sklearn模块报一下错误的解决办法可能是电脑配置原因解决方案E:\ruanjian\python3.5.4\Lib\site-packages\sklearn\utils\fixes.py找到这个文件修改为

2018-04-17 14:09:20 8152

hbase1.x 跟2.x比较.docx

hbase1.x 跟2.x比较.docx

2020-11-06

hbase 权限三种方式.docx

hbase 权限三种方式

2020-11-06

hbase性能测试.docx

hbase性能报告

2020-11-06

hbase fsimage损坏处理问题.docx

介绍hbase hadoop fsimage损坏处理问题.

2020-11-06

hbase zk异常启动不了.docx

hbase zk异常启动不了

2020-11-06

HBase2.x之RIT问题解决.docx

介绍HBase2.x之RIT问题解决

2020-11-06

Hbase SYSTEM.STATS磁盘爆满 处理方法.docx

介绍Hbase SYSTEM.STATS磁盘爆满 处理方法

2020-11-06

hbase 权限配置.docx

介绍hbase 权限配置。

2020-11-06

hbase regions数据切割.docx

介绍hbase regions进行数据切割

2020-11-06

hbase-0.94.1手动数据迁移.docx

介绍如何hbase-0.94.1手动进行数据迁移

2020-11-06

hbase和hadoop数据块损坏处理

介绍hbase和hadoop数据块损坏如何处理

2020-11-05

Twisted-18.4.0-cp35-cp35m-win_amd64.whl

Twisted-18.4.0-cp35-cp35m-win_amd64.whlTwisted-18.4.0-cp35-cp35m-win_amd64.whl

2018-06-08

Scrapy-1.5.0-py2.py3-none-any.whl

Scrapy-1.5.0-py2.py3-none-any.whl可以用,放心xiasssasa

2018-06-08

pythonMySQL-mysqlclient-1.3.12-cp35-cp35m-win_amd64.whl

pythonMySQL-mysqlclient-1.3.12-cp35-cp35m-win_amd64.whl python3.4+可以用

2018-06-08

sqoop-1.4.6.tar.gz

sqoop-1.4.6.tar.gz sqoop-1.4.6.tar.gz sqoop-1.4.6.tar.gz sqoop-1.4.6.tar.gz

2018-04-10

hadoop-2.5.0-src.tar.gz

hadoop-2.5.0-src.tar.gzhadoop-2.5.0-src.tar.gzhadoop-2.5.0-src.tar.gzhadoop-2.5.0-src.tar.gzhadoop-2.5.0-src.tar.gz

2018-04-10

hadoop-2.6.1-src.tar

hadoop-2.6.1-src.tar源码包,欢迎下载,hadoop-2.6.1-src.tar源码包,欢迎下载

2018-04-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除