自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(128)
  • 收藏
  • 关注

转载 HBase最佳实践-读性能优化策略

数据本地率:HDFS数据通常存储三份,假如当前RegionA处于Node1上,数据a写入的时候三副本为(Node1,Node2,Node3),数据b写入三副本是(Node1,Node4,Node5),数据c写入三副本(Node1,Node3,Node5),可以看出来所有数据写入本地Node1肯定会写一份,数据都在本地可以读到,因此数据本地率是100%。从HDFS的角度望上层看,HBase即是它的客户端,HBase通过调用它的客户端进行数据读写操作,因此HDFS的相关优化也会影响HBase的读写性能。...

2022-08-17 15:11:17 313

转载 什么是HBase?终于有人讲明白了

在 HBase 表中,一条数据拥有一个全局唯一的键(RowKey)和任意数量的列(Column),一列或多列组成一个列族(Column Family),同一个列族中列的数据在物理上都存储在同一个 HFile 中,这样基于列存储的数据结构有利于数据缓存和查询。HBase Client 为用户提供了访问 HBase 的接口,可以通过元数据表来定位到目标数据的 RegionServer,另外 HBase Client 还维护了对应的 cache 来加速 Hbase 的访问,比如缓存元数据的信息。...

2022-08-17 14:44:04 781

转载 九个最容易出错的 Hive sql 详解及使用注意事项

结果是错误的,把所有的电器类型都查询出来了,原因就是 and 优先级高于 or,上面的sql语句实际执行的是,先找出 classify = '家具' and price>100 的,然后在找出 classify = '电器' 的。在进行数仓搭建和数据分析时最常用的就是 sql,其语法简洁明了,易于理解,目前大数据领域的几大主流框架全部都支持sql语法,包括 hive,spark,flink等,所以sql在大数据领域有着不可替代的作用,需要我们重点掌握。...

2022-08-17 14:04:38 583

转载 Spark底层执行原理详细解析(深度好文,建议收藏)

Apache Spark是用于大规模数据处理的统一分析引擎,基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将Spark部署在大量硬件之上,形成集群。Spark源码从1.x的40w行发展到现在的超过100w行,有1400多位大牛贡献了代码。整个Spark框架源码是一个巨大的工程。下面我们一起来看下spark的底层执行原理。...

2022-08-17 13:56:50 750

转载 硬核!八张图搞懂 Flink 端到端精准一次处理语义 Exactly-once(深入原理,建议收藏)

Source 端的精准一次处理比较简单,毕竟数据是落到 Flink 中,所以 Flink 只需要保存消费数据的偏移量即可, 如消费 Kafka 中的数据,Flink 将 Kafka Consumer 作为 Source,可以将偏移量保存下来,如果后续任务出现了故障,恢复的时候可以由连接器重置偏移量,重新消费数据,保证一致性。:这个我们已经了解,利用 Checkpoint 机制,把状态存盘,发生故障的时候可以恢复,保证内部的状态一致性。这确保了出现故障或崩溃时这些写入操作能够被回滚。...

2022-08-17 13:41:25 612

转载 10大HBase常见运维工具整理

HBase作为当前比较热门和广泛使用的NoSQL数据库,由于本身设计架构和流程上比较复杂,对大数据经验较少的运维人员门槛较高,本文对当前HBase上已有的工具做一些介绍以及总结。1) 由于HBase不同版本间的差异性较大(如HBase2.x上移走了hbck工具),本文使用的所有命令行运行的环境为MRS_1.9.3,对应的HBase版本为1.3.1,部分命令在HBase2上不支持(有时间的话会对HBase2做单独的介绍)。2) 本文所涉及的HBase工具均为开源自带工具,不涉及厂商自研的优化和运维工具。...

2022-08-17 13:26:34 1563

转载 建设银行数据平台建设分享

应用可以根据自身需求,利用大数据云平台的海量存储计算、数据加工、分析挖掘和数据可视化等能力进行组合,完成相应的业务功能,目前,已经上线运行了40多个全云化的大数据应用。建行创建了云化托管模式,不改变原产品的架构,按照大数据云平台统一的技术框架和规范,实现与平台底层和上层组件的对接,达到与平台融为一体的服务模式。2)大数据云平台在设计时是按照体系化设计的,这样可以把各组件进行高效的串联以便发挥最大的效能,但各组件耦合度较高,后续会在组件解耦上下功夫,通过一系列的解耦规范,保证组件既能高效协作,又能独立运行。.

2022-08-16 16:26:20 2150

原创 从hdfs复制文件到hdfs

FileUtil.copy(hdfs,hdfs.getFileStatus(f),hdfs,new Path(path2),false,false,conf)/** Copy files between FileSystems. */ public static boolean copy(FileSystem srcFS, FileStatus srcStatus, FileSystem dstFS, Path dst, .

2021-11-18 17:31:51 1024

原创 转载spark异地读取hive(亲测有效)

https://segmentfault.com/a/1190000019456175本文适用有入门spark基础的同学,一些最基础知识不再赘述通过阅读本文即可掌握使用Spark跨集群同步Hive数据的技巧!众所周知,业界比较成熟的同步数据工具是Sqoop,它是连接关系型数据库和Hadoop的桥梁比较常用的场景是从MySQL等RDB同步到Hive、Hbase或者将Hive、Hbase的数据导出到MySQL但是在公司项目技术选型时选用了用Spark来从一个集群同步数据到另一个集群下

2021-11-16 15:16:22 1453

原创 structure streaming 使用小结3-输出模式(append,update,complete)

常规使用不提,主要是使用不同模式完成排序,数据更新操作,算是对小结2的补充优化。1、排序,使用complete模式,将数据流看做静态表,不断追加数据,通过order by可以实现排序功能。val df =spark.readStream .format("kafka") .option("kafka.bootstrap.servers", "*:9092")// .option("kafka.bootstrap.servers", "*:9092")

2021-07-28 13:36:59 704

原创 structure streaming 使用小结2-正确率

背景,使用structure streaming 实现类似关系型数据库的update操作。测试方法:分别采用append和update模式进行,选定一个主键rowkey,进行value的数据更新操作,通过seleep控制数据产生的速度。通过控制台显示数据,当数据产生速度在间隔1s以上时,数据顺序正确,可以正常显示。当产生速度在800ms以下时,数据会产生顺序错乱。业务描述,统计卖票钱数,数据来源是更新的(ogg同步的oracle的累计表),当一秒内卖出多张票,kafka会接受到多条数据,需要按照

2021-07-12 11:55:01 120

原创 structure streaming 使用小结1-效率(数据更新速度以及优化)

版本spark3.0.0,总结来源官网以及开发过程中的实验所得。背景,做的一个实时项目,通过测试发现数据更新速度在15s左右,完全不能满足要求,领导要求查找可以优化的地方,对整个链路进行拆分研究,优化代码链路为kafka->structure streaming->hbase测试方法:虚机--num-executors 10 --executor-cores 3 \--driver-memory 4g --executor-memory 6g \--total-exec

2021-07-09 17:10:10 538 1

原创 spark(scala)并行程序

实验多次,选择了可运行的程序方法。应用场景,50张维表数据需要更新到hbase,数据来源mysql,更新频率,无限循环。初识应用串行方式,执行一轮时间大约30分钟,完全不满足需求。需要实现50个程序段并行执行。为什么要把mysql数据写入hbase使用,别问。问了就是需求规定。使用的scala.actors.Actor,maven依赖如下:<!--<dependency>--> <!--<groupId>org.scala-lang&l

2021-07-09 16:06:19 491

转载 hive分区表新增字段(指定添加列的位置)+重刷历史方法(避免旧分区新增字段为NULL)

转自:https://blog.csdn.net/lz6363/article/details/86035864今天接到需求大概是这样的,在以前上线的分区报表中新加一个字段,并且要求添加到指定的列,然后刷新同步以前的数据,现将模拟实现如下:创建测试表create external table test.table_add_column_test( original_column1 string comment '原始数据1', original_column2 string co...

2020-05-23 12:01:09 2094 1

原创 springboot学习

https://www.jianshu.com/p/9a08417e4e84参考二、SpringBoot 2.x 学习指南基于最新的SpringBoot 2.2.x版本更新文章.SpringBoot2.x基础篇:开发你的第一个SpringBoot应用程序SpringBoot2.x基础篇:将应用程序打包为可执行JarSpringBoot2.x基础篇:Linux后台运行Jar...

2020-03-15 09:54:49 152

转载 Kylin Cube构建引擎原理及核心源码解析

转自:https://blog.csdn.net/c929833623lvcha/article/details/81664602

2019-09-25 14:23:00 214

原创 hive解决小文件过多的问题--[常用策略]

哪里会产生小文件 ?源数据本身有很多小文件动态分区会产生大量小文件reduce个数越多, 小文件越多按分区插入数据的时候会产生大量的小文件, 文件个数 = maptask个数 * 分区数小文件太多造成的影响 ?从Hive的角度看,小文件会开很多map,一个map开一个JVM去执行,所以这些任务的初始化,启动,执行会浪费大量的资源,严重影响性能。HDFS存储太多小文件, 会导致na...

2019-09-06 11:26:14 744

原创 Kylin Cube构建过程优化

优化 Cube 构建Kylin将Cube构建任务分解为几个依次执行的步骤,这些步骤包括Hive操作、MapReduce操作和其他类型的操作。如果你有很多Cube构建任务需要每天运行,那么你肯定想要减少其中消耗的时间。下文按照Cube构建步骤顺序提供了一些优化经验。创建Hive的中间平表这一步将数据从源Hive表提取出来(和所有join的表一起)并插入到一个中间平表。如果Cube是分区的...

2019-06-13 17:30:28 393

原创 KYLIN配置

Kylin 配置文件Kylin 会自动从环境中读取 Hadoop 配置(core-site.xml),Hive 配置(hive-site.xml)和 HBase 配置(hbase-site.xml),另外,Kylin 的配置文件在$KYLIN_HOME/conf/目录下,如下:kylin_hive_conf.xml:该文件包含了 Hive 任务的配置项。 kylin_job_conf...

2019-06-13 14:26:30 1891

原创 Flink资料

http://ifeve.com/flink-quick-start/Related Posts:《Apache Flink官方文档》编程模型 《Flink官方文档》翻译邀请 《Flink官方文档》示例总览 《Flink官方文档》监控Wikipedia 编辑流 《Flink官方文档》Python 编程指南测试版 《Flink官方文档》Batch Examples 《Apa...

2019-03-20 15:10:20 766

原创 CHD的impala实现hive和hbase数据查询

cdh版本安装spark-sql比较复杂,cdh主推impala,可以方便进行查询启动命令:impala-shell可以直接进行hive操作。impala查询hbase,需要进行映射CREATE EXTERNAL TABLE tiger.test_info(--指定库名和表名 user_id string, --字段 user_type tinyint,...

2019-03-01 10:54:14 772

原创 删除Hbase指定列数据

Hbase没有删除某列数据的直接命令,通过指定表名,列簇,列名package com.cslc.asiancup.dfstohbase;import com.cslc.asiancup.utils.HbaseUtil;import com.cslc.asiancup.utils.HbaseUtilJava;import org.apache.hadoop.conf.Configura...

2019-01-08 20:56:53 5905 1

原创 批量插入Hbase数据

批量往Hbase插入数据,需要知道表名,列名,列簇等字段即可。指定Hbase链接  package com.cslc.asiancup.dfstohbase;import com.cslc.asiancup.utils.HbaseUtilJava;import org.apache.hadoop.conf.Configuration;import org.apache.had...

2019-01-08 20:49:10 2860

原创 superset读取hbase

不能直接连接,需要通过phoenix进行连接2、创建虚拟环境virtualenv    1)pip install virtualenv    2)cd进入到一个工作目录下3)创建一个隔离环境,目的就是为了防止依赖出现问题    virtualenv venv_superset             venv_superset是环境名. ./bin/activate ...

2018-11-28 09:40:06 691

原创 hive修改分区信息

hive由于数据没法删除,但是可以删除分区表,不是分区表的直接覆盖就行 对于分区表,当分区字段是日期是,通过分区删除alter table dwd_trd_r_base1 drop if exists partition(report_date='2018-03-01');会报错,partition=null可以通过如下方式解决-- Change the colum...

2018-11-14 11:52:40 9373

原创 superset使用一

1、使用的python3.6,然后配置mysql数据库,报错No module named ‘MySQLdb'MySQLdb只支持Python2.*,还不支持3.*可以用PyMySQL代替。安装方法:pip3 install PyMySQL需要在下面的 cd /usr/local/lib/python3.6/site-packages/sqlalchemy/dialects/my...

2018-10-31 10:08:07 6401 1

原创 superset安装

只要有了环境,安装简单环境需求。centos7,内核版本3.0以上,python版本3.6以上安装依赖sudo yum upgrade python-setuptoolssudo yum install gcc libffi-devel python-devel python-pip python-wheel openssl-devel libsasl2-devel openld...

2018-10-30 19:03:20 501

原创 zepplin学习笔记一

zepplin的安装参照转载的两篇博客使用cm集群,安装解压zepplin,参照https://blog.csdn.net/jin6872115/article/details/83415841前三条进行配置,配置完后,可以直接使用spark进度hdfs文件读取和hive数据的访问。按照https://blog.csdn.net/jin6872115/article/details/835...

2018-10-30 10:43:57 366

转载 一篇全面的zepplin教程

https://www.jianshu.com/p/090f02005e07 1.Zeppelin是什么?Apache Zeppelin是一款基于Web的Notebook(类似于jupyter notebook),支持交互式地数据分析。Zeppelin可实现你所需要的:数据采集 数据发现 数据分析 数据可视化和协作支持多种语言,默认是Scala(背后是Spark shel...

2018-10-29 09:45:37 17468 1

转载 CDH安装配置zeppelin-0.7.3以及配置spark查询hive表

转自1.下载zeppelinhttp://zeppelin.apache.org/download.html 我下载的是796MB的那个已经编译好的,如果需要自己按照环境编译也可以,但是要很长时间编译,这个版本包含了很多插件,我虽然是CDH环境但是这个也可以使用。2.修改配置文件cd  /zeppelin-0.7.3-bin-all/confcp  zeppelin-env...

2018-10-26 15:31:26 238

原创 hadoop跨集群之间迁移hive数据

进行hive库迁移过程中碰到的问题1、hdfs数据迁移过程中,使用hadoop distcp /apps/hive/warehouse/userinfo hdfs://10.11.32.76:8020/apps/hive/warehouse/将老库的hive的数据复制到新库中,在测试环境报权限错误,需要添加如下配置 &lt;property&gt;        &lt;name&g...

2018-10-22 09:54:22 3789

原创 基于CM搭建的CDH集群之hive组件升级过程(hive0.13.1升级到hive-1.2.1且确保纳入CM管理)

 1、在hive0.13.1版本下创建lib121目录cd /opt/cloudera/parcels/CDH/lib/hive;mkdir lib1212、下载hive1.2.1版本,并将该版本lib下所有文件拷贝到lib121中3、修改/opt/cloudera/parcels/CDH/lib/hive/bin/hive中HIVE_LIB变量HIVE_LIB=${HIVE_HOME...

2018-10-19 08:58:25 791

原创 Kylin概念理解

Cube是联机分析的关键。他们是一种多维结构,包含原始事实数据、聚合数据,这些数据聚合允许用户快速进行复杂的查询,Mdx语言就应用它更是如鱼得水。Cube包含两个基本概念:维度和度量维度(Dimension):维度提供了分类描述,表示一类分析角度,用户通过维度分析度量数据。比如三个维度:时间、产品、地域度量(Measures):度量表示用来聚合分析的数字信息,度量的集合组合成了一个特殊...

2018-10-16 15:10:59 407

转载 spark 分区 提交 调优

转自:https://blog.csdn.net/u014384314/article/details/80797385一 spark RDD分区原则在Spark的Rdd中,Rdd默认是分区的。有时候需要重新设置Rdd的分区数量,比如Rdd的分区中,Rdd分区比较多,但是每个Rdd的数据量比较小,则需要重新设置一个比较合理的分区数。或者需要把Rdd的分区数量调大。还有就是通过设置一个R...

2018-10-11 17:03:28 1900

原创 apache-kylin-2.3.2安装过程遇到错误

安装apache-kylin-2.3.2过程中碰到一些问题,总结一下:1 Exception in thread "main" java.lang.IllegalArgumentException: Failed to find metadata store by url: kylin_metadata@hbase应该是hbase和zk的问题解决方案:进入zk的bin的zkCli,将/...

2018-09-15 09:58:50 1846

转载 Parquet与ORC:高性能列式存储格式

转自:https://blog.csdn.net/yu616568/article/details/51868447/背景随着大数据时代的到来,越来越多的数据流向了Hadoop生态圈,同时对于能够快速的从TB甚至PB级别的数据中获取有价值的数据对于一个产品和公司来说更加重要,在Hadoop生态圈的快速发展过程中,涌现了一批开源的数据分析引擎,例如Hive、Spark SQL、Impala、...

2018-09-12 15:22:20 298

原创 spark读写hive的注意点

可以直接使用 val conf = new SparkConf().setMaster("local").setAppName("sdf") val sc = new SparkContext(conf) val hiveContext = new HiveContext(sc) val df = hiveContext.sql("drop table myhive....

2018-09-07 16:41:53 841

原创 ogg for bigdata hbase安装步骤

一、源端的准备工作(oracle库)1. 设置参数alter system set enable_goldengate_replication=true;alter system set open_cursors=500;2. 创建GolenGate表空间create tablespace ts_ogg datafile size 500m;create temporary tabl...

2018-08-31 09:09:44 3261

原创 Redhat下Oracle 11g安装步骤图解

redhat 下安装 Oracle 11g安装环境:操作系统 Red Hat Enterprise Linux Server release 6.4 (Santiago) 64位Oracle版本 11.2.0.3安装步骤:1、检查操作系统版本Last login: Thu Jan 29 11:02:05 2015 from 10.100.116.83[root@loca...

2018-08-21 14:52:04 919

转载 Goldengate抽取ORACLE 数据 到 Hbase

1、        软件版本说明:Goldengate 12c  12.2.0.1 forOracle (源端 )Goldengate 12c  12.2.0.1  for Bigdata ( 目标端)Oracle 11g 11.2.0.4.0 (注oracle 数据库必须是11.2.0.4之后的版本,之前的oracle 数据库版本不支持ogg 12c )HBase 1.1.2...

2018-08-20 15:43:20 621

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除