jin6872115-CSDN博客

转载 HBase最佳实践－读性能优化策略

数据本地率：HDFS数据通常存储三份，假如当前RegionA处于Node1上，数据a写入的时候三副本为(Node1,Node2,Node3)，数据b写入三副本是(Node1,Node4,Node5)，数据c写入三副本(Node1,Node3,Node5)，可以看出来所有数据写入本地Node1肯定会写一份，数据都在本地可以读到，因此数据本地率是100%。从HDFS的角度望上层看，HBase即是它的客户端，HBase通过调用它的客户端进行数据读写操作，因此HDFS的相关优化也会影响HBase的读写性能。...

2022-08-17 15:11:17 313

转载什么是HBase？终于有人讲明白了

在 HBase 表中，一条数据拥有一个全局唯一的键(RowKey)和任意数量的列(Column)，一列或多列组成一个列族(Column Family)，同一个列族中列的数据在物理上都存储在同一个 HFile 中，这样基于列存储的数据结构有利于数据缓存和查询。HBase Client 为用户提供了访问 HBase 的接口，可以通过元数据表来定位到目标数据的 RegionServer，另外 HBase Client 还维护了对应的 cache 来加速 Hbase 的访问，比如缓存元数据的信息。...

2022-08-17 14:44:04 781

转载九个最容易出错的 Hive sql 详解及使用注意事项

结果是错误的，把所有的电器类型都查询出来了，原因就是 and 优先级高于 or，上面的sql语句实际执行的是，先找出 classify = '家具' and price>100 的，然后在找出 classify = '电器' 的。在进行数仓搭建和数据分析时最常用的就是 sql，其语法简洁明了，易于理解，目前大数据领域的几大主流框架全部都支持sql语法，包括 hive，spark，flink等，所以sql在大数据领域有着不可替代的作用，需要我们重点掌握。...

2022-08-17 14:04:38 583

转载 Spark底层执行原理详细解析(深度好文，建议收藏)

Apache Spark是用于大规模数据处理的统一分析引擎，基于内存计算，提高了在大数据环境下数据处理的实时性，同时保证了高容错性和高可伸缩性，允许用户将Spark部署在大量硬件之上，形成集群。Spark源码从1.x的40w行发展到现在的超过100w行，有1400多位大牛贡献了代码。整个Spark框架源码是一个巨大的工程。下面我们一起来看下spark的底层执行原理。...

2022-08-17 13:56:50 750

转载硬核！八张图搞懂 Flink 端到端精准一次处理语义 Exactly-once（深入原理，建议收藏）

Source 端的精准一次处理比较简单，毕竟数据是落到 Flink 中，所以 Flink 只需要保存消费数据的偏移量即可，如消费 Kafka 中的数据，Flink 将 Kafka Consumer 作为 Source，可以将偏移量保存下来，如果后续任务出现了故障，恢复的时候可以由连接器重置偏移量，重新消费数据，保证一致性。：这个我们已经了解，利用 Checkpoint 机制，把状态存盘，发生故障的时候可以恢复，保证内部的状态一致性。这确保了出现故障或崩溃时这些写入操作能够被回滚。...

2022-08-17 13:41:25 612

转载 10大HBase常见运维工具整理

HBase作为当前比较热门和广泛使用的NoSQL数据库，由于本身设计架构和流程上比较复杂，对大数据经验较少的运维人员门槛较高，本文对当前HBase上已有的工具做一些介绍以及总结。1）由于HBase不同版本间的差异性较大（如HBase2.x上移走了hbck工具），本文使用的所有命令行运行的环境为MRS_1.9.3，对应的HBase版本为1.3.1，部分命令在HBase2上不支持（有时间的话会对HBase2做单独的介绍）。2）本文所涉及的HBase工具均为开源自带工具，不涉及厂商自研的优化和运维工具。...

2022-08-17 13:26:34 1563

转载建设银行数据平台建设分享

应用可以根据自身需求，利用大数据云平台的海量存储计算、数据加工、分析挖掘和数据可视化等能力进行组合，完成相应的业务功能，目前，已经上线运行了40多个全云化的大数据应用。建行创建了云化托管模式，不改变原产品的架构，按照大数据云平台统一的技术框架和规范，实现与平台底层和上层组件的对接，达到与平台融为一体的服务模式。2）大数据云平台在设计时是按照体系化设计的，这样可以把各组件进行高效的串联以便发挥最大的效能，但各组件耦合度较高，后续会在组件解耦上下功夫，通过一系列的解耦规范，保证组件既能高效协作，又能独立运行。.

2022-08-16 16:26:20 2150

原创从hdfs复制文件到hdfs

FileUtil.copy(hdfs,hdfs.getFileStatus(f),hdfs,new Path(path2),false,false,conf)/** Copy files between FileSystems. */ public static boolean copy(FileSystem srcFS, FileStatus srcStatus, FileSystem dstFS, Path dst, .

2021-11-18 17:31:51 1024

原创转载spark异地读取hive（亲测有效）

https://segmentfault.com/a/1190000019456175本文适用有入门spark基础的同学，一些最基础知识不再赘述通过阅读本文即可掌握使用Spark跨集群同步Hive数据的技巧！众所周知，业界比较成熟的同步数据工具是Sqoop，它是连接关系型数据库和Hadoop的桥梁比较常用的场景是从MySQL等RDB同步到Hive、Hbase或者将Hive、Hbase的数据导出到MySQL但是在公司项目技术选型时选用了用Spark来从一个集群同步数据到另一个集群下

2021-11-16 15:16:22 1453

原创 structure streaming 使用小结3-输出模式（append,update,complete）

常规使用不提，主要是使用不同模式完成排序，数据更新操作，算是对小结2的补充优化。1、排序，使用complete模式，将数据流看做静态表，不断追加数据，通过order by可以实现排序功能。val df =spark.readStream .format("kafka") .option("kafka.bootstrap.servers", "*:9092")// .option("kafka.bootstrap.servers", "*:9092")

2021-07-28 13:36:59 704

原创 structure streaming 使用小结2-正确率

背景，使用structure streaming 实现类似关系型数据库的update操作。测试方法：分别采用append和update模式进行，选定一个主键rowkey，进行value的数据更新操作，通过seleep控制数据产生的速度。通过控制台显示数据，当数据产生速度在间隔1s以上时，数据顺序正确，可以正常显示。当产生速度在800ms以下时，数据会产生顺序错乱。业务描述，统计卖票钱数，数据来源是更新的（ogg同步的oracle的累计表），当一秒内卖出多张票，kafka会接受到多条数据，需要按照

2021-07-12 11:55:01 120

原创 structure streaming 使用小结1-效率（数据更新速度以及优化）

版本spark3.0.0，总结来源官网以及开发过程中的实验所得。背景，做的一个实时项目，通过测试发现数据更新速度在15s左右，完全不能满足要求，领导要求查找可以优化的地方，对整个链路进行拆分研究，优化代码链路为kafka->structure streaming->hbase测试方法：虚机--num-executors 10 --executor-cores 3 \--driver-memory 4g --executor-memory 6g \--total-exec

2021-07-09 17:10:10 538 1

原创 spark(scala)并行程序

实验多次，选择了可运行的程序方法。应用场景，50张维表数据需要更新到hbase，数据来源mysql，更新频率，无限循环。初识应用串行方式，执行一轮时间大约30分钟，完全不满足需求。需要实现50个程序段并行执行。为什么要把mysql数据写入hbase使用，别问。问了就是需求规定。使用的scala.actors.Actor，maven依赖如下： <!--<groupId>org.scala-lang&l

2021-07-09 16:06:19 491

转载 hive分区表新增字段（指定添加列的位置）+重刷历史方法(避免旧分区新增字段为NULL)

转自：https://blog.csdn.net/lz6363/article/details/86035864今天接到需求大概是这样的，在以前上线的分区报表中新加一个字段，并且要求添加到指定的列，然后刷新同步以前的数据，现将模拟实现如下：创建测试表create external table test.table_add_column_test( original_column1 string comment '原始数据1', original_column2 string co...

2020-05-23 12:01:09 2094 1

原创 springboot学习

https://www.jianshu.com/p/9a08417e4e84参考二、SpringBoot 2.x 学习指南基于最新的SpringBoot 2.2.x版本更新文章.SpringBoot2.x基础篇：开发你的第一个SpringBoot应用程序SpringBoot2.x基础篇：将应用程序打包为可执行JarSpringBoot2.x基础篇：Linux后台运行Jar...

2020-03-15 09:54:49 152

转载 Kylin Cube构建引擎原理及核心源码解析

转自：https://blog.csdn.net/c929833623lvcha/article/details/81664602

2019-09-25 14:23:00 214

原创 hive解决小文件过多的问题--[常用策略]

哪里会产生小文件 ?源数据本身有很多小文件动态分区会产生大量小文件reduce个数越多, 小文件越多按分区插入数据的时候会产生大量的小文件, 文件个数 = maptask个数 * 分区数小文件太多造成的影响 ?从Hive的角度看，小文件会开很多map，一个map开一个JVM去执行，所以这些任务的初始化，启动，执行会浪费大量的资源，严重影响性能。HDFS存储太多小文件, 会导致na...

2019-09-06 11:26:14 744

原创 Kylin Cube构建过程优化

优化 Cube 构建Kylin将Cube构建任务分解为几个依次执行的步骤，这些步骤包括Hive操作、MapReduce操作和其他类型的操作。如果你有很多Cube构建任务需要每天运行，那么你肯定想要减少其中消耗的时间。下文按照Cube构建步骤顺序提供了一些优化经验。创建Hive的中间平表这一步将数据从源Hive表提取出来(和所有join的表一起)并插入到一个中间平表。如果Cube是分区的...

2019-06-13 17:30:28 393

原创 KYLIN配置

Kylin 配置文件Kylin 会自动从环境中读取 Hadoop 配置（core-site.xml），Hive 配置（hive-site.xml）和 HBase 配置（hbase-site.xml），另外，Kylin 的配置文件在$KYLIN_HOME/conf/目录下，如下：kylin_hive_conf.xml：该文件包含了 Hive 任务的配置项。 kylin_job_conf...

2019-06-13 14:26:30 1891

原创 Flink资料

http://ifeve.com/flink-quick-start/Related Posts:《Apache Flink官方文档》编程模型《Flink官方文档》翻译邀请《Flink官方文档》示例总览《Flink官方文档》监控Wikipedia 编辑流《Flink官方文档》Python 编程指南测试版《Flink官方文档》Batch Examples 《Apa...

2019-03-20 15:10:20 766

原创 CHD的impala实现hive和hbase数据查询

cdh版本安装spark-sql比较复杂，cdh主推impala，可以方便进行查询启动命令：impala-shell可以直接进行hive操作。impala查询hbase，需要进行映射CREATE EXTERNAL TABLE tiger.test_info(--指定库名和表名 user_id string, --字段 user_type tinyint,...

2019-03-01 10:54:14 772

原创删除Hbase指定列数据

Hbase没有删除某列数据的直接命令，通过指定表名，列簇，列名package com.cslc.asiancup.dfstohbase;import com.cslc.asiancup.utils.HbaseUtil;import com.cslc.asiancup.utils.HbaseUtilJava;import org.apache.hadoop.conf.Configura...

2019-01-08 20:56:53 5905 1

原创批量插入Hbase数据

批量往Hbase插入数据，需要知道表名，列名，列簇等字段即可。指定Hbase链接 package com.cslc.asiancup.dfstohbase;import com.cslc.asiancup.utils.HbaseUtilJava;import org.apache.hadoop.conf.Configuration;import org.apache.had...

2019-01-08 20:49:10 2860

原创 superset读取hbase

不能直接连接，需要通过phoenix进行连接2、创建虚拟环境virtualenv 1）pip install virtualenv 2）cd进入到一个工作目录下3）创建一个隔离环境，目的就是为了防止依赖出现问题 virtualenv venv_superset venv_superset是环境名. ./bin/activate ...

2018-11-28 09:40:06 691

原创 hive修改分区信息

hive由于数据没法删除，但是可以删除分区表，不是分区表的直接覆盖就行对于分区表，当分区字段是日期是，通过分区删除alter table dwd_trd_r_base1 drop if exists partition(report_date='2018-03-01');会报错，partition=null可以通过如下方式解决-- Change the colum...

2018-11-14 11:52:40 9373

原创 superset使用一

1、使用的python3.6，然后配置mysql数据库，报错No module named ‘MySQLdb'MySQLdb只支持Python2.*，还不支持3.*可以用PyMySQL代替。安装方法：pip3 install PyMySQL需要在下面的 cd /usr/local/lib/python3.6/site-packages/sqlalchemy/dialects/my...

2018-10-31 10:08:07 6401 1

原创 superset安装

只要有了环境，安装简单环境需求。centos7,内核版本3.0以上，python版本3.6以上安装依赖sudo yum upgrade python-setuptoolssudo yum install gcc libffi-devel python-devel python-pip python-wheel openssl-devel libsasl2-devel openld...

2018-10-30 19:03:20 501

原创 zepplin学习笔记一

zepplin的安装参照转载的两篇博客使用cm集群，安装解压zepplin，参照https://blog.csdn.net/jin6872115/article/details/83415841前三条进行配置，配置完后，可以直接使用spark进度hdfs文件读取和hive数据的访问。按照https://blog.csdn.net/jin6872115/article/details/835...

2018-10-30 10:43:57 366

转载一篇全面的zepplin教程

https://www.jianshu.com/p/090f02005e07 1.Zeppelin是什么?Apache Zeppelin是一款基于Web的Notebook(类似于jupyter notebook)，支持交互式地数据分析。Zeppelin可实现你所需要的：数据采集数据发现数据分析数据可视化和协作支持多种语言，默认是Scala(背后是Spark shel...

2018-10-29 09:45:37 17468 1

转载 CDH安装配置zeppelin-0.7.3以及配置spark查询hive表

转自1.下载zeppelinhttp://zeppelin.apache.org/download.html 我下载的是796MB的那个已经编译好的，如果需要自己按照环境编译也可以，但是要很长时间编译，这个版本包含了很多插件，我虽然是CDH环境但是这个也可以使用。2.修改配置文件cd /zeppelin-0.7.3-bin-all/confcp zeppelin-env...

2018-10-26 15:31:26 238

原创 hadoop跨集群之间迁移hive数据

进行hive库迁移过程中碰到的问题1、hdfs数据迁移过程中，使用hadoop distcp /apps/hive/warehouse/userinfo hdfs://10.11.32.76:8020/apps/hive/warehouse/将老库的hive的数据复制到新库中，在测试环境报权限错误，需要添加如下配置 <property> <name&g...

2018-10-22 09:54:22 3789

原创基于CM搭建的CDH集群之hive组件升级过程（hive0.13.1升级到hive-1.2.1且确保纳入CM管理）

1、在hive0.13.1版本下创建lib121目录cd /opt/cloudera/parcels/CDH/lib/hive;mkdir lib1212、下载hive1.2.1版本,并将该版本lib下所有文件拷贝到lib121中3、修改/opt/cloudera/parcels/CDH/lib/hive/bin/hive中HIVE_LIB变量HIVE_LIB=${HIVE_HOME...

2018-10-19 08:58:25 791

原创 Kylin概念理解

Cube是联机分析的关键。他们是一种多维结构，包含原始事实数据、聚合数据，这些数据聚合允许用户快速进行复杂的查询，Mdx语言就应用它更是如鱼得水。Cube包含两个基本概念：维度和度量维度（Dimension）:维度提供了分类描述，表示一类分析角度，用户通过维度分析度量数据。比如三个维度：时间、产品、地域度量（Measures）:度量表示用来聚合分析的数字信息，度量的集合组合成了一个特殊...

2018-10-16 15:10:59 407

转载 spark 分区提交调优

转自：https://blog.csdn.net/u014384314/article/details/80797385一 spark RDD分区原则在Spark的Rdd中，Rdd默认是分区的。有时候需要重新设置Rdd的分区数量，比如Rdd的分区中，Rdd分区比较多，但是每个Rdd的数据量比较小，则需要重新设置一个比较合理的分区数。或者需要把Rdd的分区数量调大。还有就是通过设置一个R...

2018-10-11 17:03:28 1900

原创 apache-kylin-2.3.2安装过程遇到错误

安装apache-kylin-2.3.2过程中碰到一些问题，总结一下：1 Exception in thread "main" java.lang.IllegalArgumentException: Failed to find metadata store by url: kylin_metadata@hbase应该是hbase和zk的问题解决方案：进入zk的bin的zkCli，将/...

2018-09-15 09:58:50 1846

转载 Parquet与ORC：高性能列式存储格式

转自：https://blog.csdn.net/yu616568/article/details/51868447/背景随着大数据时代的到来，越来越多的数据流向了Hadoop生态圈，同时对于能够快速的从TB甚至PB级别的数据中获取有价值的数据对于一个产品和公司来说更加重要，在Hadoop生态圈的快速发展过程中，涌现了一批开源的数据分析引擎，例如Hive、Spark SQL、Impala、...

2018-09-12 15:22:20 298

原创 spark读写hive的注意点

可以直接使用 val conf = new SparkConf().setMaster("local").setAppName("sdf") val sc = new SparkContext(conf) val hiveContext = new HiveContext(sc) val df = hiveContext.sql("drop table myhive....

2018-09-07 16:41:53 841

原创 ogg for bigdata hbase安装步骤

一、源端的准备工作(oracle库）1. 设置参数alter system set enable_goldengate_replication=true;alter system set open_cursors=500;2. 创建GolenGate表空间create tablespace ts_ogg datafile size 500m;create temporary tabl...

2018-08-31 09:09:44 3261

原创 Redhat下Oracle 11g安装步骤图解

redhat 下安装 Oracle 11g安装环境：操作系统 Red Hat Enterprise Linux Server release 6.4 (Santiago) 64位Oracle版本 11.2.0.3安装步骤：1、检查操作系统版本Last login: Thu Jan 29 11:02:05 2015 from 10.100.116.83[root@loca...

2018-08-21 14:52:04 919

转载 Goldengate抽取ORACLE 数据到 Hbase

1、软件版本说明：Goldengate 12c 12.2.0.1 forOracle （源端）Goldengate 12c 12.2.0.1 for Bigdata ( 目标端)Oracle 11g 11.2.0.4.0 (注oracle 数据库必须是11.2.0.4之后的版本，之前的oracle 数据库版本不支持ogg 12c )HBase 1.1.2...

2018-08-20 15:43:20 621

空空如也

空空如也