刘坤元-CSDN博客

原创第06章-基于TPC-DS进行性能测试

TPC-DS采用星型、雪花型等多维数据模式。它包含7张事实表,17张纬度表平均每张表含有18列。其工作负载包含99个SQL查询,覆盖SQL99和2003的核心部分以及OLAP。这个测试集包含对大数据集的统计、报表生成、联机查询、数据挖掘等复杂应用,测试用的数据和值是有倾斜的,与真实数据一致。可以说TPC-DS是与真实场景非常接近的一个测试集,也是难度较大的一个测试集。

2023-09-23 20:32:35 209

自定义函数简介有一些sql很难处理的逻辑，我们可以使用自定义函数去处理。比如对一个字符串加密、对字符串解密、解析json，调用外部服务等。UDF就是一进一出的函数，类似于Spark SQL中的round（四舍五入）函数。输入是一行数据的某一个字段，转为某一个值。先引入jar包再开发UDF代码，我们在这里实现一个将字符串转为大写的功能/*** 将字符串转为大写字符串*/value = "_FUNC_(object) - 将字符串转大写字符串")

2023-09-19 21:42:58 78

原创第04章 Spark SQL常用参数[转发】

目录第04章 Spark SQL常用参数 24.1 AQE优化控制 24.2 SHUFFLE分区个数控制 34.3 SHUFFLE输入大小控制 34.4 TASK内存参数 34.5 TASK同时运行个数 34.6 其它REDUCE阶段相关参数 44.7 如何预估每个REDUCE任务处理的数据量 6。

2023-09-18 13:15:10 214

原创第03章-处理数据基础模型[转载]

我们经常基于Spark UI上的指标进行性能分析，因此我们对Spark页面进行一个介绍。

2023-09-06 10:07:53 52

原创第02章-存储和压缩格式[转载]

Spark SQL表存储的数据量都特别大，因此存储格式要考虑查询性能写入性能和存储成本。而orc存储格式是一种列式存储，在查询写入时比较快，而存储成本也比较低。这是我们在1T(未压缩）规模上做的存储和查询性能测试。

2023-09-05 20:21:29 28

原创第01章-Spark SQL简介和常用语句

在Spark SQL中，一张完整的表由存储在hdfs上的数据以及存储在mysql中的元数据构成。从default.test4查询数据覆盖写入default.test3表的20230412分区，default.test3表的20230412分区旧数据会被清空，default.test3表其他分区数据不变。从default.test4查询所有分区数据覆盖写入default.test3表的相应分区，default.test3表的2所有相应分区旧数据会被清空，default.test3表其他分区数据不变。

2023-09-03 17:50:51 82

原创利用aws构建数据仓库（三）：编写hive的udf

1. 在利用EMR的hive构建数据仓库时，需要编写用户自定义函数udf。在实际的经验中，根据EMR的hive版本选择从Maven中央仓库中拉取所需要的jar包这种方式，是存在问题的。采用Maven仓库拉取的jar包编写的udf函数放入hive中，在执行引擎为mapreduce时没有问题，但是一旦将执行引擎换成TEZ，就会报错。所以，我从EMR的hive安装目录中找到hive-...

2018-08-26 21:46:50 1231

原创利用aws构建数据仓库（二）：创建s3存储桶以存储数据

1.在aws上构建数据仓库与利用开源社区软件构建数据仓库在数据存储上有一个很大的不同点。apache版hadoop在进行计算和存储时，是利用hdfs。而emr的hadoop在存储时，可以利用s3作为存储。emr的hadoop在计算时，中间结果没有直接放入本地硬盘，而是放入了core节点上的hdfs目录。2.Amazon S3简介：专为从任意位置存储和检索任意数量的数据而构建的对象存储，提供...

2018-08-26 14:47:42 4594 2

原创利用aws构建数据仓库（一）：开通emr

1.对于中、小型公司来说，如何处理公司与日增长的庞大数据是一个非常烦恼的问题。而本系列博客介绍了如何利用aws的大数据产品一步步构建低成本、可扩展以及易维护的数据仓库。2.Amazon EMR简介：Amazon EMR 提供的托管 Hadoop 框架可以让您快速轻松、经济高效地在多个动态可扩展的 Amazon EC2 实例之间处理大量数据。您还可以运行其他常用的分布式框架 (例如 ...

2018-08-26 14:08:47 2847

原创 VMware fusion上安装CDH5.X单机版

目前，企业拥有Hadoop大数据处理平台有三种途径：一、Apache开源版本Hadoop方案二、Cloudera商业公司进行二次开发的企业版Hadoop（简称CDH）三、使用AWS的emr或阿里云的MaxCompute等大数据云服务对于中小型公司而言，拥有大数据处理平台的最好途径是购买大数据云服务，其次是使用CDH等商业版Hadoop。而本篇教程是关于在M...

2018-07-19 18:10:24 719

原创在AWS上开通负载均衡Elastic Load Balancing以及负载到EC2服务器

1.登录aws2.登录控制台，找到负载均衡--》负载均衡器3.点开负载均衡器4.创建负载均衡：应用程序负载均衡器--》创建了解更多应用程序负载均衡器：https://docs.aws.amazon.com/zh_cn/elasticloadbalancing/latest/application/introduction.html网络负载...

2018-07-19 17:21:28 6835

原创在AWS上开通EC2服务器并部署tomcat

1.登录aws2.点击服务--计算--EC23.点击启动实例4.选择linux镜像5.选择一个实例类型6.配置实例详细信息，保持默认，点击下一步7.添加存储（选择linux根目录硬盘大小和类型）。我在这里保持了默认，但是在生产中建议根卷适当加大，卷类型建议选择SSD。注意：终止时删除是默认勾选的，意思是...

2018-07-19 17:04:55 4649 1

原创在EC2上挂载EBS硬盘卷

1.登录控制台后，点击卷2.点击创建卷，选择硬盘型号，大小和可用区，完成后点击创建卷3.完成创建卷4.刷新卷列表5。6。7.挂载后显示在用，但是这个时候并不是真的挂载8.登录EC2 ssh -i /Users/jack/Downloads/test.pem [email protected]...

2018-07-18 22:24:37 2492

qq_37209452的博客