此木Y-CSDN博客

Spark 1.6 之后引入的统一内存管理机制，与静态内存管理的区别在于存储内存和执行内存共享同一块空间，可以动态占用对方的空闲区域，如下图所示：统一内存管理图示——堆内统一内存管理图示——堆外其中最重要的优化在于动态占用机制，其规则如下：设定基本的存储内存和执行内存区域（spark.storage.storageFraction 参数），该设定确定了双方各自拥有的空间的范围双方的空间都不足时，则存储到硬盘；若己方空间不足而对方空余时，可借用对方的空间;（存储空间不足是指不足以放下一个完整的

2022-05-07 17:04:44 5143

原创 Kafka3.0.0单机安装及简单使用

1.下载Kafka3.0.0下载地址：Kafka下载我下载的是kafka_2.12-3.0.0.tgz 版本的，本文也是基于此版本。2.安装下载完成后上传到linux后，进行解压，命令：tar -zxf kafka_2.12-3.0.0.tgz然后进入解压后的目录，创建logs文件夹cd kafka_2.12-3.0.0/mkdir logs之后进入config目录，修改 server.properties 的如下内容：listeners=PLAINTEXT://localhost

2022-03-11 17:04:47 7637 3

原创 Flink CDC 2.0 SQL初体验(MySql版)

1.MySql创建表：CREATE TABLE `student` ( `id` int(10) NOT NULL, `name` varchar(128) CHARACTER SET latin1 COLLATE latin1_swedish_ci DEFAULT NULL, `age` int(10) DEFAULT NULL, PRIMARY KEY (`id`) USING BTREE) ENGINE = InnoDB CHARACTER SET = latin1;2.ma

2022-03-10 14:11:15 3143

转载 Flink CDC 2.0 正式发布，详解核心改进

Flink CDC 2.0 正式发布，详解核心改进一、CDC 概述CDC 的全称是 Change Data Capture ，在广义的概念上，只要是能捕获数据变更的技术，我们都可以称之为 CDC 。目前通常描述的 CDC 技术主要面向数据库的变更，是一种用于捕获数据库中数据变更的技术。CDC 技术的应用场景非常广泛：数据同步：用于备份，容灾；数据分发：一个数据源分发给多个下游系统；数据采集：面向数据仓库 / 数据湖的 ETL 数据集成，是非常重要的数据源。CDC 的技术方案非常多，目前业界主

2022-03-10 11:26:23 515

原创 Hive启动报错：Name node is in safe mode.

在自己的测试环境启动Hive出现报错：由错误日志可以看出是NameNode处于安全模式，根据其中提示，使用 hdfs dfsadmin -safemode leave 可以离开安全模式，但是使用了该命令后，再启动hive还是会报这个错误，一顿操作后（就是各种谷歌），发现可能是节点资源不足导致的，于是就用 df -hl命令查看集群空间的使用情况：果然，已经使用100%了，那后面相信同样情况的大佬们已经知道怎么处理了吧（不知道的留言也行）。...

2021-12-08 16:01:59 1649

转载网易云音乐数据治理探索与实践

网易云音乐数据治理探索与实践导读：大数据时代的到来，让很多企业看到了数据资产的价值，开始探索应用场景和商业模式，并建设相关技术平台。因此，数据治理成为了挖掘数据价值的重要手段和工具。但数据治理不仅需要完善的保障机制，还需要理解具体的治理内容，比如数据该怎么规范，元数据该怎么管理等。这些问题是数据治理过程中最实际也是最复杂的问题，今天我将从数据治理的各个核心领域来和大家分享一下云音乐在数据治理中的探索与实践。本文会围绕以下四个方面展开：音乐数仓概况数据规范埋点治理资产治理音乐数仓概况首先介

2021-11-09 11:34:02 842

转载同程旅行Hadoop集群跨机房迁移实践

背景随着同程旅行业务和数据规模越来越大，原有的机房不足以支撑未来几年的扩容需求，同时老机房的保障优先级也低于新机房。为了不受限于机房的压力，公司决定进行机房迁移。为了尽快完成迁移，需要1个月内完成上百PB数据量的集群迁移，迁移过程不允许停止服务。目前HADOOP集群主要有多个2.X版本，2019年升级到联邦模式，目前有近20个namespace，80%的业务都与hdfs 相关，资源调度层主要依赖YARN集群，上游支撑数仓建设、算法分析、机器学习等多个业务板块。迁移方案目前同程旅行有多套HDFS集群

2021-11-03 10:10:36 419

转载借助 Flink 与 Pulsar，BIGO 打造实时消息处理系统

摘要：本文整理自 BIGO Staff Engineer 陈航在 Flink Forward Asia 2020 分享的议题《借助 Flink 与 Pulsar，BIGO 打造实时消息处理系统》。主要内容包括：关于 BIGOBIGO 为什么会选择 Apache PulsarApache Pulsar 在 BIGO 中的角色BIGO 借助 Apache Pulsar 和 Flink 构造实时消息流处理系统未来计划一、关于 BIGO借助于大数据和人工智能技术，BIGO 基于视频的服务和产品获得

2021-10-22 09:25:40 116

转载网易云音乐实时数仓2.0进阶之路

云音乐从2018年开始搭建实时计算平台，经过两年的发展实时计算已经渗透到云音乐的各个业务当中：运营需要实时的统计报表做精细化的运营算法同学需要实时的特征数据来提升推荐效果、需要实时的AB数据来降低试错成本搜索需要实时索引数据来提升线上搜索的效果业务开发需要实时的监控数据来第一时间响应线上的问题…发展到今天我们已经拥有开发者160+，线上任务运行任务数500+，单Kafka的峰值流量超过了400W+QPS，实时集群机器数量130+，而这还仅仅是开始，单单2020年Q1这段时间我们整体的机器以及

2021-10-15 10:03:33 200

原创 Kafka启动报错：/bin/kafka-run-class.sh: line 258: exec: java: not found

Kafka启动报错处理：/opt/module/kafka/bin/kafka-run-class.sh: 第 258 行:exec: java: 未找到今天在安装kafka后启动的时候出现了报错：/software/kafka_2.11-0.11.0.0/bin/kafka-run-class.sh: line 258: exec: java: not found网上一通谷歌后发现原来是Kafka的默认/usr/bin/java路径与我们实际的$JAVA_HOME/bin/java路径不一致导致的

2021-09-24 16:35:39 3670

转载 ClickHouse的Projection特性在快手的应用

ClickHouse的Projection原理解析本文是ClickHouse的Projection特性在快手的实际应用1.ClickHouse在快手OLAP的服务ClickHouse在快手内部是作为OLAP引擎，提供多集群架构，对于不同业务有不同的集群保障，上层是查询代理层，进行统一的查询管控和接入路由以及统一的监控服务，这样可以把ClickHouse“手动挡”应用模式逐步变成一个可用的服务，提供给用户。同时最底层的数据写入，由于ClickHouse的数据写入需要一些相关的知识，所以把ETL服务抽取

2021-09-07 17:45:02 1208 6

原创 Hive SQL经典面试题：统计连续登陆的三天及以上的用户

2021-08-19 14:00:42 12278 2

原创有赞数据治理之路

导读：有赞是通过 SaaS 起家的，经过多年的数据沉淀，有大量数据，可以说是一家大数据公司，但是有赞的最终目标是成为 AI 公司。在这个阶段，数据积累到一定体量，数据治理是非常有必要的。数据治理的最终目的也是服务 AI、做智能应用，发挥数据的价值，而质量和成本是数据价值的核心所在。在有赞，是如何衡量质量好坏、成本高低的？又是如何依靠产品，结合运营的手段，提升质量，降低成本的？本文，为你揭晓。1. 数据治理是什么数据：复杂业务场景下，由系统或人沉淀下来的大数据治：为整治，关注数据质量，保障数据稳定性、

2021-08-16 16:31:54 340

原创 ClickHouse函数介绍

ClickHouse函数介绍ClickHouse中至少存在两种类型的函数：常规函数和聚合函数。常规函数的工作就像分别为每一行执行一次函数计算一样（对于每一行，函数的结果不依赖于其他行）。聚合函数则从各行累积一组值（即函数的结果依赖整个结果集）。1. 常规函数1.1 算数函数对于所有算术函数，如果存在这样的类型，则结果类型将计算为结果适合的最小数字类型。根据位数、是否有符号、是否浮点数，同时取最小值。如果没有足够的位，则采用最高位类型，如：SELECT toTypeName(0), toT

2021-07-27 15:00:27 8802 2

原创 ClickHouse类型转换函数

ClickHouse类型转换函数数值类型转换常见的问题：当你把某个值从一个类型转换为另外一个类型的时候，你需要注意的是这是一个不安全的操作，可能导致数据的丢失。数据丢失一般发生在你将一个大的数据类型转换为小的数据类型的时候，或者你把两个不同的数据类型相互转换的时候。1. toInt(8|16|32|64)转换一个输入值为Int类型。这个函数包括：toInt8(expr) — 结果为Int8数据类型。toInt16(expr) — 结果为Int16数据类型。toInt32(expr) — 结果为

2021-07-27 14:03:55 21770

原创 ClickHouse引擎介绍

ClickHouse引擎介绍1. 数据库引擎1.1 MysqlMySQL引擎用于将远程的MySQL服务器中的表映射到ClickHouse中，并允许您对表进行INSERT和SELECT查询，以方便您在ClickHouse与MySQL之间进行数据交换。MySQL数据库引擎会将其查询语句转换为MySQL语法并发送到MySQL服务器中，因此可以执行诸如SHOW TABLES或SHOW CREATE TABLE之类的操作。但无法对其执行以下操作：RENAMECREATE TABLEALTER用法

2021-07-26 15:57:42 3847 1

原创 ClickHouse数据类型介绍

ClickHouse基本操作1.ClickHouse数据类型介绍MysqlHiveClickHouseByteTINYINTInt8ShortSMALLINTInt16IntINTInt32LongBIGINTInt64VarcharSTRINGStringTimeStampTIMESTAMPDateTimeFloatFLOATFloat32DoubleDOUBLEFloat64BooleanBOOL

2021-07-23 14:25:44 2234 2

原创贝壳基于 Druid 的 OLAP 引擎应用实践

贝壳基于 Druid 的 OLAP 引擎应用实践导读：贝壳作为全国领先的房产交易和租赁在线服务平台，有很多业务场景会产出大量实时和离线数据，针对这些数据进行查询分析，对于企业发展和业务拓展至关重要。不同业务线不同查询场景下，单一技术手段很难满足业务方的需求，Druid 就是我们在探索之路上发现的比较切合业务方需求的 OLAP 引擎之一，基于 Druid 我们做了深入地实践，接下来就由我和业界朋友们一起分享。内容包括： 贝壳 OLAP 平台介绍 OLAP 技术选型策略 Druid 在贝

2021-07-21 10:29:33 287 1

原创 CDH6.2.0详细安装步骤

1.准备集群本文档使用的是三台虚拟机，IP和主机名自行修改，三台虚拟机需要能联网，并且能够免密登录，这些网上都能找到详细的教程，有问题也可以底部留言交流。ip名称内存172.17.0.169node16916G172.17.0.170node17016G172.17.0.171node17116G2.安装JDK百度网盘链接：https://pan.baidu.com/s/1eR-ZAZNLBZwSLgUSmmlfEQ提取码：95yu2.1 创建

2021-07-19 13:41:58 70159 7

原创 CDH启用kerberos后，Flume采集数据到HDFS

CDH启用kerberos后，Flume采集数据到HDFS之前写过一篇 Flume跨服务器采集文件数据到HDFS完整案例，大家可以先看看后来CDH集群启用了kerberos，服务器B的Flume配置文件需要做出一些修改，在服务器B的Flume安装目录的conf目录下修改 bserver.conf：1 #服务器B2 b1.sources = r23 b1.sinks = k24 b1.channels = c25 # 配置监控文件6 b1.sources.r2.type = avro7 #

2021-07-15 10:45:00 432 2

原创记一次hive查询报错的问题

记一次hive查询报错的问题CDH中安装完hive后，执行select count(*) from table,居然报错了进入yarn的webui页面，查看对应的任务的logs重点是这句：Error running local (uberized) 'child' : java.lang.UnsatisfiedLinkError: org.apache.hadoop.util.NativeCodeLoader.buildSupportsSnappy()Z网上找了一圈，说是Mapreduce.

2021-07-13 14:46:18 1206 1

原创 ClickHouse单机和集群安装及图形化工具Tabix

ClickHouse集群安装部署测试环境：centos7，单节点1.检查SSE 4.2 指令集 ClickHouse 目前通过 SSE 4.2 指令集实现向量化的执行引擎来加速查询，向量化执行可以简单的看作一项消除程序中循环的优化，为了实现向量化需要利用 CPU 的 SIMD (Single Instruction Multiple Data)指令，通过单条指令可以实现操作多条数据。在现代计算机中是通过数据并行来提高性能，其原理就是在 CPU 寄存器层面实现数据的并行操作。下面是检查当前CPU

2021-06-17 17:13:53 3143 1

原创 Flume跨服务器采集文件数据到HDFS完整案例

一：整体架构如下图所示，有两台服务器A和B，要把服务器A上的数据采集到服务器B上的HDFS。二：首先是原始数据，我这里一直保存的是近3天的数据。可以使用下面脚本实现#!/bin/bashfind /home/ftpuser/home/ftpuser -mtime +2 -name "202*" -exec rm -rf {} \;Flume的配置：1.在服务器A的Flume安装目录的conf目录下新建aserver.conf#服务器Aa1.sources = r1 r2 r3 r4a

2021-05-21 16:57:24 2730 5

转载数据仓库架构和建设方法论

1.数据仓库概要1.1.数据仓库起因在建设数据仓库之前，数据散落在企业各部门应用的数据存储中，它们之间有着复杂的业务连接关系，从整体上看就如一张巨大的蜘蛛网：结构上错综复杂，却又四通八达。在企业级数据应用上单一业务使用方便，且灵活多变；但涉及到跨业务、多部门联合应用就会存在：①数据来源多样化，管理决策数据过于分散；②数据缺乏标准，难以整合；③数据口径不统一，可信度低；④缺乏数据管控体系，数据质量难以保证。如果企业在数据建设方面没有一个整体的规划，而采取自然演化的方式，那么在未来数据应用的过程中，将不得

2020-11-05 09:36:29 6282

转载 Spark SQL重点知识总结

**一、Spark SQL的概念理解**&enspSpark SQL是spark套件中一个模板，它将数据的计算任务通过SQL的形式转换成了RDD的计算，类似于Hive通过SQL的形式将数据的计算任务转换成了MapReduce。Spark SQL的特点：1、和Spark Core的无缝集成，可以在写整个RDD应用的时候，配置Spark SQL来完成逻辑实现。2、统一的数据访问方式，Spark SQL提供标准化的SQL查询。3、Hive的继承，Spark SQL通过内嵌的hive或者连接外部

2020-09-08 14:22:46 322 1

原创 Hive on Spark 异常记录

最近在使用 hive on Spark的时候遇到了一个错误：java.lang.ClassCastException: org.apache.hadoop.io.LongWritable cannot be cast to org.apache.hadoop.io.IntWritable at org.apache.hadoop.hive.serde2.objectinspector.primitive.WritableIntObjectInspector.get(WritableIntObjec

2020-09-04 10:45:15 1250 1

转载 Spark 动态资源分配(Dynamic Resource Allocation) 解析

Spark 默认采用的是资源预分配的方式。这其实也和按需做资源分配的理念是有冲突的。这篇文章会详细介绍Spark 动态资源分配原理。前言最近在使用Spark Streaming程序时，发现如下几个问题：1.高峰和低峰Spark Streaming每个周期要处理的数据量相差三倍以上,预分配资源会导致低峰的时候资源的大量浪费。2.Spark Streaming 跑的数量多了后，资源占用相当可观。所以便有了要开发一套针对Spark Streaming 动态资源调整的想法。我在文章最后一个章节给出了一.

2020-09-01 17:39:10 1962

原创数据可视化神器DATAV

每年的双十一，天猫都会在剁手狂欢节中直播战绩。除了可怕的数字之外，不知道大家有没有留意到这些同样可怕的数据可视化大屏：（2015双十一大屏）（2016双十一大屏）所谓大屏，顾名思义就是一个很大的屏 !!!一般应用在交易大厅，展览中心，管控中心，老板办公室等等场景，把一些关键数据集中展示在一块巨大的LED屏幕上，其实就是巨大化的Dashboard，是当今数一数二的装逼方式。也许你觉得这些酷炫的可视化效果遥不可及，但如果我告诉你，现在你也可以在电脑上一键生成呢？是的，来自阿里的可视化天团让一键

2020-09-01 16:33:37 9686 4

原创 Spark发生OOM问题的解决方法及优化总结

Spark发生OOM问题的解决方法及优化总结Spark中的OOM问题不外乎以下两种情况1.map执行中内存溢出2.shuffle后内存溢出内存溢出解决方法：1.map过程产生大量对象导致内存溢出：这种溢出的原因是在单个map中产生了大量的对象导致的，例如：rdd.map(x=>for(i <- 1 to 10000) yield i.toString)，这个操作在rdd中，每个对象都产生了10000个对象，这肯定很容易产生内存溢出的问题。针对这种问题，在不增加内存的情况下，可以通过减

2020-08-28 17:55:35 6975 1

原创 centos安装FTP

1、安装ftp程序使用 rpm -qa | grep vsftpd 检测系统是否安装ftp程序如果没有安装，使用 yum install -y vsftpd 安装或者使用rpm -Uvh rpm包名2、创建专门用于ftp服务的本地用户useradd ftpuser 创建用户passwd ftpuser 设置密码3、本地用户方式修改/etc/vsftpd/vsftpd.c...

2019-11-15 16:06:15 623

转载 Git 常用命令总结

本文转载自：https://blog.csdn.net/qianyu6200430/article/details/102385503最近公司的代码管理工具要从SVN转到Git上，因此虽然之前用过Git，但是都是一些简单的推送提交，因此还是有必要进行一些系统的学习，这里做一下笔记，以备后询，且不定期更新。关于SVN和Git的比较已经有很多文章说过了，就不再赘述，本文的重点是如何使用常用的Git...

2019-10-16 17:53:49 143

转载使用IDEA构建Maven

【构建Maven本地仓】一、下载Maven下载地址：http://maven.apache.org/download.cgi二、解压三、配置本地仓路径在如下的位置修改为本地仓的位置：四、配置环境变量五、检测Maven是否配置成功【IDEA构建Maven项目】一、配置Maven二、在IDEA中配置Maven三、新建Maven项目点击Next点击Next点击Next点击...

2019-09-20 17:40:23 261

转载 Spark 在不同集群中的运行架构

Spark 注重建立良好的生态系统，它不仅支持多种外部文件存储系统，提供了多种多样的集群运行模式。部署在单台机器上时，既可以用本地（Local）模式运行，也可以使用伪分布式模式来运行；当以分布式集群部署的时候，可以根据自己集群的实际情况选择Standalone模式（Spark 自带的模式）、YARN-Client 模式或者YARN-Cluster 模式。Spark 的各种运行模式虽然在启动方式、运行位置、调度策略上各有不同，但它们的目的基本都是一致的，就是在合适的位置安全可靠的根据用户的配置和Jo

2019-06-12 23:27:10 1202

空空如也

centos7卸载ftp服务报错