绝域时空-CSDN博客

原创利用Docker快速部署hadoop、hive和spark

文章目录一、配置文件yml1.docker-compose.yml二、执行脚本1.启动脚本run.sh2.关闭脚本stop.sh一、配置文件yml1.docker-compose.ymlversion: '3.4' services: namenode: image: test/hadoop-namenode:1.1.0-hadoop2.8-java8 container_name: namenode volumes: - ./data/namenode:/h

2022-11-08 22:57:22 2236

原创 Spark-Excel算子

文章目录欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好！这是你第一次使用 Markdown编辑器所展示的欢迎页。如果你想学习如何使用Markdown编

2022-11-08 22:54:47 1237

原创 Python操作MongoDB

最近，我在做算法标签系统，打算用MongoDB进行数据数据存储。首先，用进行MongoDB的安装包安装。

2022-11-07 23:11:55 560 1

原创基于Docker-compose搭建TensorFlow

docker和kubernetes搭建TensorFlow容器

2022-11-07 22:38:22 594

原创 Docker-Compose构建spark集群

知道我的兄弟朋友们可能知道，我最近工作中，我们老大叫我利用Docker构建大数据开发环境。今天真的十分开心，我利用Docker-Compose构建出Kafka-Spark-MySQL的云平台大数据开发环境，并利用自己撰写的spark streaming程序实现了实时数据的处理。本篇文章主要介绍利用Docker-Compose构建出Spark的运行环境，和前面的Kafka和MySQL相似，本次搭建的Spark集群还是采用Bitnami的镜像进行构建。...

2022-08-09 20:37:19 1139 1

原创基于Docker构建MySQL主从复制数据库

本次带来的是基于Docker-compose构建出MySQL单节点和主从复制的MySQL环境，本次使用的依旧是bitnami的第三方镜像资源。希望通过这个文章对于学习和使用Docker搭建MySQL的你提供帮助。

2022-08-08 16:37:15 709 1

原创基于Docker-compose构建Kafka集群

首先，先向大家道个歉。由于前段时间的工作调整，导致我一直没有进行更新。现在工作逐渐走上正轨，现在决定继续更新自己学习的内容。希望对于学习或者从事大数据开发的你提供一些帮助。本次更新的内容为如何使用Docker-compose技术进行Kafka集群的构建。...

2022-07-31 20:59:13 1701 2

原创大数据OLAP分析数据库ClickHouse之表引擎

1、ClickHouse表引擎表引擎分为四种：1. MergeTree2. Log3. Integrations4. Special1.MergeTreeMergeTree系列引擎适用于高负载任务，支持大数据量的快速写入并进行后续的数据处理，通用程度高且功能强大。该系列引擎的共同特点是支持数据副本、分区、数据采样等特性。表引擎特点MergeTree用于插入极大量的数据到一张表中，数据以数据片段的形式一个接着一个的快速写入，数据片段按照一定的规则进行合并。Repl

2022-05-03 11:14:08 349

原创 Java连接ClickHouse实现数据库基本增删查

引言ClickHose作为一个新的列式数据库，其在实时数仓中作为结果存储的数据库。对于Java程序员来说，我们需要对于ClickHouse进行数据的增删查改，进而支持后续的处理业务。我使用面向对象的思想，实现Java操作ClickHouse的增删改，希望对于学习和使用ClickHouse的你有些帮助。一、依赖导入<dependency> <groupId>ru.yandex.clickhouse</groupId> <artifactId>click

2022-05-01 17:14:15 13740 9

原创 java操作Elastic Search实现数据的处理

一、依赖导入在操作Elastic Search首先需要导入依赖<dependencies> <dependency> <groupId>org.elasticsearch</groupId> <artifactId>elasticsearch</artifactId> <version>7.8.0</version> </dependenc

2022-04-20 22:41:06 1316

原创 java连接kafka实现生产者消费者功能

一、功能描述利用Java连接Kafka，通过API实现生产者和消费者，对于Kafka生产或者消费数据。将日志信息进行输出。二、依赖导入首先，创建一个简单的maven的工程并将依赖导入<dependency> <groupId>org.apache.kafka</groupId> <artifactId>kafka-clients</artifactId> <version>${kafka.version}</vers

2022-03-27 23:11:17 3326

原创大数据组件之HBase

文章目录前言一、HBase1、Region2、RegionServer3、Master4、Zookeeper二、HBases的Standalone安装1、解压配置环境变量1.下载2.解压3.配置环境变量2、修改配置文件信息1.hbase-env.sh2.hbase-site.xml3.启动HBase4.验证启动是否成功三、HBase完全分布式搭建四、HBase常见shell指令1、基本指令1.打开HBase shell2. 获取帮助3. 查看服务器状态4.查看版本信息5.创建命名空间6.描述命名空间7.删除

2022-03-21 10:36:40 4167 16

原创 Python-sklearn之PCA主成分分析

文章目录写在前面一、PCA主成分分析1、主成分分析步骤2、主成分分析的主要作二、Python使用PCA主成分分析写在前面作为大数据开发人员，我们经常会收到一些数据分析工程师给我们的指标，我们基于这些指标进行数据提取。其中数据分析工程师最主要的一个特征提取方式就是PCA主成分分析，下面我将介绍Python的sklearn库中是如何实现PCA算法及其使用。一、PCA主成分分析什么是PCA主成分分析。百度百科给出如下定义：1、主成分分析步骤对于一个PCA主成分分析，一般分为以下几个步骤：去除平均

2022-03-19 14:53:08 7420 7

原创数据库优化之数据备份

文章目录写在前面一、数据备份1、mysqdump1.备份单个数据库2.备份多个数据库3.备份所有数据库4.数据恢复2、文件备份1.数据输出2.文件输入3、binlog日志1.查看binlog日志2.开始binlog日志3.查看binlog日志写在前面最近有个学弟问我这样的问题，他的hive在mysql中映射的元数据丢了，导致其元数据服务起不来，所以写这篇文章介绍mysql数据常见的备份方式。一、数据备份1、mysqdump1.备份单个数据库#备份一个数据库mysqldump -u usern

2022-03-18 08:59:47 322

原创 hive优化大全（hive的优化这一篇就够了）

文章目录写在前面一、概述1.1 数据倾斜1.2 MapReduce二、产生原因三、解决方案和避免方案3.1建表层面3.1.1 分区表写在前面前几天发的大数据组件之Hive（Hive学习一篇就够了），其访问量和点赞数很多，这次打算更新一点关于hive的语句优化和关于hive的一些配置的文章。希望大家持续关注，我会继续更新更多的文章。一、概述首先。我们为啥要进行优化。从事大数据开发的人员都体验过这样的感觉。当我们写完一个查询指令。当我们按下回车的时候，我们等到map的进度条到99％时，系统就像卡住一样。

2022-03-12 12:13:52 3006 1

原创 LRU算法

一、LRU算法LRU是Least Recently Used的缩写，即最近最少使用，是一种常用的页面置换算法，选择最近最久未使用的页面予以淘汰。该算法赋予每个页面一个访问字段，用来记录一个页面自上次被访问以来所经历的时间 t，当须淘汰一个页面时，选择现有页面中其 t 值最大的，即最近最少使用的页面予以淘汰。二、Java代码实现public class LRUCache { class DLinkedNode { int key; int value;

2022-03-08 19:00:32 698 1

原创大数据组件之Hive（Hive学习一篇就够了）

文章目录一、Hive安装1、解压环境2、环境变量配置3、配置文件信息1.打开编辑文件2.输入以下内容4、拷贝mysql驱动5、更新guava包和hadoop一致6、mysql授权7、初始化8、hive启动模式9、Hadoop的core-site.xml配置二、Hive1、Hive的文件结构2、MySQL上Hive的元数据3、hadoop文件授权4、Hive的驱动器：Driver5、抽象语法树（AST）6、动态分区三、Hive的数据类型1、Hive基本数据类型2、非常规数据类型1.数组类型2.图类型3.结构体

2022-03-05 13:41:11 5340 6

原创数据迁移工具之Flume

一、FlumeFlume 是Cloudera 提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume 基于流式架构，灵活简单。Flume最主要的作用就是，实时读取服务器本地磁盘的数据，将数据写入到HDFS。1、Flume的架构[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-puWFE5f8-1645613325525)(.\Flume\Flume架构.jpg)]1.AgentAgent是一个JVM进程，它是以事件的形式将数据从源头送至目的。它

2022-03-04 09:02:49 660 1

原创数据迁移工具之DataX

一、DataXDataX 是阿里巴巴开源的一个异构数据源离线同步工具，致力于实现包括关系型数据库(MySQL、Oracle 等)、HDFS、Hive、ODPS、HBase、FTP 等各种异构数据源之间稳定高效的数据同步功能。1、DataX框架[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Z79kVoKg-1645612858233)(.\DataX\DataX框架.png)]**Reader：**数据采集模块，负责采集数据源的数据，将数据发送给Framework。

2022-03-03 15:27:57 2730

原创 Java实现kudu的增删查改

文章目录1、依赖导入2、创建kudu表3、删除kudu表4、插入数据到kudu5、查询kudu数据6、修改kudu表数据7、删除kudu中指定行的数据1、依赖导入<dependency> <groupId>org.apache.kudu</groupId> <artifactId>kudu-client</artifactId> <version>1.6.0</version></dependency

2022-03-02 16:52:32 396 1

原创大数据调度工具之Oozie

文章目录一、oozie1、Oozie模块1.Workflow2.Coordinator3.Bundle Job2、Oozie的常用节点1.控制流节点（Control Flow Nodes）2.动作节点（Action Nodes）二、Oozie安装1、配置maven环境1.打开文件2.输入以下内容4、验证maven仓库是否配置完成2、下载资源3、编译安装4、安装Oozie5、Hadoop配置修改1.core-site.xml2.mappred-site.xml3.yarn-site.xml6、部署Oozie7

2022-02-27 14:34:16 1375

原创利用Java的API实现HBase数据库的增删查改

文章目录一、功能描述二、依赖导入三、配置信息3.1log4j的配置3.2连接配置四、Configuration五、Common六、Java操作HBase集群一、功能描述本功能组件主要通过Java的API实现HBase的操作。利用log4j进行数据迁移过程的记录，采取批处理的方式实现数据迁移的过程。技术实现利用Java的API连接HBase数据库利用log4j将执行信息进行输出，并捕获异常二、依赖导入首先，在Maven工程中的pom.xml的<dependencies></

2022-02-27 14:33:23 1218

原创 Azkaban的安装部署

文章目录一、Azkaban二、安装部署1、安装包准备2、安装Azkaban1.解压安装包2.文件重命名3.azkaban脚本导入3、生成密钥对4、相关配置1.修改时区2.Web服务器配置3.增加管理员用户4.执行服务器配置5.启动服务一、AzkabanAzkaban 是由 Linkedin 公司推出的一个批量工作流任务调度器，主要用于在一个工作流内以一个特定的顺序运行一组工作和流程，它的配置是通过简单的 key:value 对的方式，通过配置中的 Dependencies 来设置依赖关系。Azkaban

2022-02-23 18:38:05 3017

原创 Redis大全（linux安装Redis及其函数）

一、Redis安装1、默认安装gcc版本4.8.5#安装GCCyum -y install gcc 2、可能报错需要将gcc升至5.3以上#安装centos-release-sclyum -y install centos-release-scl #升级GCC版本yum -y install devtoolset-9-gcc devtoolset-9-gcc-c++ devtoolset-9-binutils #临时设置scl enable devtoolset-9 bash #永久

2022-02-23 12:29:38 196 1

原创 MongoDB基本语法及其相关操作

一、MongoDBMongoDB是一个基于分布式文件的存储的开源数据库系统。MongoDB具有以下特点：MongoDB 是一个面向文档存储的数据库。你可以在MongoDB记录中设置任何属性的索引来实现更快的排序。你可以通过本地或者网络创建数据镜像。如果负载的增加（需要更多的存储空间和更强的处理能力），它可以分布在计算机网络中的其他节点上这就是所谓的分片。Mongo支持丰富的查询表达式。查询指令使用JSON形式的标记，可轻易查询文档中内嵌的对象及数组。MongoDb 使用update()命

2022-02-23 12:27:34 1000 1

原创利用Java API实现Kafka的生产者消费者

一、功能描述利用Java连接Kafka，通过API实现生产者和消费者，对于Kafka生产或者消费数据。将日志信息进行输出。二、依赖导入首先，创建一个简单的maven的工程并将依赖导入<dependency> <groupId>org.apache.kafka</groupId> <artifactId>kafka-clients</artifactId> <version>${kafka.version}</vers

2022-02-23 12:25:36 1395 1

原创 Hive函数大全

一、数学函数1、取整函数: round1.函数描述返回值语法结构功能描述doubleround(double a)返回double类型的整数值部分（遵循四舍五入）2.例程hive> select round(10.235);#----10.0#----2、指定精度取整函数: round1.函数描述返回值语法结构功能描述doubleround(double a, int d)返回指定精度d的double类型2.例程h

2022-02-13 20:25:53 6399 5

原创 Kubernetes基础

一、简介Kubernetes 是 Google 团队发起的一个开源项目，它的目标是管理跨多个主机的容器，用于自动部署、扩展和管理容器化的应用程序，主要实现语言为 Go 语言。二、Kubernetes的组件Kubernetes 中的绝大部分概念都抽象成 Kubernetes 管理的一种资源对象，下面为Kubernetes的一些资源对象：Master：Master 节点是 Kubernetes 集群的控制节点，负责整个集群的管理和控制。Master 节点上包含以下组件：kube-apiserv

2022-02-08 13:47:31 109

原创 Hadoop的存储策略

Hadoop的存储策略策略 ID策略名称块分布creationFallbacksreplicationFallbacks15Lazy_PersistRAM_DISK: 1, DISK: n-1DISKDISK12All_SSDSSD: nDISKDISK10One_SSDSSD: 1, DISK: n-1SSD, DISKSSD, DISK7Hot (default)DISK: n< none >ARCHIVE5

2022-02-05 11:05:56 1404

原创 HDFS读取与写入步骤详解

HDFS读取与写入1、Hadoop写流程Hadoop写流程主要实现将文件上传到HDFS中，其指令格式如下所示：#hadoop上传文件语法hdfs dfs -put localpath hdfspath 其上传步骤可以分为以下八个步骤：[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-uiZZRUux-1644030277258)(.\hadoop\HDFS写流程.jpg)]客户端通过Distributed FileSystem模块向NameNode请求上传文件

2022-02-05 11:04:54 1545

原创利用Java实现HDFS文件上传下载

文章目录利用Java实现HDFS文件上传下载1、pom.xml配置2、创建与删除3、文件上传4、文件下载利用Java实现HDFS文件上传下载1、pom.xml配置<properties> <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding> <maven.compiler.source>1.8</maven.compiler.sour

2022-02-05 11:03:26 2968

原创 SparkSQL操作hudi

文章目录SparkSQL操作hudi1、登录2、创建普通表3、创建分区表4、从现有表创建表5、用查询结果创建新表(CTAS)6、插入数据7、查询数据8、修改数据9、合并数据10、删除数据11、覆盖写入12、修改数据表13、hudi分区命令SparkSQL操作hudi1、登录#spark 3.1spark-sql --packages org.apache.hudi:hudi-spark3.1.2-bundle_2.12:0.10.1,org.apache.spark:spark-avro_2.12:

2022-02-05 10:40:41 3251

原创 Scala操作hudi

文章目录Scala操作hudi1、启动客户端2、配置信息3、创建数据表4、插入数据5、查询数据6、更新数据7、增量查询8、时间点查询9、删除数据10、覆盖写入Scala操作hudi1、启动客户端//spark3.1spark-shell \ --packages org.apache.hudi:hudi-spark3.1.2-bundle_2.12:0.10.1,org.apache.spark:spark-avro_2.12:3.1.2 \ --conf 'spark.serialize

2022-02-05 10:39:01 753

原创 Hudi的编译安装

文章目录hudi搭建1、下载maven安装包2.解压并配置环境变量1.解压安装包2.配置环境变量3、maven仓库配置1.打开文件2.输入以下内容4、验证maven仓库是否配置完成5、编译打包hudi1.解压文件2.配置相关配置信息3.编译hudi搭建对于hudi的安装，我们需要自己下载包进行编译。hudi下载地址Index of /dist/hudi (apache.org) ，下面是hudi编译的详细步骤：1、下载maven安装包maven下载地址为：https://maven.apache.o

2022-02-05 10:37:27 1872

基于樱花掉落进行二次开发的新版的樱花掉落

建筑物消防评价（层次分析法）.zip

给学妹的生日祝福.zip

vb.net表白程序.zip

JAVA里怎么嵌入C语言程序提高程序运行效率，嵌入后怎么进行编译。怎么利用编译将C语言编译成dll文件，之后将dll文件形成动态链接库