菜鸟也学大数据-CSDN博客

原创 Kettle入门学习连接mysql、hive

一、什么是Kettle？Kettle作为用户规模最多的开源ETL工具，强大简洁的功能深受广大ETL从业者的欢迎。但kettle本身的调度监控功能却非常弱。Pentaho官方都建议采用crontab(Unix平台)和计划任务(Windows平台)来完成调度功能。所以大家在实施kettle作业调度功能的时候，通常采用以下几种方式：使用spoon程序来启动Job，使用crontab或计划任务，自主开发java程序来调用kettle的类库。开源的 ETL工具，用于数据库间的数据迁移。可以在 Linux、

2021-03-23 00:28:17 501

原创 MongoDB介绍、安装与实践

目录一、什么是MongoDB?介绍特点数据模型副本集二、MongoDB安装配置yum源下载启动三、MongoDB基本命令DataBaseCollectionDocument索引四、聚集分析管道模式聚集分析MapReduce聚集分析简单聚集函数五、读/写关注写关注（Write Concern）读关注（ Read Concern）加载CSV文件到MongoDBJava操作MongoDBMongoDB与Hive整合MongoDB与Spark整合MongoDB认证一、什么是MongoDB?介绍使用C++编写

2021-03-15 15:47:14 233

原创 PySpark简介、搭建以及使用

一、PySparj简介使用场景大数据处理或机器学习时的原型（ prototype）开发验证算法执行效率可能不高要求能够快速开发结构体系二、PySpark集成搭建准备环境：JDK、Spark需要提前安装好下载Anaconbda地址：点击这里选择：Anaconda3-5.1.0-Linux-x86_64.sh至于版本最好不要使用过低版本，可能无法使用安装bzip2缺少 bzip2 安装 Anaconda 会失败在Linux下安装bzip2：yum insta

2021-01-29 17:50:41 7453 3

原创新手必看！简易入门Python爬虫

目录一、什么是爬虫二、常用的数据爬取工具三、使用Scrapy框架安装配置创建Scrapy工程使用PyCharm打开Scrapy工程使用Python脚本执行命令行启动工程四、Scrapy框架以及使用Scrapy返回爬取页面数据在Scrapy爬虫框架中提取网页数据的方法xpath语法路径表达式举例爬取从页面提取的URLScrapy的item模块一、什么是爬虫爬虫即为数据爬取数据来源从网上爬取数据（crawling）从本地系统收集数据（scraping）：文件、数据库等网络数据采集模型二、

2021-01-27 23:34:06 503

原创快速入门Python学习

一、Python简介Python 是一种解释型、面向对象、动态数据类型的高级程序设计语言。Python 是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。Python 的设计具有很强的可读性，相比其他语言经常使用英文关键字，其他语言的一些标点符号，它具有比其他语言更有特Python 是一种解释型语言：这意味着开发过程中没有了编译这个环节。类似于 PHP 和 Perl 语言。Python 是交互式语言：这意味着，你可以在一个 Python 提示符 >>> 后直接

2021-01-26 16:24:49 262

原创六万字！Spark Core、Spark SQL、Spark Streaming一锅端

目录一、什么是Spark？介绍特点与MapReduce相比技术栈二、Spark架构运行架构核心组件三、Spark RDD概念特性DAG分区创建方式操作算子常用的转换算子(Scala版)常用的转换算子(Java版)常用的动作算子(Scala)四、未完待结一、什么是Spark？介绍诞生于加州大学伯克利分校AMP实验室，是一个基于内存的分布式计算框架特点速度快基于内存数据处理，比MR快100个数量级以上（逻辑回归算法测试）基于硬盘数据处理，比MR快10个数量级以上易用性支持Java、Scala

2021-01-20 23:19:20 882

原创 HBase介绍、架构、实践以及调优

目录一、什么是HBase？介绍特点二、HBase架构HMaster的作用RegionServer的作用Zookeeper作用Region和TableRow（逻辑存在）数据管理三、HBase读写流程写数据读数据四、HBase应用场景增量数据-时间序列数据信息交换-消息传递内容服务-Web后端应用程序五、HBase生态圈六、安装配置一、什么是HBase？介绍HBASE是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBASE技术可在廉价PC Server上搭建起大规模结构化存储集群。HBA

2021-01-18 23:45:43 321

原创 Hive介绍、架构、实践以及调优

一、什么是Hive1.1 介绍hive是基于Hadoop构建的一套数据仓库分析系统，它提供了丰富的SQL查询方式来分析存储在Hadoop分布式文件系统中的数据。可以将结构化的数据文件映射为一张数据库表，并提供完整的SQL查询功能。可以将SQL语句转换为MapReduce任务运行，通过自己的SQL查询分析需要的内容，这套SQL简称Hive SQL，使不熟悉mapreduce的用户可以很方便地利用SQL语言查询、汇总和分析数据。1.2 特点可扩展: Hive可以自由的扩展集群的规模，一般情况下不

2021-01-18 01:03:34 595

原创 Apache Flink介绍、架构、原理以及实现

文章目录一 Flink简介1.1 什么是flink1.2 flink的特点1.3 编程API二 Flink架构2.1 架构图2.2 运行组件2.3 关键词含义三 Flink原理3.1 任务3.2 任务提交流程3.3 任务提交流程(YARN版)3.4 任务执行图3.5 任务链四 Flink和其他框架对比五 Flink安装部署六 Flink第一个示例七 Flink Source数据源八 Flink Transform算子七 Flink Sink输出端九 Flink window窗口十时间语义与WaterMar

2021-01-13 00:15:16 2755 1

原创四万字！掌握Flink Table一篇就够了

学习工具与软件版本：开发软件IDEA、Flink1.10.2、Kafka2.0.0、Scala2.11创建Maven项目修改Pom.xml <!- 根据自己使用的版本修改对应的版本号 -> <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-scala_2.11</artifactId> <versio.

2021-01-08 12:07:01 974 1

原创全面认识当前市面99%的大数据技术框架（附:各大厂大数据技术应用文章）

大数据面试题(完整）2020大数据面试题真题总结(附答案)：点击这里技术栈Hadoop万亿数据下 Hadoop 的核心竞争力：点击这里HBaseHBase应用与高可用实践：点击这里Kafka基于 Kafka 的实时计算引擎如何选择？Spark or Flink ？：点击这里Kafka 应用实践与生态集成：点击这里Druid深入分析Druid存储结构：点击这里Kylin、Druid、ClickHouse核心技术对比：点击这里ClickHouseClickHouse的核心特性及架构：

2020-12-20 18:49:58 3304 1

原创 Flume介绍、架构、安装以及使用

Flume包：flume-ng-1.6.0-cdh5.14.0.tarFlume安装流程第一步：解压Flume包:tar -zxvf /opt/flume-ng-1.6.0-cdh5.14.0.tar.gz -C /opt第二步：修改包名mv /opt/apache-flume-1.6.0-cdh5.14.0-bin /opt/Flume160第三步：拷贝一份Flume160/conf下的flume-env.sh.template：cp /opt/Flume160/conf/flume-env.

2020-12-01 00:06:41 476

原创 Flink创建测试数据流的几种方式

flink自定义测试数据流

2023-03-27 11:26:23 558 1

原创 Spark堆内内存、堆外内存管理

深入了解spark堆内、堆外内存管理

2023-03-06 13:57:34 381

原创大数据必知点

大数据必知点4万字全面掌握数据库, 数据仓库, 数据集市,数据湖,数据中台：点击这里OLAP开源OLAP系统的比较：ClickHouse、Druid和Pinot：点击这里数据仓库一文探究数据仓库体系：点击这里数仓|几种SQL隐藏的错误，你遇到过吗？：点击这里数仓宽表的优缺点：点击这里用户画像用户画像基础：点击这里做用户，绕不开画像：点击这里用户画像技术及方法论：点击这里用户画像：点击这里一文了解用户标签画像，从洞察到突破：点击这里数据分析大数据领域小文件问题解决攻略：点击这里

2021-07-13 19:47:12 314 2

原创各大厂应用实践 — 大数据

大厂应用实践美团美团外卖流量数据的采集加工和应用：点击这里美团外卖实时数仓建设实践：点击这里美团外卖离线数仓建设实践：点击这里美团 Flink 实时数仓应用经验分享：点击这里Druid SQL和Security在美团点评的实践：点击这里Flink 数据湖助力美团数仓增量生产：点击这里Apache Doris在美团外卖数仓中的应用实践：点击这里阿里菜鸟实时数仓2.0进阶之路：点击这里Flink1.11+Hive批流一体数仓：点击这里阿里巴巴电商搜索推荐实时数仓演进之路：点击这里优酷

2021-07-13 19:39:57 582

原创 Linux性能指标、工具汇总、解决思路

本文所有图源于极客时间的《Linux性能优化》推荐大家学习目录一.性能指标二.工具汇总三.解决思路一.性能指标二.工具汇总三.解决思路

2021-06-22 08:53:16 191

原创 Linux常用命令

2021-05-18 08:42:05 116

原创 Flink复杂事件处理（CEP）示例

示例实现package com.lagou.gongkaike;import com.lagou.mycep.PayBean;import org.apache.flink.api.common.eventtime.*;import org.apache.flink.api.java.functions.KeySelector;import org.apache.flink.cep.CEP;import org.apache.flink.cep.PatternSelectFunction;i

2021-04-18 19:40:52 335

原创如何0-1设计数据仓库！大数据开发工程师必备

设计数仓理论：1、数仓建设必须从业务中来，到业务中去；2、数仓分层的目的是业务解耦；3、无论哪种建模方式，其核心是业务实体；4、按领域建设能快速交活，后遗症将会在2年之后爆发，且难以解决；5、数仓建设应该把75%的时间投入到设计阶段，如果不是，那你就惨了；6、数仓本身也可以迭代。7、传统数仓并没有一种叫做“宽表模型”的模型，大数据时代新诞生的名词，因为很多大数据组件join代价极高。实际上是范式退化。模型建设流程业务建模：梳理业务流程领域建模：数仓分域/主题逻辑建模：指标体系梳理.

2021-04-03 17:22:56 278

原创 MySQL密码过期问题处理（Your password has expired）

查看用户mysql> select user();+----------------+| user() |+----------------+| root@localhost |+----------------+查看密码过期情况(Y:过期 N:未过期)mysql> select user,host,password,password_expired from mysql.user where user = 'root';+------+----------

2021-03-23 11:07:18 591

原创 Kafka消息压缩算法

kafka是如何压缩消息的？要弄清楚这个问题，就要从kafka的消息格式说起。kafka的消息层次分为两层：消息集合(message set)以及消息(message)。一个消息集合包含若干条日志项(record item)，而日志项才是真正封装消息的地方。kafka底层的消息日志由一系列消息集合日志项组成。kafka通常不会直接操作具体的一条条消息，它总是在消息集合这个层面上进行写入操作。在kafka中，压缩可能会发生在两个地方：生产者端和broker端。生产者程序中配置compression

2021-03-10 22:20:11 1029

原创（Ubuntu）Docker的安装与使用

本篇使用的系统是Ubuntu一.Docker安装进入命令行安装组件的时候如果报资源锁，重启一下安装组件：sudo apt install curl1.镜像比较大, 需要准备一个网络稳定的环境2.其中–mirror Aliyun代表使用阿里源下载路径：sudo curl -fsSL https://get.docker.com | bash -s docker --mirror Aliyun下载完成后查看一下版本信息：docker -v二.创建容器拉取.

2021-02-23 16:47:49 4934 1

原创 Ubuntu使用MobaXterm连接

第一步sudo apt-get update第二步sudo apt-get install -y openssh-server第三步systemctl start sshd第四步查看ip地址：ip addr第五步打开MobaXterm新建连接填入IP，用户登录信息连接成功

2021-02-23 11:53:55 5516 2

原创大数据项目常用Maven依赖汇总

版本预写 <properties> <flink.version>1.10.0</flink.version> <scala.binary.version>2.11</scala.binary.version> <kafka.version>2.0.0</kafka.version> </properties>Kafka <dependen

2021-02-04 12:25:57 234

原创 Flink toAppendStream与toRetractStream的区别

前言通常我们在需要输出Table表数据时需要转换成DataStream流进行输出，然后转换流有两种模式toAppendStream追加模式、toRetractStream更新模式toAppendStream：追加模式接收端口数据，测试追加模式代码示例import org.apache.flink.streaming.api.scala._import org.apache.flink.table.api.{EnvironmentSettings, Table}import org.ap

2021-01-11 09:54:09 5402

原创 Flink Table连接Kafka出现问题

报错信息SLF4J: Failed to load class "org.slf4j.impl.StaticLoggerBinder".SLF4J: Defaulting to no-operation (NOP) logger implementationSLF4J: See http://www.slf4j.org/codes.html#StaticLoggerBinder for further details.Exception in thread "main" org.apache.fli

2021-01-08 12:23:23 1685 2

原创 Flink端到端状态一致性

状态一致性级别AT-MOST-ONCE (最多一次)：当任务故障时，最简单的做法是什么都不干，既不恢复丢失的状态，也不重播丢失的数据。At-most-once 语义的含义是最多处理一次事件。AT-LEAST-ONCE (至少一次)：在大多数的真实应用场景,我们希望不丢失事件。这种类型的保障称为at-least-once,意思是所有的事件都得到了处理，而一些事件还可能被处理多次。EXACTLY-ONCE (精确一次)：恰好处理一次是最严格的保证，也是最难实现的。恰好处理一次语义不仅仅意

2021-01-07 11:51:18 1154

原创实现将Kafka Topic中的数据传入HBase

创建Maven项目在Pom.xml中添加依赖 <!- 根据自己使用的kafka、HBase版本进行修改-> <dependency> <groupId>org.apache.kafka</groupId> <artifactId>kafka_2.11</artifactId> <version>2.0.0</version> </dependenc

2021-01-07 09:16:16 679 1

原创 IDEA Put数据到HBase上无反应且不报异常的解决方式

问题简述这次在IDEA测试把从Kafka中的数据传到Hbase中，成功读取kafka中的数据，但一直停在Put到HBase的这一行代码上，不停止也不报错但也没成功，检查了多便代码依旧没有找到问题所在，非常郁闷，然后查找了一些博客，确定了成功解决的方式，现在记录一下解决方式将linux中/etc/hosts文件复制到winows系统的C:\Windows\System32\drivers\etc\下就可以了。...

2021-01-07 00:28:53 1019 1

原创 Flink Checkpoints检查点

Checkpoints概述Flink 故障恢复机制的核心，就是应用状态的一致性检查点有状态流应用的一致检查点，其实就是所有任务的状态，在某个时间点的一份拷贝(一份快照) ;这个时间点，应该是所有任务都恰好处理完一个相同的输入数据的时候原理演示Checkpoints出现故障开始恢复遇到故障之后，第一步就是重启应用第二步是从checkpoint中读取状态,将状态重置从检查点重新启动应用程序后，其内部状态与检查点完成时的状态完全相同第三步:开始消费并处理检查点到发生

2021-01-06 10:20:14 670

原创 Flink状态后端

什么是状态后端？每传入一条数据，有状态的算子任务都会读取和更新状态由于有效的状态访问对于处理数据的低延迟至关重要，因此每个并行任务都会在本地维护其状态，以确保快速的状态访问状态的存储、访问以及维护，由一个可插入的组件决定，这个组件就叫做状态后端(state backend)状态后端主要负责两件事:本地的状态管理，以及将检查点(checkpoint)状态写入远程存储状态后端的存储模式MemoryStateBackend内存级的状态后端，会将键控状态作为内存中的对象进行管理，将它们存储在Ta

2021-01-06 09:24:49 707

原创 Flink ProcessFunction详解

前言我们之前学习的转换算子是无法访问事件的时间戳信息和水位线信息的。而这.在一.些应用场景下，极为重要。例如MapFunction这样的map转换算子就无法访问时间戳或者当前事件的事件时间。基于此，DataStreamAPI提供了一系列的Low-Level转换算子。可以访问时间戳、watermark以及注册定时事件。还可以输出特定的-一些事件，例如超时事件等。ProcessFunction用来构建事件驱动的应用以及实现自定义的业务逻辑(使用之前的window函数和转换算子无法实现)。例如，Flink

2021-01-05 00:29:13 3050 2

原创数据仓库与数据湖之间的理解误区

误解一：数据仓库和数据湖二者在架构上只能二选一很多人认为数据仓库和数据湖在架构上只能二选一，其实这种理解是错误的。数据湖和数据仓库并不是对立关系，相反它们的并存可以互补给企业架构带来更多的好处：数据仓库存储结构化的数据，适用于快速的BI和决策支撑，而数据湖可以存储任何格式的数据，往往通过挖掘能够发挥出数据的更大作为。所以在一些场景上二者的并存是可以给企业带来更多效益的。误解二：相对于数据湖，数据仓库更有名更受欢迎人工智能（AI）和机器学习项目的成功往往需要数据湖来做支撑。因为数据湖可让您存

2021-01-04 12:07:58 195

原创认识Flink的状态管理

状态概念由一个任务维护，并且用来计算某个结果的所有数据，都属于这个任务的状态可以认为状态就是一个本地变量，可以被任务的业务逻辑访问Flink会进行状态管理，包括状态一致性、故障处理以及高效存储和访问，以便开发人员可以专注于应用程序的逻辑状态的分类在Flink中，状态始终与特定算子相关联为了使运行时的Flink了解算子的状态，算子需要预先注册其状态总的说来，有两种类型的状态:算子状态(Operator State)：算子状态的作用范围限定为算子任务键控状态(Keyed State)

2021-01-03 21:38:49 224

原创 Flink watermark自定义生成机制

周期性生成Watermarkimport Source.WaterSensorimport org.apache.flink.streaming.api.TimeCharacteristicimport org.apache.flink.streaming.api.functions.AssignerWithPeriodicWatermarksimport org.apache.flink.streaming.api.scala._import org.apache.flink.streaming

2021-01-02 12:52:38 713

大数据项目文档.rar

Hive练习数据包.zip

MySQL-client-5.6.46-1.el7.x86_64.rpm

虚拟机--VM15.5.1版本.zip

空空如也