涛2021-CSDN博客

原创 Flink DataSet的常用API

Fink DataSet 常用API一、DataSourceTransformationSinkFlink DataSet 常用API主要分为3部分：DataSource：是程序的数据源的输入，可以自定义数据源；transformation：具体的操作，对一个或多个输入进行计算处理；Sink：程序的输出，将Transformation处理之后的数据输出到指定的存储介质中；一、DataSource1、来源DataSource方法描述基于文件readTextFile读

2021-12-16 11:25:21 1587

原创 Fink DataStream 常用API

Fink DataStream 常用API一、DataSourceTransformationSinkFlink DataStream 常用API主要分为3部分：DataSource：是程序的数据源的输入，可以自定义数据源；transformation：具体的操作，对一个或多个输入进行计算处理；Sink：程序的输出，将Transformation处理之后的数据输出到指定的存储介质中；一、DataSource1、来源DataSource方法描述基于文件readText

2021-12-16 10:48:43 1263

原创 flink批处理示例开发

flink批处理示例开发一、版本和开发工具二、开发示例三、运行前一节介绍了流处理开发示例，本节来展示flink批处理开发。一、版本和开发工具flink版本：1.13.3开发工具：Intellij IDEAJava版本：1.8.0_261二、开发示例1、开发需求：统计一个文件中的单词出现的总次数，并且把结果存储到文件中。2、接上节的开发，代码下载地址：Flink开发示例源代码3、核心代码如下public static void main(String[] args) throws Exce

2021-12-13 09:47:52 7911

原创 flink流处理示例开发

flink 开发示例一、版本和开发工具二、Flink 程序开发步骤三、开发示例四、运行一、版本和开发工具flink版本：1.13.3开发工具：Intellij IDEAJava版本：1.8.0_261二、Flink 程序开发步骤1、获得一个执行环境2、加载或者创建初始化数据3、指定操作数据的Transaction算子4、指定计算好的数据的存放位置5、调用execute()触发程序执行三、开发示例1、创建项目,填写项目名称，存放路径、包名、版本号等2、添加依赖，在本机注释掉sco

2021-12-12 21:41:52 9464

原创注解@ConfigurationProperties使用

改注解有个prefix属性，通过指定的前缀，绑定配置文件的配置，该注解可以放在类上，也可以放在方法上。从官方的注释中了解，当作用于方法上时，如果绑定配置，需要有@Bean注解且对应的类需要@Configuration注解/** * Annotation for externalized configuration. Add this to a class definition or a * {@code @Bean} method in a {@code @Configuration} class

2021-11-20 22:12:49 466

原创 flink13.1在yarn上运行，需要设置HADOOP_CLASSPATH

需要配置HADOOP_CLASSPATHexport HADOOP_CLASSPATH=hadoop classpath

2021-07-02 11:36:03 2351 1

原创 Docker安装kibana

[root@node03 ~]# docker pull kibana[root@node03 ~]# docker run --name kib_prd -p 5601:5601 -e ELASTICSEARCH_URL=http://ElasticSearch的IP地址:9200 -d kibana

2021-06-24 10:15:29 69

原创 Docker 安装ElasticSearch

[root@node03 ~]# docker pull elasticsearch[root@node03 ~]# dicker images[root@node03 ~]# docker run --name db_elasticsearch -p 9200:9200 -p 9300:9300 -e “discovery.type=single-node” elasticsearch

2021-06-24 10:12:52 76

原创 kibana 的Time Filter field name 没值处理方法

curl -XPUT http://ip地址:9200/logstash-dx -d ‘{“mappings”:{“trans”:{“properties”:{“RequestTime”:{“type”:“date”,“format”:“YYYY:MM:DD HH:mm:ss”}}}}}’

2021-06-24 10:02:36 823 2

原创 ClickHouse 数据库DML和DDL操作

一、数据库1、语法：CREATE DATABASE [IF NOT EXISTS] db_name [ENGINE = engine]2、数据库目前支持5种引擎： Oridinary：默认引擎，无须声明 Dictionary：字段引擎 Memory：内存引擎，用于存放临时数据 Lazy：日志引擎，只能使用与Log系列的表引擎 MySQL：此类数据库下的表会自动拉取MySQL数据库的数据3、查看数据库：SHOW DATABASES4、删除数据库：DROP DATABASE

2021-05-26 09:01:42 968

原创 Clickhouse 集群安装

目录一、下载rpm文件二、安装三、配置四、启停本文讲解ClickHouse 集群搭建。一、下载rpm文件1、下载地址：https://repo.yandex.ru/clickhouse/rpm/stable/x86_64/下载最新的版本：clickhouse-common-static-dbg-21.5.5.12-2.x86_64.rpmclickhouse-common-static-21.5.5.12-2.x86_64.rpmclickhouse-server-21.5.5.12-2.n

2021-05-25 12:06:37 407

原创检查CPU是否支持SSE4.2的命令

grep -q sse4_2 /proc/cpuinfo && echo “SSE 4.2 supported” || echo “SSE 4.2 not supported”

2021-05-06 10:36:56 4638

原创 ClickHouse数据类型

ClickHouse数据类型分：基础类型、复合类型和特殊类型一、基础类型分数字、字符串和时间1、数字分整数、浮点数和定点数整数名称大小(字节)范围Int81-128 ~ 127Int162-32768 ~ 32767Int324-2147483648 ~ 2147483647Int648-9223372036854775808 ~ 9223372036854775807UInt810 ~ 255UInt1620

2021-04-28 17:44:30 286

原创 Clickhouse 杀进程方法

1、找到对应的会话select p.`user` ,p.query_id ,p.address ,p.port ,p.query from system.processes p 或者SHOW PROCESSLIST2、进行kil操作kill query where query_id='d03438bf-cd25-48fe-a4fd-e3e2c72eff2e'

2021-04-28 10:24:47 2517

原创 ClickHouse数据库安装与配置

目录一、下载rpm文件二、安装三、配置本文讲解ClickHouse 的安装和配置。一、下载rpm文件1、下载地址：https://repo.yandex.ru/clickhouse/rpm/stable/x86_64/下载最新的版本：clickhouse-common-static-21.3.5.42-2.x86_64.rpmclickhouse-server-21.3.5.42-2.noarch.rpmclickhouse-client-21.3.5.42-2.noarch.rpm2、

2021-04-13 14:40:39 773

原创电商数仓项目(十一) Hive安装与配置，以及配置tez

目录一、集群规划二、下载与设置三、初始化元数据四、hive启与停本节讲解Flume的安装与配置。一、集群规划在node01 安装，同步到node02，node03 node01 node02 node03 hive hive hive 二、下载与设置三、初始化元数据四、hive启与停...

2021-03-26 16:10:59 266 2

原创电商数仓项目(九) Sqoop安装与配置

目录一、规划二、安装与配置三、验证与测试本节讲解Sqoop 的安装和配置。一、规划 node01 node02 node03 sqoop sqoop sqoop 二、安装与配置# 1. 下载sqoop[jack@node01 u02]$ wget https://mirrors.tuna.tsinghua.edu.cn/apache/sqoop/1.4.7/sqoop-1.4.7.bin

2021-03-22 09:00:29 130

原创电商数仓项目(八) Flume(3) 生产者和消费者配置

目录一、生产数据写到kafka二、消费kafka数据写到hdfs本节讲解Flume 生产者和消费者配置。一、生产数据写到kafka将上节生成的flume-interceptor-1.0.0.jar文件上传到$FLUME_HOME/lib目录下在$FLUME_HOME/conf目录中创建file-flume-kafka.conf文件，文件目录：/u01/gmall/data/in/log-data读取的文件：app开头的文件内容如下：#定义Agent必需的组件名称，同时指定本配置文件的A

2021-03-20 10:35:04 481

原创电商数仓项目(八) Flume(2) 拦截器开发

目录一、开发本节讲解Flume 拦截器的开发。一、开发电商数仓项目(一) 系统规划和配置电商数仓项目(二) Maven 安装和hadoop-lzo编译电商数仓项目(三) hadoop3.2.2 安装与配置电商数仓项目(四) 模拟电商日志数据开发电商数仓项目(五) azkaban安装、配置和使用电商数仓项目(六) zookeeper安装和配置电商数仓项目(七) kafka 安装、配置和简单操作电商数仓项目(八) Flume 安装和配置...

2021-03-19 13:10:49 173

原创电商数仓项目(八) Flume(1) 安装和配置

目录一、集群规划二、下载与设置三、Jar修改和替换本节讲解Flume的安装与配置。一、集群规划 node01 node02 node03 Flume(生产者) Flume(生产者) Flume(消费者) 二、下载与设置# 1. 下载flume[jack@node01 u02]$ wget https://mirrors.tuna.tsinghua.edu.cn/apache/flume/

2021-03-18 13:51:19 140

原创电商数仓项目(七) kafka 安装、配置和简单操作

2021-03-15 13:30:07 273 1

原创电商数仓项目(六) zookeeper安装和配置

目录一、集群规划二、上传文件并解压缩三、修改环境变量(所有服务器)四、修改配置文件五、集群操作六、统一启动集群本节讲解zookeeper安装与配置。一、集群规划 node01 node02 node03 zookeeper zookeeper zookeeper 二、上传文件并解压缩上传到/u02目录，或者使用wget下载到u02目录下载地址：https://downloads.apac

2021-03-04 12:10:03 179 1

原创电商数仓项目(五) azkaban安装、配置和使用

目录一、集群规划二、Gradle安装与配置三、Azkaban编译四、初始化数据库五、Azkaban配置与启动六、Azkaban使用本节主要讲解Azkaban的安装、配置和使用。源代码一、集群规划 node01 node02 node03 exec exec、mysql web 二、Gradle安装与配置安装git和gcc(所有服务器都安装)[root@node01 ~]# yum

2021-03-03 13:27:00 576

原创电商数仓项目(四) 模拟用户行为数据开发

这里写目录标题一级目录二级目录三级目录一级目录二级目录三级目录本节主要介绍如何使用IntelliJ IDEA开发模拟用户行为数据。

2021-02-28 15:12:00 721

原创电商数仓项目(三) hadoop3.2.2 安装与配置

文章目录一、集群规划二、hadoop3.2.2 下载三、配置环境变量四、上传hadoop-lzo-0.4.21.jar一、集群规划 node01 node02 node03 HDFS NameNode DataNode DataNode DataNode Secondary NameNode 二、hadoop3.2.2 下载2.1 下载hadoop3.2.2[j

2021-02-28 00:04:41 1554

原创电商数仓项目(二) Maven 安装和hadoop-lzo编译

本章讲解Maven的安装配置和编译hadoop-lzo程序，为后续配置hdfs使用lzo压缩提供准备。

2021-02-23 22:51:50 472

原创电商数仓项目(一) 系统规划和配置

本文是基于<<尚硅谷大数据项目之电商数仓>> 写的，软件使用最新稳定版本，后续会详细介绍每个软件的详细安装配置过程以及使用中遇到的常见问题，软件原理不会做详细介绍(书中已经做了详细的介绍)。一、系统规划(1) 服务器配置如下：服务器操作系统 CPU 内存存储带宽 Node01 CentOS / 7.6 x8

2021-02-20 18:06:07 519 1

原创 nacos 1.1.3 docker单机模式安装和docker-compose安装

一、数据库安装：本例使用mysql 创建数据库：nacos_config 创建对于的表：下载地址：https://github.com/alibaba/nacos/blob/master/config/src/main/resources/META-INF/nacos-db.sql二、下载docker 镜像 docker pull nacos/nacos-server:1.1....

2019-10-14 16:17:32 2005

原创 pandas数据显示样式设置

# 设置宽度pd.set_option('display.width',100)# 设置精确度pd.set_option('precision',4)# 设置显示所有列pd.set_option('display.max_columns',None)# 设置显示所有行pd.set_option('display.max_rows',None)参考：https://pandas....

2019-09-15 20:53:10 3361

原创 Python读取csv文件的三种方式

一、前期准备：Python版本：3.7.3 制作一个不包含头文件的csv文件，为了方便文件内容是纯数字，字符集为utf-8，并命名为test.csv，放到程序的根目录下。使用PyCharm创建一个Python工程，并安装Numpy和Pandas类库。如下所示：二、使用标准Python类库导入 Python提供了标准的类库CSV，用来处理csv文件。...

2019-09-15 20:03:39 9375 1