白鸽…-CSDN博客

原创 Flink 函数（function）

在Flink中函数的使用，Flink为用户提供了许多内置函数如果这些函数还满足不了你的需求，还可以自定义函数内置函数比较函数比较功能描述value1 = value2如果value1等于value2，则返回 TRUE ；如果value1或value2为 NULL，则返回 UNKNOWN 。用户自定义函数...

2021-07-26 14:59:27 1408

Flink SQL 从kafka查数据写到kafkaimport org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;import org.apache.flink.table.api.bridge.java.StreamTableEnvironment;public class Flink05_SQL_Kafka2Kafka { public static void main(String[] args

2021-07-24 11:38:01 468

原创 Flink 表和流

Append-only 流仅通过 INSERT 操作修改的动态表可以通过输出插入的行转换为流。Retract 流retract 流包含两种类型的 message： add messages 和 retract messages 。通过将INSERT 操作编码为 add message、将 DELETE 操作编码为 retract message、将 UPDATE 操作编码为更新(先前)行的 retract message 和更新(新)行的 add message，将动态表转换为 retract 流。下

2021-07-24 10:04:58 240

原创 Flink SQL使用

Flink table API需要用到的依赖：<dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-table-planner-blink_${scala.binary.version}</artifactId> <version>${flink.version}</version> <scope>

2021-07-24 09:31:58 391

原创 flink SOL介绍

flink sql

2021-07-24 08:57:22 93

原创 Linux的wc命令-----随笔记

管道 |wc -lwc常用方法：wc -c 文件名（可加路径）：显示文件的字节数wc -m 文件名（可加路径）：显示文件的字符数wc -l 文件名（可加路径）：显示文件的行数wc -L 文件名（可加路径）：显示文件中的最长行的长度wc -w 文件名（可加路径）：显示文件的字数...

2021-06-30 18:11:02 178

原创 Linux查看端口命令-----随笔记

Linux查看端口是否被占用：netstat -anp | grep :端口号

2021-06-30 17:40:40 72

原创 str_to_map函数用法-----随笔记

str_to_map函数用法将字符串转为键值对例如：select str_to_map(concat(‘参数1’,‘拼接符’,‘参数3’),’\|’);在hive里 ‘|’ 需要加两个\进行转义

2021-06-18 21:25:33 1028 1

原创 concat函数用法-----随笔记

concat函数用法字符串拼接,将两个字符串用指定字符拼接起来拼接起来例如：将参数1和参数3拼接起来，用参数2分隔select concat(‘参数1’,‘参数2’,‘参数3’);

2021-06-18 21:11:28 378

原创 NVL函数用法-----随笔记

用法：例如nvl(参数1,参数2)中：当参数1为空时，返回参数2；当参数1不为空时，返回参数1；nvl(string1,string2);注意：NVL()函数的第一个参数和第二个参数类型必须相同，或者可以由隐式转换得到。...

2021-06-18 21:00:26 430

原创 date_sub函数用法-----随笔记

取当前日期N天前的数据，date_sub（参数1：获取当前日期函数：‘current_date’()，参数2：几天前的参数就写几）select *from dwd_page_logwhere dt=date_sub(`current_date`(),10);

2021-06-18 20:43:22 4481

原创使用docker搭建kafka 创建 topic 报错 Error: Exception thrown by the agent 超详细教程

使用docker搭建kafka 创建 topic 报错 Error: Exception thrown by the agent : java.rmi.server.ExportException: Port alrea先查看卡夫卡容器有没有启动docker ps进入到kafka容器docker exec -it kafka1 /bin/bash进入到kafka的bin目录下修改kafka-run-class.sh这个文件vi kafka-run-class.sh 添加以下内容：

2021-04-15 11:28:21 1155

原创链接数据库报错java.sql.SQLException: The server time zone value ‘�й��׼ʱ��‘

java.sql.SQLException: The server time zone value ‘�й��׼ʱ��’ is unrecognized or represents more than one time zone. You must configure either the server or JDBC driver (via the ‘serverTimezone’ confi问题：jdbc链接mysql时报错时区问题。解决办法：win+r 打开控制台，使用root账号登录mysq

2021-03-29 18:55:24 98

原创 Linux环境下搭建Hadoop集群

5、Hadoop安装集群规划服务器IP192.168.174.100192.168.174.110192.168.174.120主机名node01node02node03NameNode是否否SecondaryNameNode是否否dataNode是是是ResourceManager是否否NodeManager是是是第一步：上传apache hadoop包并解压解压命令cd /export/softwar

2020-12-17 21:06:47 136

原创 Linux环境下搭建zookeeper

Zookeeper安装集群规划服务器IP 主机名 myid的值192.168.174.100 node01 1192.168.174.110 node02 2192.168.174.120 node03 3第一步：下载zookeeeper的压缩包，下载网址如下http://archive.apache.org/dist/zookeeper/我们在这个网址下载我们使用的zk版本为3.4.9下载完成之后，上传到我们的linux的/export/softwares路径下准备进行安装第二步：

2020-12-17 21:00:58 157

原创在Linux里搭建kafka集群

kafka集群的搭建1、准备三台机器192.168.100.100 node01192.168.100.110 node02192.168.100.120 node032、初始化环境2.2.1、安装jdk、安装zookeeper参见之前的jdk以及zk环境安装步骤2.2.2、安装目录规划安装包存放的目录：/export/softwares 安装程序存放的目录：/export/servers 三台机器执行以下命令创建统一文件目录mkdir -p /export/servers m

2020-12-17 20:49:23 237 1

原创 Linux安装anaconda报错

Linux安装anaconda时报错（Anaconda3-5.3.1-Linux-x86_64.sh:行353: bunzip2: 未找到命令）报错原因：缺少bunzip命令解决方法：（1）安装bunzip2库yum install -y bzip2（2）删除之前安装的文件夹rm -rf /root/Anaconda/注意看自己当时安装的路径，默认是root/anaconda3（3）重新安装Anacondabash Anaconda3-5.3.1-Linux-x86_64.sh

2020-12-06 11:21:05 1284

原创马保国（马老师）

大家好，我是马老师刚才有个朋友问我，马老师发生甚么事了，我说怎么回事，他给了发了几张截图。我一看，哦，原来是昨天，有两个年轻人。十八九岁，一个在学C++,一个在学Java。他们说，诶…有一个说他在机房把电脑给跑蓝屏了,马老师你能不能教教我Python,诶…帮助拯救一下我的电脑。我说可以。我说那些高校在机房里教的都是Java, C++, 写死程序,不好用，他不服气。…我说小朋友，你二十行Java来写我这个刚刚编译出的功能，他写不出。他说你这也没用。我说我这个有用，这是Python,传统编程是讲究面向

2020-12-02 22:47:22 690 2

原创阿里云ACP大数据工程师认证，ACP，阿里云ACP认证，阿里云认证，大数据工程师认证

阿里云ACP大数据工程师认证先放证书镇楼ACP认证考试心得阿里云ACP级专业工程师认证考试不难，只要系统性复习官方文档一次考过其实并不难。大家普遍给出的意见都是要着重复习《阿里云官方文档》，考试题目大多是来自阿里云的官方文档。考试费用ACP认证考试费用1200元，一次考不过没有补考机会，需要重新购买重新考。就是考一次1200元，不限制次数，直到考过为止。考试时间、题型和分数以ACP云计算专业为例：考试时间：120分钟；试卷分数：满分为100分，及格分数为80分，考到80分即可获取ACP证

2020-10-29 10:41:20 3220 5

原创 SyntaxError: (unicode error) ‘utf-8‘ codec can‘t decode byte 0xb7 in position 0: invalid start byte。

启动Django服务时报错SyntaxError: (unicode error) ‘utf-8’ codec can’t decode byte 0xb7 in position 0: invalid start byte。解决方法很简单：把Django编程环境的编码格式改为utf-8就可以了改成utf-8后可以看到服务已经启动成功。打开浏览器输入Django访问地址：如果没有设置过一般会出现一个有火箭的页面，这个时候就说明你的服务已经启动成功。如果有内容就会出现下面的页面。..

2020-10-28 09:33:10 5124

原创正则表达式案例——带你读懂正则表达式

怎么学习正则表达式——轻松学会让人眼花的正则表达式本文利用之前的案例数据访问日志数据进行分析。日志文件的格式主体上是以单个空格来分割的，理论上可以以空格来将他进行分割，但是有一些数据里面自带了空格，所以我们就不能单纯的以文本分割的形式来对他进行分割。所以使用正则表达式来对数据进行分割。定义：正则表达式描述了一种字符串的匹配模式，可以用来检查一个串是否含有某种子串，将匹配的子串替换或者从某个串中取出符合某个条件的子串等。正则表达式字符说明：百讲不如一练，看例题例如利用正则表达式来对这一条日志

2020-08-05 00:35:55 185

原创网站日志分析（二）——利用Quick BI制作企业化报表分析

使用QuickBI展示分析数据本文接上篇网站日志分析（一）• 在上一篇数据已经处理完毕，各种需要的表页已经生成• 对于处理完的数据，下面将使用Quick BI进行编辑并以图表的形式进行展示。• 进入控制台，点击左侧导航栏大数据（数加）下的Quick BI：• 进入标准版：• 首先我们点击添加数据源，出现弹层：选择Maxcompute• 输入显示名称，项目名称，Access Id，Access Key这四个属性，其中后面三个之前已经获取过，直接复制粘贴即可，点击链接测试，通过后点击确定

2020-08-04 09:55:53 659

原创网站日志分析——关于茶叶网站用户的访问日志分析

红昇茶业网站分析1、茶行业现状中国是茶的故乡，茶园面积为世界第一，茶叶产量居世界第二位，历年来，我国茶产品出口也呈现了大幅增长势头，出口100多个国家和地区。中国茶，作为一种健康饮品、一种精神饮品、一种情感饮品、一种文化饮品，正在被越来越多的人接受、喜爱和追求。目前，茶是世界卫生组织推荐的六大保健食品之首，可以预测，茶将成为21世纪世界“第一大饮料”。2、茶行业定义茶叶起源于中国，是我国重要的农产品之一，也是我国传统的大宗出口商品。据海关统计，我国出口的茶主要分为五大类：绿茶、红茶、乌龙茶、普洱茶及

2020-08-04 00:24:46 541

原创网站日志分析（一）

利用阿里云数加平台进行网站日志分析基于茶叶网站的日志分析注：实验所用数据并非真实数加，只是模拟用户操作数据。概述：网站访问日志是用户在访问网站服务器时产生的日志，它包含了各种原始信息，一般以.log结尾。通过它就可以清楚的知道用户的IP，访问时间，请求链接，请求状态，请求字节数，来源链接，用户操作系统，浏览器内核，浏览器名称，浏览器版本等等信息。对网站日志的分析统计可以使我们了解网站当前的一些状况，为网站的各种优化升级甚至公司营销策略提供依据。实验步骤：• 首先要处理网站日志文件，日志格式：•

2020-07-31 23:09:39 1444

原创阿里云注册及创建工作空间

阿里云注册及创建工作空间步骤：1.打开阿里云官网阿里云2.点击右上角注册按钮3.进入注册界面，可以使用淘宝账号登录4.注册完后点击右上角控制台5.点击左上角功能菜单，点击产品与服务6.点击右侧导航大数据（数加）7.点击dataworks8.点击工作空间列表，点击创建工作空间9.输入工作空间名称，注意这里的工作空间名称，要求唯一，不能与其他重复10.选择需要开通的计算引擎，选择按量付费最划算11.填写名称，点击创建12，创建完成后就可以在工作空间列表看到自己的工作

2020-07-31 22:48:30 918

原创阿里云ACA 使用时间序列分解模型预测商品销量（三）

本文接上一篇使用时间序列分解模型预测商品销量———计算回归的差值dQ发表本博客的目的在于记录笔记，分享经验，无其他任何目的计算回归的差值dQ使用线性回归方程预测出来的是与时间无关因素对产品销量的影响，本实验假设用产品实际销量减去回归模型预测销量就可以得到随时间波动的产品销量。从左侧拖出一个“SQL脚本”，将其重命名为“计算dQ”，连接至“预测Q”，并输入如下代码：select monthno,quantity,prediction_result,(quantity - prediction_

2020-07-10 23:33:51 776

原创阿里云ACA 使用时间序列分解模型预测商品销量（二）

本文接上一篇使用时间序列分解模型预测商品销量———数据预处理发表本博客的目的在于记录笔记，分享经验，无其他任何目的2.1 数据预处理这一步将会使用PAI中的四个组件：“源/目标”–“读数据表”：从MaxCompute读取数据表至PAI；“工具”–“SQL脚本”：可通过SQL脚本编辑器编写SQL语句；“数据预处理”–“拆分”：可以对数据按比例或按阀值进行拆分；“数据预处理”–“缺失值填充”：可以对数据的缺失值进行均值、中位数或按特定规则进行填充。该实验需要使用的数据：链接：https://p

2020-07-10 00:14:28 646

原创阿里云ACA认证考试

教你如何两天通过阿里云ACA认证。真正两天拿证可以看到我的证书日期和我开始学习的时间，对，你没看错，就是两天！下面我会给大家分享一下获得这个证书的相应问题。1.什么是阿里云ACA认证阿里云大数据助理工程师认证（ACA）Alibaba Cloud Certified Associate - Big Data阿里云大数据助理工程师认证（Alibaba Cloud Certified Associate，ACA）是面向使用阿里云大数据产品的专业技术认证，主要涉及阿里云的大数据计算、存储、开发平

2020-07-09 23:08:33 7384 5

原创阿里云ACA 使用时间序列分解模型预测商品销量（一）

使用时间序列分解模型预测商品销量1.1实验目的1.2实验概述1.3 实验目标1.4 实验工具1.5 实验准备实验资源============== 这是一条分割线 ==============必看：想要直接开始操作点击这里发布本博客皆是为了做笔记，也分享经验。方便日后查看。无任何其他目的1.1实验目的使用时间预测分解模型预测商品销量1.2实验概述本实验对某零售商的一款产品的销量进行了预测及分析。选取线性回归模型，选取了该产品的促销幅度、促销手段对实际销量进行回归；另一部分为时间序列分解建模，对线性回

2020-07-09 08:59:45 1281 2

原创使用时间序列分解模型预测商品销量(手把手教你如何利用阿里云大数据开发套件进行商品销量的预测)

用时间预测分解模型预测商品销量1.1实验目的1.2实验概述1.3 实验目标1.4 实验工具1.5 实验准备实验资源============== 这是一条分割线 ==============必看：想要直接开始操作点击这里发布本博客皆是为了做笔记，也分享经验。方便日后查看。无任何其他目的1.1实验目的使用时间预测分解模型预测商品销量1.2实验概述本实验对某零售商的一款产品的销量进行了预测及分析。选取线性回归模型，选取了该产品的促销幅度、促销手段对实际销量进行回归；另一部分为时间序列分解建模，对线性回归

2020-07-08 23:50:14 2638

weixin_45903673的博客