自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(42)
  • 收藏
  • 关注

原创 IDEA 中使用 .proto 生成 .java

pom.xml <properties> <grpc.version>1.6.1</grpc.version> <protobuf.version>2.5.0</protobuf.version> </properties> <dependencies> ...

2020-05-03 14:33:45 1542

原创 Linux 常用知识积累

Linux文章目录Linux安装设置vim 编辑器网络配置相关命令克隆虚拟机关机重启命令找回 root 密码帮助指令文件目录类命令时间类命令搜索查找类用户管理、组管理命令用户管理用户组管理权限chmod 改变权限chown 改变所有者chgrp 改变所属组为普通用户服务 root 权限压缩和解压磁盘分区类进程线程类corond 系统定时任务添加硬盘安装软件RPMYUM安装设置安装 vmw...

2020-04-06 23:11:25 275

原创 Hive 常见报错

文章目录1. insert ORC表时,序列化出错。1. insert ORC表时,序列化出错。报错日志:Caused by: java.lang.ClassCastException: org.apache.hadoop.io.Text cannot be cast to org.apache.hadoop.hive.ql.io.orc.OrcSerde$OrcSerdeRow a...

2020-02-26 11:55:24 917

原创 HQL 基础函数使用(转载)

https://baijiahao.baidu.com/s?id=1613382585734336695&wfr=spider&for=pchttps://baijiahao.baidu.com/s?id=1613475062429819493&wfr=spider&for=pchttps://baijiahao.baidu.com/s?id=161363057...

2020-02-23 16:44:16 130

原创 山行 唐·杜牧

山行唐·杜牧远上寒山石径斜,白云深处有人家。停车坐爱枫林晚,霜叶红于二月花。译:山石小路远上山巅弯弯又斜斜,白云生发之处隐隐约约有几户人家。只因爱那枫林晚景我把马车停下,霜染的枫叶胜过鲜艳二月的花。注:1.山行:在山中行走。2.寒山:指深秋时候的山。3.径:小路。4.白云生处:白云升腾、缭绕和飘浮种种动态,也说明山很高。5.斜:此字读xiá,为伸向的意思。6.坐:因为。来...

2020-02-23 16:38:46 283

原创 Hive 自定函数和优化策略

文章目录七、函数7.1 系统内置函数7.2 自定义函数八、压缩和存储8.1 开启 Map 输出阶段压缩8.2 开启 Reduce 输出阶段压缩8.3 文件存储格式8.4 存储和压缩结合九、调优9.1 Fetch 抓取9.2 本地模式9.3 表的优化9.4 数据倾斜9.5 并行执行9.6 严格模式9.7 JVM 重用9.8 推测执行9.9 压缩9.10 执行计划(Explain)七、函数7.1 ...

2020-02-23 16:32:34 275

原创 Hive 基本操作

四、DDL 数据定义4.1 创建数据库​ 创建一个数据库,数据库在 HDFS 上的默认存储路径是 /user/hive/warehouse/*.db。​ 避免要创建的数据库已经存在错误,增加 if not exists 判断。(标准写法)create database if not exists db_hive;​ 创建一个数据库,指定数据库在 HDFS 上存放的位置,可以加上 loc...

2020-02-23 16:28:37 254

原创 Hive 安装配置和数据类型

文章目录一、Hive 安装1.1 Hive 安装部署1.2 将本地文件导入 Hive1.3 MySql 安装1.4 Hive 元数据配置到 MySql1.5 HiveJDBC 访问1.6 Hive 常用交互命令1.7 Hive 常见属性配置二、Hive 数据类型2.1 基本数据类型2.2 集合数据类型2.3 类型转化一、Hive 安装1.1 Hive 安装部署Hive 安装及配置把 a...

2020-02-23 16:22:32 175

原创 Flink Connectors 介绍与 Kafka Connector

文章目录1. Streaming Connectors预定义的 source 和 sinkBoundled connectorsApache Bahir 中的连接器异步 IO2. Flink Kafka Connector2.1 Flink Kafka Consumer1)反序列化2)消费起始位置设置3)topic 和 partition 动态发现4)commit offset 方式5)Times...

2020-02-14 15:00:28 996

原创 Flink Metrics 原理与使用

文章目录1. 什么是 Metrics?1.1 Metric Type1.2 Metric Group2. 怎么用 Metrics?2.1 System Metrics2.2 User-defined Metrics2.3 User-defined Metrics Example2.4 获取 Metrics2.5 Metric Reporter3. 利用 Metrics 做监控3.1 自动化运维3....

2020-02-13 21:30:23 1568

原创 少有人走的路 - 读书笔记

文章目录一、自律 —— 解决人生问题的主要工具1. 不自律的表现2. 自律四原则二、爱 —— 不断拓展自我界限、完善自我意愿1. 爱是什么?2. 坠入情网与自我界限3. 这些都不是爱4. 爱的表现三、信仰与恩典简述作者:M·斯科特·派克(M.Scott Peck)毕业于哈佛大学,获得硕士和博士学位。长期从事心理治疗实践,成绩卓越,被誉为“我们这个时代杰出的心理医生”。一、自律 —— 解决人生...

2020-02-13 19:47:10 249

原创 Flink Time 深度解析

文章目录1. Flink 的时间语义2. Timestamp 和 Watermark2.1 Timestamp 分配和 Watermark 生成2.2 Watermark 的传播2.3 ProcessFuction2.4 Watermark 的处理逻辑3. Table API 中的时间3.1 Table 中指定时间列3.2 时间列和 Table 操作4. 对于时间的思考4.1 时间是数据 or 元...

2020-02-13 17:23:33 590

原创 酬乐天扬州初逢席上见赠 唐 · 刘禹锡

酬乐天扬州初逢席上见赠唐 · 刘禹锡巴山楚水凄凉地,二十三年弃置身。杯酒空吟闻笛扶,到乡翻似烂柯人。沉舟侧畔千帆过,病树前头万木春。今日听君歌一曲,暂凭杯酒长精神。译:巴山楚水凄凉之地,二十三年默默谪居。只能吹笛赋诗,空自惆怅不已。回来物是人非,我像烂柯之人,沉舟侧畔,千帆竞发;病树前头,万木逢春。今日听你高歌一曲,暂借杯酒振作精神。注:(1)酬答:这里是指以诗相答的意思。用诗歌...

2020-02-13 15:47:07 528

原创 Flink 数据类型和序列化

文章目录1. Flink 的序列化框架1.1 Flink 的数据类型1.2 TypeInfomation1.3 Flink 的序列化过程2. 序列化的最佳实践2.1 常见的使用场景2.2 实践 - 类型声明2.3 实践 - 注册子类类型2.4 实践 - Kryo 序列化3. Flink 通讯层的序列化1. Flink 的序列化框架1.1 Flink 的数据类型Flink 支持任意的 Ja...

2020-02-12 23:13:38 731

原创 Flink Runtime 核心机制

文章目录整体架构整体架构Flink 的整体架构如下。Flink 可以通过单进程多线程的方式直接运行,从而提供调试的能力。也可以运行在 Yarn 或者 K8S 这种资源管理系统上面,也可以在像 EC2 这种云环境中执行。针对不同的执行环境,Flink 提供了一套统一的分布式作业执行引擎 Flink Runtime 。Flink 在 Runtime 层之上提供了 DataStream 和 D...

2020-02-11 20:57:00 255

原创 Flink DataStream API 再理解

文章目录DataStream API 概览示例DataStream API 概览DataStream 通过 split 给流中的数据打上标签成为 SplitStream,在使用 select 获取指定标签的流,又得到一个 DataStream。DataStream 通过 Connect 操作,在调用 streamA.connect(streamB)后可以得到一个专门的 Connecte...

2020-02-11 18:38:49 580

原创 Flink SQL 之 Aggregation&UDF

文章目录Flink SQL IntroductionAggregationWindow AggregationGroup Aggregationwindow 聚合与非 window 聚合的区别自定义函数自定义标量函数 UDF自定义聚合函数 UDAF自定义表值函数 UDTFFlink SQL Introduction声明式 API,也是 Flink 最高层的 API,易于使用。自动优化,屏蔽 ...

2020-02-10 17:19:05 1026

原创 Flink Table API 编程

一、什么是Tabel API1.1 Flink API 总览1.2 Table API 的特性以 wordcount 为例,Table API 与 SQL 的对比:高性能:groupby 的聚合只计算一次,后面如果多次select恢复用前面聚合的结果的。流批统一:Table API 的对于流计算和批计算的API只有统一的一套,方便开发。如何理解,Tabel API 使得多声明的数...

2020-02-09 17:10:57 223

转载 正则表达式

时间原因,先转载,而后在整理https://www.runoob.com/regexp/regexp-syntax.html

2020-01-21 11:28:23 164

原创 XML 踩坑

问题一:XML 中的转义字符不合法的XML字符必须被替换为相应的实体。如果在XML文档中使用类似"<" 的字符, 那么解析器将会出现错误,因为解析器会认为这是一个新元素的开始。所以不应该象下面那样书写代码:if salary < 1000 then为了避免出现这种情况,必须将字符"<" 转换成实体,象下面这样:if salar &lt; 1000 then下面...

2020-01-17 11:54:49 139 1

转载 Shell 命令之 tr 的用法

Shell 的 tr 命令tr,translate的简写,即翻译的意思。主要用来从标准输入中通过替换或删除操作进行字符转换。只接受标准输入,不接受文件参数。命令语法: tr [–c/d/s/t] [SET1] [SET2]参数解释:复制代码SET1/SET2: 字符集-c: complement,用SET2替换SET1中没有包含的字符-d: delete,删除SET1中所有的字符...

2020-01-15 10:34:09 429

原创 Flink 和 Spark Streaming 的对比

Spark Streaming数据模型Dstream,其实是一个RDD集合,批处理。运行时,根据DAG划分Stage,生成taskSet,根据资源调度task。角色Master和Worker。Driver 负责调度Task,Executor负责执行 Task。支持处理时间,Structrued Streaming 支持处理事件时间,有watermark,支持处理乱序时间状态的保存使用c...

2020-01-12 14:33:56 395

原创 Flink 笔录

Flink一、Flink 简介​ Apache Flink是一个 框架 和 分布式处理引擎,用于对 无界 和 有界 数据流进行 有状态计算。1.1 Flink 的特点事件驱动型(event-driven)事件驱动型应用是一类具有状态的应用,它从一个或多个事件流提取数据,并根据到来的事件触发计算、状态更新或其他外部动作。比较典型的就是以 kafka 为代表的消息队列几乎都是事件驱动型应...

2020-01-12 14:30:35 604

原创 Spark 性能优化和故障处理

Spark 性能优化和故障处理一、Spark 性能优化1.1 常规性能优化生产环境 Spark submit 脚本/usr/local/spark/bin/spark-submit \--class com.atguigu.spark.WordCount \--num-executors 80 \--driver-memory 6g \--executor-memory 6g \...

2020-01-12 14:14:39 433

原创 Spark Kernel

Spark Kernel一、Spark 内核概述1.1 核心组件Cluster Manager(Master)​ 主要负责对整个集群资源的分配与管理,在 Yarn 部署模式下为 ResourceManager,在 Mesos 部署模式下为 Mesos Master,在 Standalone 部署模式下为 Master。Cluster Manager 分配的资源属于一级分配,它将各个 W...

2020-01-12 14:12:39 289

原创 Spark 笔录

Spark一、Spark 概述Spark(http://spark.apache.org/history.html) 是一个快速(基于内存), 通用, 可扩展的集群 计算引擎Spark 特点:快速(Spark 基于内存运算,MapReduce 的100 倍)​ 易用(支持 Scala、Java、Python、R 和 SQL脚本,Scala 和 Python 的 Shell 交互,8...

2020-01-12 14:04:50 666

原创 Sqoop 笔录

Sqoop一、Sqoop 原理将导入或导出命令翻译成 mapreduce 程序来实现。在翻译出的 mapreduce 中主要是对 inputformat 和 outputformat 进行定制。二、Sqoop 安装安装 Sqoop 的前提是已经具备 Java 和 Hadoop 的环境。3.1 下载并解压下载地址:http://mirrors.hust.edu.cn/apache/...

2020-01-12 13:50:11 79

原创 HBase 笔录

HBase一、HBase 简介1.1 HBase 定义HBase 是一种分布式、可扩展、支持海量数据存储的 NoSQL 数据库。1.2 HBase 数据模型HBase 的底层物理存储结构为 K-V 键值对,但是这个 Key 是多维的,HBase 更像是一个 multi-dimensional map。① 逻辑结构② 物理存储结构③ 数据模型1)Name Space:命名空间,...

2020-01-12 13:48:52 287

原创 Kafka 笔录

Kafka一、Kafka 概述1.1 消息队列​ 1)点对点模式:一对一,消费者主动拉取数据,消息收到后回复收到确认,队列中消息被清除。​ 2)订阅/发布模式:一对多,数据生产后,推送给所有订阅者,消息会在指定时间后自动清除。​ Kafka 是基于发布订阅模式的。1.2 消息队列的作用​ 1)解耦:允许你独立的扩展或修改两边的处理过程,只要确保它们遵守同样的接口约束。​ 2...

2020-01-12 13:35:19 171

原创 Flume

Flume一、Flume 概述1.1 Flume 定义​ Flume 是 Cloudera 提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume 基于流式架构,灵活简单。​ Flume 最主要的作用就是,实时读取服务器本地磁盘的数据,将数据写入到 HDFS。1.2 Flume 基础架构AgentAgent 是一个 JVM 进程,它以事件的形式将数...

2020-01-12 13:29:16 467

原创 Shell 笔录

Shell一、概述​ Shell 是一个 命令行解释器,它接收应用程序/用户名,然后调用操作系统。​ Shell 是一个功能相当强大的编程语言,易编写,易调试,灵活性强。二、Shell 解析器​ Linux 提供的 Shell 解析器有 6 种,其中 sh 和 bash 最为常用。[atguigu@hadoop101 ~]$ cat /etc/shells /bin/sh/b...

2020-01-12 13:03:09 202

原创 JUC 多线程

JUC​ 在Java 5.0 提供了 java.util.concurrent (简称 JUC )包,在此包中增加了在并发编程中很常用的实用工具类,用于定义类似于线程的自定义子系统,包括线程池、异步 IO 和轻量级任务框架。提供可调的、灵活的线程池。还提供了设计用于多线程上下文中的 Collection 实现等。一、多线程回顾线程和进程​ 程序是完成特定任务、用某种语言编写的一段代码,...

2020-01-12 13:01:50 239

原创 Git 常用命令

Git 常用命令提交命令作用git status查看本地库的状态git add [file]将文件添加到暂存区git commit –m “xxx” [file]将暂存区的文件提交到本地库,-m 后面为修改的说明版本切换命令作用git log以完整格式查看本地库状态git log --pretty=oneline以单行...

2020-01-12 12:57:28 66

原创 Redis

Redis一、Redis 安装​ ① 将 Redis 的 tar 包上传到 /opt/software 目录下,并解压到 /opt/module 下​ ② 安装 gcc 环境 redis是C语言编写的!要有gcc-c++ 环境​ yum install –y gcc-c++​ 查看安装是否成功:rpm –qa|grep gcc​ ③ 查看 make 是否安...

2020-01-12 12:54:51 74

原创 Linux 笔录

Linux安装设置安装 vmware tools ,帮助我们使用拖拽的方式从 windows 桌面和 Linux 虚拟机传输文件,并共享剪切板。设置网络连接:​ ① 仅主机模式: 虚拟机不能和外网通信。​ ② 桥接模式:​ 虚拟机和物理机都分配一个可以上网的ip,各自使用各自的网卡联网,同一个网段的机器可以相互连通。​ ③ NAT模式:(推荐使用)​ 虚拟机...

2020-01-12 12:49:56 188

原创 JavaWeb 总结

一、JavaWeb 的技术体系Javaweb负责使用Java语言,开发服务器端程序的技术。Javaweb开发的程序,一般都采用B/S架构。浏览器端:​ html: 负责构建静态页面。特点由标签组成,需要什么功能就使用什么标签。​ css : 负责页面样式。​ javascript: 负责将静态页面变为动态页面,负责和用户进行交互。​ jquery: j...

2020-01-12 12:43:14 623

转载 学习笔记:FFA 2019 阿里 基于 Apache Flink AI 生态系统工程 | 陈戊超&高赟

视频链接:https://www.bilibili.com/video/av79120761?p=4目录一、Flink 构建 AI 系统的背景二、Flink ML Pipeline 和算法库 Alink三、分析和 AI 的统一的工作流(AI Flow)四、 Flink 在流运行模式下迭代的架构设计...

2019-12-16 23:46:25 317

原创 Machine Learning 机器学习之路

一、TensorFlow二、Pytorch

2019-12-16 23:23:32 61

转载 学习笔记:FFA 2019 阿里 基于 Apache Flink 的机器学习算法平台实践与开源 | 杨旭

视频链接:https://www.bilibili.com/video/av79120761?p=3一、目录二、 Alink 简介与开源Alink 开源地址:https://github.com/alibaba/Alink三、Alink ML 开源算法四、Alink 介绍与性能优化(略)五、Alink ML 实例文本分析点击率预测...

2019-12-16 23:10:34 438

转载 学习笔记:FFA 2019 携程 基于 Flink 的实时智能告警平台的实践 | 潘国庆

视频链接:https://www.bilibili.com/video/av79120761?p=2一、携程 Prophet 异常检测解决方案二、深度学习算法选择RNN 和 LSTM 模型比较准确,DNN 模型比较通用。三、离线模型训练四、利用已有模型,进行实时异常检测五、异常分析携程的节假日场景,业务数据分析和解决...

2019-12-16 22:39:38 568

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除