自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(182)
  • 收藏
  • 关注

原创 Kettle安装及简单使用

kettle是一个ETL(Extract,Transform and Load抽取、转换、载入)工具,ETL工具在数据仓库项目使用非常频繁,kettle也可以应用在以下一些场景: 在不同应用或数据库之间整合数据 把数据库中的数据导出到文本文件 大批量数据装载入数据库 数据清洗 集成应用相关项目是个使用kettle使用非常简单,通过图形界面设计实现做什么业务,无需写代码去实现,...

2019-11-06 10:03:52 1459

原创 Flink SQL

Query使用TableEnvironment的sqlQuery()方法指定SQL查询。该方法以表的形式返回SQL查询的结果。表可以用于后续的SQL和表API查询,可以转换为DataSet或DataStream,也可以写入TableSink)。可以无缝地混合SQL和Table API查询,并对其进行整体优化,并将其转换为单个程序。为了访问SQL查询中的表,必须在TableEnvironment...

2019-11-02 10:34:48 1032

原创 Flink SQL客户端

Flink SQL CLI启动SQL客户端旨在提供一种简单的方式,无需一行Java或Scala代码,即可将表程序编写、调试和提交到Flink集群。SQL客户机CLI允许检索和可视化命令行上运行的分布式应用程序的实时结果。SQL客户机绑定在常规Flink发行版中,因此可以开箱即用。它只需要一个正在运行的Flink集群,其中可以执行表程序。环境准备可以自己安装flink环境,也可以通过dock...

2019-11-02 10:07:40 6130 3

原创 Docker-Compose安装使用

Docker-Compose简介安装使用Compose是定义和运行多容器Docker应用程序的工具,使用Compose,您可以使用YAML文件来配置应用程序的服务,然后,使用单个命令创建并启动配置中的所有服务。Dockerfile 可以让用户管理一个单独的应用容器。使用Docker Compose,不再需要使用shell脚本来启动容器。在配置文件中,所有的容器通过services来定义,然后使...

2019-11-01 15:55:08 567

原创 Flink 状态管理与容错机制

参考 Apache Flink 零基础入门系列文章。状态管理的基本概念什么是状态在批处理过程中,数据是划分为块分片去完成的,然后每一个Task去处理一个分片。当分片执行完成后,把输出聚合起来就是最终的结果。在这个过程当中,对于state的需求还是比较小的。在流计算过程中,对State有非常高的要求,因为在流系统中输入是一个无限制的流,会持续运行从不间断。在这个过程当中,就需要将状态数据很好...

2019-11-01 12:12:29 534

原创 Flink Table API示例

Source&Sink我们选取Bounded EventTime Tumble Window为例,编写一个完整的包括Source和Sink定义的Apache Flink Table API Job。假设有一张淘宝页面访问表(PageAccess_tab),有地域,用户ID和访问时间。我们需要按不同地域统计每2分钟的淘宝首页的访问量(PV)。具体数据如下:region userId ...

2019-10-31 16:27:23 1090 1

原创 Flink Table API

Flink API架构:Table API &SQL特点Table API和SQL都是Apache Flink中最高层的分析API,SQL所具备的特点Table API也都具有,如下:声明式 - 用户只关心做什么,不用关心怎么做;高性能 - 支持查询优化,可以获取最好的执行性能;流批统一 - 相同的统计逻辑,既可以流模式运行,也可以批模式运行;标准稳定 - 语义遵循SQL...

2019-10-31 15:19:25 1173

原创 Flink DataStream API——Transform

mapval streamMap = stream.map { x => x * 2 }flatMapval streamFlatMap = stream.flatMap{x => x.split(" ")}Filterval streamFilter = stream.filter{x => x == 1}KeyByDataStream → KeyedSt...

2019-10-30 15:03:16 395

原创 Flink DataStream API

分层Api分层架构分布式流处理的基本模型Flink DataStream程序结构//1.设置运行环境StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();//配置数据源,读取数据DataStream<String> text = env.read...

2019-10-30 14:48:40 308

原创 Flink Window & Time ——EventTime和watermark(二)

EventTime在Flink的流式处理中,绝大部分的业务都会使用eventTime,一般只在eventTime无法使用时,才会被迫使用ProcessingTime或者IngestionTime。如果要使用EventTime,那么需要引入EventTime的时间属性,引入方式如下所示:在 Flink 中我们可以通过下面的方式进行 Time 类型的设置 :env.setStreamTimeCh...

2019-10-30 11:02:04 376

原创 Flink Window & Time——(一)

Window & Time简介WindowFlink是一个天然支持无限流数据处理的分布式计算框架, 在 Flink 中 Window 可以将无限流切分成有限流,是处理有限流的核心组件,现在 Flink 中 Window 可以是时间驱动的(Time Window),也可以是数据驱动的(Count Window)。无限数据集是指一种不断增长的本质上无限的数据集,而window是一种切割...

2019-10-30 09:05:26 813

原创 Flink并行度

Flink Worker与Slotsworker每一个worker(TaskManager)是一个JVM进程,它可能会在独立的线程上执行一个或多个subtask。slots为了控制一个worker能接收多少个task,worker通过task slot来进行控制(一个worker至少有一个task slot)。·每个task slot表示TaskManager拥有资源的一个固定大小的子集...

2019-10-28 16:17:42 1476

原创 Flink运行架构

Flink运行架构1 任务提交流程(yarn模式)2 任务调度原理各角色作用:ClientJobManagerTaskManager1 任务提交流程(yarn模式)Flink任务提交后,Client向HDFS上传Flink的Jar包和配置,之后向Yarn ResourceManager提交任务,ResourceManager分配Container资源并通知对应的NodeManager启...

2019-10-28 14:13:49 214

原创 Flink客户端操作

参考学习阿里巴巴周凯波Flink客户端操作内容。概要Flink 提供了丰富的客户端操作来提交任务和与任务进行交互,包括 Flink 命令行,Scala Shell,SQL Client,Restful API 和 Web。Flink 首先提供的最重要的是命令行,其次是 SQL Client 用于提交 SQL 任务的运行,还有就是 Scala Shell 提交 Table API 的任务。同时,...

2019-10-28 09:05:14 1661

原创 Flink安装及运行worldcount

参考地址https://ci.apache.org/projects/flink/flink-docs-release-1.8/tutorials/local_setup.html启动截图./bin/start-cluster.sh访问,默认端口为8081运行官网worldcount示例xshell中新打开一个窗口,启动端口nc -l 9000提交Flink 程序:./...

2019-10-23 17:24:39 413

原创 Flink简介

1.Flink是什么?支持高吞吐、低延迟、高性能的分布式处理框架Apache Flink是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。Flink被设计在所有常见的集群环境中运行,以内存执行速度和任意规模来执行计算。2014年12月,Flink一跃成为Apache软件基金会的顶级项目。2.Flink的特点事件驱动型(Event-driven)事件驱动型应用是一类具...

2019-10-23 15:56:10 442

原创 Spark Streaming 和Kafka Stream 区别?

想了解SparkStreaming 和Kafka Stream的区别,首先我们需要先了解一下Spark Streaming和Kafka Stream.什么是Spark Streaming?Spark Streaming是核心Spark API的扩展,可让其用户执行实时数据流的流处理。它从Kafka,Flume,Kinesis或TCP套接字等来源获取数据。可以使用复杂的算法对这些数据进行进一步处...

2019-10-22 20:05:38 2526

原创 Zepplin安装使用

一 下载安装包http://zeppelin.apache.org/download.htmlzeppelin-0.8.1-bin-all.tgz下载第一个安装包二 上传并解压上传到Linuxtar -zvxf zeppelin-0.8.1-bin-all.tgz -C /root进入目录cd /root/zeppelin-0.8.1-bin-all/-------ok,安...

2019-08-12 13:34:45 959

原创 sqoop jdbc连接mysql时接多个参数报错 --username: 未找到命令解决

由于我需要设置tinyInt1isBit=false来解决tinyint(1)变成Boolean类型的问题,使用了如下代码:sqoop import-all-tables --connect jdbc:mysql://192.168.1.100:3306/behivour_log?tinyInt1isBit=false&amp;characterEncoding=utf8 --username...

2018-11-26 11:06:29 2297

原创 sqoop从mysql导入数据到hive时tinyint(1)格式自动变成Boolean解决方案

首先,来一段官网原文:27.2.5. MySQL: Import of TINYINT(1) from MySQL behaves strangelyProblem: Sqoop is treating TINYINT(1) columns as booleans, which is for example causing issues with HIVE import. This is be...

2018-11-26 10:42:29 2111 2

原创 RESTful的理解学习

什么是RESTful?来自百度百科的解释是:一种软件架构风格、设计风格,而不是标准,只是提供了一组设计原则和约束条件。它主要用于客户端和服务器交互类的软件。基于这个风格设计的软件可以更简洁,更有层次,更易于实现缓存等机制。REST(英文:Representational State Transfer,简称REST)描述了一个架构样式的网络系统,比如 web 应用程序。无论是对URL的处理...

2018-10-21 00:54:54 254

原创 es分页解决方案——(from+size)分页和深分页

from+size分页按照一般的查询流程来说,如果我想查询前10条数据:1 客户端请求发给某个节点2 节点转发给个个分片,查询每个分片上的前10条3 结果返回给节点,整合数据,提取前10条4 返回给请求客户端该分页方式可以通过from+size的方式来进行实现。from定义了目标数据的偏移值,size定义当前返回的事件数目。GET /fs/_search?pretty{ ...

2018-10-15 23:33:27 29437

原创 es索引库配置

索引库配置settings就是用来修改索引分片和副本数的;比如有的重要索引,副本数很少甚至没有副本,那么我们可以通过setting来添加副本数DELETE documentPUT document{ "mappings": { "article" : { "properties": { "title" : {"type": "text&q

2018-10-15 22:48:27 1262

原创 索引映射(mappings)管理及配置管理

lasticsearch中的文档等价于java中的对象,那么在java对象中有字段(比如string、int、long等),同理在elasticsearch索引中的具体字段也是有类型的。

2018-10-14 23:38:32 1792

原创 管理索引

curl是利用URL语法在命令行方式下工作的开源文件传输工具,使用curl可以简单实现常见的get/post请求。简单的认为是可以在命令行下面访问url的一个工具。在centos的默认库里面是有curl工具的,如果没有请yum安装即可。...

2018-10-14 23:37:24 245

原创 Kibana部署

下载资源下载地址:https://www.elastic.co/cn/products/logstash建议使用提供好的安装包,因为网速很慢。

2018-10-14 23:36:04 696

原创 elasticsearch-head组件安装(02)

Gruntfile.js在Gruntfile.js中添加一行代码vim /export/softwares/elasticsearch-head/Gruntfile.js在connect:{ server:{ options:{ 下添加:hostname: ‘192.168.52.100’,connect: { server: { ...

2018-10-14 22:47:14 264

原创 elasticsearch-head组件安装编译npm install时error code ELIFECYCLE

error log:15337 verbose pkgid [email protected] verbose cwd /export/softwares/elasticsearch-head15339 verbose Linux 2.6.32-696.el6.x86_6415340 verbose argv &amp;quot;/usr/local/node-v8.1.0/bin...

2018-10-14 22:20:28 2951 1

原创 Centos中git安装及Unable to find remote helper for 'https'解决

git安装输入git,如果显示如下,表名git没有安装。-bash: git: command not found直接下载安装gitwget https://www.kernel.org/pub/software/scm/git/git-2.9.5.tar.gz安装git 的依赖包yum -y install curl-devel expat-devel gettext-devel...

2018-10-14 21:51:15 8216

原创 elasticsearch-head组件安装(01)

nodejsnodejs简介由于elasticsearch-head组件是有JavaScript开发的,所以需要先安装配置JavaScript环境。Node.js是一个基于 Chrome V8 引擎的 JavaScript 运行环境。Node.js是一个Javascript运行环境(runtime environment),发布于2009年5月,由Ryan Dahl开发,实质是对Chrom...

2018-10-14 21:30:43 319

原创 Elasticsearch安装部署及报错解决

1 下载及安装创建用户准备三台设备,主机名分别设置为node01,node02,node03这里创建用户每台设备都需要执行。创建一个es用户(必须),并设置密码为es(随意),因为es不能用root用户启动同时准备文件目录useradd es -mpasswd es &amp;lt;input es&amp;gt;mkdir -p /export/servers/esmkdir -p /exp...

2018-10-14 18:54:53 1474

原创 ElasticSearch概述

什么是ElasticSearch?Elaticsearch,简称为es, 是一个开源的高扩展的分布式全文检索引擎。它可以近乎实时的存储、检索数据;本身扩展性很好,可以扩展到上百台服务器,处理PB级别的数据。es也使用Java开发并使用Lucene作为其核心来实现所有索引和搜索的功能,但是它的目的是通过简单的RESTful API来隐藏Lucene的复杂性,从而让全文搜索变得简单。Elast...

2018-10-14 13:49:24 308

原创 ELK概述

集中式日志系统日志,对于任何系统来说都是及其重要的组成部分。在计算机系统里面,更是如此。但是由于现在的计算机系统大多比较复杂,很多系统都不是在一个地方,甚至都是跨国界的;即使是在一个地方的系统,也有不同的来源,比如,操作系统,应用服务,业务逻辑等等。他们都在不停产生各种各样的日志数据。面对如此海量的数据,又是分布在各个不同地方,如果我们需要去查找一些重要的信息,传统的工具和方法已经显得非常笨拙...

2018-10-14 13:35:02 397

原创 hbase和hive整合实战

hbase表映射到hive表中① 在hbase中创建表:表名hbase_test, 有三个列族 f1、f2、f3

2018-10-13 23:58:11 554

原创 Hive 整合Hbase环境配置

Hive提供了与HBase的集成,使得能够在HBase表上使用HQL语句进行查询 插入操作以及进行Join和Union等复杂查询、同时也可以将hive表中的数据映射到Hbase中。1、应用场景ETL操作的数据存入HBaseHBase作为Hive的数据源构建低延时的数据仓库2、环境准备hive与hbase版本兼容性Hive版本 hive-1.2.1、hbase的版本hbase-1...

2018-10-13 23:56:53 1338

原创 Spark SQL整合hive

为什么要进行整合?由于hive原生是基于MapReduce的,导致其查询耗时较长。为了保留Hive的架构解决方案,并优化查询速度,采用SparkSql与hive整合(spark on hive),通过SparkSql读取hive中表的元数据,把HiveHQL底层采用MapReduce处理任务导致性能慢的特点,改为更加强大的Spark引擎来进行相应的计算处理。环境搭建准备1、搭建hadoop...

2018-10-13 21:33:17 3373 3

原创 MySQL(08)——MySQL事务管理

事务:一组sql语句(insert、update、delete),全部成功整体才算成功,一个失败整体也算失败。mysql 的事务默认自动打开,自动提交。 一条sql就是一个事务,所以不需要 事务开启、事务回滚、事务提交。开启事务: start transaction;执行sql语句群出现异常 事务回滚(撤销)事务结束 rollback;无异常 事务提交(生效) 事务结束commit;...

2018-10-12 23:57:32 297

原创 MySQL(07)——MySQL索引

一、什么是索引?为什么要建立索引?(该文为很久以前从网上摘抄到印象笔记中,那时看完忘了大半,只记得索引很有用。现在重新整理,重新学习一下。)  索引用于快速找出在某个列中有一特定值的行,不使用索引,MySQL必须从第一条记录开始读完整个表,直到找出相关的行,表越大,查询数据所花费的时间就越多,如果表中查询的列有一个索引,MySQL能够快速到达一个位置去搜索数据文件,而不必查看所有数据,那么将会...

2018-10-12 23:44:15 196

原创 MySQL(06)——SQL练习题目(部门员工表)

数据:把该员工表作为一个自关联表。-- 部门表create table dept( deptno int primary key auto_increment, -- 部门编号 dname varchar(14) , -- 部门名字 loc varchar(13) -- 地址) ;-- 员工表create table emp( empno int primary key...

2018-10-12 23:33:44 30386 3

原创 MySQL(05)——SQL语句之多表查询

一个项目中肯定会有多张数据表,而数据表之间会存在各种各样的关系。这时我们需要的数据,可能不会直接通过一张表全部获取到,这时就需要同时查询多张数据表,得到最后想要的数据。创建表以及准备数据:create table A( A_ID int primary key auto_increment, A_NAME varchar(20) not null);insert into A va...

2018-10-12 23:20:36 6926

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除