Fenggms-CSDN博客

原创 Kettle安装及简单使用

kettle是一个ETL（Extract,Transform and Load抽取、转换、载入）工具，ETL工具在数据仓库项目使用非常频繁，kettle也可以应用在以下一些场景： 在不同应用或数据库之间整合数据 把数据库中的数据导出到文本文件 大批量数据装载入数据库 数据清洗 集成应用相关项目是个使用kettle使用非常简单，通过图形界面设计实现做什么业务，无需写代码去实现，...

2019-11-06 10:03:52 1459

Query使用TableEnvironment的sqlQuery()方法指定SQL查询。该方法以表的形式返回SQL查询的结果。表可以用于后续的SQL和表API查询，可以转换为DataSet或DataStream，也可以写入TableSink)。可以无缝地混合SQL和Table API查询，并对其进行整体优化，并将其转换为单个程序。为了访问SQL查询中的表，必须在TableEnvironment...

2019-11-02 10:34:48 1032

原创 Flink SQL客户端

Flink SQL CLI启动SQL客户端旨在提供一种简单的方式，无需一行Java或Scala代码，即可将表程序编写、调试和提交到Flink集群。SQL客户机CLI允许检索和可视化命令行上运行的分布式应用程序的实时结果。SQL客户机绑定在常规Flink发行版中，因此可以开箱即用。它只需要一个正在运行的Flink集群，其中可以执行表程序。环境准备可以自己安装flink环境，也可以通过dock...

2019-11-02 10:07:40 6130 3

原创 Docker-Compose安装使用

Docker-Compose简介安装使用Compose是定义和运行多容器Docker应用程序的工具，使用Compose，您可以使用YAML文件来配置应用程序的服务，然后，使用单个命令创建并启动配置中的所有服务。Dockerfile 可以让用户管理一个单独的应用容器。使用Docker Compose，不再需要使用shell脚本来启动容器。在配置文件中，所有的容器通过services来定义，然后使...

2019-11-01 15:55:08 567

原创 Flink 状态管理与容错机制

参考 Apache Flink 零基础入门系列文章。状态管理的基本概念什么是状态在批处理过程中，数据是划分为块分片去完成的，然后每一个Task去处理一个分片。当分片执行完成后，把输出聚合起来就是最终的结果。在这个过程当中，对于state的需求还是比较小的。在流计算过程中，对State有非常高的要求，因为在流系统中输入是一个无限制的流，会持续运行从不间断。在这个过程当中，就需要将状态数据很好...

2019-11-01 12:12:29 534

原创 Flink Table API示例

Source&Sink我们选取Bounded EventTime Tumble Window为例，编写一个完整的包括Source和Sink定义的Apache Flink Table API Job。假设有一张淘宝页面访问表(PageAccess_tab)，有地域，用户ID和访问时间。我们需要按不同地域统计每2分钟的淘宝首页的访问量(PV)。具体数据如下：region userId ...

2019-10-31 16:27:23 1090 1

原创 Flink Table API

Flink API架构：Table API &SQL特点Table API和SQL都是Apache Flink中最高层的分析API，SQL所具备的特点Table API也都具有，如下：声明式 - 用户只关心做什么，不用关心怎么做；高性能 - 支持查询优化，可以获取最好的执行性能；流批统一 - 相同的统计逻辑，既可以流模式运行，也可以批模式运行；标准稳定 - 语义遵循SQL...

2019-10-31 15:19:25 1173

原创 Flink DataStream API——Transform

mapval streamMap = stream.map { x => x * 2 }flatMapval streamFlatMap = stream.flatMap{x => x.split(" ")}Filterval streamFilter = stream.filter{x => x == 1}KeyByDataStream → KeyedSt...

2019-10-30 15:03:16 395

原创 Flink DataStream API

分层Api分层架构分布式流处理的基本模型Flink DataStream程序结构//1.设置运行环境StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();//配置数据源，读取数据DataStream<String> text = env.read...

2019-10-30 14:48:40 308

原创 Flink Window & Time ——EventTime和watermark（二）

EventTime在Flink的流式处理中，绝大部分的业务都会使用eventTime，一般只在eventTime无法使用时，才会被迫使用ProcessingTime或者IngestionTime。如果要使用EventTime，那么需要引入EventTime的时间属性，引入方式如下所示：在 Flink 中我们可以通过下面的方式进行 Time 类型的设置：env.setStreamTimeCh...

2019-10-30 11:02:04 376

原创 Flink Window & Time——（一）

Window & Time简介WindowFlink是一个天然支持无限流数据处理的分布式计算框架，在 Flink 中 Window 可以将无限流切分成有限流，是处理有限流的核心组件，现在 Flink 中 Window 可以是时间驱动的（Time Window），也可以是数据驱动的（Count Window）。无限数据集是指一种不断增长的本质上无限的数据集，而window是一种切割...

2019-10-30 09:05:26 813

原创 Flink并行度

Flink Worker与Slotsworker每一个worker(TaskManager)是一个JVM进程，它可能会在独立的线程上执行一个或多个subtask。slots为了控制一个worker能接收多少个task，worker通过task slot来进行控制（一个worker至少有一个task slot）。·每个task slot表示TaskManager拥有资源的一个固定大小的子集...

2019-10-28 16:17:42 1476

原创 Flink运行架构

Flink运行架构1 任务提交流程（yarn模式）2 任务调度原理各角色作用：ClientJobManagerTaskManager1 任务提交流程（yarn模式）Flink任务提交后，Client向HDFS上传Flink的Jar包和配置，之后向Yarn ResourceManager提交任务，ResourceManager分配Container资源并通知对应的NodeManager启...

2019-10-28 14:13:49 214

原创 Flink客户端操作

参考学习阿里巴巴周凯波Flink客户端操作内容。概要Flink 提供了丰富的客户端操作来提交任务和与任务进行交互，包括 Flink 命令行，Scala Shell，SQL Client，Restful API 和 Web。Flink 首先提供的最重要的是命令行，其次是 SQL Client 用于提交 SQL 任务的运行，还有就是 Scala Shell 提交 Table API 的任务。同时，...

2019-10-28 09:05:14 1661

原创 Flink安装及运行worldcount

参考地址https://ci.apache.org/projects/flink/flink-docs-release-1.8/tutorials/local_setup.html启动截图./bin/start-cluster.sh访问，默认端口为8081运行官网worldcount示例xshell中新打开一个窗口，启动端口nc -l 9000提交Flink 程序：./...

2019-10-23 17:24:39 413

原创 Flink简介

1.Flink是什么？支持高吞吐、低延迟、高性能的分布式处理框架Apache Flink是一个框架和分布式处理引擎，用于对无界和有界数据流进行有状态计算。Flink被设计在所有常见的集群环境中运行，以内存执行速度和任意规模来执行计算。2014年12月，Flink一跃成为Apache软件基金会的顶级项目。2.Flink的特点事件驱动型(Event-driven)事件驱动型应用是一类具...

2019-10-23 15:56:10 442

原创 Spark Streaming 和Kafka Stream 区别？

想了解SparkStreaming 和Kafka Stream的区别，首先我们需要先了解一下Spark Streaming和Kafka Stream.什么是Spark Streaming？Spark Streaming是核心Spark API的扩展，可让其用户执行实时数据流的流处理。它从Kafka，Flume，Kinesis或TCP套接字等来源获取数据。可以使用复杂的算法对这些数据进行进一步处...

2019-10-22 20:05:38 2526

原创 Zepplin安装使用

一下载安装包http://zeppelin.apache.org/download.htmlzeppelin-0.8.1-bin-all.tgz下载第一个安装包二上传并解压上传到Linuxtar -zvxf zeppelin-0.8.1-bin-all.tgz -C /root进入目录cd /root/zeppelin-0.8.1-bin-all/-------ok,安...

2019-08-12 13:34:45 959

原创 sqoop jdbc连接mysql时接多个参数报错 --username: 未找到命令解决

由于我需要设置tinyInt1isBit=false来解决tinyint(1)变成Boolean类型的问题，使用了如下代码：sqoop import-all-tables --connect jdbc:mysql://192.168.1.100:3306/behivour_log?tinyInt1isBit=false&characterEncoding=utf8 --username...

2018-11-26 11:06:29 2297

原创 sqoop从mysql导入数据到hive时tinyint(1)格式自动变成Boolean解决方案

首先，来一段官网原文：27.2.5. MySQL: Import of TINYINT(1) from MySQL behaves strangelyProblem: Sqoop is treating TINYINT(1) columns as booleans, which is for example causing issues with HIVE import. This is be...

2018-11-26 10:42:29 2111 2

原创 RESTful的理解学习

什么是RESTful?来自百度百科的解释是：一种软件架构风格、设计风格，而不是标准，只是提供了一组设计原则和约束条件。它主要用于客户端和服务器交互类的软件。基于这个风格设计的软件可以更简洁，更有层次，更易于实现缓存等机制。REST（英文：Representational State Transfer，简称REST）描述了一个架构样式的网络系统，比如 web 应用程序。无论是对URL的处理...

2018-10-21 00:54:54 254

原创 es分页解决方案——（from+size）分页和深分页

from+size分页按照一般的查询流程来说，如果我想查询前10条数据：1 客户端请求发给某个节点2 节点转发给个个分片，查询每个分片上的前10条3 结果返回给节点，整合数据，提取前10条4 返回给请求客户端该分页方式可以通过from+size的方式来进行实现。from定义了目标数据的偏移值，size定义当前返回的事件数目。GET /fs/_search?pretty{ ...

2018-10-15 23:33:27 29437

原创 es索引库配置

索引库配置settings就是用来修改索引分片和副本数的；比如有的重要索引，副本数很少甚至没有副本，那么我们可以通过setting来添加副本数DELETE documentPUT document{ "mappings": { "article" : { "properties": { "title" : {"type": "text&q

2018-10-15 22:48:27 1262

原创索引映射（mappings）管理及配置管理

lasticsearch中的文档等价于java中的对象，那么在java对象中有字段（比如string、int、long等），同理在elasticsearch索引中的具体字段也是有类型的。

2018-10-14 23:38:32 1792

原创管理索引

curl是利用URL语法在命令行方式下工作的开源文件传输工具，使用curl可以简单实现常见的get/post请求。简单的认为是可以在命令行下面访问url的一个工具。在centos的默认库里面是有curl工具的，如果没有请yum安装即可。...

2018-10-14 23:37:24 245

原创 Kibana部署

下载资源下载地址：https://www.elastic.co/cn/products/logstash建议使用提供好的安装包，因为网速很慢。

2018-10-14 23:36:04 696

原创 elasticsearch-head组件安装（02）

Gruntfile.js在Gruntfile.js中添加一行代码vim /export/softwares/elasticsearch-head/Gruntfile.js在connect：{ server:{ options:{ 下添加：hostname: ‘192.168.52.100’,connect: { server: { ...

2018-10-14 22:47:14 264

原创 elasticsearch-head组件安装编译npm install时error code ELIFECYCLE

error log:15337 verbose pkgid [email protected] verbose cwd /export/softwares/elasticsearch-head15339 verbose Linux 2.6.32-696.el6.x86_6415340 verbose argv &quot;/usr/local/node-v8.1.0/bin...

2018-10-14 22:20:28 2951 1

原创 Centos中git安装及Unable to find remote helper for 'https'解决

git安装输入git,如果显示如下，表名git没有安装。-bash: git: command not found直接下载安装gitwget https://www.kernel.org/pub/software/scm/git/git-2.9.5.tar.gz安装git 的依赖包yum -y install curl-devel expat-devel gettext-devel...

2018-10-14 21:51:15 8216

原创 elasticsearch-head组件安装（01）

nodejsnodejs简介由于elasticsearch-head组件是有JavaScript开发的，所以需要先安装配置JavaScript环境。Node.js是一个基于 Chrome V8 引擎的 JavaScript 运行环境。Node.js是一个Javascript运行环境(runtime environment)，发布于2009年5月，由Ryan Dahl开发，实质是对Chrom...

2018-10-14 21:30:43 319

原创 Elasticsearch安装部署及报错解决

1 下载及安装创建用户准备三台设备，主机名分别设置为node01,node02,node03这里创建用户每台设备都需要执行。创建一个es用户（必须），并设置密码为es(随意），因为es不能用root用户启动同时准备文件目录useradd es -mpasswd es &lt;input es&gt;mkdir -p /export/servers/esmkdir -p /exp...

2018-10-14 18:54:53 1474

原创 ElasticSearch概述

什么是ElasticSearch？Elaticsearch，简称为es，是一个开源的高扩展的分布式全文检索引擎。它可以近乎实时的存储、检索数据；本身扩展性很好，可以扩展到上百台服务器，处理PB级别的数据。es也使用Java开发并使用Lucene作为其核心来实现所有索引和搜索的功能，但是它的目的是通过简单的RESTful API来隐藏Lucene的复杂性，从而让全文搜索变得简单。Elast...

2018-10-14 13:49:24 308

原创 ELK概述

集中式日志系统日志，对于任何系统来说都是及其重要的组成部分。在计算机系统里面，更是如此。但是由于现在的计算机系统大多比较复杂，很多系统都不是在一个地方，甚至都是跨国界的；即使是在一个地方的系统，也有不同的来源，比如，操作系统，应用服务，业务逻辑等等。他们都在不停产生各种各样的日志数据。面对如此海量的数据，又是分布在各个不同地方，如果我们需要去查找一些重要的信息，传统的工具和方法已经显得非常笨拙...

2018-10-14 13:35:02 397

原创 hbase和hive整合实战

hbase表映射到hive表中①　在hbase中创建表：表名hbase_test, 有三个列族 f1、f2、f3

2018-10-13 23:58:11 554

原创 Hive 整合Hbase环境配置

Hive提供了与HBase的集成，使得能够在HBase表上使用HQL语句进行查询插入操作以及进行Join和Union等复杂查询、同时也可以将hive表中的数据映射到Hbase中。1、应用场景ETL操作的数据存入HBaseHBase作为Hive的数据源构建低延时的数据仓库2、环境准备hive与hbase版本兼容性Hive版本 hive-1.2.1、hbase的版本hbase-1...

2018-10-13 23:56:53 1338

原创 Spark SQL整合hive

为什么要进行整合？由于hive原生是基于MapReduce的，导致其查询耗时较长。为了保留Hive的架构解决方案，并优化查询速度，采用SparkSql与hive整合(spark on hive)，通过SparkSql读取hive中表的元数据，把HiveHQL底层采用MapReduce处理任务导致性能慢的特点，改为更加强大的Spark引擎来进行相应的计算处理。环境搭建准备1、搭建hadoop...

2018-10-13 21:33:17 3373 3

原创 MySQL（08）——MySQL事务管理

事务：一组sql语句（insert、update、delete），全部成功整体才算成功，一个失败整体也算失败。mysql 的事务默认自动打开，自动提交。一条sql就是一个事务，所以不需要事务开启、事务回滚、事务提交。开启事务： start transaction;执行sql语句群出现异常事务回滚（撤销）事务结束 rollback;无异常事务提交（生效）事务结束commit;...

2018-10-12 23:57:32 297

原创 MySQL（07）——MySQL索引

一、什么是索引？为什么要建立索引？（该文为很久以前从网上摘抄到印象笔记中，那时看完忘了大半，只记得索引很有用。现在重新整理，重新学习一下。）　　索引用于快速找出在某个列中有一特定值的行，不使用索引，MySQL必须从第一条记录开始读完整个表，直到找出相关的行，表越大，查询数据所花费的时间就越多，如果表中查询的列有一个索引，MySQL能够快速到达一个位置去搜索数据文件，而不必查看所有数据，那么将会...

2018-10-12 23:44:15 196

原创 MySQL（06）——SQL练习题目（部门员工表）

数据：把该员工表作为一个自关联表。-- 部门表create table dept( deptno int primary key auto_increment, -- 部门编号 dname varchar(14) , -- 部门名字 loc varchar(13) -- 地址) ;-- 员工表create table emp( empno int primary key...

2018-10-12 23:33:44 30386 3

原创 MySQL（05）——SQL语句之多表查询

一个项目中肯定会有多张数据表，而数据表之间会存在各种各样的关系。这时我们需要的数据，可能不会直接通过一张表全部获取到，这时就需要同时查询多张数据表，得到最后想要的数据。创建表以及准备数据：create table A( A_ID int primary key auto_increment, A_NAME varchar(20) not null);insert into A va...

2018-10-12 23:20:36 6926

空空如也

空空如也