自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(187)
  • 资源 (1)
  • 收藏
  • 关注

转载 XML属性列表

XML属性列表 <?xml version="1.0" encoding="UTF-8"?><Resources> <Include > <Attribute name="source" default="" type="STRING" comment="XML布局文件"/> <Attribute name="count" default="" type="INT" comment="嵌入的次数"/> &l...

2022-03-28 14:56:53 1793

转载 Git 使用

Git 一、Git基础 1、Git介绍 Git是目前世界上最先进的分布式版本控制系统。 2、Git与Github 2.1、两者区别 Git是一个分布式版本控制系统,简单的说其就是一个软件,用于记录一个或若干文件内容变化,以便将来查阅特定版本修订情况的软件。...

2022-03-05 14:22:35 885

原创 学习笔记Flink(八)—— 基于Flink 在线交易反欺诈检测

一、背景介绍信用卡欺诈信用卡欺诈是指故意使用伪造、作废的信用卡,冒用他人的信用卡骗取财物,或用本人信用卡进行恶意透支的行为。在当今数字时代,信用卡欺诈行为越来越被重视。罪犯可以通过诈骗或者入侵安全级别较低系统来盗窃信用卡卡号。 用盗得的信用卡进行很小额度的消费进行测试。 如果测试消费成功,那么他们就会用这个信用卡进行大笔消费。 信用卡欺诈行为 交易3和交易4应该被标记为欺诈行为,因为交易3是一个100¥的小额交易,而紧随着的交易4是一个10000¥的大额交易。另外,交易5、6和交易7就不属于

2021-10-28 01:24:33 2600

原创 学习笔记Flink(七)—— Flink Kafka插件

添加依赖& API在pom.xml添加:<dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-connector-kafka_2.11</artifactId> <version>1.10.1</version></dependency>代码:package flink_kafkaimp

2021-10-28 00:25:28 1221

原创 学习笔记Kafka(七)—— Kafka 与Spark集成 —— 原理介绍与开发环境配置、实战

一、环境1.1、Hadoop环境1.2、Spark环境1.3、Spark Streaming1.4、Add Maven Dependencies & 开发流程Add Scala Framework Support添加依赖(在pom.xml添加)<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</arti

2021-10-27 12:31:58 267

原创 学习笔记Kafka(六)—— Kafka Consumer API及开发实例

一、Kafka Consumer API1.1、Consumer1.2、KafkaConsumer1.3、ConsumerRecords1.4、ConsumerRecord1.5、KafkaConsumer 实战package demo02;import org.apache.kafka.clients.consumer.ConsumerRecord;import org.apache.kafka.clients.consumer.ConsumerRecords;import o

2021-10-26 23:58:27 683

原创 学习笔记Kafka(五)—— Kafka 开发环境配置及Producer API

一、开发环境说明1、创建Maven工程1.1、开发环境Maven && JDK 1.2、Pom配置Compiler Configuration 在pom.xml添加:<properties> <maven.compiler.target>1.8</maven.compiler.target> <maven.compiler.source>1.8</maven.compiler.so

2021-10-26 21:12:41 577

原创 学习笔记Kafka(四)—— Kafka安装配置(3)—— Kafka多代理配置及常用操作

一、环境准备Centos7, 1 CPU , 2G Memory ,20G Disk , Virtual SystemHosts : node110, node111 , node112全部配置JDK配置 Zookeeper集群1.1、Linux环境准备克隆node110 到node111, node112修改机器名和IP配置(有需要可以参考我这篇博客:Hadoop集群部署模式、配置固定IP)1.2、Zookeeper配置修改zoo.cfg 配置文件(在zookeeper

2021-10-26 19:19:31 798

原创 学习笔记Kafka(三)—— Kafka安装配置(2)—— Kafka单代理及常用操作

一、Linux环境准备Centos7, 1 CPU , 2G Memory ,20G Disk , Virtual SystemJDKZookeeper二、Kafka 安装下载Kafka安装包官网:http://kafka.apache.org/downloads解压安装包 :tar -zxvf kafka_2.11-2.3.1.tgz -C /opt/修改配置文件进入kafka安装的config目录下:cd /opt/kafka_2.11-2.3.1/config

2021-10-22 22:18:46 223

原创 学习笔记Kafka(二)—— Kafka安装配置(1)—— JDK&Zookeeper安装、Zookeeper 常用操作

一、Linux环境准备Centos7, 1 CPU , 2G Memory ,20G Disk , Virtual SystemHostname : node110.centos.com 、node111.centos.com、node112.centos.comIP Address : 192.168.128.110Linux 连接工具:Xshell、Xftp二、安装包准备2.1、JDK安装需要安装的,可以参考我这篇博客:学习笔记Hadoop(四)—— Hadoop集群的安装与部署(1

2021-10-22 00:00:33 314

原创 学习笔记Kafka(一)—— Kafka简介

一、什么是消息系统消息系统负责将数据从一个应用程序传输到另一个应用程序,因此应用程序可以专注于数据,但不担心如何共享它。 分布式消息传递基于可靠消息队列的概念。 消息在客户端应用程序和消息传递系统之间异步排队。 有两种类型的消息模式可用: 一种是点对点,另一种是发布 - 订阅(pub-sub)消息系统。二、Kafka2.1、Kafka简介Apache Kafka是一个分布式发布 - 订阅消息系统和一个强大的队列,可以处理大量的数据,并使您能够将消息从一个端点传递到另一个端点。 Kafka适合离线

2021-10-21 22:28:32 663

原创 学习笔记Flink(六)—— Flink DataStream API编程

一、Flink程序构成获取执行环境;加载/创建初始数据;编写对数据的转换操作;指定计算结果存放的位置;触发程序执行;二、数据源Collection 类型数据源fromCollection(Seq)fromCollection(Iterator)fromElements(elements:_*)fromParallelCollection(SplittableIterator)generateSequence(from, to)查看(浏览器:node1

2021-10-21 00:08:56 428

原创 学习笔记Flink(五)—— Flink开发环境配置及运行实例(单词计数)

一、Intellij IDEA 环境配置1、创建Maven工程1.1、开发环境Maven && JDK 1.2、Pom配置Compiler Configuration 在pom.xml添加:<properties> <maven.compiler.target>1.8</maven.compiler.target> <maven.compiler.source>1.8</maven.compiler.

2021-10-19 01:21:24 528

原创 数据结构与算法笔记(十七)—— 贪心算法及经典案例(找零问题、背包问题、拼接最大数字问题、活动选择问题)

一、贪心算法贪心算法(又称贪婪算法)是指,在对问题求解时,总是做出在当前看来是最好的选择。也就是说,不从整体最优上加以考虑,他所做出的是在某种意义上的局部最优解。贪心算法并不保证会得到最优解,但是在某些问题上贪心算法的解就是最优解。要会判断—个问题能否用贪心算法来计算。二、经典案例2.1、找零问题问题描述: (钱数量最少)假设商店老板需要找零n元钱,钱币的面额有:100元、50元、20元、5元、1元,如何找零使得所需钱币的数量最少?代码实现:t = [100,50,20,5,1] #币值

2021-10-18 17:27:43 1407

原创 学习笔记Flink(四)—— Flink基础API及核心数据结构

一、

2021-10-18 00:21:31 791

原创 学习笔记Flink(三)—— Flink安装启动与监控

一、Linux环境准备Centos7, 1 CPU , 2G Memory ,20G Disk , Virtual SystemHostname : node110.centos.com 、node111.centos.com、node112.centos.comIP Address : 192.168.128.110、 192.168.128.111、 192.168.128.112Linux 连接工具:Xshell、Xftp二、安装准备2.1、集群部署一master两worker

2021-10-17 01:58:05 540 3

原创 学习笔记Flink(二)—— Flink数据流模型、时间窗口和核心概念

一、Flink编程数据流模型1.1、Flink – API封装Flink 提供不同级别的API封装来支持流/批处理应用程序。1.2、Flink-编程数据流Source:一个不会结束的数据记录流。Transformations:使用一个或多个数据流作为输入,生成一个或多个数据流结果。Sink:输出数据流。 1.3、Flink-并行数据流One-to-One streamRedistributing 1.4、Flink-Windows聚合操作(如counts,sums

2021-10-15 23:42:33 824

原创 学习笔记Flink(一)—— Flink简介(介绍、基本概念、应用场景)

一、Flink介绍Apache Flink 是一个分布式流批一体化的开源平台。Flink 的核心是一个提供数据分发、通信以及自动容错的流计算引擎。Flink 在流计算之上构建批处理,并且原生的支持迭代计算,内存管理以及程序优化。 对 Flink 而言,其所要处理的主要场景就是流数据,批数据只是流数据的一个特例而已。也就是说,Flink 会把所有任务当成流来处理,这也是其最大的特点。Flink 可以支持本地的快速迭代,以及一些环形的迭代任务。Apache Flink VS Hadoop/Tez/S

2021-10-15 23:17:17 2609

原创 学习笔记Spark(十)—— Spark MLlib应用(2)—— Spark MLlib应用

二、Spark MLlib简介2.1、MLlib简介MLlib是Spark的机器学习(ML)库,旨在简化机器学习的工程实践工作,并方便扩展到更大规模,同时利用Spark分布式处理来实现模型,处理大数据全量数据的迭代计算。算法工具:常用的学习算法,如分类、回归、聚类和协同过滤。特征化工具:特征提取、转化、降维,和选择工具。管道(Pipeline):用于构建、评估和调整机器学习管道的工具。持久性:保存和加载算法、模型和管道。实用工具:线性代数、统计、数据处理等工具。2.2、MLlib的发展

2021-10-15 00:56:57 936

原创 学习笔记Spark(九)—— Spark MLlib应用(1)—— 机器学习简介、Spark MLlib简介

一、机器学习简介1.1、机器学习概念机器学习就是让机器能像人一样有学习、理解、认识的能力。机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能。机器学习的过程就是通过计算机使算法模型利用输入数据的规律或以往经验进行学习,并对模型进行评估,评估的性能如果达到要求就拿这个模型来测试其他的数据,如果达不到要求就要调整算法来重新建立模型,再次进行评估,如此循环往复,最终获得满意的经验来处理其他的数据。致力于研究如何通过计算的手段,利用经验(

2021-10-14 15:11:27 1234

原创 学习笔记Spark(八)—— Spark SQL应用(3)—— Spark DataSet基础操作

三、Spark DataSet基本操作3.1、DataSet简介DataSet是分布式的数据集合,DataSet提供了强类型支持,也是在RDD的每行数据加了类型约束。DateSet整合了RDD和DataFrame的优点,支持结构化和非结构化数据。DataFrame表示为DataSet[Row],即DataSet的子集。DataSet是面向对象的编程接口,可以通过JVM的对象进行构建DataSet。3.1.1、DataFrame的缺点编译时不能类型转化安全检查,运行时才能确定是否有问题

2021-10-13 18:50:59 991

原创 学习笔记Spark(七)—— Spark SQL应用(2)—— Spark DataFrame基础操作

二、Spark DataFrame基础操作2.1、DataFrameDataFrame是一种不可变的分布式数据集,这种数据集被组织成指定的列,类似于关系数据库中的表。数据集的每一列都带有名称和类型,对于数据的内部结构又很强的描述性。RDD是分布式的 Java对象的集合。DataFrame是分布式的Row对象的集合。...

2021-10-10 10:20:01 1835

原创 学习笔记Spark(六)—— Spark SQL应用(1)—— Spark SQL简介、环境配置

一、Spark SQL简介1.1、Spark SQL特性Spark SQL是Spark Core之上的一个组件,它引入了一个称为SchemaRDD的新- 数据抽象,它为结构化和半结构化数据提供支持提供了DataFrame、DataSet的编程抽象可以充当分布式SQL查询引擎Spark SQL是spark套件中一个模板,它将数据的计算任务通过SQL的形式转换成了RDD的计算,类似于Hive通过SQL的形式将数据的计算任务转换成了MapReduce。Spark SQL也可以用来从

2021-10-09 00:52:06 528

原创 学习笔记Spark(五)—— 配置Spark IDEA开发环境

一、配置Spark开发环境1. 1、配置Spark开发依赖包创建一个Scala工程(scala插件及工程创建教程:https://www.cnblogs.com/frankdeng/p/9092512.html)点击菜单栏中的“File”->“Project Structure”,打开右上图所示的界面选择“Libraries” 单击“+”按钮,选择“Java”选项在弹出的界面中找到Spark安装包下的“jars”文件夹,事先删除该目录下的commons-compiler-3.0.

2021-10-08 21:39:25 2061

原创 学习笔记Spark(四)—— Spark编程基础(创建RDD、RDD算子、文件读取与存储)

文章目录一、创建RDD1.1、启动Spark shell1.2、创建RDD1.2.1、从集合中创建RDD1.2.2、从外部存储中创建RDD任务1:二、RDD算子2.1、map与flatMap算子应用2.1.1、map2.1.2、flatMap2.1.3、mapPartitions2.2、sortBy与filter算子应用2.2.1、sortBy2.2.2、filter任务2:2.3、交集与并集计算的算子应用2.3.1、distinct2.3.2、union2.3.3、intersection2.3.4、su

2021-10-08 11:31:47 5880 1

原创 学习笔记Spark(三)—— Spark架构及原理(spark架构、spark RDD)

一、Spark架构 1.1、基本组件Cluster Manager在standalone模式中即为Master主节点,控制整个集群,监控worker。在YARN模式中为资源管理器。Worker从节点,负责控制计算节点,启动Executor或者Driver。在YARN模式中为NodeManager,负责计算节点的控制。Driver运行Application的main()函数并创建SparkContext。Executor执行器,在worker node上执行任务的组件、用于启动线程池运行任

2021-10-07 19:22:18 720

原创 学习笔记Spark(二)—— Spark集群的安装配置

一、Spark集群拓扑1.1、集群规模192.168.128.10 master 1.5G ~2G内存、20G硬盘、NAT、1~2核 ;192.168.128.11 node1 1G内存、20G硬盘、NAT、1核192.168.128.12 node2 1G内存、20G硬盘、NAT、1核192.168.128.13 node3 1G内存、20G硬盘、NAT、1核1.2、Spark的安装模式1、本地模式在一个节点上安装Spark,利用本地线程运行程序,非分

2021-10-07 11:50:45 1459

原创 学习笔记Spark(一)—— Spark入门

一、Spark简介什么是Spark?快速、分布式、可扩展、容错的集群计算框架;Spark是基于内存计算的大数据分布式计算框架;低延迟的复杂分析;Spark是Hadoop MapReduce的替代方案。二、Spark的发展历史对于一个具有相当技术门槛与复杂度的平台,Spark从诞生到正式版本的成熟,经历的时间如此之短,让人感到惊诧。目前,Spark已经成为Apache软件基金会旗下的顶级开源项目。下面是Spark的发展历程简述:2009年,Spark诞生于伯克利大学AMPLab,最初属

2021-10-07 00:45:56 528

原创 学习笔记Hive(九)—— 实例:航空客户价值分析数据预处理

一、背景与目标1.1、背景1.、行业内竞争民航的竞争除了三大航空公司之间的竞争之外,还将加入新崛起的各类小型航空公司、民营航空公司,甚至国外航空巨头。航空产品生产过剩,产品同质化特征愈加明显,于是航空公司从价格、服务间的竞争逐渐转向对客户的竞争。2.、行业外竞争随着高铁、动车等铁路运输的兴建,航空公司受到巨大冲击。客户营销战略倡导者Jay & Adam Curry从国外数百家公司进行了客户营销实施的经验中提炼了如下经验:公司收入的80%来自顶端的20%的客户。20%的客户其利润率1

2021-10-06 22:09:21 2453

原创 学习笔记Hive(八)—— 查询优化

一、视图1.1、Hive的视图视图是基于数据库的基本表进行创建的一种伪表,数据库中储存视图的定义,不存数据项,数据项仍然存在基本表中它可作为一个抽象层,将数据发布给下游用户。目前 Hive 版本支持逻辑视图,不支持物理视图。所以 Hive 的数据仓库目录查找不到视图,但可在 Mysql 的元数据库中查找到。视图只能查询,不能进行数据的插入和修改,可以提高数据的安全性。在创建视图时候视图就已经固定,对基表的后续更改(如添加列)将不会反映在视图。view定义中若包含了ORDER BY/LIMIT语

2021-10-06 20:56:24 923

原创 学习笔记Hive(七)—— 自定义函数

一、自定义函数简介1.1、函数类型UDF:用户定义函数UDF操作作用于单个数据行,并且产生一个数据行作为输出。大多数函数都属于这一类(比如数学函数和字符串函数)UDAF:用户定义聚集函数UDAF 接受多个输入数据行,并产生一个输出数据行。像COUNT和MAX这样的函数就是聚集函数。UDTF:用户定义表生成函数UDTF 操作作用于单个数据行,并且产生多个数据行。比如explode。二、自定义UDF定义一个udf,实现根据输入的日期,输出一个时段, 2:00-5:00凌晨,5:00-12:0

2021-10-06 00:53:08 2007 1

原创 学习笔记Hive(六) —— Hive开发应用

一、任务1.1、商品零售购物篮分析现代商品种类繁多,顾客往往会由于需要购买的商品众多而变得疲于选择,且顾客并不会因为商品选择丰富而选择购买更多的商品。繁杂的选购过程往往会给顾客疲惫的购物体验。1.2、了解顾客需求1.3、任务目标创建订单表和物品分类表统计顾客数量和商品购买数量统计各类型商品的购买情况统计所有商品中排名前20的热销商品统计不同类别商品中排名前10的热销商品将同一个客户的订单整合为一列并写入HDFS二、Hive 开发环境2.1、搭建开发环境在Eclips

2021-10-05 23:50:13 1797 1

原创 学习笔记Hive(五) —— Hive应用(3)—— Hive查询

五、Hive查询5.1、创建职工信息表任务实现:1、创建表dept,emp和salgrade2、导入数据将数据emp.txt导入到表emp#emp.txt7369,SMITH,CLERK,7902,1980-12-17,800.00,,207499,ALLEN,SALESMAN,7698,1981-2-20,1600.00,300.00,307521,WARD,SALESMAN,7698,1981-2-22,1250.00,500.00,307566,JONES,MANAGER,

2021-10-05 00:16:11 3053 1

原创 学习笔记Hive(四) —— Hive应用(2)—— Hive导入及导出数据

四、Hive导入及导出数据通过HDFS直接导入导出通过Hive命令导入导出 4.1、Hive导入数据的语法LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]LOCAL:导入语句带有LOCAL,说明是导入Linux本地的数据,若是从HDFS上导入数据,则导入语句不加LOCAL;filepath:数据的路径OVE

2021-10-04 22:34:30 479

原创 学习笔记Hive(三) —— Hive应用(1)—— 数据库定义、创建表

一、任务讲解泰坦尼克号乘客信息存储与分析泰坦尼克号乘客信息存储与分析:创建乘客信息表导入数据到表中统计获救与死亡情况统计舱位分布情况统计港口登船人数分布情况统计性别与生存率的关系统计客舱等级与生存率的关系统计登船港口与生存率的关系二、数据库定义2.1、HQL语句简介HiveQL是一种类SQL语言,用于分析存储在HDFS中的数据。不支持事务及更新操作。HiveQL 语句通过解释器转换为MapReduce 作业提交到Hadoop 集群上, 延迟比较大。2.2、数据类型

2021-10-04 20:37:03 1973

原创 学习笔记Hive(二)—— Hive安装配置

一、环境介绍 二、安装MySQL搜索mysql安装包,找到mysql-server.x86_64 yum search mysql安装mysql-server.x86_64yum install mysql-server.x86_64 -y启动mysql服务service mysqld start & chkconfig mysqld on./scripts/mysql_install_db --user=mysql – basedir=/usr/local/mysql --

2021-10-03 16:27:00 201

原创 学习笔记Hive(一)—— Hive简介

一、Hive设计思想(了解)Facebook用户社交数据存储与处理Facebook是美国的一个社交网站 ,于2004年2月4日上线。主要创始人为美国人马克·扎克伯格。Facebook是世界排名领先的照片分享站点。根据Comscore咨询公司的数据显示,2008年5月Facebook全球独立访问用户首次超过了竞争对手Myspace,前者五月独立访问用户达到了1.239亿,页面浏览量达到500.6亿。2009年12月,Facebook的独立人次达到了4.69亿,其综合浏览量增长了141个百分点,在09年

2021-10-03 16:21:23 818

原创 学习笔记Hadoop(十五)—— MapReduce编程进阶

文章目录一、输出文件格式及序列化文件生成1.1、输出文件格式1.2、设置输出SequenceFileOutputFormat文件格式二、输入文件格式及序列化文件读取2.1、输入数据文件类型2.2、设置输入SequenceFileInputFormat文件格式三、使用Partitioner优化程序3.1、自定义单词计数四、本地提交MapReduce程序4.1、自定义单词计数一、输出文件格式及序列化文件生成1.1、输出文件格式默认输出类型是:TextOutputFormat1.2、设置输出Sequen

2021-10-03 12:03:26 245

原创 学习笔记Hadoop(十四)—— MapReduce开发入门(2)—— MapReduce API介绍、MapReduce实例

四、MapReduce API介绍一般MapReduce都是由Mapper, Reducer 及main 函数组成。Mapper程序一般完成键值对映射操作;Reducer 程序一般完成键值对聚合操作;Main函数则负责组装Mapper,Reducer及必要的配置;高阶编程还涉及到设置输入输出文件格式、设置Combiner、Partitioner优化程序等;4.1、MapReduce程序模块 : Main 函数4.2、MapReduce程序模块: Mapperorg.apache.ha

2021-10-03 11:58:56 662 1

原创 学习笔记Hadoop(十三)—— MapReduce开发入门(1)—— MapReduce开发环境搭建、MapReduce单词计数源码分析

一、MapReduceMapReduce是Google提出的一个软件架构,用于大规模数据集(大于1TB)的并行运算。概念“Map(映射)”和“Reduce(归纳)”,及他们的主要思想,都是从函数式编程语言借来的,还有从矢量编程语言借来的特性。当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(归纳)函数,用来保证所有映射的键值对中的每一个共享相同的键组。二、MapReduce开发环境搭建环境准备: Java, Intellij IDEA, M

2021-10-03 11:57:46 569

数字图像图像增强、加噪课设(matlab).zip

数字图像图像增强、加噪课设(matlab).zip

2021-04-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除