自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

董长春

免费课程视频: https://www.bilibili.com/video/BV1Ep4y1i7yn/

  • 博客(20)
  • 收藏
  • 关注

原创 IDEA社区版搭建Tomcat服务器并创建web项目

此时 http://xmlns.jcp.org/xml/ns/javaee 和 http://xmlns.jcp.org/xml/ns/javaee/web-app_4_0.xsd 会报红,原因是没有web.xml的约束文件。原文链接:https://blog.csdn.net/qq_44737446/article/details/120869276。版权声明:本文为CSDN博主「淡抹心痕」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。针对以上两个问题,分步解决。

2023-04-20 21:33:10 2333 4

原创 Spark学习宝典(保姆级)

Spark简介快如闪电的统一分析引擎.Apache Spark™是用于大规模数据处理的统一分析引擎。发展历史2009 年,Spark 诞生于伯克利大学的 AMPLab 实验室2010 年,伯克利大学正式开源了 Spark 项目2013 年 6 月,Spark 成为了 Apache 基金会下的项目2014 年 2 月,Spark 以飞快的速度成为了 Apache 的顶级项目2015 年至今,Spark 变得愈发火爆,大量的国内公司开始重点部署或者使用 Spark核心模块及功能Spar

2021-03-31 10:46:29 774 1

原创 Scala学习宝典(保姆级)

前言在我个人看来,Scala是一门非常优雅的语言,但优雅的背后要付出的辛苦也很多,比如学习Scala的人都会说,Scala语法非常简洁,但这也意味着抽象级别比较高,对初学者而言不好理解。也会有人说,Scala语法非常灵活,一个功能可以有非常多的实现方法,可以说条条大路通罗马,那么代价就是对于初学者来说,路多了反而不好选择。所以在这里我对初学者的忠告是:在学习Scala前期,先走通一条路,屏蔽掉多余的干扰项,可能我们第一次使用Scala实现的项目看起来是非常笨拙的,但是没关系,任何的学习都是循序渐进的,不

2020-10-14 21:37:50 1746 8

原创 一篇搞定从零学会机器学习算法: 线性回归(Linear Regression)

回归算法回归,指研究一组随机变量(Y1 ,Y2 ,…,Yi)和另一组(X1,X2,…,Xk)变量之间关系的统计分析方法,又称多重回归分析。通常Y1,Y2,…,Yi是因变量,X1、X2,…,Xk是自变量。回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于预测分析,时间序列模型以及发现变量之间的因果关系。例如,司机的鲁莽驾驶与道路交通事故数量之间的关系,最好的研究方法就是回归。常见的回归算法Linear Regression线性回归它是最为人熟知的建

2020-09-01 16:34:42 1028

原创 IDEA插件管理

1 工具中下载插件进入设置页面搜索需要的插件,点击Install,支持升级2 官网下载插件插件下载地址https://plugins.jetbrains.com/idea?_ga=2.7341105.2082565591.1596586069-194658691.1591701694搜索需要的插件检查兼容性并下载到本地3 关联本地插件下载好的插件不需要解压,目录位置也没有要求,建议放置在IDEA安装目录下plugins中添加之后重启IDEA即可...

2020-08-05 08:33:23 1224 1

原创 人工智能第三章:TensorFlow

1 TensorFlow不要理会1.0版本的任何咨询,如果学过1.0,忘掉他。TensorFlow™ 是一个采用数据流图(data flow graphs),用于数值计算的开源软件库。节点(Nodes)在图中表示数学操作,图中的线(edges)则表示在节点间相互联系的多维数据数组,即张量(tensor)。它灵活的架构让你可以在多种平台上展开计算,例如台式计算机中的一个或多个CPU(或GPU),服务器,移动设备等等。TensorFlow 最初由Google大脑小组(隶属于Google机器智能研究机构

2020-06-30 01:17:30 732 1

原创 人工智能第二章:什么是人工智能

1 什么是人工智能人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能从诞生以来,理论和技术日益成熟,应用领域也不断扩大,可以设想,未来人工智能带来的科技产品,将会是人类智慧的“容器”。人工智能可以对人的

2020-06-30 00:58:47 1748

原创 人工智能第一章:Python语言基础+爬虫

1 Python简介Python是一种跨平台的计算机程序设计语言。是一种面向对象的动态类型语言,最初被设计用于编写自动化脚本(shell),随着版本的不断更新和语言新功能的添加,越来越多被用于独立的、大型项目的开发。1.1 起源Python的作者是著名的“龟叔”Guido van Rossum,他希望有一种语言,这种语言能够像C语言那样,能够全面调用计算机的功能接口,又可以像shell那样,可以轻松的编程。龟叔从ABC语言看到希望,ABC语言是由荷兰的数学和计算机研究所开发的。龟叔也参与到ABC语言的

2020-06-23 11:57:13 5856 1

原创 第七章:HadoopHA搭建

Hadoop2.0 HA搭建步骤 准备工作 6台虚拟机,内存512M,hadoop1~6修改静态IP:192.168.65.121 ~ 126 架构图 集群节点分配 hadoop1 ZookeeperNameNode(active)Resourcemanager (active)hadoop2ZookeeperNameNode (standby)hadoop3ZookeeperResourceManager(standby)hado.

2020-06-01 21:25:45 1133 1

原创 第六章:基于Flink、Kafka实现海量数据的实时处理

实时分析Kafka简介他是一个MQ,作用:削峰平谷ActiveQM(6k)、RabbitMQ(1.2w) 适用与业务系统(对事务要求极高)ZeroMQ(25-50w)、Kafka(25-50w) 适用于大数据(对速度和吞吐量要求高,海量数据中,数据可能丢失,但对结果影响微乎其微)Kafka为发布/订阅模式。Kafka已经成为大数据业界主流。Flink简介Apache Flink是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。Flink设计为在所有...

2020-05-23 12:24:54 6269 1

原创 第五章:基于Hive实现海量数据离线处理

Hive离线分析回顾业务流程准备搭建环境1.启动Hadoopstart-all.sh2.修改flume配置文件flume.propertiesa1.sources = r1a1.sinks = k1a1.channels = c1a1.sources.r1.type = avroa1.sources.r1.bind = 0.0.0.0a1.sources.r1.port = 22222a1.sources.r1.in...

2020-05-23 11:54:20 2980

原创 第四章:Hive

目录HiveHadoop在分布式数据处理中遇到的问题概述数据仓库安装初始化元数据库启动基础操作创建数据库创建表插入数据加载数据可能遇到的问题Hive启动不了Hive启动报错Safe mode元数据库的替换修改配置文件hive-site.xml导入驱动包开放mysql权限初始化元数据信息表的分类内部表和外部表内部表(托管表):MANAGED_TABLE外部表:EXTERNAL_TABLE内外部表的区别分

2020-05-19 20:15:47 2464

原创 第三章:Flume、项目重构实现日志数据自动收集保存

目录Flume重要概念Flume多级流动Flume的扇入扇出Flume的优势Flume的安装配置启动测试flume.properties详解练习案例Source练习avroSpooldirChannel练习Sink练习LoggerAvroHDFS集群部署案例练习多级扇入扇出项目、Flume、HDFS整合log4j和flume整合配置log4j.propertiesFlume和HDFS整合配置f

2020-05-19 18:22:02 3881

原创 第二章:Hadoop

目录Hadoop概述历史作用Hadoop的安装Hadoop版本介绍Hadoop 的安装有三种方式Hadoop伪分布式安装进入目录上传安装包并解压修改配置文件启动初始化​启动停止测试HDFS详解NameNodeDataNodeBlockSecondaryNameNodeHDFS优点HDFS缺点HDFS细节NameNode、SecondaryNameNode如何工作?Block备份如何放置?HDFS基本S

2020-05-19 17:38:15 6856

原创 第一章:初识大数据、项目介绍、环境搭建

讲师:董长春企鹅:1097895173手机:15011003101大数据什么是大数据?简单来说大数据就是海量数据及其处理。大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产(资源)。在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》[2]中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。大数据的5V特...

2020-05-19 17:02:27 7655 1

原创 (三)Scala从入门到项目实战(Flink、Spark、Kafka)——Scala方法和函数

方法和函数说明:在Scala中既有方法也有函数,大多数情况下,他们没有区别,作为初学者暂时不用明确区分。一般情况下方法的类型为具体一个返回值类型,可以省略不写。而函数的类型为:参数类型 => 返回值类型 ,也可以省略不写,在后边的代码中会体现这个特点。方法的定义 def max(a:Int,b:Int):Int={ if(a>b) return ...

2020-05-07 22:53:17 1011

原创 (二)Scala从入门到项目实战(Flink、Spark、Kafka)——Scala入门及基本语法

Scala入门官网:https://www.scala-lang.org/课程版本:2.13.1HelloWorld创建一个scala工程创建一个包创建HelloWorld.scala编写代码object HelloWorld { def main(args: Array[String]): Unit = {//入口函数 pr...

2020-05-07 17:57:19 1026

原创 (一)Scala从入门到项目实战(Flink、Spark、Kafka)——Scala及课程简介——董长春

前言——对Scala初学者的忠告在我个人看来,Scala是一门非常优雅的语言,但优雅的背后要付出的辛苦也很多,比如学习Scala的人都会说,Scala语法非常简洁,但这也意味着抽象级别比较高,对初学者而言不好理解。也会有人说,Scala语法非常灵活,一个功能可以有非常多的实现方法,可以说条条大路通罗马,那么代价就是对于初学者来说,路多了反而不好选择。所以在这里我对初学者的忠告是:在学习Sc...

2020-05-07 17:33:56 1128

原创 (二)Flink从入门到项目实战——Flink入门程序

目录Flink环境准备开发工具及环境要求Maven依赖坐标Flink入门程序Flink批处理Flink流式处理总结开发过程Flink环境准备开发工具及环境要求IDE最好使用IntelliJ IDEA (eclipse存在插件不兼容的风险)唯一的要求是使用 Maven 3.0.4 和安装 Java 8.x(或更高版本)。Maven依赖坐标<...

2020-02-04 10:38:59 1516 3

原创 (一)Flink从入门到项目实战——Flink介绍——董长春

重要说明该文将根据本人学习进度不断更新,计划分章节仔细介绍,随着对知识的不断学习,我将会对前边的内容进行优化,以保证技术描述的准确,以及与官方版本同步。Flink介绍Apache Flink 是一个海量数据计算框架和分布式处理引擎,用于在无边界和有边界数据流(离线、流式)上进行有状态的计算。Flink 能在所有常见集群环境中运行,并能以内存速度和任意规模进行计算。那么如何来理解有边...

2020-02-04 10:15:32 2764 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除