John Zhuang-CSDN博客

原创 Spark大数据分析与实战：基于Spark MLlib 实现音乐推荐

Spark大数据分析与实战：基于Spark MLlib 实现音乐推荐基于Spark MLlib 实现音乐推荐一、实验背景：熟悉 Audioscrobbler 数据集基于该数据集选择合适的 MLlib 库算法进行数据处理进行音乐推荐（或用户推荐）二、实验目的：计算AUC评分最高的参数利用AUC评分最高的参数，给用户推荐艺术家对多个用户进行艺术家推荐利用AUC评分最高的参数，给艺术家推荐喜欢他的用户三、实验步骤：安装Hadoop和Spark启动Hadoop与Spark将文件上传到

2021-06-26 16:29:32 18030 258

原创 Spark大数据分析与实战：基于Spark框架实现TopN

Spark大数据分析与实战：基于Spark框架实现TopN基于Spark框架实现TopN一、实验背景：基于Spark框架实现TopN二、实验目的：获取蜀国武将中武力值最高的5位，即通过分布式计算框架实现从原始数据查询出武力最高的Top5三、实验步骤：启动 hadoop创建 rank.txt 文件将 rank.txt 文件上传到 HDFS 上实现TopN计算查看 HDFS 上的结果四、实验过程：1、启动 hadoopShell命令：[root@master ~]# cd /

2021-06-26 15:37:05 10498 49

原创 Hive查询分析计算：技术论坛业务相关指标分析

Hive查询分析计算案例：股票分析一、实验背景：项目来源本次要实践的数据日志来源于国内某技术学习论坛，该论坛由某培训机构主办，汇聚了众多技术学习者，每天都有人发帖、回帖，如图1所示。图1 项目来源网站-技术学习论坛本次实践的目的就在于通过对该技术论坛的apache common日志进行分析，计算该论坛的一些关键指标，供运营者进行决策时参考。PS：开发该系统的目的是为了获取一些业务相关的指标，这些指标在第三方工具中无法获得的；数据情况该论坛数据有两部分：（1）历史数据约56GB，统计到

2021-06-25 22:02:25 9607 20

原创 R语言与数据分析练习：使用Apriori算法实现网站的关联分析

R语言与数据分析练习：使用ARIMA模型预测网站访问量使用ARIMA模型预测网站访问量一、实验背景：基于某网站的访问数据，使用Apriori算法对网站进行关联分析二、实验目的：预测网站访问量三、实验设计方案和流程图：实验设计方案：由于实验1已对数据进行处理，这里我们只需要根据题目要求取出需要的数据。建立一个列表,每个列表代表一个用户访问的网站，将列表转为数据框，保存到本地。创建网站的二元矩阵，将每一个用户访问的ip改为1，导出二元矩阵。构建关联规则模型，把数据转换成关联规则需要的数

2021-06-25 17:57:44 9554 10

原创 R语言与数据分析练习：使用协同过滤算法实现网站的智能推荐

R语言与数据分析练习：使用协同过滤算法实现网站的智能推荐使用ARIMA模型预测网站访问量一、实验背景：基于实验1中某网站2016年9月每天的访问数据,使用基于内容的协同过滤算法实现网站的智能推荐，帮助客户发现他们感兴趣但很难发现的网页信息二、实验目的：使用协同过滤算法实现网站的智能推荐三、实验设计方案和流程图：实验设计方案：由于实验1已对数据进行处理，这里我们只需要根据题目要求取出2016年9月份的数据。取出数据后，对字段ID的空值进行处理。处理完数据，我们可以构建一个二元型数据。

2021-06-25 17:52:18 9409 4

原创 R语言与数据分析练习：使用ARIMA模型预测网站访问量

R语言与数据分析练习：使用ARIMA模型预测网站访问量使用ARIMA模型预测网站访问量一、实验背景：随着流量的增大，某网站的数据信息量也在以一定的幅度增长基于该网站2016年9月~2017年2月每天的访问量，使用ARIMA模型预测网站未来7天的访问量二、实验目的：预测网站未来7天的访问量三、实验设计方案和流程图：实验设计方案：由于我们获取的原数据文件为sql类型的，因此我们需要将原数据文件导入mysql，再通过R语言中的方法连接mysql进行数据的读取。读取数据之后，对数据进行观察。

2021-06-25 17:46:53 10130 9

原创 Docker学习之路06：基于 Docker 在Ubuntu系统部署Hadoop、Hbase以及Spark

基于 Docker 在Ubuntu系统部署Hadoop、Hbase以及SparkDocker学习路线传送门：Docker的安装：https://blog.csdn.net/weixin_47580081/article/details/114856083阿里云镜像加速器：https://blog.csdn.net/weixin_47580081/article/details/114858556Docker的常用命令：https://blog.csdn.net/weixin_47580081/ar

2021-06-25 17:18:54 9833 8

原创 Spark大数据分析与实战：Spark Streaming编程初级实践

Spark Streaming编程初级实践一、安装Hadoop和Spark具体的安装过程在我以前的博客里面有，大家可以通过以下链接进入操作：Hadoop的安装：https://blog.csdn.net/weixin_47580081/article/details/108647420Scala及Spark的安装：https://blog.csdn.net/weixin_47580081/article/details/114250894提示：如果IDEA未构建Spark项目，可以转接到以下的博客

2021-04-23 15:08:33 14443 6

原创 Flume版本查看错误: 找不到或无法加载主类 org.apache.flume.tools.GetJavaProperty Flume 1.7.0

Flume版本查看错误: 找不到或无法加载主类 org.apache.flume.tools.GetJavaProperty Flume 1.7.0报错信息：错误: 找不到或无法加载主类 org.apache.flume.tools.GetJavaProperty Flume 1.7.0原因分析：1、jdk 冲突2、安装了 hbase 就会报着个错解决方法：在启动文件 flume-ng 中添加内容cd /usr/flume/apache-flume-1.7.0-bin/bin/vim

2021-04-23 13:35:53 18426 6

原创 Linux基础环境搭建（CentOS7）- 安装Flume

Linux基础环境搭建（CentOS7）- 安装Flume大家注意以下的环境搭建版本号，如果版本不匹配有可能出现问题！Linux基础环境搭建（CentOS7）- 虚拟机准备Linux基础环境搭建（CentOS7）- 安装JDKLinux基础环境搭建（CentOS7）- 安装HadoopLinux基础环境搭建（CentOS7）- 安装ZookeeperLinux基础环境搭建（CentOS7）- 安装KafkaLinux基础环境搭建（CentOS7）- 安装HBaseLinux基础环境搭建（C

2021-04-23 13:26:28 14283 9

原创 Spark大数据分析与实战：Spark SQL编程初级实践

Spark大数据分析与实战：Spark SQL编程初级实践一、Spark SQL基本操作将下列JSON格式数据复制到Linux系统中，并保存命名为employee.json。{“id”:1,“name”:“Ella”,“age”:36}{“id”:2,“name”:“Bob”,“age”:29}{“id”:3,“name”:“Jack”,“age”:29}{“id”:4,“name”:“Jim”,“age”:28}{“id”:4,“name”:“Jim”,“age”:28}{“id”:5,“

2021-04-15 21:17:35 23695 3

原创 Docker学习之路05：五分钟用docker compose搭建一个自己的个人博客网站！

五分钟用docker compose搭建一个自己的个人博客网站！一、准备工作前期需要安装docker和配置镜像加速器如果还不会的同学可以看下我的《Docker学习之路01：Docker的安装》和《Docker学习之路02：阿里云镜像加速器》然后今天我们是用 docker compose 来实现的，所以需要安装 docker compose# 其中 /usr/docker-compose 是大家安装docker-compose的目录，不需要提前创建！sudo curl -L https://get

2021-04-13 20:02:08 22585 2

原创 R语言与数据分析练习：创建和使用R语言数据集&数据的导入导出

R语言与数据分析练习：创建和使用R语言数据集&数据的导入导出实验一创建和使用R语言数据集一、实验目的：了解R语言中的数据结构。熟练掌握他们的创建方法，和函数中一些参数的使用。对创建的数据结构进行，排序、查找、删除等简单的操作。二、实验内容：1、向量的创建及因子的创建和查看有一份来自澳大利亚所有州和行政区的20个税务会计师的信息样本1 以及他们各自所在地的州名。州名为：tas, sa, qld, nsw, nsw, nt, wa, wa, qld, vic, ns

2021-04-07 21:25:24 46323

原创 Linux基础环境搭建（CentOS7）- 安装Sqoop

Linux基础环境搭建（CentOS7）- 安装Sqoop—大家注意以下的环境搭建版本号，如果版本不匹配有可能出现问题！Linux基础环境搭建（CentOS7）- 虚拟机准备Linux基础环境搭建（CentOS7）- 安装JDKLinux基础环境搭建（CentOS7）- 安装HadoopLinux基础环境搭建（CentOS7）- 安装ZookeeperLinux基础环境搭建（CentOS7）- 安装KafkaLinux基础环境搭建（CentOS7）- 安装HBaseLinux基础环境搭建（C

2021-04-06 23:13:17 40505 1

原创 Sqoop问题解决：运行警告Warning: /usr/sqoop/sqoop-1.4.6.bin__hadoop-2.0.4-alpha/../hcatalog does not exist!

Sqoop问题解决：运行警告报错信息：Warning: /usr/sqoop/sqoop-1.4.6.bin__hadoop-2.0.4-alpha/…/hcatalog does not exist! HCatalog jobs will fail.Please set $HCAT_HOME to the root of your HCatalog installation.Warning: /usr/sqoop/sqoop-1.4.6.bin__hadoop-2.0.4-alpha/…/accu

2021-04-06 22:28:27 63159 3

原创 Sqoop问题解决：运行报错java.lang.RuntimeException: Could not load db driver class: com.mysql.jdbc.Driver

Sqoop问题解决：运行报错报错信息：java.lang.RuntimeException: Could not load db driver class: com.mysql.jdbc.Driver原因分析：未将mysql关系型数据库驱动包放到sqoop/lib目录下解决方法：将mysql关系型数据库驱动包放到sqoop/lib目录下这里需要下载mysql关系型数据库驱动包放到本地/opt/software/下mysql依赖包下载链接：https://pan.baidu.com/s

2021-04-06 22:18:37 41257

原创 R语言与数据分析练习：选择适当模型拟合某股票连续若干天的收盘价序列的发展

R语言与数据分析练习：选择适当模型拟合某股票连续若干天的收盘价序列的发展ARIMA模型ARIMA模型（英语：Autoregressive Integrated Moving Average model），差分整合移动平均自回归模型，又称整合移动平均自回归模型（移动也可称作滑动），是时间序列预测分析方法之一。ARIMA(p，d，q)中，AR是“自回归”，p为自回归项数；MA为“滑动平均”，q为滑动平均项数，d为使之成为平稳序列所做的差分次数（阶数）。“差分”一词虽未出现在ARIMA的英文名称中，却是关键步

2021-04-06 21:07:59 42086 1

原创 Spark大数据分析与实战：IDEA使用Maven构建Spark项目

Spark大数据分析与实战：IDEA使用Maven构建Spark项目一、创建maven工程二、修改pom.xml文件导入依赖pom.xml文件代码如下：<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi

2021-04-05 00:12:50 38305 4

原创 Spark大数据分析与实战：RDD编程初级实践

Spark大数据分析与实战：RDD编程初级实践一、安装Hadoop和Spark具体的安装过程在我以前的博客里面有，大家可以通过以下链接进入操作Linux基础环境搭建（CentOS7）- 安装HadoopLinux基础环境搭建（CentOS7）- 安装Scala和Spark二、启动Hadoop与Spark查看3个节点的进程masterslave1slave2Spark shell命令界面与端口页面三、spark-shell交互式编程请到教程官网的“下载专区”的“数据集”中下载c

2021-04-04 16:33:06 42360

原创 Hive查询分析计算：股票分析

Hive查询分析计算案例：股票分析案例需求：本案例是对单支股票一年中每日交易的数据处理，形成K线分析，重点在于前期数据规整处理与导入导出，从数据仓库方案的设计，涉及Hive优化操作，关系型数据库的导入，使用数据可视化方式的直观展示，并对数据进行进一步的分析。解决思路：（1）数据采集与清洗通过爬虫或者金融终端获取股票数据，得到一张excel或者txt的数据，对数据进行初步的清洗整理，最后将数据传输到linux上。（2）数据分析通过语句建立外部表，通过HiveQL语句将数据导入，通过逻辑处

2021-03-31 11:41:22 42324 1

原创 Spark大数据分析与实战：HDFS文件操作

Spark大数据分析与实战：HDFS文件操作一、安装Hadoop和Spark具体的安装过程在我以前的博客里面有，大家可以通过以下链接进入操作Linux基础环境搭建（CentOS7）- 安装HadoopLinux基础环境搭建（CentOS7）- 安装Scala和Spark二、启动Hadoop与Spark查看3个节点的进程masterslave1slave2Spark shell命令界面与端口页面三、HDFS 常用操作（1）启动Hadoop，在HDFS 中创建用户目录“/use

2021-03-23 20:49:30 43487

原创 R语言与数据分析练习：计算特征间的Pearson相似系数

R语言与数据分析练习：计算特征间的Pearson相似系数Pearson相关系数Pearson相关系数（Pearson Correlation Coefficient）是用来衡量两个数据集合是否在一条线上面，它用来衡量定距变量间的线性关系。Pearson相关系数简介如衡量国民收入和居民储蓄存款、身高和体重、高中成绩和高考成绩等变量间的线性相关关系。当两个变量都是正态连续变量，而且两者之间呈线性关系时，表现这两个变量之间相关程度用积差相关系数，主要有Pearson简单相关系数。其计算公式为：题目：

2021-03-23 20:24:40 47634 1

原创 R语言与数据分析练习：K-Means聚类

R语言与数据分析练习：K-Means聚类题目：在篮球运动中，一般情况下，控球后卫与得分后卫的助攻数较多，小前锋的得分数较多，而大前锋与中锋的助攻数与得分数较少。下表为21名篮球运动员每分钟助攻数和每分钟得分数的数据集，请运用K-Means聚类算法将这21名篮球运动员划分为5类，并通过画图判断他们分别属于什么位置。数据如下：assists_per_minute为每分钟助攻次数points_per_minute为每分钟得分数实现代码：# 切换路径，导入数据setwd('D:/bigdata/R

2021-03-19 23:47:28 36822 8

原创 Docker学习之路04：创建定制Nginx镜像

Docker学习之路04：创建定制Nginx镜像目的：1、掌握利用commit命令构建镜像的方法2、掌握利用Dockerfile构建镜像的方法内容：下载镜像# 查看docker镜像[root@master ~]# docker imagesREPOSITORY TAG IMAGE ID CREATED SIZEcentos 7 8652b9f0cb4c 4 months ago 204MBela

2021-03-17 13:55:41 40491 2

原创 Docker学习之路03：Docker的常用命令

Docker学习之路03：Docker的常用命令一、帮助命令docker version # 显示docker的版本信息docker info # 显示docker的系统版本，包括镜像和容器的数量docker 命令 --help # 帮助命令Docker官方帮助文档地址：https://docs.docker.com/engine/reference/commandline/二、镜像命令docker images 查看所有本地的主机上的镜像[root@master /]# doc

2021-03-16 00:03:29 39723 1

原创 Docker学习之路02：阿里云镜像加速器

阿里云镜像加速器阿里云创立于2009年，是全球领先的云计算及人工智能科技公司，致力于以在线公共服务的方式，提供安全、可靠的计算和数据处理能力，让计算和人工智能成为普惠科技。阿里云服务着制造、金融、政务、交通、医疗、电信、能源等众多领域的领军企业，包括中国联通、12306、中石化、中石油、飞利浦、华大基因等大型企业客户，以及微博、知乎、锤子科技等明星互联网公司。在天猫双11全球狂欢节、12306春运购票等极富挑战的应用场景中，阿里云保持着良好的运行纪录。阿里云在全球各地部署高效节能的绿色数据中心，利用清

2021-03-15 23:57:06 40108 1

原创 Docker学习之路01：Docker的安装

Docker学习之路01：Docker的安装Docker 是一个开源的应用容器引擎，让开发者可以打包他们的应用以及依赖包到一个可移植的镜像中，然后发布到任何流行的 Linux或Windows 机器上，也可以实现虚拟化。容器是完全使用沙箱机制，相互之间不会有任何接口。一、环境准备1、需要 Linux 基础2、CentOS 7 系统3、我们使用Xshell连接远程服务器进行操作二、环境查看# 系统内核是 3.10 以上的[root@master /]# uname -r3.10.0-112

2021-03-15 23:47:40 40031 5

原创 Mysql问题解决：systemctl start mysqld报错

Mysql问题：systemctl start mysqld时报错报错信息：Job for mysqld.service failed because the control process exited with error code. See “systemctl status mysqld.service” and “journalctl -xe” for details.定位错误：vim /var/log/mysqld.log #查看日志信息看到最后一行（shift+G）原因分析

2021-03-08 19:59:02 34829 5

原创 Linux基础环境搭建（CentOS7）- 安装Mysql和Hive

Linux基础环境搭建（CentOS7）- 安装Mysql和Hive1 Mysql下载及安装MySQL是一个关系型数据库管理系统，由瑞典MySQL AB 公司开发，属于 Oracle 旗下产品。MySQL 是最流行的关系型数据库管理系统之一，在 WEB 应用方面，MySQL是最好的 RDBMS (Relational Database Management System，关系数据库管理系统) 应用软件之一。MySQL是一种关系型数据库管理系统，关系数据库将数据保存在不同的表中，而不是将所有数据放在一个

2021-03-01 17:41:12 43409 6

原创 Linux基础环境搭建（CentOS7）- 安装Scala和Spark

Linux基础环境搭建（CentOS7）- 安装Scala及Spark1 Scala下载及安装Scala是一门多范式的编程语言，一种类似java的编程语言，设计初衷是实现可伸缩的语言、并集成面向对象编程和函数式编程的各种特性。Scala的下载Scala下载链接：https://pan.baidu.com/s/1xe2u5W7k0XzZFX2r2Sk7Ag提取码：pwu7将下载的安装包通过Xftp传输到Linux虚拟机中Scala安装创建工作路径/usr/scala，下载scala安装包到

2021-03-01 10:01:24 45813 8

原创 Linux基础环境搭建（CentOS7）- 安装HBase

Linux基础环境搭建（CentOS7）- 安装HBase1 HBase下载及安装HBase是一个分布式的、面向列的开源数据库，该技术来源于 Fay Chang 所撰写的Google论文“Bigtable：一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统（File System）所提供的分布式数据存储一样，HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库，它是一个适合于非结

2020-09-20 14:27:50 42633 7

原创 Linux基础环境搭建（CentOS7）- 安装Kafka

Linux基础环境搭建（CentOS7）- 安装kafka1 kafka下载及安装Kafka是由Apache软件基金会开发的一个开源流处理平台，由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者在网站中的所有动作流数据。这种动作（网页浏览，搜索和其他用户的行动）是在现代网络上的许多社会功能的一个关键因素。这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。对于像Hadoop一样的日志数据和离线分析系统，但又要求实时处理的限制，这是一个可行的解决

2020-09-18 20:24:14 41580

原创 Linux基础环境搭建（CentOS7）- 安装Zookeeper

Linux基础环境搭建（CentOS7）- 安装zookeeper1 zookeeper下载及安装ZooKeeper是一个开源的分布式协调服务，由雅虎创建，是Google Chubby的开源实现。ZooKeeper的设计目标是将那些复杂且容易出错的分布式一致性服务封装起来，构成一个高效可靠的原语集，并以一系列简单易用的接口提供给用户使用。ZooKeeper是一个典型的分布式数据一致性的解决方案。分布式应用程序可以基于它实现诸如数据发布/订阅、负载均衡、命名服务、分布式协调/通知、集群管理、Master

2020-09-18 19:56:31 42962 4

?