自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

(:

  • 博客(14)
  • 收藏
  • 关注

原创 Spark-ML

Spark MLspark.mllib基于RDD的数据抽象spark.ml基于DataFrame的数据抽象当前常用的库MLlib目前支持4种常见的机器学习问题:分类,回归,聚类和协同过滤[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-I3nkEscT-1609041103285)(E:\大学作业\000_机器学习\work2\sparkml.png)]机器学习流水线DataFrame可以容纳各种数据类型,而且类似传统数据库中的二维表格。它被

2020-12-27 11:52:01 125

原创 Spark-RDD

Spark中关于RDD的操作创建操作对象:from pyspark import SparkContext,SparkConffrom pyspark.sql import SparkSession,Rowimport jsonconf = SparkConf().setAppName("test1").setMaster("local")sc = SparkContext(conf=conf)加载数据自定义数据rdd = sc.parallelize("sd:f:sdf:sdf")

2020-12-27 11:50:44 296 1

原创 Spark-Streaming

pyspark的sparkstreaming

2020-12-27 11:50:29 231 1

原创 查看pyspark的源码自己的一些见解

pyspark是Spark的PythonAPI几个重要的类Spark的RDD变成SparkConf用来配置Spark,SparkConf直接设置的任何参数优先于系统属性。常用的方法:setMaster:设置要连接的主urlsetAppName:设置应用的名称set:设置配置属性(以字典的形式)。将其他的set**方法写进一个字典SparkContextSparkContext是Spark功能的入口SparkContext()的初始化方法可以以参数来配置Spark,但是

2020-10-17 23:04:40 290

原创 使用Spark遇到的一些问题

保存文件到HDFS上,发现会分成两个块from pyspark import SparkContextsc = SparkContext()text = sc.textFile("file:///home/hadoop/course/data1.txt")print(len(text.glom().collect()))text.saveAsTextFile("/saveTextFile2")使用第四行代码查看是否是RDD分区的问题,结果显示是2,那可能就是RDD分区的问题现在将分区分.

2020-10-17 23:03:47 103

原创 搭建Spark环境

将spark的包解压至/opt/module/并改名为spark设置环境变量vim /etc/profileexport SPARK_HOME=/opt/module/spark2.1.1export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbinexport PYTHONPATH=$SPARK_HOME/python/:$PYTHONPATHexport PYTHONPATH=$SPARK_HOME/python/lib/py4j-0.10.4-src

2020-10-17 23:03:24 119

原创 Spark

文章目录Spark概述Spark生态系统Spark基本概念Spark运行流程RDD运行原理Spark概述Spark来源于AMP实验室,在2009年被开发,Spark是对MapReduce的缺陷进行改进的特点:运行速度快内存计算,循环数据流基于DAG的执行引擎,可以进行流水线优化2.支持多种语言Scala Java Python R通用性SQL查询:Spark SQL流式计算:Spark Streaming机器学习:Spark MLlib图算法组件:Spark的Gr

2020-10-17 23:03:02 238 1

原创 Spark-SQL

文章目录SparkSQL简介SharkShark的两个问题SparkSQLSparkSQL的设计SparkSQL出现的原因DataFrameDataFrame的创建DataFrame的保存DataFrame常用操作RDD转换得到DataFrame1. 利用反射机制推断RDD模式2. 用编程的方式定义RDD模式SparkSQL简介Shark同样的,在Spark上也有将SQL语句转化成spark程序去执行但是刚刚开始是叫做SharkShark即Hive on Spark,为了实现与Hive兼容,Sh

2020-10-17 23:02:35 315 1

原创 搭建HDFS完全分布式

文章目录搭建HDFS完全分布式1.创建hadoop101节点(主节点)1.1 基本信息配置1.2 安装JDK1.3 安装hadoop2. 创建子节点2.1 克隆2.2 配置网络信息2.3 修改主机名3.拷贝文件3.1 脚本4.集群配置4.1 集群规划4.2 配置集群4.2.1 配置.sh文件4.2.2 配置xml文件4.2.3 配置日志聚集功能和历史服务器5.启动集群6. SSH无密码登入配置7. 启动集群7.1 群起集群的命令8. 集群时间同步9. 测试新增机器搭建HDFS完全分布式删除java rp

2020-09-16 14:50:54 196

原创 Vim

vim分为三种模式一般指令模式编辑模式  需按下【i,I,o,O,a,A,r,R】等任何一个字母才能进入编辑模式末行模式  再一般模式下输入【: ,/, ?】等任何一个字母才能进入编辑模式一般指令模式  移动光标   按键功能h或←光标向左移动一个字符j或↓光标向下移动一个字符k或↑光标向上移动一个字符l或→光标向右移动一个字符...

2020-02-15 21:57:11 112

原创 Linux

LinuxLinux的文件权限与目录配置文件属性1:文件类型权限2:连接数3:文件拥有者4:文件所属群组5:文件大小6:文件最后被修改的时间7:文件名文件类型权限:第一个字符代表 [目录, 文件或文件类型等] (-为文件, d为目录)后面9个字符分为三组分别代表 [文件拥有者权限, 文件所属群组权限, 其他用户权限]改变文件属性和权限chown (修改文件拥有...

2020-02-15 21:56:55 90

原创 Numpy

文章目录创建数组从现有数据中创建数组创建给定范围的数组创建等差数列常用方法数组大小,调整数组大小得到数组维度转秩数组的拼接数组的拆分数组的排序统计数组内的值判断,并且替换索引和切片数组的广播创建数组np1 = np.array([[1,2,3],[34,44,54]],dtype=float)np2 = np.array(np.random.randint(12,size=(3,4)),dt...

2020-02-15 21:54:15 113

原创 Pandas

Pandas主要处理三个数据结构Series (序列) 处理一维数据DataFrame (数据帧) 处理二维数据Panel (面板) 处理三维数据Series的创建语法: pandas.Series( data, index, dtype, name, copy, fastpath)Serie默认的index从0开始, 也可以自己指定默认创建s1 = pd.S...

2020-02-15 21:53:58 907

原创 JAVA

JAVA一. Java 语言版本Java SE: Java Standard Edition 标准版,核心Java EE: Java Enterprise Edition 企业版, 开发企业级应用Java ME: 小型版本Java Car: 智能卡二. Java 语言特点跨平台原理: JVM(Java Virtual Machine)Java是一个跨平台的语言, 但是JVM...

2020-01-15 17:11:45 167

flask+pySpark做的小项目

flask+pySpark做的小项目,豆瓣读书小说类书籍数据分析与可视化

2022-03-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除