6 幸运的Alina

尚未进行身份认证

我要认证

暂无相关简介

等级
TA的排名 3w+

Spark-shell 使用注意项记录

!!!直接杀进程的时候强烈建议提醒你自己你知道自己在做什么,为什么要这么做,不然,一个kill 命令下去一堆问题出现。在开发过程中会使用Spark-shell进行调试,这里记录下遇到的坑。在开发中没养成良好的退出习惯,每次ctrl+z就直接强制退出了,却不知在Yarn的application还处于等待消息接受状态中,后面发现多个端口都被占用后,无法启动Spark-shell,看了网上描述的最简单的是端口占用原因,直接杀掉端口对应进程。首先要说明这种方式很愚蠢,很不可取。当然我在实际中确实这么做了趟了

2020-05-26 19:39:40

HDFS、YARN相关操作

1.查看YARN-CLIENT模式下运行报错输出到日志yarn logs --applicationId 对应applicationID > yarn.log 2. 批量将HDFS上多个文件合成一个文件,该方式将多个文件合成到本地,如果要放到HDFS则需要再进行put操作hadoop fs -cat /user/alina/* >data.csv上述表示将HDFS上...

2020-03-19 09:42:51

知识图谱入门学习之路(三)----图算法PageRank

进入到图算法很多人最先接触的算法就是PageRank,PageRank是谷歌最开始创造并应用的,当初主要是为了用来评估构成网络中的每一个节点的重要性。 在正式结束PageRank算法之前,我们先了解下有网络图(The web graph)。网络图的特征就是:有向图,存在强连通区。在网络图中,网页作为图中的节点,超链接作为图中的边。In(V)={w| w can re...

2020-03-07 21:37:55

知识图谱入门学习之路(二)----图基础

知识图谱创建后,后续应用中会对图进行运算和处理,这里先盘点下最近学习到的图基础1. degree distribution(度分布)度分布用来描述在图网络中,基于各个度下的节点统计情况 公式中的表示度为K的节点数量举例如下:对于上面的图进行分析后可以得到下图的度分布情况:横坐标为度k2. Path Length(路径长度)路径长度用来衡量两点之间的最短距...

2020-02-27 13:22:17

知识图谱入门学习之路(一)

知识图谱入门学习之路(一)知识图谱主要的目标是用来描述真实世界中的各种实体和概念,以及实体之间的关系,在知识图谱中实体用节点来进行表示,实体与实体之间的关系用边来表示。知识图谱中涉及到的关键技术包括:知识抽取知识表示知识融合知识推理目前用到的图数据库主要使用的是neo4j...

2019-11-25 07:10:02

Linux挂载data盘

在实际Linux操作中,会把data盘挂载带硬盘上,而不是放在系统盘中,毕竟系统盘存储一般不是很大,首先查看当前通过系统识别到的盘fdisk -l 可以看到各个盘下的大小和分区信息,通过上面可以看到 /dev/sdb下有9T大小的内存 ,所以选择把data目录挂载到该磁盘上通过lsblk查看首先在根目录下创建data文件夹mkdir /data然和格...

2019-11-08 13:59:01

机器学习算法原理详解(一)-----逻辑回归

开一个系列来记录自己在学习机器学习算法原理中的心得与感悟,首先从逻辑回归开始写起吧。 逻辑回归在维基百科的定义是Logistic回归是一种统计模型,其基本形式是使用Logistic函数来对二元因变量建模,尽管存在许多更复杂的扩展。在回归分析中,逻辑回归(或logit回归)是对逻辑模型(一种二元回归形式)的参数进行估计。在数学上,二元逻辑模型有一个因变量,它有两个可能的值,比如通过/...

2019-09-27 15:51:22

HIVE实现count分组统计后提取分组列中的TOP1

背景,有一个需求就是有一张用户办理产品渠道表,表中的数据字段如下用户ID 产品ID 渠道 ID然后需要统计不同的产品ID下面哪一个渠道ID对应的用户数最多,把最大的那个渠道ID找出来和产品ID一一对应上。在这个需求上使用了HIVE的开窗函数来实现,具体实现SQL语句如下select pro_id,qudao_code from (select pro_id,qud...

2019-08-06 09:16:56

HIVE与HDFS进行数据导入导出操作

1. 将HDFS文件导入到HIVE中1.1 创建内部表create table result(user_id int ,product_id int ,rating float) commend "save user information" row format delimited fields terminated by ',' ; load data inpath "/ha...

2019-07-24 16:53:51

PySpark集群运行任务报错No Space Left on the device

在实际运用中运用Spark集群跑任务的时候出现No Space Left on the device的错误,解决方法如下:1. 修改配置文件spark-env.sh,把临时文件引入到一个自定义的目录中去即可export SPARK_LOCAL_DIRS=/data/tmp2. 通过df -h 和du -sh * 查看当前的磁盘的使用情况,清理磁盘...

2019-07-24 16:37:14

python UnicodeEncodeError: 'ascii' codec can't encode characters in position 209-210

在平时开发的时候没有注意,最近出现了UnicodeEncodeError: 'ascii' codec can't encode characters in position 209-210: ordinal not in range(128)解决方法就是本身如果是用了print(str(sql))或者print(sql)改为print(sql.encode('utf-8')...

2019-07-24 11:43:19

Pyspark中的DataFrame操作汇总

1. 读取csv文件为DataFrame通过Pyspark直接读取csv文件可以直接以DataFrame类型进行读取,通过利用schema模式来进行指定模式。假设我有一个.csv文件,里面有四列数据,长这样,该.csv文件没有header。分别为用户id,电影id, 电影评分,时间戳通过导入Spark SQL中引入数据类型,import pyspark.sql.type...

2019-07-07 16:57:16

Python运行Spark集群环境踩坑记录

这一段时间一直在弄spark集群,然后开发使用的是python开发,其中环境的坑多到几度想令我放弃,这也就是公司没有配置专业搭环境的工程师的弊端,遇到事情了只能自己解决,于是自己记录下不同的坑,方便自己以后排雷,也放出来给有需要的人。1. 在python中配置环境变量注意点 首先就是python环境在集群中必须一致,如果是采用os.environ的方法的话,不然你就会遇到如下的报错解决...

2019-07-07 12:39:58

解决在Hive建表时root用户对HDFS无权限问题

在使用pyspark 将DataFrame的数据插入到HIve中时,遇到了root账号无法insert数据到hive中,报错信息如下:org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.AccessControlException): Permission denied: user=root, access=WRIT...

2019-07-02 11:37:22

linux下将Python环境默认更改为Python3.6

由于在实际使用的时候由于默认的一些程序都是使用的python如果直接调用启动的是Linux自带的2.7的环境就会出现很多问题, 所以这里记录下环境更改为3.6的做法mv /usr/bin/python /usr/bin/python.bak #删除原来指向python2的软链接ln -s /usr/local/python3.6/bin/python3.6 /usr/bin/pytho...

2019-06-26 15:23:38

pyspark中读取文件后的RDD操作

本文记录下在python环境中对RDD的一些操作方法1. 创建RDD关于读取文件创建RDD的方法在前面文章已经介绍过来,这里就不做介绍了。还有一种自定义的data_rdd = sc.parallelize([('Alina',26),('Tom',22),('Sky',12),('Blue',21)])2. lambda 表达式在RDD重最常用到的就是lambda和...

2019-06-23 16:47:15

Spark读取文件如何区分HDFS文件和本地文件

在Hadoop集群上配置的Spark如果直接读取文件默认的是读取HDFS上的文件,那么如果想要读取本地的文件就不能直接写还需要说明如下:from pyspark.sql import SparkSessiondef CreateSparkContext(): # 构建SparkSession实例对象 spark = SparkSession.builder \ ...

2019-06-23 16:06:38

如何将编写的py文件提交到spark并在集群下执行job

没学过java的时候用Spark可能一开始就会直接用Python对接,因为如果是创建scala语言的话,会存在很多问题,包括生成scala类或者object,以及最终在idea里面编译成jar包,因为需求紧急,所以就直接用Python来写了,那么将写完的 python文件如果只是在某个集群中的一台机器上运行,那么会发现实际整个运转都是在本地执行的,并没有做到集群运算,所以这里需要使用的就是进入到s...

2019-06-20 09:35:56

在Python的环境下对Spark文件操作

在实际使用Spark做集群运算的时候我们会遇到很多实际的问题,特记录下来,本文主要讲解关于Spark读文件为RDD ,然后RDD转DataFrame,然后将RDD存为文件,以及如何保存DataFrame到文件from pyspark.sql import SparkSessiondef CreateSparkContext(): # 构建SparkSession实例对象 ...

2019-06-20 09:19:33

numpy中一些用法汇总

本篇文章用来总结在使用numpy库使用到的函数,方便自己回过头来查阅,在开始默认导入如下设置import numpy as np1. 奇异值分解会用到numpy.linalg.svd(a,full_matrices=True,compute_uv=True) a : 维度大于等于2的矩阵full_matrices: 默认为True ,用来表示u, vh是否维度分别为(...

2019-05-26 17:32:02

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv2
    勤写标兵Lv2
    授予每个自然周发布4篇到6篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。