4 levy_cui

尚未进行身份认证

我要认证

科技改变世界,技术改变人生。

等级
TA的排名 1k+

Spark调优:提交job资源参数调优及内存模型调优

【场景】Spark提交作业job的时候要指定该job可以使用的CPU、内存等资源参数,生产环境中,任务资源分配不足会导致该job执行中断、失败等问题,所以对Spark的job资源参数分配调优非常重要。spark提交作业,yarn-cluster模式示例:./bin/spark-submit\--class com.ww.rdd.wordcount \--master yarn \--deploy-mode cluster \--executor-memory 4G \--num.

2020-06-23 17:39:09

pyspark提交代码到yarn模式,报错ImportError: No module

上一篇:PySpark任务在YARN集群上运行 关联python包numpy pandas scipy 等问题:在提交ALS.train代码到yarn模式的时候,会出现如下报错:import numpy as npImportError: No module named numpy说pandas的的dependency numpy包不存在,但事实上install pandas时,numpy必定是已经装过的,所以就到处找,应该是环境没有设置解决方式:1. 创建虚拟python环境.

2020-06-23 15:20:45

Spark ALS 协同过滤(CF)如何将Str类型的userID或itemID转换为Rating中要求的int类型

/*** 问题:* 在对数据进行训练时,Rating要求的是int,int,double,但是现有的数据是long,string,double类 型,使用toInt进行转换时依然会报错,这是因为long类型转换成int类型已经超出了int的最大值。** 解决思路:* 创建两张映射表,将long类型的字段映射成int类型(使用row_number()添加自增序列),然后拿映射的* 字段进行训练,训练完成后,再将映射的字段转换成原有字段,而后进行推荐。*...

2020-06-09 11:48:45

spark DataFrame 基本操作函数

DataFrame 的函数Action 操作1、 collect() ,返回值是一个数组,返回dataframe集合所有的行2、 collectAsList() 返回值是一个Java类型的数组,返回dataframe集合所有的行3、 count() 返回一个number类型的,返回dataframe集合的行数4、 describe(cols: String*) 返回一个通过数学计算的类表值(count, mean, stddev, min, and max),这个可以传多个参数,中间用逗号分隔,如果

2020-06-09 11:34:37

SuperSet logo修改、导出csv中文乱码、sql查询超时问题解决(默认30s)问题处理

一、网页标题及logo修改1、网页标题修改vi /root/anaconda3/envs/super/lib/python3.6/site-packages/superset/views/core.pyreturn self.render_template('superset/basic.html',entry='welcome',title='Superset',bootstrap_data=json.dumps(payload, default=utils.json_iso_dttm_

2020-05-25 11:56:09

在广告/搜索/推荐系统中 对展示结果打散的通用鲁棒算法

摘要:之所以同时提到广告/搜索/推荐三个系统,是因为这三者有一定的相似性,即通过一次请求(基于上下文、用户场景、关键词等)给用户呈现一篮子元素,这些元素包括如文章、商品、活动、专辑、音乐、视频等等。这一篮子需要展示的元素尽管是根据权重进行过排序,但一个很常见的问题就是基于视觉效果的考虑需对这个列表进行类别打散,最常见的一个例子是在电商领域,对推荐的商品进行类目/品牌等属性打散开,从而增加阅读舒适性...

2020-04-10 22:17:30

superset配置LDAP(MSFT AD)

superset配置ldap这块调试了好久,一直不能配置通,各种查,网上一些教程都是针对openldap的设置,我这边ldap服务器是微软的MSFT AD,最后也是结合网上的信息各种尝试,终于调试通了,特此单独记录一下,帮助需要的朋友。superset安装篇:Linux下安装Superset实践1、安装LDAP依赖pip install Flask-LDAP2、修改配置(supe...

2020-04-02 14:56:43

使用钉钉机器人对业务异常进行告警(Linux)

添加钉钉机器人目前个人已知的钉钉机器人只能存在于钉钉群,钉钉群的建群需求是至少 3 人,当然,你建群之后可以把其它人请出去。【1】首先,我们进入一个钉钉群创建我们的机器人:【2】目前钉钉已经存在了一些项目的机器人,你可以根据自己的选,当然,我们本次就用自定义的,添加一个名为 HELLO ROBOT 机器人:安全设置目前有3种方式:(1)方式一,自定义关键词(最简单的方...

2020-03-26 11:47:00

Linux下安装Superset实践

一、安装conda create --name super python=3.6yum install gcc gcc-c++ libffi-devel python-devel python-pip python-wheel openssl-devel libsasl2-devel openldap-devel根据官方文档操作,在执行到fabmanager create-admi...

2020-03-17 18:42:09

通过Spark访问Hbase的Hive外部表(hive on hbase的表)

业务处理的过程中,使用到pyspark访问hive,直接访问没有问题,后面遇到使用pyspark访问hive关联hbase的表(hive on hbase),就出现报错了。首先集群已经可以通过spark-sql读取hive的数据,然后进行如下配置。1.拷贝如下jar包到${spark_home}/jars(spark2.0之前是${spark_home}/lib): hba...

2020-02-24 15:16:05

pyspark读取hive数据写入到redis

1、首先把redis包引入工程,这样就不需要在集群里每台机器上安装redis客户端。$pip install redis$cd /usr/local/lib/python3.6/dist-packages/ 找到自己环境的路径$zip -r redis.zip redis/*$hadoop fs -put redis.zip /user/data/2、在代码里使用 addPyFile加...

2020-02-19 10:57:55

推荐系统排序算法的演进

在分析用户推荐系统程序排序算法之前,我们先介绍下推荐系统中的数据的特点,排序算法就是针对这种数据特点设计了不同的解决方案,才有了推荐算法的发展。首先我们先重点介绍下推荐系统中数据的几个鲜明特点:1、数据主要以离散数据为主,连续数据为辅,其中推荐系统中产生的核心数据绝大部分都是离散数据,所以推荐系统中排序算法就是要怎么解决大规模离散特征的学习;2、样本收集有限,物品在场景中的出现次数是有...

2020-01-21 09:34:55

Linux CentOS7安装Hive2.3并配置sparkSQL访问Hive

一、安装mysqlyum install wgetwget http://repo.mysql.com/mysql-community-release-el7-5.noarch.rpmrpm -ivh mysql-community-release-el7-5.noarch.rpmyum install mysql-server启动mysqlservice mysqld ...

2020-01-13 19:23:50

Spark ALS算法理解

ALS算法ALS的意思是交替最小二乘法(Alternating Least Squares),它只是是一种优化算法的名字,被用在求解spark中所提供的推荐系统模型的最优解。spark中协同过滤的文档中一开始就说了,这是一个基于模型的协同过滤(model-based CF),其实它是一种近几年推荐系统界大火的隐语义模型中的一种。隐语义模型又叫潜在因素模型,它试图通过数量相对少的未被观察到的底层原...

2020-01-09 14:14:08

pyspark读取hive数据实例

使用pyspark读取hive中的数据,测试代码:vi test.py#!-*- coding:utf-8 -*-from pyspark import SparkConf, SparkContextfrom pyspark.sql import HiveContextconf = (SparkConf().setMaster("yarn").setAppName("My ap...

2020-01-07 17:48:01

model.save(sc,'fname')异常Exception in thread "dag-scheduler-event-loop" java.lang.StackOverflowError

最近在使用pyspark保存model的时候出现Exception in thread "dag-scheduler-event-loop" java.lang.StackOverflowError报错,网上搜索了一下找下如下解决方案,有效。解决方法:操作步骤一1.连接上提交spark-submit的服务器,输入下面命令,可以看看默认的栈大小,我的是1Mjava -XX...

2020-01-07 15:50:24

Redis缓存数据库安装及python读写redis数据

一、安装Redis1.获取redis资源wget http://download.redis.io/releases/redis-4.0.8.tar.gz2.解压tar xzvf redis-4.0.8.tar.gz3.安装cd redis-4.0.8makecd srcmake install PREFIX=/usr/local/redis(如果有执行出...

2019-12-27 19:07:36

xgboost中XGBClassifier()参数

#常规参数booster gbtree 树模型做为基分类器(默认) gbliner 线性模型做为基分类器silent silent=0时,输出中间过程(默认) silent=1时,不输出中间过程nthread nthread=-1时,使用全部CPU进行并行运算(默认) nthread=1时,使用1个CPU进行运算。scale_pos_we...

2019-12-24 16:30:33

在Linux Centos7 上使用pyspark Notebook

首先安装anaconda 参考:https://blog.csdn.net/levy_cui/article/details/80898739https://blog.csdn.net/levy_cui/article/details/51143153anaconda安装时已经有了jupyter notebook,所以只需要配置好就可以!一、添加root启动权限如果输入 j...

2019-12-06 11:47:08

PySpark任务在YARN集群上运行 关联python包numpy pandas scipy 等

使用pyspark的时候代码会依赖numpy pandas scipy 等,这时候需要将相关的环境包一起提交,如何提交环境包文件,参考如下:Spark Application可以直接运行在YARN集群上,这种运行模式,会将资源的管理与协调统一交给YARN集群去处理,这样能够实现构建于YARN集群之上Application的多样性,比如可以运行MapReduc程序,可以运行HBase集群,也可以...

2019-12-04 11:46:32

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。