7 xubc

尚未进行身份认证

IT酱油课

等级
TA的排名 5w+

Spark On Yarn的配置

Spark on Yarn模式下的配置spark-env.sh配置如下,standalone deploy mode部署模式下忽略export JAVA_HOME=/usr/jdk64/jdkexport SPARK_HOME=/opt/spark# Options read in YARN client/cluster modeexport SPARK_CONF_DIR...

2020-03-17 19:53:25

win10中tensorflow-gpu安装

本机安装的版本号如下操作系统:           Windows10    GPU型号:           NVIDIA GeForce 920MXTensorFlow版本:tensorflow-gpu 1.9.0CUDA版本:        cuda_9.0.176_win10CUDNN版本:     cudnn-9.0-windows10-x64-v7.1安装python的...

2018-07-25 10:25:43

spark中日志清理

spark开启history-server之后,app日志会保存在制定的目录下,若yarn开启日志收集,也需要进行app-logs的自动清理## yarn日志收集yarn.log-aggregation.retain-seconds = 1209600yarn.log-aggregation.retain-check-interval-seconds = 86400## spa...

2018-07-17 10:54:26

常见函数导数公式

2018-07-11 14:46:32

回归评价指标

分类问题一般使用准确率,召回率等评价指标,但是回归问题评价一般使用误差相关定义指标:MSE      Mean Squared Error     均方误差    这个就是目标损失函数loss functionRMSE   rmse = sqrt(MSE)MAER2参考:https://blog.csdn.net/skullFang/article/details/79107127...

2018-07-10 16:40:49

hbase regionserver进程启动参数

/usr/jdk64/jdk1.8.0_77/bin/java -Dproc_regionserver-Dcom.sun.management.jmxremote -Dcom.sun.management.jmxremote.port=18409 -Djava.rmi.server.hostname=10.50.70.20 -Dcom.sun.management.jmxremote.s...

2018-06-15 11:16:27

hive中SerDe使用

SerDe is a short name for “Serializer and Deserializer.”Hive uses SerDe (and !FileFormat) to read and write table rows.HDFS files –> InputFileFormat –> <key, value> –> Deserializer –&gt...

2018-05-07 11:21:48

推荐系统评测指标

用户满意度技术指标:准确率召回率覆盖率多样性流行度新颖度惊喜度实时性产品指标:点击率ctr转化率vppv

2018-03-29 14:42:37

信息熵

信息熵信息增益信息增益比基尼系数马太效应

2018-03-29 14:05:01

二分类评判指标

Precision:TP/(TP+FP),分类器预测出的正样本中,真实正样本的比例Recall:TP/(TP+FN),在所有真实正样本中,分类器中能找到多少Accuracy:(TP+TN)/(TP+NP+TN+FN),分类器对整体的判断能力,即正确预测的比例参考文章:http://alexkong.net/2013/06/introduction-to-auc-and-roc/...

2018-03-28 17:42:09

NLP处理-Spark中的HashTF与CountVectorizer模型

http://spark.apache.org/docs/latest/ml-features.html#tf-idfimport org.apache.spark.ml.feature._import org.apache.spark.ml.linalg.SparseVectorimport org.apache.spark.sql.SparkSessionimport sc

2017-07-10 15:32:17

maven编译异常错误loading CharSequence class file is broken

在用maven对项目进行编译打包时,遇到了下面奇怪的编译错误"C:\Program Files\Java\jdk1.8.0\bin\java" "-Dmaven.home=C:\Program Files (x86)\JetBrains\IntelliJ IDEA Community Edition 2016.2.1\plugins\maven\lib\maven3" "-Dclasswo

2017-07-06 11:09:38

spark application运行时版本不兼容错误

17/06/27 14:34:41 INFO deprecation: mapred.map.tasks is deprecated. Instead, use mapreduce.job.maps17/06/27 14:34:41 INFO MemoryStore: Block broadcast_0 stored as values in memory (estimated size 788

2017-07-03 17:46:52

ssh远程到目标机器执行命令shell脚本

linux下ssh到目标机器首先需要配置免密码登陆,才能执行如下脚本  hostnames服务器列表文件master.hadoopw1.hadoopw2.hadoopw3.hadoopw4.hadoop 运行shell脚本#!/bin/bashfunction usage() { echo "Wrong arguments input..." echo "Usa

2017-06-30 09:50:49

spark读取mongodb数据

val spark = SparkSession.builder .appName(this.getClass.getName().stripSuffix("$")) .getOrCreate() val df = spark.read.format("com.mongodb.spark.sql").options( Map

2017-06-26 11:38:51

spark在windows上local模式下的缺失winutils.exe异常

在window10上Intellij IDEA上已Local的模式运行调试Spark程序,并且将中间结果写入本地目录时,程序抛出异常错误Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties17/06/19 11:24:33 INFO SparkContext: Running Spark

2017-06-19 11:49:41

mongo在shell中操作命令

在linux中安装mongodb的客户端很简单,下载对应版本的mongodb-linux-x86_64-rhel62-3.4.2.tgz,解压后加入目录bin到环境变量中就可使用mongo 198.168.0.1:27017/nlp -u nlp_s -p 123456 连接mongo之后,数据库操作命令# 查看库中所有表show collections;# 查看表中数据db.

2017-06-05 11:44:07

随机变量协方差的意义

在概率论中,两个随机变量 X 与 Y 之间相互关系,大致有下列3种情况:当 X, Y 的联合分布像上图那样时,我们可以看出,大致上有: X 越大  Y 也越大, X 越小  Y 也越小,这种情况,我们称为“正相关”。当X, Y 的联合分布像上图那样时,我们可以看出,大致上有:X 越大Y 反而越小,X 越小 Y 反而越大,这种情况,我们称为“负相关”。

2017-05-26 14:12:16

spark提交任务端口占用异常

当在同一台机器上提交多个spark任务时 并且是以client的方式提交,会报端口占用错误17/05/05 15:51:07 WARN AbstractLifeCycle: FAILED org.spark-project.jetty.server.Server@3c8bdd5b: java.net.BindException: Address already in usejava.net.

2017-05-05 16:13:59

python库numpy的使用

python库numpy的使用

2017-04-27 15:24:36

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。