3 rosefunR

尚未进行身份认证

我要认证

每次都多付出一点

等级
TA的排名 2k+

Pytorch cannot allocate memory

del X_train, y_train, X_valid, y_validgc.collect()torch.cuda.empty_cache()# torch.cuda.clear_memory_allocated() # entirely clear all allocated memory

2020-08-08 13:20:45

numpy含nan值进行归一化操作

1. 方法一import numpy as npA = np.array([[ 7, 4, 5, 7000], [ 1, 900, 9, nan], [ 5, -1000, nan, 100], [nan, nan, 3, 1000]])#Compute NaN-normsL1_norm = np.nansum(np.abs(A), axis=1)L2_norm =

2020-08-07 17:34:28

Pytorch学习率调整策略StepLR

CLASStorch.optim.lr_scheduler.StepLR(optimizer, step_size, gamma=0.1, last_epoch=-1, verbose=False)>>> # lr = 0.05 if epoch < 30>>> # lr = 0.005 if 30 <= epoch < 60>>> # lr = 0.0005 if 60 <= epoch < 90

2020-08-07 06:55:41

Python决策树的可视化

# Fit the classifier with default hyper-parametersclf = DecisionTreeClassifier(random_state=1234)model = clf.fit(X, y)text_representation = tree.export_text(clf)print(text_representation)from dtreeviz.trees import dtreeviz # remember to load the pack

2020-08-06 17:46:29

GLU、sparsemax激活函数

2. sparsemaxSoftmax:softmax缺点:每个向量位置都有值。文章From Softmax to Sparsemax:A Sparse Model of Attention and Multi-Label Classification 提出了能够输出稀疏概率的Sparsemax。这里把输入 z 和某个分布 p 的欧式距离最小化。一种具体的实现是,参考:论文;...

2020-08-06 14:54:34

距离度量

1. 欧氏距离绝对距离。2. 余弦距离角度。归一化后的欧式距离和余弦距离关系:参考:欧氏距离和余弦相似度的区别是什么?

2020-05-18 13:09:46

pySpark DataFrame上/下采样的方法

方法一:df_class_0 = df_train[df_train['label'] == 0]df_class_1 = df_train[df_train['label'] == 1]df_class_1_over = df_class_1.sample(count_class_0, replace=True)df_test_over = pd.concat([df_class_0, df_class_1_over], axis=0)方法二:train_1= train_initial.w

2020-07-13 21:36:29

pySpark Dataframe stddev()和stddev_pop区别

stddev: 返回样本的标准偏差stddev_pop: 返回样本的方差参考:简书

2020-07-13 01:16:09

pySpark repartition和coalesce的区别

搜尋結果網路上的精選摘要In Spark or PySpark repartition is used to increase or decrease the RDD, DataFrame, Dataset partitions whereas the Spark coalesce is used to only decrease the number of partitions in an efficient way.2020年4月12日Spark Repartition() vs Coalesce

2020-07-08 20:06:26

python 时间戳和datetime

import timetimestamp = time.time() #1594475666.4027507#转换成localtimetime_local = time.localtime(timestamp)#转换成新的时间格式(2020-07-11 21:54:26)time.strftime("%Y-%m-%d %H:%M:%S",time_local)

2020-07-11 22:02:35

pySpark kill掉集群的任务

连接上集群,执行yarn application -kill application_1511930647873_6100参考:Stack Overflow

2020-07-11 16:26:38

pySpark 关于SparkContext和SQLContext等模块

1. pyspark.sql模块是Spark SQL and DataFrames重要的类。pyspark.sql.SparkSession :是DataFrame and SQL 的主入口,比如可以createDataFrame.pyspark.sql.DataFrame :分布式的数据集合。pyspark.sql.Column DataFrame的列.pyspark.sql.Row DataFrame的行.pyspark.sql.GroupedData 聚合方法, 返回 DataFrame

2020-07-10 19:55:36

Linux文件 gz解压

gzip -d test.gz

2020-07-09 20:15:01

vim 粘贴慢

在 shell 下:$ :read !pbpaste参考:link

2020-07-08 23:55:18

pySpark DataFrame简介

1. 列名类型pyspark.sql.types moduleDataTypeNullTypeStringTypeBinaryTypeBooleanTypeDateTypeTimestampTypeDecimalTypeDoubleTypeFloatTypeByteTypeIntegerTypeLongTypeShortTypeArrayTypeMapTypeStructFieldStructType

2020-07-06 10:02:57

LeetCode44. 通配符匹配(python,动态规划) 通用解法

1. 题目给定一个字符串 (s) 和一个字符模式 § ,实现一个支持 ‘?’ 和 ‘*’ 的通配符匹配。‘?’ 可以匹配任何单个字符。‘*’ 可以匹配任意字符串(包括空字符串)。两个字符串完全匹配才算匹配成功。说明:s 可能为空,且只包含从 a-z 的小写字母。p 可能为空,且只包含从 a-z 的小写字母,以及字符 ? 和 *。来源:力扣(LeetCode) 链接:https://leetcode-cn.com/problems/wildcard-matching著作权归领扣网络所有。

2020-07-05 17:37:03

Spark实现xgboost多分类(python)

1. spark-xgboost Java包主要需要xgboost4j-spark-0.90.jar, xgboost4j-0.90.jar, 以及 调用代码 sparkxgb.zip.GitHub上面有xgboost java 实现的包,链接:xgboost;但我省事,用了zhihu xgboost的分布式版本(pyspark)使用测试 的下载链接。注意,xgboost 的版本号 和sparkxgb内的内容对应。2. xgboost多分类我是使用pyspark 运行,通过 pyspark --

2020-07-02 12:56:06

LeetCode718. 最长重复子数组(python)

1. 问题给两个整数数组 A 和 B ,返回两个数组中公共的、长度最长的子数组的长度。示例 1:输入:A: [1,2,3,2,1]B: [3,2,1,4,7]输出: 3解释:长度最长的公共子数组是 [3, 2, 1]。说明:1 <= len(A), len(B) <= 10000 <= A[i], B[i] < 100来源:力扣(LeetCode)链接:https://leetcode-cn.com/problems/maximum-length-of

2020-07-01 01:14:55

pandas dataframe中iloc和loc的区别

1. ilociloc主要定位的是相对位置,如kFold这种都是这种相对索引进行split。2. locloc定位的是dataframe 本身的index。示例:a = pd.DataFrame({"f1":[11,22,33,44,55]},index=[6,5,4,3,2]) f16 115 224 333 442 55如果使用 iloc:a.iloc[[0,2,3],:]f16 114 333 44如果使用 loc:a.loc[[0,2,3],:]f1

2020-06-20 22:40:14

pyspark sql数据类型

1. pyspark数据类型“DataType”, “NullType”, “StringType”, “BinaryType”, “BooleanType”, “DateType”,“TimestampType”, “DecimalType”, “DoubleType”, “FloatType”, “ByteType”, “IntegerType”,“LongType”, “ShortType”, “ArrayType”, “MapType”, “StructField”, “StructType”

2020-06-17 21:17:37

查看更多

勋章 我的勋章
  • 签到新秀
    签到新秀
    累计签到获取,不积跬步,无以至千里,继续坚持!
  • 专栏达人
    专栏达人
    授予成功创建个人博客专栏的用户。专栏中添加五篇以上博文即可点亮!撰写博客专栏浓缩技术精华,专栏达人就是你!
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 1024勋章
    1024勋章
    #1024程序员节#活动勋章,当日发布原创博客即可获得
  • 勤写标兵Lv4
    勤写标兵Lv4
    授予每个自然周发布9篇以上(包括9篇)原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。
  • 学习力
    学习力
    《原力计划【第二季】》第一期主题勋章 ,第一期活动已经结束啦,小伙伴们可以去参加第二期打卡挑战活动获取更多勋章哦。
  • 原力新人
    原力新人
    在《原力计划【第二季】》打卡挑战活动中,成功参与本活动并发布一篇原创文章的博主,即可获得此勋章。
  • 分享精英
    分享精英
    成功上传11个资源即可获取