9 guotong1988

尚未进行身份认证

Coding Forever

等级
TA的排名 236

multi-label分类,loss一直增大

label为[batch_size, num_class]logits为[batch_size, num_class]每个label为比如[0,0,1,0,0,0,1,0,1,0],就是10类有3类正确不能用tf.nn.softmax_cross_entropy_with_logitsPytorch使用torch.nn.BCElossTensorflow使用tf.losses.sigmo...

2020-02-25 20:13:35

多分类的 准确率 召回率 代码

from sklearn.metrics import classification_report,confusion_matrix# 准确率 召回率 F1 每个类的数据量precision_recall_report = classification_report( y_true=all_groundtruth_list, y_pre...

2020-02-18 10:45:28

spark 1.6 大坑之不要一个dataframe自己和自己join

join之前重命名column,join还是bug,根本不行。

2020-02-11 16:51:38

java/scala正则匹配英文句号

object ScalaTest { def main(args: Array[String]): Unit = { println("ABC...".replaceAll("\\.", "")) println("ABC…………".replaceAll("…", "")) }}

2020-02-11 10:37:23

spark 1.6 大坑之不要用show方法调试

用df.write.mode(SaveMode.Overwrite).saveAsTable(“XXX”)

2020-02-10 16:28:20

入门推荐系统必读

【排序】大规模稀疏线性排序模型FTRL工程实现 Ad click prediction: a view from the trenches (http://www.eecs.tufts.edu/~dsculley/papers/ad-click-prediction.pdf)【排序】GBDT LR融合模型 Practical Lessons from Predicting C...

2020-02-02 12:58:41

TensorFlow restore lhs shape rhs shape 的错

模型定义一致,但有些小参数传入不一致。

2020-01-22 12:42:29

IDEA cannot resolve symbol java.util的都不行

已经设置java SDK,已经试过Invalidate Caches,用的2019.2版本的IDEA,升级到2019.3.1版本IDEA,重新装scala plugin和设置java SDK scala SDK,莫名好了。

2020-01-21 16:20:38

spark 本地测试

下载spark-2.2.0-bin-hadoop2.6.tgz然后进bin里运行./spark-shell然后

2020-01-21 14:23:37

SQL的join本质是一个两层for循环

伪代码final_table = []for row1 in left_table: for row2 in right_table: if condition(row1["col1"],row2["col2"]) == True: final_row = row1 + row2 final_table.append(fi...

2020-01-20 13:15:14

spark 一个dataframe的两个列的编辑距离

val actualDF = sourceDF.withColumn( "word1_word2_levenshtein", levenshtein(col("word1"), col("word2")))actualDF.show()+------+-------+-----------------------+| word1| word2|word1_word2_leve...

2020-01-20 11:19:46

pandas dataframe join

import pandas as pdleftDF = pd.read_csv("left.csv")rightDF = pd.read_csv("right.csv")print(leftDF)print(rightDF)joined = leftDF.set_index('city').join(rightDF.set_index('city'),on="city",how="...

2020-01-20 10:38:55

spark flatMap

val rdd1 = sc.parallelize(Seq(("one two three four five six seven"), ("one two three four five six seven"), ("one two three four five six seven")))然后rdd1.map(_.split(" ")).collect结果Array[Arra...

2020-01-20 10:03:27

spark left_outer join 左表有null

因为join的两个key重名了,结果是右表的key列。

2020-01-19 17:23:43

spark 两个dataframe的两个列的集合交集

def intersectFn = udf { (document0: String, document1: String) => val set1 = document0.split("@@@").toSet val set2 = document1.split("@@@").toSet val intersect_set = set1.interse...

2020-01-19 10:59:02

spark 两个dataframe的两个列的编辑距离

import org.apache.spark.sql.functionsval jdf = df1.join(df2,functions.levenshtein(df2("str_col1"),df1("str_col2"))<5)

2020-01-19 10:53:16

spark saveAsTable 太慢

前面有个join,可能是join的两边重复的key太多了。

2020-01-17 14:50:43

spark 相同的key的value聚合成一个

wordcount例子val conf = new SparkConf().setAppName("GroupAndReduce").setMaster("local")val sc = new SparkContext(conf)val words = Array("one", "two", "two", "three", "three", "three")val wordsRDD = ...

2020-01-16 20:02:25

文本分类 20个epoch后dev acc还在上升

很可能是因为dev集和train集的数据太像了,train集过拟合导致dev集也过拟合,基本5-10个epoch就差不多了。

2020-01-13 10:33:36

通过理解全连接神经网络 理解了attention

以往理解的全连接神经网络的作用,是个memory,是用来分类,而近期发现,全连接神经网络其实是学到了 L层每个输入节点 对 L+1层每个输出节点 的加权求和贡献比,每个边是一个权重也就是一个输入节点到一个输出节点的贡献其实就是attention回想transformer里的K、V、Q,是可以把attention matrix看成全连接层的,[batch,seq_len1,seq_len2...

2019-12-25 15:17:35

查看更多

勋章 我的勋章
  • 专栏达人
    专栏达人
    授予成功创建个人博客专栏的用户。专栏中添加五篇以上博文即可点亮!撰写博客专栏浓缩技术精华,专栏达人就是你!
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 1024超级勋章
    1024超级勋章
    授予原创文章总数达到1024篇的博主,感谢你对CSDN社区的贡献,CSDN与你一起成长。
  • 勤写标兵Lv3
    勤写标兵Lv3
    授予每个自然周发布7篇到8篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。