10 guotong1988

尚未进行身份认证

我要认证

AGI Never Stop

等级
TA的排名 244

performer 代码

https://github.com/google-research/google-research/tree/master/performer

2020-10-28 14:45:30

Self-training Improves Pre-training for Natural Language Understanding 笔记

self-training,是用训练好的模型的预测结果 作为 伪target,混入原训练集一起训练,该文的创新在于提出一种文本相似度算法从海量文本中找出和 训练集中的文本 相似的文本,然后用训练好的模型对这批 找出的相似的文本 进行预测出 伪target,然后混一起,然后是BERT fine-tune,提升了fine-tune的效果,似乎跟文章题目说的pre-train没关系。原文也提到了:...

2020-10-22 15:38:08

Relative Position Representations

Self-Attention with Relative Position Representations摘要在原始transformer,位置信息通过加一个position的embedding实现,(因为position开始也是一个one-hot)本文提出将 自注意力 考虑 token之间的距离位置信息相对位置表示 比 绝对位置表示 在机器翻译任务上提升(BERT为啥不用相对位置?感觉因为机器翻译这个任务更关注token之间的相对位置)并且发现:结合 绝对位置表示 和 相对位置表示,没有进一步提

2020-10-14 09:53:48

ConvBERT 阅读笔记

ConvBERT: Improving BERT with Span-based Dynamic Convolution摘要虽然BERT的从全局产生了注意力map,我们观察到一些 注意力头 只需要学到局部的依赖即可,也就是BERT存在冗余。于是我们提出 基于区间的动态卷积 来替换 自注意力头 来 直接建模局部依赖。ConvBERT-BASE模型在GLUE达到86.4分,比ELECTRA-BASE高0.7分,同时仅用1/4的训练量。做法多头自注意力提取整体特征,卷积提取局部特征,我们提出 将卷积

2020-10-13 10:23:24

tensorflow,单机多GPU,无estimator,代码

https://github.com/zihangdai/xlnet/blob/master/train_gpu.py

2020-09-28 10:45:51

pytorch add_

# a = a + 4 * 5import torcha = torch.tensor([1,2,3])a.data.add_(torch.tensor(4),torch.tensor(5))print(a) # tensor([21, 22, 23])

2020-09-22 20:40:05

pytorch addcdiv 和 addcdiv_

# a = a + 4 / 2import torcha = torch.tensor([1,2,3])a.addcdiv(torch.tensor(4),torch.tensor(2))print(a) # tensor([1, 2, 3]) # 值不加a.data.addcdiv_(torch.tensor(4),torch.tensor(2))print(a) # tensor([3, 4, 5]) # 值加a = a.addcdiv(torch.tensor(4),torch.t

2020-09-22 20:37:27

RecAdam optimizer 阅读笔记

Recall and Learn: Fine-tuning Deep Pretrained Language Models with Less Forgetting摘要在优化器角度,全任务提升BERT fine-tune的效果做法提出 模拟预训练,可以fine-tune时 无数据预训练提出 目标Shifting,可以在 模拟预训练 同时训练fine-tune目标大概思想loss使之和 fine-tune之前 的模型参数有关其中θ是fine-tune时模型,θ*是fine-tune之前的模型

2020-09-22 15:13:35

Group-wise Contrastive Learning for Neural Dialogue Generation 阅读笔记

摘要为解决生成多样性低的问题思想找到正向和负向group的context和response,设计loss做法首先有其中pn是baseline模型,pm是target模型其中c是输入文本 r是回复文本,构造loss:最大化正向回复,最小化负向回复这个loss即刻画 相对baseline模型的生成多样性 或 分布独立性正向回复和负向回复的采样,使用了BM25+匹配模型...

2020-09-21 17:07:29

Spark Lucene BM25 TFIDF 集成

从 https://github.com/agile-lab-dev/sparksearchengine 下载源码,复制进自己的项目import it.agilelab.bigdata.spark.search.SearchableRDDimport it.agilelab.bigdata.spark.search.dsl._import it.agilelab.bigdata.spark.search.impl.analyzers.{DefaultAnalyzer, EnglishWikipedi

2020-09-16 12:11:18

BERT fine-tune,loss不下降,训不动,固定分类到一类

语料应该没问题,不restore任何东西的话,都有效果。模型换成google官方bert,分类器代码不变,没问题。解决方案把bert_output = bert_model.get_pooled_output()改为bert_output = tf.reduce_mean(bert_model.get_sequence_output()[:,1:,:],1)...

2020-09-11 17:51:17

tensorflow 构造非零mask

import tensorflow as tfbert_input_ids = tf.constant([[1,2,0,3],[1,0,2,0]],dtype=tf.float32)tmp = tf.sign(bert_input_ids)bert_mask = tf.cast(tmp, tf.float32)sess = tf.Session()print(sess.run(bert_mask))print(sess.run(bert_input_ids * bert_mask))pri

2020-09-04 16:27:35

fastjson,toJSONString后入库,数据混乱

写出小testcaseobject Test { def main(args: Array[String]): Unit = { val tmpArrayList = new util.ArrayList[JSONObject]() val tmpMap = new JSONObject(true) tmpMap.put("id",1) tmpMap.put("name","hello") tmpArrayList.add(tmpMap) print(J

2020-09-03 14:08:15

tensorflow permute

我猜是在找tf.transpose

2020-09-01 16:25:23

Spark 取每个groupby的N条数据

如果用groupby接口的话,可能OOM,import org.apache.spark.sql.expressions.Windowimport org.apache.spark.sql.functions.{rand, row_number}val windowFun = Window.partitionBy("groupby_column").orderBy(rand())val resultDF = dataDF.withColumn("rank", row_number.over(wi

2020-08-21 09:53:50

GPT-2 详解

http://jalammar.github.io/illustrated-gpt2/

2020-08-17 19:29:04

SQL 去重

select name, picture_url from table_namewhere name = 'ABC' or name = 'DEF' 想对name去重,而不对picture_url去重,picture_url随便取一个就行如果写成select distinct name, picture_url from table_namewhere name = 'ABC' or name = 'DEF' 就是对name+picture_url去重解决方案:select name,

2020-08-10 15:35:18

tf.keras.layers.Dense 在 reuse 时有坑

with tf.variable_scope("", reuse=tf.AUTO_REUSE): model_train = MyModel( is_training=True)with tf.variable_scope("", reuse=True): model_dev = MyModel( is_training=False)model_train.train(data_train, data_dev, model_dev)MyModel里有t

2020-07-17 11:52:28

TensorFlow 构造 attention mask 或 causal mask

def upper_triangle_bias(D, dtype=tf.float32): """Create a upper triangle matrix for decoding bias.""" upper_triangle_DxD = 1 - tf.matrix_band_part( tf.ones([D, D], dtype=dtype), -1, 0) tensor_1xDxD = tf.expand_dims(upper_triangle_DxD *

2020-07-14 09:58:18

tf.estimator tf.data 混合不同的数据

import tensorflow as tfdataset_1 = tf.data.Dataset.from_tensors(1).repeat(20)dataset_2 = tf.data.Dataset.from_tensors(2).repeat(20)dataset = tf.data.Dataset.zip((dataset_1, dataset_2))dataset = dataset.batch(8)dataset = dataset.map(lambda a, b: tf.c

2020-07-07 14:18:13

查看更多

勋章 我的勋章
  • 专栏达人
    专栏达人
    授予成功创建个人博客专栏的用户。专栏中添加五篇以上博文即可点亮!撰写博客专栏浓缩技术精华,专栏达人就是你!
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 1024超级勋章
    1024超级勋章
    授予原创文章总数达到1024篇的博主,感谢你对CSDN社区的贡献,CSDN与你一起成长。
  • 勤写标兵Lv3
    勤写标兵Lv3
    授予每个自然周发布7篇到8篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。
  • 分享王者
    分享王者
    成功上传51个资源即可获取