7 爆米花好美啊

尚未进行身份认证

我要认证

个人网站: renguanghui.com

等级
TA的排名 1w+

Pycharm无法识别__init__里import的包,ctrl时无法跳转

Pycharm无法识别我项目模块的包。我注意到已经有相当多的问题,但我尝试了所有给定的解决方案,没有任何作用。我试过了:-Mark directory as source root&检查Add sources root to pythonpath- 打开一个不同的项目,然后重新打开原来的项目,使pycharm重新索引包有什么建议吗?我回答了以下问题PyCharm does not recognize modules installed in development mo...

2020-07-08 15:15:53

捕捉SIGKILL信号(kill -9)

-9 KILL (non-catchable, non-ignorable kill)kill -9 is SIGKILL and Unix system by design doesn’t allow any script/program to trap SIGKILL due to security reasons. Otherwise any script can trap & ...

2020-02-10 16:22:49

Momentum Contrast for Unsupervised Visual Representation Learning

Motivation已有的利用contrastive learning做unsupervised visual representation learning要么受限于GPU不能使用大batch,要么不能保证query和key一致因此本文提出了Momentum Contrast (MoCo),利用队列和moving-averaged encoder构建一个动态字典Review Unsuper...

2019-11-18 22:07:09

Tutorial: Knowledge Distillation

概述Knowledge Distillation(KD)一般指利用一个大的teacher网络作为监督,帮助一个小的student网络进行学习,主要用于模型压缩。其方法主要分为两大类Output DistillationFeature DistillationOutput DistillationMotivation主要拉近teacher和student最终输出的距离,参考论文:...

2019-11-14 22:03:20

Knowledge Distillation via Route Constrained Optimization

Motivation已有的KD方法提升性能都是基于一个假设:teacher模型可以提供一种弱监督,且能被一个小student网络学习,但是实际上一个收敛的大网络表示空间很难被student学习,这会导致congruence loss很高因此本文提出一种策略route constrained optimization,根据参数空间的route去选择teacher的参数,一步一步的指导studen...

2019-11-14 21:59:57

FitNets: Hints for Thin Deep Nets

其实应该先早点写这篇文章的这篇文章主要是将hinton的output distillation扩展到了feature distillation该loss用来拉进student和teacher feature的距离该loss就是与hard label、soft label做cross entroy训练过程需要注意:先进行hints training,即选择某一层feature对...

2019-11-14 21:58:52

Distilling the Knowledge in a Neural Network

其实应该最先写这篇文章的总结的,之前看了忘了记录Motivationone hot label会将所有不正确的类别概率都设置为0,而一个好的模型预测出来的结果,这些不正确的类别概率是有不同的,他们之间概率的相对大小其实蕴含了更多的信息,代表着模型是如何泛化判别的。比如一辆轿车,一个模型更有可能把它预测成卡车而不是猫,这其实给出了比one hot label更多的信息即轿车和卡车更像,而和...

2019-11-14 21:54:59

Correlation Congruence for Knowledge Distillation

Motivation目前大多数KD框架的pipeline一张图片送入teacher和student得到各自的feature和output然后定义loss,拉进feature或者output的距离但是他们都是直接在一个整图级别上做的,student很难学习到teacher的那种处理类内和类间的能力如下图:白色空心圈是期望学习到的效果左边是期望类间可以拉开,右边是期望类内可以聚拢M...

2019-11-14 21:51:41

A Comprehensive Overhaul of Feature Distillation

MotivationClovaAI今年ICCV做了还几篇总结性的工作,该篇也类似,先总结当下做feature distillation的各个方向,总体的pipeline是选取student和teacher网络结构的某个位置然后对特征进行变换,最后拉进他们的距离Teacher transform: 为了让teacher和student的feature map一样大(空间或者通道),会对teac...

2019-11-07 20:49:17

Attention Transfer

Paying More Attention to Attention: Improving the Performance of Convolutional Neural Networks via Attention TransferMotivation大量的论文已经证明Attention在CV、NLP中都发挥着巨大的作用,因为本文利用Attention做KD,即让student学习tea...

2019-11-07 20:45:52

Be Your Own Teacher: Improve the Performance of Convolutional Neural Networks via Self Distillation

Loss Source 1: Cross entropy loss,各个阶段的分类器都有Loss Source 2: KL loss,深层的分类器作为浅层分类器的teacherLoss Source 3: L2 loss from hints,深层分类器的特征和浅层分类器的特征做L2 loss,bottleneck即feature adaptation,为了使student和teacher一...

2019-11-07 20:44:16

Similarity-Preserving Knowledge Distillation

Motivation下图可以发现,语义相似的输入会产生相似的激活。这个非常好理解,这个C维的特征向量可以代表该输入的信息因此本文根据该观察提出了一个新的蒸馏loss,即一对输入送到teacher中产生的特征向量很相似,那么送到student中产生的特征向量也应该很相似,反义不相似的话同样在student也应该不相似。该loss被称为Similarity-preserving,这样studen...

2019-11-05 22:01:57

On the Efficacy of Knowledge Distillation

Motivation实验观察到:并不是性能越好的teacher就能蒸馏(教)出更好的student,因此本文想梳理出影响蒸馏性能的因素推测是容量不匹配的原因,导致student模型不能够mimic teacher,反而带偏了主要的loss之前解决该问题的做法是逐步的进行蒸馏,但是效果也不好。左边Teacher为WRN k-1,k是深度,Student是WRN16-1和DN40-12(D...

2019-11-01 19:04:14

Revisit Knowledge Distillation: a Teacher-free Framework

Observations通过几组实验观察到反转Knowledge Distillation(KD)即利用student来guide teacher的话,teacher的性能依然可以得到提升用一个比student还差的teacher来guide student的话,student的性能依然可以得到提升因此作者得到以下观点KD只是一种可学习的label smoothing regula...

2019-10-30 21:38:43

Distilling Object Detectors with Fine-grained Feature Imitation

Motivation检测起更focus在物体出现的区域 Detectors care more about local near object regions.物体出现的周围特征变化其实包含了更多重要信息,这是student网络需要向teacher网络学习的注解:与分类不同,蒸馏方法在检测中如果进行全特征模仿的话对子网络的提升很有限(这里存疑,文章没有明确指出全特征模仿了哪些特征层)。...

2019-10-30 21:27:37

NLP pretrained model

最近在公司听了NLP pretrained model的报告,感觉受益匪浅,特此分享。此处大量参考从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史Word Embedding词向量在自然语言处理中有着重要的角色,它将抽象的词语之间的语义关系量化成向量形式。有了良好的词向量,我们就可以做更多的工作。目前构建词向量的方式大体上分成两大类:统计方法:通过统计词语...

2019-10-27 20:42:58

2-D CTC Loss

2D-CTC for Scene Text RecognitionMotivation普通的CTC仅支持1-d,但是文字识别不像语音识别,很多时候文字不是水平的,如果强行“压”到1d,对识别影响很大,如下图所示Review 1-D CTC首先对alphabeta进行扩充,加入blank符号,然后定义一个映射规则: blank之间的相同字符可以去重计算loss时,对每个gt labe...

2019-10-18 17:30:22

CTC Loss和Focal CTC Loss

最近一直在做手写体识别的工作,其中有个很重要的loss那就是ctc loss,之前在文档识别与分析课程中学习过,但是时间久远,早已忘得一干二净,现在重新整理记录下本文大量引用了- CTC Algorithm Explained Part 1:Training the Network(CTC算法详解之训练篇),只是用自己的语言理解了一下,原论文:Connectionist Temporal C...

2019-07-24 17:48:27

头条面试题-统计有序数组里平方和的数目

#include <iostream>using namespace std;int get_square_n(int*a, int i, int j){ int cnt = 0; while(i < j){ while(i<j && (a[i]*a[i]) == (a[j]*a[j])){ i++; j--;...

2019-07-21 12:13:39

最大连通域

#include <iostream>using namespace std;int max_area=0;void dfs(int a[][10], int i, int j, int h, int w, int flag, int area){ a[i][j] = -flag; if(i-1>=0 && a[i-1][j] > 0)...

2019-07-21 11:08:18

查看更多

CSDN身份
  • 博客专家
勋章 我的勋章
  • GitHub
    GitHub
    绑定GitHub第三方账户获取
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 1024勋章
    1024勋章
    #1024程序员节#活动勋章,当日发布原创博客即可获得
  • 勤写标兵Lv2
    勤写标兵Lv2
    授予每个自然周发布4篇到6篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。