rca_finforc-CSDN博客

原创 MPN (Learning Normal Dynamics in Videos with Meta Prototype Network)代码阅读

该论文通过在AE baseline上加入动态原型单元DPU，为不同的正常模式构建动态原型，每个常态原型编码场景的不同正常属性(diverse normal attributes)。该论文验证了动态原型建模正常模式分布的可行性。关键词：动态原型、注意力机制、端到端学习解决了什么问题：记忆模块需要大量内存，且无法处理在测试数据中新出现的场景。该论文的任务是：提取出正常模式的动态原型；视频异常检测。其中每种原型代表一种被记忆的场景元素，如下图：论文代码中表现出的总的结构如下所示1. 数据集加载预设

2022-06-22 09:19:59 1433 12

原创 PCL代码调试

该论文模型与MoCo出奇地相似。使用了EM算法的步骤，在E步骤调用函数对特征进行聚类；在M步骤使用ProtoNCE loss更新encoder的参数。代码来源：https://github.com/salesforce/PCL.git本机环境：CUDA11.4+torch1.8.2+1080x2训练main_pcl.py原文中采用为256且线程数为32，机器显存不够用故调整batch为64，线程数4。我下载的数据集是imagenet100，其中共100个类别，每个类别训练图片为1000，测试图片为3

2022-06-10 09:12:22 439

原创 How to write a good paper(读后感)

How to write a good paper论文的结构：开始时列出要处理的问题。简短地论述问题的解决方案。与其他人的解决方案进行比较。介绍应用于不同问题的相似技术和实验。开头：生动的引入中心思想：使用简单例子说明中心思想。实验：验证中心思想最后：论文提出方法能解决什么问题——即能带来什么收益，可以用在哪里。（请不要使用future work来结束一篇论文）第二步：Title请勿使用万能词（wildcard），应该有精确的范围，而不是覆盖了邻域内的大多topics。

2022-04-08 18:11:55 215

原创 Anomaly Detection （视频异常识别）

什么是异常识别异常样本将unintentional anomalies分类为：novel examplesout of distribution examplesin distribution examplesAdversarial examples（对抗样本：通过给正常样本加噪的方法构建，肉眼不一定可见。用于构建更有泛化能力的模型而引入。）应用计算机视觉、数据挖掘、自然语言处理等。视频监督异常检测。诈骗检测，网络侵入检测。医学异常检测，传感器网络异常检测。物联网大数据异常检测

2021-12-10 11:31:47 1801

原创行为识别相关文献阅读

行为识别任务预测某个时间间隔上的行为。视频分类：预测整个视频的行为。图像分类器。难点严重依赖物体和场景。数据集带来的问题：骑马和跑步可以用有没有马来区分；遛狗和化学可以用背景区分。这也就导致了真正对动作去区分这么一个功能没做到。光流的问题：长度和语义。光流的帧数少难以描述长时间的动作。本身意义不明显，论文On the Integration of Optical Flow and Action Recognition提出了一个观点光流可能只是掩盖了外观信息。CNN擅长捕获物体和场景信息

2021-11-19 20:46:50 2459

原创 GST: Grouped Spatial-Temporal Aggregation for Efficient Action Recognition 论文阅读

Grouped Spatial-Temporal Aggregation for Efficient Action Recognition要解决的问题：作者对比了Kinetic和Diving48这两种类型的数据集。Kinetic通过静态场景和物体就可识别，甚至打乱顺序也没关系；而Diving48时序相关性较强，只用帧级别的推断是无法得到正确分类结果的。使用的方法：时间和空间两条并行的支路分别实现时序推理（获取动作信息）和外观信息捕捉（获取静态信息）。使用了分解的思路3×3×3→1×3×3+3×3×33

2021-10-30 14:44:07 775

原创 Spatio-Temporal Channel Correlation Networks for Action Classification

Spatio-Temporal Channel Correlation Networks for Action ClassificationAbstract引入STC块对3D卷积神经网络进行关于时间、空间特征的建模。STC块嵌入目前先进的结构中能在Kinetic数据集上提高2-3%的性能。在2D卷积神经网络上进行预训练，再将只是迁移到随机初始化的3D卷积网络中，实现稳定的权重初始化。（在Sports-1M上训练，在目标数据集HMDB51/UCF101上进行微调，便能超过其他的方法。）Introduc

2021-10-22 20:57:14 397 1

原创 TSN 论文阅读

TSN论文提出的动机TSN全称——Temporal Segment Networks，一种用于对视频中动作进行识别的网络。以往的视频动作识别所运用的神经网络会受到如下的限制：长度问题。因为传统方法只关注于短期的动作，依赖于稠密采样（这样会带来超高的计算复杂度，同时对长视频进行采样会有丢失重要信息的风险）。视频未裁剪。没有把可能会干扰动作识别模型的背景帧去掉。构建模型存在困难。公开能获得的数据集无论是尺寸还是多样性都不够充足，使用光流提取带来了巨额的计算消耗，所以计算能力也成为了限制模型构建的一个

2021-09-01 19:08:50 325

原创 CS231n 学习笔记

2021-08-20 16:27:43 50

原创算梯度的方法

算梯度f′(x)=lim⁡h→0f(x+h)−f(x)h=lim⁡h→0f(x)−f(x−h)hf'(x)=\lim \limits _{h\rightarrow0} \frac{f(x+h)-f(x)}{h}=\lim \limits _{h\rightarrow0} \frac{f(x)-f(x-h)}{h}f′(x)=h→0limhf(x+h)−f(x)=h→0limhf(x)−f(x−h)为数学上的方法，那么我们对于向量[x1,x2,…,xn][x_1, x_2, \dots,x_n][x

2021-08-02 19:20:59 2302

rca_finforc的博客