Beryl已存在-CSDN博客

原创 Multi-granularity Correspondence Learning from Long-term Noisy Videos--论文笔记

是指在处理视频和文本数据时，学习如何从带有噪声的、不完全对齐的多模态数据中提取有用的信息。在视频语言预训练（Video-Language Pre-training, VLP）的场景中，噪声对应通常指的是视频片段和相应的文本描述之间的不对齐问题。这种不对齐可以是粗粒度的，比如视频片段和文本描述的整体不匹配，也可以是细粒度的，比如视频帧和文本中的单词之间的不精确对应。在视频和文本对齐的上下文中，使用最优传输距离（Optimal Transport, OT）来最小化视频片段和文本描述之间的距离，从而实现对齐。

2024-04-19 11:17:36 142 1

原创数据集网站

数据集市-免费数据资源共享网

2023-10-07 10:41:40 118

原创 Tensorflow--Tensor操作包括 slice，分片等

给出对应的index，以及对象input，使用tf.gather(input,index)取出对应的tensor。可以根据不同的需求构建index，获取不同shape的tensor，更多示例可参见上述链接。为Tensor指定非连续的部分分片，并提取相关特征值。使用到的函数为tf.gather()

2022-12-13 15:38:53 289

原创 CUDNN_STATUS_NOT_INITIALIZED报错的另一种可能

CUDNN_STATUS_NOT_INITIALIZED报错的另一种可能

2022-08-17 09:18:26 1907 1

原创 TensorFlow patch块划分（transpose and reshape）

使用transformer处理图像数据，需要照特定格式对矩阵分块，并拉伸flatten，在完成最后的卷积后，需要重新将token的channel重新reshape成图像格式。类似下图，将输入首先分块，然后拉伸为NxC的vector，然后重新reshape为图像格式，这里使用一通道简要说明。小代码def reshape(): h = 6 a = tf.random_uniform([h,h],maxval=40,dtype=tf.int32) b = tf.resh.

2022-02-23 10:32:32 1284

原创复现TensorFlow版本MAE的shuffle和reshuffle

在encoder的输入需要非masked token，然后decoder的输入需要把对应位置的token用0代替进去，只想解决这个接口，所以解决目标就是按指定位置先取出对应的token，省略中间处理步骤，在按照index位置把非masked token塞回原大小矩阵。废了2个小时，菜狗终于解决了这个问题（丢）写了个小测试代码import tensorflow as tfimport numpy as np#值矩阵target_tensor = tf.constant([[7, 2], [

2022-02-22 20:08:53 364 3

原创 Tensorflow broadcast 广播机制

针对多维情况，需要保证维度一致性，举个栗子：需要对保证除需广播的维度以外其余所有维度均相等即可举个栗子import tensorflow as tfa = tf.random_normal([1,2,3])b = tf.random_normal([1,2])d = a*bwith tf.Session() as sess: print(sess.run(d))当代码段如上时，报错维度不一致原因，虽然a和b的前两个维度一致，但b缺少了第3个维度，无法广播再来

2021-10-19 14:20:10 295

原创 Focal transformer 基于距离的感受野缩放过程详解

论文：Focal Self-attention for Local-Global Interactions in Vision Transformers用于解决Transformer中无差别计算token相似度导致的计算量过大问题。文章提出，与人类视觉感知相似，越近距离的位置对当前处理的token的影响越大，距离越远则参考价值逐渐降低。根据这种想法，提出使用不同粒度的token获取key和value的值。具体方法如下：整体结构图一种多stage堆叠的结构，随stage增加，t..

2021-10-12 14:47:52 628

原创 Involution代码

github原址https://github.com/d-li14/involution/blob/21c3158fcbb4ecda8ed4626fcae8b01be511a598/cls/mmcls/models/utils/involution_naive.py#L5之后会有相关解读class involution(nn.Module): def __init__(self, channels, kernel_siz

2021-06-23 10:50:31 920 1

原创 tensorflow tf.nn.max_pool_with_argmax返回最大池化对应索引值

在看Segnet的时候发现使用了带有索引的最大池化（max_pool)，在tensorflow的实现中，对应的函数为tf.nn.max_pool_with_argmax()，其返回值为所取最大值位置的索引，但采用了一种指数的计算方式进行表示这里为官方注释The indices in `argmax` are flattened, so that a maximum value at position `[b, y, x, c]` becomes flattened index `((b *

2021-04-16 15:27:18 1128 5

转载相机成像投影计算

转自https://www.cnblogs.com/houkai/p/6660272.html很详细，加入了一些自己的批注介绍基本的图形变换，仿射变换和投影变换的内容和关系，最后再简单讲解下RANSAC算法。这套内容常用于图片和图片的特征点匹配、图片融合等场景。仿射变换和单应矩阵首先明确：二者的应用场景相同，都是针对二维图片的变换。仿射变换affine是透视变换的子集，透视变换是通过homography单应矩阵实现的。从数学的角度，homography即H阵，是一个秩为3的可逆矩阵：

2021-03-01 09:48:21 954

原创 Transformer中的位置编码（PE，position）

参考链接https://blog.csdn.net/Flying_sfeng/article/details/100996524https://blog.csdn.net/u012526436/article/details/86295971transformer模型是当前大红大热的语言模型，今天要讲解的是transformer中的positional encoding(位置编码)。我们知道，transformer模型的attention机制并没有包含位置信息，即一句话中词语在不同的位置时在.

2021-02-21 17:12:32 2090

原创对Tensor结果使用opencv2中的操作

import cv2首先导入OpenCV包real = np.uint8(x * 255)cv2.convertScaleAbs(cv2.Laplacian(real,3))一个小例子，其中x是通过TensorFlow计算得到的tensor结果，通过np.uint8对格式进行转换，随后得到的结果可以进行OpenCV计算...

2021-01-06 14:38:38 743

原创 tensorflow 常用函数整理

tf.SparseTensor(indices, values, shape)

2020-12-25 09:44:54 93

原创 tensorflow 添加官方代码--以leaky_relu为例

首先打开github中tensorflow对应的项目https://github.com/tensorflow/tensorflow/blob/r1.9/tensorflow/python/ops/nn_ops.py这里我们打开tensorflow下的python/ops/nn_ops.py文件找到对应leaky_relu的代码段这里我们只需要def定义后的代码内容在本地主机中找到对应的文件将该代码段粘贴同时在nn.py文件中加入leaky_relu的描述，注意这个地方的

2020-12-09 11:09:50 470

转载【tensorflow】重置/清除计算图

转自：https://blog.csdn.net/u014636245/article/details/84073239，侵删当在搭建网络查看计算图时，如果重复运行程序会导致重定义报错。为了可以在同一个线程或者交互式环境中（ipython/jupyter）重复调试计算图，就需要使用这个函数来重置计算图，随后修改计算图再次运行。#重置计算图，清理当前定义节点import tensorflow as tftf.reset_default_graph()#Your model defined b

2020-10-27 09:15:52 609

转载 Gumbel-Softmax Trick和Gumbel分布附VAE讲解

转自https://www.cnblogs.com/initial-h/p/9468974.html 写的非常好，思路清晰，顺带连VAE trick也讲了之前看MADDPG论文的时候，作者提到在离散的信息交流环境中，使用了Gumbel-Softmax estimator。于是去搜了一下，发现该技巧应用甚广，如深度学习中的各种GAN、强化学习中的A2C和MADDPG算法等等。只要涉及在离散分布上运用重参数技巧时(re-parameterization)，都可以试试Gumbel-Softmax Trick。

2020-10-26 09:08:30 2586 5

原创 ECCV2020论文-稀疏性表示-Neural Sparse Representation for Image Restoration翻译

Neural Sparse Representation for Image Restoration用于图像复原的神经稀疏表示Abstract在基于稀疏编码的图像恢复模型中，基于稀疏表示的鲁棒性和有效性，我们研究了深度网络中神经元的稀疏性。我们的方法在结构上对隐藏神经元施加稀疏约束。稀疏性约束有利于基于梯度的学习算法，并可用于各种网络的卷积层。通过仅在非零组件上运行，神经元的稀疏性使计算节省而不影响精度。同时，该方法可以在不增加计算成本的情况下提高模型的表示维数和模型容量。实验表明，对于图.

2020-10-21 11:02:42 1542

原创 2019ICCV论文 Non-Local ConvLSTM for Video Compression Artifact Reductio

2019CVPR Non-Local ConvLSTM for Video Compression Artifact Reduction针对视频压缩伪影的非局部ConvLSTMAbstract视频压缩伪影减少的目的是从低质量的压缩视频中恢复高质量的视频。大多数现有的方法使用一个相邻帧或一对相邻帧(在目标帧之前和/或之后)来完成此任务。此外，由于整体质量较高的帧中可能含有质量较低的patch，而整体质量较低的帧中也可能存在质量较高的patch，因此，目前针对附近峰值质量帧(peak-quality

2020-09-30 13:44:20 956

原创 pytorch安装实录（win10+cuda8+pycharm+anaconda）

由于TensorFlow的静态图特点导致最近的一些实验无法完成，决定转战pytorch，自己做一个安装记录，也希望对有需要的小伙伴有所帮助先前安装的是cuda8.0，并非最新版本，因此需要安装对应版本的pytorch。在pytorch官网上https://pytorch.org/可以找到最新版本以及之前的版本在cmd中直接安装即可有的小伙伴（包括我）会发现直接使用pip安装基本不动，使用镜像也不动（镜像可参考https://blog.csdn.net/xo3ylAF9kGs/article/

2020-07-29 09:49:45 424

转载 Pycharm debug出现Qt 错误 Process finished with exit code -1073741819 (0xC0000005)

使用pycharm debug的时候出现This application failed to start because it could not find or load the Qt platform plugin "windows"错误代码Process finished with exit code -1073741819 (0xC0000005)解决：以下为原blog内容转自：https://blog.csdn.net/wangguan9527/article/detai.

2020-07-08 17:03:34 1226 1

转载 Batch Norm、Layer Norm、Instance Norm、Group Norm、Switchable Norm总结

转自https://blog.csdn.net/qq_41997920/article/details/89945972目录1.综述1. BN2. LN3. IN4. GN5. SN2. 结论1.综述在入门深度学习时就深度学习中的一些概念做了一些介绍，但随着学习的不断深入，一些网络优化的技巧越来越多，才发现之前的理解的不够深入。在这里有对BN的理解，对出现的几种归一化进行一些个人理解的介绍，首先看一个直观图归一化层，目前主要有这几个方法，Batch Nor..

2020-07-03 10:22:15 334

转载 Xavier初始化和He初始化

转自https://blog.csdn.net/xxy0118/article/details/84333635Xavier初始化:条件：正向传播时，激活值的方差保持不变；反向传播时，关于状态值的梯度的方差保持不变。初始化方法： W∼U[−6√ni+ni+1√,6√ni+ni+1√]W∼U[−ni+ni+16,ni+ni+16] 假设激活函数关于0对称，且主要针对于全连接神经网络。适用于tanh和softsign 论文地址：Understanding the dif

2020-07-01 16:04:06 769

原创 SpeedNet: Learning the Speediness in Videos

Abstract用于预测视频中物体运动的速度—移动快或慢以一种无监督的方式训练证明了模型学会了一种强大的，具有意义的空间-时间表示，可以用于提升无监督动作识别，以及用于视频retrieval（检索；修复）。可以用于加速视频的播放，减少抖动，不自然的动作。Introduction 一个模型要学会预测视频是否发生加速，它学习到的究竟是什么；它究竟能在学习这个概念上表现的多好，究竟能学到多少物体运动的先验知识。这种模型一旦得到，可以用于支撑下游的许多有意...

2020-05-31 21:31:44 1237

原创 GCN代码超详解析Two-stream adaptive graph convolutional network for Skeleton-Based Action Recognition（三）

代码地址https://github.com/lshiwjx/2s-AGCN本篇解析对应 2s-AGCN/graph/ntu_rgb_d.py ，用于创建NTURGB-D对应的图结构，以及2s-AGCN/main.pyimport syssys.path.extend(['../'])from graph import toolsnum_node = 25#图中节点总个数self_...

2020-04-21 15:40:11 2276 2

原创 GCN代码超详解析Two-stream adaptive graph convolutional network for Skeleton-Based Action Recognition（二）

代码地址：https://github.com/lshiwjx/2s-AGCN本篇解析代码为[2s-AGCN/model/aagcn.py]import mathimport numpy as npimport torchimport torch.nn as nnfrom torch.autograd import Variabledef import_class(name):...

2020-04-20 15:59:47 3864 8

原创 GCN代码超详解析Two-stream adaptive graph convolutional network for Skeleton-Based Action Recognition（一）

代码地址：https://github.com/lshiwjx/2s-AGCN这个图用于说明人体关键节点的定义及其连接方式这个文件是根据NTURGB-D中关键点的定义计算骨骼长度所以最终得到的数据结构N=sample数量，C=（channel，3固定），T=帧，V=（关节数，固定25），M=（最大人数，固定2）上述文件合并了关节和骨骼信息下面对2s-AGCN/data_gen/pre...

2020-04-19 22:12:59 2898 11

翻译 IEEE Access latex 图片caption无法换行的问题

问题描述：在latex模板下，当插入的图片的宽度为双栏宽时，caption不会自动换行。问题解决：在stack下找到了解决方法，特此记录。原文链接：https://tex.stackexchange.com/questions/504071/multiline-caption-for-wide-figures-in-ieee-access-latex-template解决方案：...

2019-11-18 10:53:12 2824 10

原创 latex 公式--换行

需要用到的包：\usepackage{amsmath}\begin{equation}\begin{aligned}\\插入公式\end{aligned}\end{equation}当公式需要换行操作时，可以现在mathtype中将公式在需要换行的位置先换行好，然后按照latex的格式复制，上面标的插入公式的位置即可。注意：有的时候直接从mathtype上粘贴过来...

2019-10-22 10:59:59 3100

原创 tensorboard scalar图下载失败不完整解决

使用tensorboard导出scalars图片，svg格式，但是下载后存在文件不完全的问题，搜索之后发现是tensorboard版本太低，将tensorboard和TensorFlow的版本都升级到1.13.1后问题得到解决。升级后运行tensorboard可能会出现OSError:[Errno 22] Invalid argument和Check failed: PyBfloat16_Ty...

2019-10-19 18:45:48 2158

原创 TensorFlow预训练模型在新图中权重部分加载

首先对预训练模型的scope一定要做好定义，不然恢复起来会比较麻烦。这里使用tf.get_collection()1、tf.get_collection(tf.GraphKeys.GLOBAL_VARIABLES,scope='name')tf.get_collection( key, scope=None)Args:key: The key for t...

2019-10-09 14:35:53 648

原创 Tensorflow 模型加载及部分变量初始化

最近在做预训练部分图模型，将这部分图模型重新加载到一个新的图中，并加入一些新的op。下面是一些遇到的问题，调试方法以及解决方案。1、从已有图中restore参数saver_restore = tf.train.import_meta_graph(meta_path_restore)saver_restore.restore(sess,<checkpoint path>)...

2019-09-08 17:23:09 2813

转载预训练模型参数重载必备！

2019-09-05 09:55:15 410

原创 latex基础（文字，图，表）

最近在尝试使用latex编写论文，越发感觉排版流畅方便。也有大佬说其实word也是可以做到的，但是经历了双栏单栏的来回变换之后，我还是决定投入latex的怀抱了。话不多说，开始。文章将分为以下几个部分：文字（段落，公式），图，表，参考文献。开始正片(为了方便说明，会使用双角号将用到的符号括起来)首先文字部分，<\\>用于另起一段，<$$>在段落中加入公式...

2019-07-31 23:37:02 1271

转载 tensorflow sobel算子实现

搬运自https://stackoverflow.com/questions/35565312/is-there-a-convolution-function-in-tensorflow-to-apply-a-sobel-filter具体实现如下sobel_x = tf.constant([[-1, 0, 1], [-2, 0, 2], [-1, 0, 1]], tf.float32)...

2019-06-04 20:53:00 2113

转载 Ubuntu18.04下NVIDIA驱动安装

安了一天，在网上找了无数教程也没能成功，就在准备换系统的时候发现了这篇文章，真的安装上了记录一下，转自https://blog.csdn.net/fengyuechengshi495/article/details/85008398#commentBox【傻瓜教程】Ubuntu18.04LTS安装NVIDIA驱动详细完整过程（带截图）写在前面的话安装前安装中...

2019-05-06 15:58:45 15251 2

原创 Win10下skimage的安装

目前使用python3.6安装scikit-image，无论是直接pip install或是安装whl文件，在运行from skimage import io时总会遇到各种各样的问题，包括no modul named skimage.io，以及pyWavelet报错等等后来猜想应该是版本不匹配导致的，在python 3.5下重新安装了scikit-image后就可以正常运行了。...

2019-03-22 09:52:44 1886

原创 TensorFlow example示例 Process finished with exit code -1073741819 (0xC0000005)

在做MNIST示例学习的时候，运行后一直出现Process finished with exit code -1073741819 (0xC0000005)的问题，起初以为是数据集下载的问题，所以在官网上下载了4个压缩包，这里出现问题的朋友可以在这里下载http://yann.lecun.com/exdb/mnist/ 放入到当前文件夹后，仍无法运行，后期查看了源...

2019-03-14 15:18:54 608

转载【转】理解矩阵

2018-12-21 10:29:35 299

转载【转】田渊栋教你读paper的正确姿势

作者：chen_h 微信号 & QQ：862251340 微信公众号：coderpai 作为入行数年的专业科研从业者，你每周看几篇论文？这是一个知乎上的问题。作为卡耐基梅隆大学机器人系的毕业生、Facebook人工智能研究室（FAIR）的研究人员，田渊栋给出了下面这个回答。盲目追求论文数量无意义，知道怎么读更重要。背景：人工智能，强化学习追求数目没有意义...

2018-12-20 19:45:55 398

空空如也

空空如也