UpCoderXH-CSDN博客

原创【Paper Reading】CLIP：Learning Transferable Visual Models From Natural Language Supervision

前提是我们有一组需要区分的类别，也知道当前的图片确实可以分到这些类别里面，那么我们可以通过给类别增加一些prompt，抽取这些prompt的文本embedding，再抽取图片的visual embedding，分别将visual embedding和不同的prompt的embedding计算相似度，哪个prompt的相似度最高，则属于那个类别。目前许多的视觉任务都是基于固定的类别类目进行训练的到的模型。而在NLP领域中，自回归/masked的这种无监督的训练方式已经逐步成为主流，并且也取得了很不错的效果。

2023-08-06 21:45:34 117

原创【Paper Reading】CenterNet：Keypoint Triplets for Object Detection

因此这里作者提出了scale-aware的中心区域计算方法，详情如下所示，其中针对大物体，n选择5，针对小物体，n选择3。作者也从指标的角度量化了上面提到的CornerNet比较容易出现False Positive的情况，如下图所示。具体来说就是针对每个位置，我们计算其水平和垂直方向的max response，然后想加得到该位置的表征，我们认为这样的表征是包括了全局信息。具体来说，为了使得中心点的预测更加准确，作者提出了Center Pooling的层用来在水平和垂直两个维度进行特征的聚合。

2023-08-06 18:03:05 996

原创【Paper Reading】ViT：An Image is worth 16X16 Words：Transformers for Image Recognition at Scale

作者在大规模数据集上取得了较好的效果，在中等规模的数据集上取得比CNN差一点的结果。Transformer已经在NLP领域取得了许多的进展，并且拥有较好的可解释性，本文的主要工作是将Transformer迁移到图片分类的任务中。网络结构如下图所示。

2023-08-05 21:57:07 93

原创【Paper Reading】DETR：End-to-End Object Detection with Transformers

Encoder输出后的feature再会输入给decoder，decoder基于Encoder的特征和位置编码特征输出每个位置应该预测的proposal。我们再将得到的序列输入到transformer的encoder进行特征的加工，相当于重构每个unite的表征，使其可以从全局的视角加载特征和。我们是希望寻找到一个最佳匹配，使得整体的损失函数是最小的。详情可以参考wiki。整体的网络结构如上图所示，一张图片我们通过CNN抽取其基本的视觉特征（待讨论能不能像ViT那样，做到完全的Transformer）。

2023-08-05 18:15:57 715

原创 [论文总结]YOLO v1、YOLO v2、YOLO v3、YOLO v4、YOLOv5

在v2中我们通过每个grid预测多个anchor来解决目标遗漏的问题，但是针对小目标的检测，v2仍然不是十分友好，因此，从yolov3开始引入了multi-head的概念，引入了不同分辨率的，13x13的预测大物体，26x26的负责预测中物体，52x52的负责预测小物体。=5*2+20，这里的20代表我们最后预测物体类别已经有20个类别，5代表的是（c，x，y，w，h），c表示的是置信度分数，xywh分别表示的是中心点左边和宽高。YOLO v1的整体结构如上图所示，他给整个系列的YOLO 定下了基调。

2023-07-05 17:03:59 360

原创 [Paper Read] General Focal Loss

General Focal Loss: Learning Qualified and Distributed Bounding Boxes for Dense Object Detection目录General Focal Loss: Learning Qualified and Distributed Bounding Boxes for Dense Object DetectionCode && PaperBackground && Motivation不一致性不灵活性

2021-03-19 00:19:39 317

原创 [Paper Reading] AUM Identify Mislabeled Data using the Area Under the Margin Ranking

Identify Mislabeled Data using the Area Under the Margin RankingPaper ReadingIdentify Mislabeled Data using the Area Under the Margin RankingBackgroundContributionMethodologyDiscussionBackground目前关于noise-label 学习的工作一般包括两个大类loss，一般就是通过改进loss，使得不同样本具有不

2021-03-08 22:38:13 812

原创 [Paper Reading] ResNest: Split-Attention Networks

ResNest: Split-Attention NetworksMotivationChannel维度的Attention可以对特征图维度之间的相互依赖关系建模去选择重要或者是应该被忽略的特征。Contribution提出了ResNest 网络结构，他将Multi-Path和Attention的机制相结合。可以用于分类、检测等多个领域，且取得了不错的效果MethodlogyResNest Block最主要的结构图如下图所示，下图展示了ResNestBlock。它首先将输入特征图

2021-03-06 22:26:11 231

原创详解GIoU、DIoU、CIoU Loss

GIoU、DIoU、CIoU详解GIoU、DIoU、CIoUGIoU优势核心实现公式CodeDIoU(Distance-IoU)MotivationContributionsDetailResultDiscussionGIoU、DIoU、CIoU随着IoU Loss在目标检测领域的应用，最近有几篇典型的工作提出去改进IoU Loss，本文将依次介绍GIoU、DIoU和CIoU LossGIoU优势首先可以实现较全场景以类IoU Loss为目标直接优化，使得优化目标和最终的评估目标一致。由于IoU

2021-03-04 23:43:12 8800 1

原创 [leetcode] Path Sum III

Path Sum III问题描述：给定一颗二叉树，计算有多少条路径的sum等于一个target。路径的定义为从起点和终点之间依次都满足是后者是前者的孩子。如下图所示：问题分析：针对每个节点，我们可以记录从跟节点到该节点所经历的所有value -> paths。然后我们计算该点和前面所有点的value和等于sum的个数。同样的我们递归计算该点的左孩子，右孩子。最终的结果等于c...

2019-07-07 18:05:05 138

原创 [leetcode] Target Sum

Target Sum问题描述：给定一个数组A（元素为非负），你需要在A中每个数字前面加上+或-。然后让其和为S。问题分析：假设A中所有元素的和TS，则所能生成的所有sum的区间应该[-TS, TS]。对于第i个数，我们将计算其和为x的解决方法个数y,记为dp[i][x] = y.dp[i][x] = dp[i-1][x + nums[i]] + dp[i-1][x - nums[i]];...

2019-07-07 17:41:56 118

原创 [计算机网络] localhost，127.0.0.1，0.0.0.0

当我们在启动server服务的时候，我们需要指定本地IP。这时候我们有三种方法localhost: client也必须是写localhost127.0.0.1 client可以写localhost，127.0.0.10.0.0.0 client可以是写localhost，127.0.0.1，本地IP，并且此种情况下别的IP地址也可以访问，不局限于本地IP...

2019-05-22 15:09:29 784

原创 [leetcode] BestTimeSellStock I, II, III, IV

BestTimeSellStock I问题描述：给定一组数字，代表每天股票的价格。假定现在只能进行一笔交易，计算出所能获得利润的最大值。解法：针对每个价格，我们只要知道它前面价格的最小值即好。所有我们可以遍历整个数组，并用一个数字代表之前的所有数字的最小值。所以针对数组里面的每个数，我们都能获得一个如果在该点卖出的最大利润值。我们计算这些利润值里面的最大值即可。时间复杂度：O(N), 空间...

2019-05-18 11:49:41 296

原创 [leetcode] Longest Increasing Subsequence

Longest Increasing Subsequence问题描述：计算一个数组的最长上升子序列。这个子序列内的元素不一定要是相邻的。比如说数组{1, 100, 2, 3, 4}的LIS就为{1, 2, 3, 4}解法1-动态规划首先我们将问题划分成子问题=>我们该序列一定是以某一个点为起点的。所有我们另dp[i]表示以i为起点的LIS长度。构造父问题的解。假设说我们已经知道了...

2019-05-17 16:12:20 117

原创 [leetcode] PerfectSquares

PerfectSquares问题描述：首先定义完美数字是{1, 4, 9, 16 … , n^2}.然后给定一个整数N，试计算N最少由几个完美数字求和得到。比如12=4+4+4，13=4+9分析：对于一个数字N，它所能选择的最大完美数字就是int(sqrt(N))^2=X。所以对于N的结果他可以由min{N-{1,4,…,X}} + 1构造得到。所以该题是一个动态规划的题目。dp[...

2019-05-16 23:09:41 100

原创 [leetcode] PalindromeLinkedList

PalindromeLinkedList问题描述：给定一个单向链表，试判断该链表是否是回文链表。解决思路1因为该链表是单向的，所以我们不能想vector那样从后向前访问。所以我们可以先将ListNode存储起来，然后再判断或者是说我们可以利用递归的方法来判断。我们首先用tmp保存head元素。然后利用递归遍历head，访问每一个元素。访问最后一个时候比较该元素和tmp如果...

2019-05-16 23:00:35 91

原创 [leetcode] LowestCommonAncestor

LowestCommonAncestor问题描述：给定一颗二叉树，和二叉树的两个节点，计算出这两个节点的最低公公祖先。解法1:最低公公祖先可能出现的最高值就是根节点。我们找到从根节点到两个节点的路径，path1和path2.则两者一定是Y字型或者是V字形(root节点)则我们就把问题转化成了计算两个list的相交点问题。首先长的path先走他们之间长度差值步，使得后续的两个pat...

2019-05-16 22:38:39 1114

原创 [leetcode] findDuplicateNumber

FindDuplicateNumber问题描述：给定一个数组长度为N，里面元素的取值范围是1～N-1。所有会有一个数是重复的，请找到这个重复的数字并返回。解法1:暴力最直接的办法就是利用两重循环来寻找当碰到相同的数字的时候就返回时间复杂度是O(N)解法2: 二分法我们知道我们N个数是分布在1～N-1之间的。所有假设我们统计1～N/2, N/2-N-1之间的数字，如果哪一方的...

2019-05-16 22:10:20 171

原创 [leetcode] Maximal Square

Maximal Square问题描述：在一个给定的矩阵中，找到一个最大的方阵。矩阵中的元素都是0或者1.方阵内的元素要求都是1.动态规划：dp[i][j]代表以ij结束的点所能构成的最大方阵的边长。转移方程dp[i][j] = min{dp[i-1][j-1], dp[i-1][j], dp[i][j-1]} + 1. 注意这里min相当于计算交集。//// Created b...

2019-05-15 23:25:36 84

原创 [leetcode] CourseSchedule

CourseSchedule问题描述：输入一个n代表我们有N门课程，编码成0-n-1, 然后给一系列课程的前置条件，问这样安排课程是否合理。问题可以转化成判断图中是否有环的问题。我们将每门课程看成一个节点。前置条件是条有向的边。所有图是有向图。如果图中存在环则前置课程必定存在冲突，否则则不冲突。是否存在环？解法1我们首先计算每个节点的入度。将所有入度为0的节点加入队...

2019-05-15 23:22:31 141

原创 [leetcode] ReverseListI II

ReverseList I, II问题描述，给定一个list，起点m，终点n。试只遍历一次链表达到将m->n之间反转的目的。对于I来m=第一个节点，n=最后一个节点。我们可以假设0<=m<=n<=length of the list.分析：因为我们只能遍历一次列表，所以我们考虑在遍历列表的时候计数，计算当前是第几个节点。假设当前是第i个节点。如果i<m我们不操作...

2019-05-12 13:57:26 104

原创 [leetcode] HouseRobI, II, III

HouseRob I问题描述：一个强盗要抢劫一个房屋，但是他不能抢连续的两个房间，比如说ABC房间，他只能抢A和C或者是B，否则就会触发警报，将其抓住。我们知道每个房间都有money，并且money>=0的。这个题我们可以看作动态规划来解决。划分子问题 dp[i]表示的是从第1个房间到第i个房间，所能抢到的最大金额。根据子问题求解父问题 dp[i] = max(dp[i-2] +...

2019-05-10 14:40:12 87

原创 [leetcode] Sort List

Sort List问题描述：尝试用O(nlgn)的时间复杂度，O(1)的空间复杂度对一个链表排序分析因为是O(nlgn)的时间复杂度，所以我们第一感觉就是快排是否可以？因为对于每一段数组来说，快排即需要从前向后也需要从后向前。所以对于我们的单向链表来说有点不适合。那么另一个排序方法：归并排序呢？归并排序常规的做法是up-to-bottom，即先分只一个元素，然后再合并。但...

2019-05-08 22:50:27 101

原创 [leetcode] WordBreak && MaximumProductSubarray

今天这两道题是两道动态规划的题目。Word break问题描述：给定一个字符串s，和一个字典d。试问有没有办法使用d中的字符串构造出s。d中的每个字符串可以使用多次。分析最直观的解法肯定是暴力搜索。我们遍历d中所有组合，看能否构成s。如果不能则返回false，如果可以则返回true。这种暴力搜索肯定是超时，那么我们是否还有其他做法呢？我们试想如果s中的每个字符c，我们都可以在d...

2019-05-08 22:30:10 113

原创 [leetcode] Longest Consecutive Sequence

Longest Consecutive Sequence问题描述：给定一个乱序的数组，让你计算最长的包含连续数字的子集大小是多少？要求O(n)的时间复杂度。比如说[100, 0, 2, 1, 100, 3, 5, 200, 4] => {0, 1, 2, 3, 4, 5}.所以长度是5.分析对于这么一个乱序的数组，并且要求O(n)的时间复杂度，所以我们肯定不能排序。我们首先可以利...

2019-05-08 22:05:03 142

原创 [leetcode] BinaryTreeMaximumPathSum

Binary Tree Maximum Path Sum题意：从二叉树的任意一个起点出发，到另一个点所经过的路径和最大。注意，这里的路径就包含了一个点最多只能经过一次。分析：我们最大路径一定是要路过某些点的（不支持路径长度为0）。我们的路径都可以抽象成如下所示的路径。左边的长度和右边的长度都可以为0。所以我们就是要计算所有类似路径的长度之和。按照上面的思路，我们已经将问题转化成了所有类似...

2019-05-08 21:51:50 106

原创 [leetcode] 二叉树相关题目

中序遍历二叉树递归做法void inorderTraversalBase(TreeNode* root, vector<int>& res){ if(root == NULL) return; inorderTraversalBase(root->left, res); res.push_back(root->val...

2019-05-01 22:14:12 176

原创 [leetcode] LargestRectangleHistogram MaximalRectangle

LargestRectangleHistogram问题描述：给定一个直方图，假设每个bar的width为1，高度不定。计算直方图中所能构成最大矩阵的面积。比如下图中的直方图，所能构成的最大面积就是10.-分析：假设直方图的左边起点是L，右边起点是R。则如果LR全用的话，则所构成的面积一定是(R−L)∗Hmin(R-L)*H_{min}(R−L)∗Hmin, HminH_{min}Hmin...

2019-04-30 16:45:24 141

原创 [leetcode] WordSearch WordSearchII Trie

WordSearch、WordSearchII、TrieWordSearch问题描述：给定一个二维数字，每个元素都是字符char, 再给定一个字符串s，问在二维数组中能否找到一条路径刚好是s。每次可以走四个方向，二维数组中的每个字符最多走一次（不能重复）。例如ABCCED就是从(0, 0)开始的红线SEE是绿线思路：利用DFS，找到与word相同的路径返回即可，找不到返回fa...

2019-04-29 23:21:42 159

原创 [leetcode] Subsets Subsets II

Subsets, Subsets IISubsets问题描述：给定一个不重复的数组A，让计算A中所有数字的排列组合解决思路：利用DFS来计算所有的组合。例如A中的数字是1～3首先我们可以选择{}->{1} -> {1, 2} - >{1, 2, 3} - >{1, 3} - >{2} - > {2, 3} -> {3}对于第i个数字，我们...

2019-04-28 23:12:55 187

原创 [leetcode] MinimumWindowSubstring && SlidingWindowMaximum

MinimumWindowSubstring问题描述：给定一个字符串A和字符串B，在A中找到最短的一个连续子字符串，使其包括B中的所有字母。比如说：A=‘ABCDEFG’, B = ‘EG’, 则最短的子字符串是EFG。解决思路方法一：利用两个map首先，我们把B中所有字母出现的次数保存成一个map T类型的数据(没有非法输入的情况下可以用128纬的vector来提高效率)。然后我...

2019-04-27 22:25:40 102

原创 [leetcode] UniquePathsI, II, III

UniquePaths问题描述：给定一个起点和终点，找到一共有多少条满足条件的路径。Unique Paths I给定一个矩阵，起点在左上角，终点在右下角。只能向下走或者向右走。思路：我们当然可以用DFS来做，但是时间复杂度就是O(2(M∗N))O(2^{(M*N)})O(2(M∗N))。所以我们采用动态规划的方法来做。转移方程如下:dp[i][j]=dp[i−1][j]+dp[i...

2019-04-26 21:56:29 242

原创模型训练时loss出现Nan的原因分析

下面的分析都是基于tensorflow数据不正确比如说我们处理的实际是一个N分类问题的时候，在tensorflow中，我们计算cross entropy的时候将其当作一个M分类问题。如果N>M, 则在计算loss的时候不会报错，计算得到的loss直接就是NAN学习率过大有时候学习率过大也会导致NAN，为了判别这种错误，我们只需要将学习率设置为0，看是否会继续出现NAN，如果...

2019-04-18 21:35:00 8831

原创 [剑指offer] 二叉搜索树和双向链表的转化

题目：二叉搜索树和双向链表的转化二叉搜索树里面每个节点有两个指针，分别指向left 和 right。双向链表内的每个节点也有两个指针，分别指向left 和 right。所以，两者是可以相互转化的。我们知道二叉搜索树的中序序列有序的。所以我们基于中序序列来将其转化为双向链表。对于每一个节点来说，它的left是它中序遍历的上一个元素，right是中序遍历的下一个元素。所以在中序遍历的过程...

2019-04-09 17:00:44 117

原创 [leetcode] Edit Distance

计算两个字符串之间的编辑距离假设有两个字符串str1和str2的编辑距离是D假设str1[0] = str2[0],则D = distance(str1[1:], str2[1:])假设str1[0] != str2[0], 则我们有一下几种做法将str1[0] 替换成 str2[0], 则 D = distance(str1[1:], str2[1:]) + 1将str1[0] ...

2019-03-25 21:48:21 100

原创关于softmax，cross entropy，三层全连接的导数计算以及反向传播

在本文中，我们主要介绍softmax，softmax+crossentropy，三层全连接的导数计算和反向传播softmax定义：S(ai)=eai∑j=1NeajS(a_i) = \frac{e^{a_i}}{\sum_{j=1}^N{e^{a_j}}}S(ai)=∑j=1Neajeai倒数计算过程（令SiS_iSi表示S(ai)S(a_i)S(ai)）：if&nbs...

2019-03-01 20:16:14 1218

原创 LRN，BN，LN，IN，GN

这篇文章中我们介绍五种用在深度学习中的normalization方法。Local Response Normalization，Batch Normalization，Layer Normalization，Instance Normalization，Group NormalizationLocal Response Normalization来源：AlexNet公式化：bx,yi=a...

2019-02-28 17:44:13 2271 1

原创 RNN、LSTM、GRU

近年来循环神经网络在自然语言处理，语音技术，甚至图像方面都有不错的应用。本文主要介绍基础的RNN，RNN所面对的问题，以及RNN的改进版本：LSTM和GRURNN(Recurrent Neural Network)我们先放一张RNN的结构图，一般的RNN也遵循这个过程。输入是x1～xt，绿色的方框表示处理单元，hih_ihi表示的是隐藏单元，yiy_iyi表示的是输出。对于不同的输...

2019-02-26 23:33:50 292

原创 [leetcode] Next Permutation && Longest Valid Parentheses

今天我们主要分享两道题的做法—Next Permutation和 Longest Valid ParenthesesNext Permutation题意：给定一个数组nums,修改这个数组里面数字的顺序，使得修改后的数组的数字排序刚好比修改前的数组顺序的字典序大一个。比如说比1,2,3字典序大一的就是1,3,2。如果不存在这样一个序列(整个数组按照从大到小排列)，则返回从小到大的序列。思...

2019-01-17 20:28:17 124

原创 [Leetcode] KMP

题意：给定一个字符串text，和一个模式串pattern。让你判断text是否包含pattern，如果包含，则返回text中出现pattern的第一个字符的坐标。否则返回-1。如果pattern是空字符串(长度为0)，则返回1解法1—暴力：我们遍历text的每个位置i，并从i开始遍历长度为sizepsize_psizep的字符串，看其是否和pattern相等，如果相等返回i，否则继续遍历。...

2019-01-15 21:19:00 2091

PHP5.2.1forwin2012

Android打飞机小游戏

空空如也