kabuto_hui-CSDN博客

原创 YOLO系列汇总 | 持续更新

而上图（e）中，在使用lead head和auxiliary head一起优化模型的时候，auxiliary head的正样本是较为“粗糙的“，主要是通过放宽正样本分配过程的约束来获得更多的正样本。针对每一个gt，其中s是每个anchor点对应的gt类别的分类置信度，u是每个anchor点对应预测的目标框与gt的IoU，a，b表示外部配置的指数，两者相乘就可以衡量对齐程度alignment metrics。，重新定义了距离损失，有效降低了回归的自由度，加快网络收敛，进一步提升了回归精度。

2024-04-13 18:06:59 683

原创《剑指Offer》-面试题Python实现合集

《剑指Offer》作为互联网行业求职必看的书籍，其中收录了各大公司招聘时常问到的一些面试题，对于大家通过技术面颇有裨益。因此这个月我也花了接近三周早上的时间，用于通览全书。由于书中是用C++实现的，而本人主要使用Python，因此在掌握解题思路后，采用Python对每个面试题进行了重构。本着先过一遍再慢慢消化和吸收的原则，仓促完成了所有面试题的重构。如有问题，欢迎大家交流讨论~全部代码放在了Gi...

2019-06-26 23:30:20 1895 2

原创《机器学习》-周志华版学习笔记目录

原定于11月分完成周志华老师所著的《机器学习》的学习，并整理出学习笔记的计划，截至今天总算是基本完成了。中间出了一趟差，周内的还需要做一些项目上的工作，其实时间还是非常的紧的，所以每天基本是上是早上看书，下午项目，晚上总结笔记这样一个时间安排。有的时候真的是看不进去，也不理解，就想着算了吧，算了吧。但是想想飞逝的时间，就不禁产生了一种紧张感，就是这种紧张感让我硬着头皮看下去。看书时常有不...

2018-12-01 00:06:29 1525 3

原创【大模型系列】大模型评价指标总结

参考资料：BLEU (BiLingual Evaluation Understudy) 是一种评估机器翻译文本的指标，但也可用于评估生成文本的质量，通过比较机器生成的文本和人类生成的参考文本的重叠程度。BLEU 得分是一个 0 到 1 之间的数字，用于衡量机器翻译文本与一组高质量参考翻译的相似度。0 表示机器翻译的输出与参考翻译没有重叠（低质量），而 1 表示其与参考翻译完全重叠（高质量）。定义如下：BLEU=∏i4min⁡(1,exp⁡(1−reference-lengthoutput-length))⏟

2024-04-20 17:26:26 848

原创【论文阅读】YOLO-World | 开集目标检测

通过视觉语言建模和大规模数据集上的预训练来增强YOLO的开发词汇检测能力。YOLO-world提出了一种prompt-then-detect范式：先提示，再检测。即将单词先转化成一系列离线的embedding，再将其重参数为模型的参数，参与到目标检测任务中来。

2024-04-18 23:40:28 738 1

原创 YOLO系列 | 正负样本分配策略

YOLOv5的正负样本分配策略是基于邻域匹配，并通过跨网格匹配策略增加正样本数量，从而使得网络快速收敛，但是该方法属于静态分配方法，并不会随着网络训练的过程而调整。注意：yolov4的GT需要利用max iou原则分配到指定的检测头上，然后再与指定检测头上的3个anchor box计算正负样本和忽略样本。选取与gt的IOU最大的bounding box或者anchor，作为真样本，剩余的都是负样本。YOLOv4：只要anchor与gt的IOU大于某个阈值，都可以作为正样本。

2024-04-13 23:39:40 916

原创【大模型系列】一文看懂SAM大模型

参考资料：SAM模型大致上分成3个模块，一个标准的vit构成的image encoder、一个prompt encoder和一个mask decoder。其中：从结构上看，sam的encoder部分就是堆叠transformer的block结构，最后再跟一个neck，调整输出embedding的维度。Meta开源了三个模型，分别是vit_h, vit_l和vit_b，这三个模型的区别仅仅在于内部patch embedding维度、transformer的block的个数以及每个block中head的数量和全

2024-03-23 10:56:20 1419

原创【大模型系列】问答理解定位(Qwen-VL/Llama2/GPT)

在模型解码过程中，模型是根据前一个结果继续预测后边的，依次推理，此时为了生成完整的句子，需要融合多个step的输出，目标就是使得输出序列的每一步的条件概率相乘最大。在第二步，A和C作为输入，继续预测，则有10个可能得结果，然后再取其中最大的2个，作为输入，进行第三步，取结果中概率最大的2个,得到2个结果，然后再在2个结果中取最优的一个作为输出。对于下图的上半部分，对于2048之后的位置超出了训练2048的长度，模型推理时，该部分很可能就随机乱猜了，导致生成的结果不好。，是decoder-only的模型。

2024-03-16 12:21:16 1384 2

原创【大模型系列】统一图文理解与生成(BLIP/BLIPv2/InstructBLIP)

问题一：目前VLP（Vision-Language Pre-training）数据大多来自于网络爬取，如CLIP。其中的caption包含很多噪声，不是一个理想的监督来源；问题二：在以往的VLP框架中，仅在理解任务或者生成任务方面表现出色，很少有可以兼顾的模型。针对问题一：提出一种bootstrapping caption的方案来“提纯”带噪声的网络爬取数据，从而提升多模态模型的能力；针对问题二：提出一种新的VLP框架BLIP统一视觉语言理解和生成任务，比现有的方法更适应广泛的下游任务；

2024-03-16 11:01:14 970

原创【大模型系列】图片生成(DDPM/VAE/StableDiffusion/ControlNet/LoRA)

ControlNet 是一个任务相关的端到端方法，即对于每一种控制类型都要训练一个特定的 ControlNet 支持，比如线图控制、深度图控制、姿态控制等等。这样有好处也有坏处，单独看一个场景，拥有使用简单、训练成本低等优点。但是，如果面对一个复杂场景（多场景），反而变得略麻烦，每一个细分场景都要训练和维护一个模型，成本高昂，也不易用。LoRA与Adapter的区别：adapter是在模块的后面接上一个mlp，对模块的计算结果进行一个后处理。

2024-03-14 23:38:53 1171

原创【大模型系列】根据文本检索目标(DINO/DINOv2/GroundingDINO)

DINO 中最核心的数据采样策略便是图像裁剪，这也是自监督学习领域应用非常广泛的主策略之一。

2024-03-09 17:45:14 1104 1

原创【大模型系列】图文对齐(CLIP/TinyCLIP/GLIP)

给定待编辑的真实图像，我们首先使用StyleGAN inversion方法得到其隐编码，然后我们的头发映射器根据隐编码和条件输入（发型条件、发色条件）预测隐编码相应的变化，最后修改后的隐编码将被送入StyleGAN产生对应的头发编辑后的图像。分成G个阶段进行，每个阶段在前Lm step里做亲和蒸馏和继承训练（根据step更新当前稀疏度p，然后计算亲和力蒸馏损失，然后当前稀疏度p和目标稀疏q计算稀疏损失，然后更新mask和权重），然后将不重要权重移除，Lm后续的训练用亲和训练。

2024-03-09 14:10:29 1137

原创 YOLOv9理性解读 | 网络结构&损失函数&耗时评估

由台北中研院和台北科技大学等机构的研究团队推出的新的目标检测算法，一作Wang Chien-Yao也是Yolov4、Yolov7的作者之一，之前在Alexey Bochkvoskiy(Yolov4的第一作者)的团队中。

2024-02-29 23:13:43 2773 4

原创【论文阅读】YOLOv3-YOLOv3: An Incremental Improvement

文章目录1. 细节1.1 Bounding boxes prediction1.2 Class Prediction1.3 Predictions Across Scales1.4 Feature Extractor2. 结论3. 一些失败的实验YOLOv3的论文相较于前两个版本，没有太大的改动，作者以一种实验报告的形式描述了YOLOv3的改进部分及实验结果，也非常坦率地公布了一些不太成功的实验...

2020-04-13 19:09:13 517

原创【论文阅读】YOLO-v2: YOLO9000: Better, faster, stronger

文章目录1. 动机2. 方法2.1 改进2.2 联合多个数据集的训练机制3. 总结1. 动机当前大部分的目标检测模型都只能检测很少的类别，这主要是受到数据集的影响。相较于分类和tagging任务的数据集，目标检测数据集规模小，比如样本数量，类别等。所以在YOLOv2的论文里面，作者不仅提出了一个升级版本的YOLO，最主要的贡献是还提出了一个联合多个图片分类的数据集和目标检测数据集训练目标检...

2020-04-12 22:55:58 398

原创【论文阅读】RegNet-Designing Network Design Space

文章目录1. 动机2. 方法2.1 网络基本结构2.2 从AnyNetA到AnyNetE2.3 RegNet3. 总结4. 没有理解透的点1. 动机当前设计网络结构的方法大部分是基于手工的，即通过做实验来确定相对最优的网结构。如果网络结构比较复杂，需要调整的超参数较多，手工的方式就很难找到最优的网络结构。所以大佬们设计了NAS(Network Architecture Search)及其拓...

2020-04-07 18:32:57 2779 1

原创【论文阅读】YOLOv1-You Only Look Once: Unified, Real-Time Object Detection Joseph

文章目录1. 动机2. 方法2.1 网络结构2.2 模型成功关键因素2.2.1 图片网格化(gird)2.2.2 训练中的一些神操作2.2.3 LOSS的设计3. YOLO的优缺点3.1 优点3.1 缺点1. 动机 YOLOv1版本发表于2016年，当时流行的一些目标检测算法有DPM（Deformable Parts Models）和R-CNN，这些方法的原理通常是从图片中首先找到一些可能是...

2020-04-01 18:10:21 309

原创 git学习笔记

文章目录0. 学习资料1. git工作流2. 创建/克隆仓库3. 添加/取消/移动/删除文件4. 查看当前项目的状态5. 查看文件的改动信息6. 提交到仓库7. 分支管理(Branch)8. 查看提交日志9. git标签10. 远程仓库协同工作10.1 提取远程仓库10.2 推送到远程仓库10.3 删除远程仓库10.3 删除远程仓库0. 学习资料感谢菜鸟教程：菜鸟教程git官网：git do...

2020-03-18 19:18:21 173

原创手动实现打乱训练集并生成一个batch的简单方法

在训练一个深度学习模型之前，我们会将数据集划分为训练集、验证集和测试集。在训练的时候，我们往往会将训练集打乱，划分成多个batch来进行训练。一般情况下，我们可以使用tf.data.Dataset或者tf.TFRecordReader()来实现。如果不使用这两个方法，我们利用numpy也可以实现这个功能。下面我将定义一个类，来简单实现这个功能：import numpy as...

2019-12-02 11:49:01 1802

原创【论文阅读】图像超分辨率(ISR) - RDN, SRGAN, ESRGAN

目录1.RDN（Residual Dense Network）残差密集网络【2018】1.1【Note】1.2【参数细节】1.3【超参数】2.SRGAN【2017】2.1【Note】3.ESRGAN【2018】3.1 与SRGAN中的生成器区别是做了以下的两个改进：3.2 与SRGAN中的判别器区别是做了以下的改进：3.3 关于感知损失（Perceptual...

2019-10-18 21:29:51 3272 1

原创计算FLOPs和Parameters数量

在卷积中要计算的parameter数量：输入：【H_in, W_in, C_in】卷积核大小：【K_h, K_w】输出：【H_out, W_out, C_out】parameters = （K_h * K_w * C_in）*C_out + C_out(偏置)FLOPs是指： floatin...

2019-09-06 11:34:08 582

原创关于XGBoost常问的一些问题的总结

l Xgboost和GBDT有什么异同？传统GBDT以CART作为基分类器，xgboost还支持线性分类器，这个时候xgboost相当于带L1和L2正则化项的逻辑斯蒂回归（分类问题）或者线性回归（回归问题）。传统GBDT在优化时只用到一阶导数信息，xgboost则对代价函数进行了二阶泰勒展开，同时用到了一阶和二阶导数。顺便提一下，xgboost工具支持自定义代价函数，只要函数可...

2019-09-06 11:31:41 1269

原创 ROC-AUC的编程实现

之前笔试的时候看到的问题，通常我们都知道AUC是ROC去下面覆盖的面积，计算的方式也是计算每个小梯形的面积然后叠加出来的。后来我查阅了一下，发现了两个更为简单的方法，所以在此记录一下：AUC的物理意义是任取一个正例和任取一个负例，正例排序在负例之前的概率。方法1：其中M是正样本的个数， N是负样本的个数。方法2：对于相同的prob，取一半。具体操作...

2019-09-06 11:28:00 803

原创 tf.data.Dataset与tfrecord学习笔记

目录1.tf.data.Dataset2.tfrecord2.1 使用tfrecord的原因2.2 tfrecord的写入2.3 tfrecord的读取3.两种方式的区别参考资料：1.tf.data.Dataset# 从tensor中获取数据dataset = tf.data.Dataset.from_tensor_slices(img_paths)...

2019-09-06 11:19:51 3242

原创并查集及其典型应用

文章目录1. 图的连通性问题2. 并查集的原理简析2.1 初始化集合S2.2 Union（并）2.3 Find(查)2.4 通过读入直接相连的点对来更新S，并统计每个联通块的节点数目3. Python实现参考资料1. 图的连通性问题 (1)在地图上有若干城镇（点），已知所有有道路直接相连的城镇对。要解决整幅图的连通性问题。 (2)随意给你两个点，让你判断它们是否连通；或者问你整幅图一共有...

2019-08-26 17:01:14 1152

原创最大公约数与最小公倍数的求法[Python]

最大公约数与最小公倍数的求法：1. 对输入的两个数判断大小，保证：a > b2. 进行循环，直到b = 0： temp = b b = a % b a = temp # 另一种表达方式为： a, b = b, a % b3. 最后返回b就是最大公约数最小公倍数就是两者的乘积除以最大公倍数Python代码实现 def func(num1, ...

2019-08-26 11:17:18 534

原创京东2020校招笔试题-合唱队分组

合唱队的N名学生站成一排依次编号为1-N，先要求在编号连续的前提下，将学生按照身高进行分组，要求每组的最矮的同学要比上一组最高的同学要高或者相等。问最大可以分成几组。输入：第一行：人数第二行：每个人的身高输出：最大的分组数如：输入：42 1 3 2输出：2解释：[2,1,3,2]->[[2,1], [3,2]]解题思路：遍历数组，记录当前区间的最大值与最...

2019-08-24 21:58:30 593

原创 10种排序算法总结(Python 版)

文章目录1. 冒泡排序($O(n^2)$)2. 快速排序($O(nlogn)$)3. 简单插入排序($O(n^2)$)4. 希尔排序($O(n\log n)$)5. 简单选择排序($O(n^2)$)6. 堆排序[$O(n\log n)$]7. 归并排序($O(n\log n)$)8. 计数排序($O(n+k)$)9. 桶排序($O(n+k)$)10. 基数排序($O(n*k)$)1. 冒泡...

2019-07-05 17:22:46 683

原创长短期记忆网络(LSTM)学习笔记

文章目录0 前言1 LSTM与RNN的异同2 LSTM结构细节2.1 细胞状态2.2 遗忘门2.3 输入门2.4 输出门3 总结4 LSTM的变体4.1 Adding “Peephole Connections”4.2 耦合遗忘门和输入门4.3 GRU(Gated Recurrent Unit)参考资料0 前言循环神经网络工作的关键点就是使用历史信息来帮助当前的决策，但同时也带来更大的技术...

2019-07-04 23:14:58 13197 8

原创循环神经网络(RNN)学习笔记

文章目录0 前言1 RNN结构2 手动实现一个RNN3 RNN的推导参考资料0 前言循环神经网络(Recurrent Neural Network, RNN)的主要用途是处理和预测序列数据。无论是全连接神经网络还是卷积神经网络，其网络结构都是从输入层到隐藏层再到输出层，层与层之间是全连接或者部分连接，层之间的节点是无连接的。而循环神经网络隐藏层之间的结点是有连接的，隐藏层的输入不仅包括输入...

2019-07-03 23:29:34 3094 2

原创华为20190525研发笔试

1. 判断两个ip是是否为同一网段【题目描述】：输入两个ip地址和一个子网掩码，判断这两个ip地址是否属于同一网段（ip地址与子网掩码按位与，结果相同）。要求输出是否同一个网段（0否， 1是）和第一个ip与子网掩码按位与的结果【输入描述】：ip1 ip2 子网掩码（按空格隔开）【输出描述】：0或者1 第一个ip与子网掩码按位与的结果（用空格隔开）【测试用例】：【输入】：...

2019-05-31 22:33:26 1324

原创从零开始-Machine Learning学习笔记(39)-Softmax回归

文章目录1. Logistic Regression(逻辑回归)2. Softmax回归1. Logistic Regression(逻辑回归) 在逻辑回归中，我们使用Sigmoid函数求取预测的概率：hθ(x(i))=11+e−θTx(i)h_{\theta}(x^{(i)}) = \frac{1}{1+e^{-{\theta^{T}x^{(i)}}}}hθ(x(i))=1+e−θ...

2019-05-08 16:59:08 263

原创经典论文阅读(4)-InceptionV2

经典论文阅读(4)-InceptionV2及TensorFlow实现文章目录经典论文阅读(4)-InceptionV2及TensorFlow实现0. 前言1. 使用mini-batch进行批量标准化2. mini-BatchNormalization的好处3. 训练BN和使用BN进行推理(inference)4. 文章中的另一改进-将Inception模块中的5X5卷积用两层3X3卷积来代替5....

2019-05-03 17:59:47 2351

原创华为20190410研发笔试第二题：字符串展开

【题目描述】给定一个字符串，字符串可以包含数字、大小写字母及括号（包括大括号、中括号和小括号）。括号可以嵌套，即括号中可以出现数字和括号。按照下列的规则对字符串进行展开，不用考虑括号成对不匹配的问题，用例保证括号匹配，同时保证每个数字后面都有括号，不用考虑数字后面没有括号的情况：即2a2(b)。数字表示括号内字符串重复的次数，展开后的字符串不包含括号；将字符串逆序展开。输出最终的...

2019-04-11 09:40:47 1544

原创华为20190410研发笔试第三题：求两点之间的路径数

【题目描述】在一张NXM的地图上，每个点的海拔高度不同，从当前点只能访问上下左右四个点中还没有到达过的点，且下一步的选择的点的海拔高度必须高于当前的点；求从地图中的点A到点B的总的路径数量除以10910^9109的余数。地图左上角坐标为(0,0)，右下角的坐标为(N-1, M-1)。【输入描述】第一行输入两个整数N, M(0<N≤600,0<M≤6000&a...

2019-04-11 09:04:47 1066

原创经典论文阅读(3)-GoogLeNet-InceptionV1及其tensorflow实现

文章目录0. 前言1. Motivation2. Inception结构3. GoogLeNet-InceptionV14. InceptionV1的tensorflow实现参考资料0. 前言 GoogLeNet是Google开发的一个卷积神经网络模型，获得了ILSVRC2014的冠军。GoogLeNet增加了模型的宽度和深度，它的深度有22层，但是参数却之后500万个，AlexNet是它的...

2019-04-02 17:29:51 1107

原创经典论文阅读(2)-VGGNet

经典论文阅读(2)-VGGNet文章目录经典论文阅读(2)-VGGNet0. 前言1. VGGNet与AlexNet2. 关于文章对收敛快的解释3. 关于使用3*3的卷积核4. 关于模型训练5. VGGNet的实现参考资料0. 前言 VGGNet是牛津大学Visual Geometry Group和Deep Mind共同开发的一种深度卷积网络。他们探索了卷积神经网络深度与其性能之间的关系。...

2019-03-25 22:43:58 725

原创经典论文阅读(1)-AlexNet

0. 前言 AlexNet是深度学习领军任务Geoffrey Hinton教授的学生Alex Krizhevsky提出来的。AlexNet在ILSVRC 2012竞赛中以压倒性的成绩获得了冠军。AlexNet是一个具有突破性意义的模型，在他之前，神经网络和深度学习都陷入了长时间的瓶颈期。AlexNet一经问世就统治了整个图像识别领域。直至今日，AlexNet也依然是效果出色且具有启发意义的网络...

2019-03-22 15:26:51 1541

原创从零开始-Machine Learning学习笔记(38)-基于SVD的推荐系统

文章目录0. 前言1. 关于SVD与特征值分解2. 基于SVD的推荐系统2. 1 相似度2.2 使用SVD对未打分的物品进行打分2.3 基于SVD的推荐函数3. 基于SVD的图像压缩4. SVD的评价参考资料0. 前言本文总结于Peter Harrington的《Machine Learning in Action》的第14章-利用SVD简化数据。1. 关于SVD与特征值分解 SVD...

2019-03-17 16:43:58 411

原创腾讯2019年暑期实习生招聘提前批在线笔试技术研究和数据分析方向

前段时间参加了腾讯2019年暑期实习生招聘提前批技术研究和数据分析方向的笔试，上来就直接是5道编程题，当时做出来三道半，且还没有完全通过测试用例。所以下来之后又详细的研究了一番。发现其实题没有想象中的那么难，只不过在当时紧张的情况下，思维受到了一些限制。这个仓库存放了我关于这5道题的解法。代码我放在我的github上了，有兴趣的同学可以Clone到本地。如果有什么问题，欢迎交流：kab...

2019-03-13 21:20:12 4834 10

2014年研究生数学建模竞赛E题乘用车物流运输计划解题代码

android 指纹识别+最简单的代码实现

android利用Fragment+RadioButton实现仿微信界面UI

android开发-2048游戏源代码

ADXL345文档资源集合

空空如也