自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(37)
  • 问答 (1)
  • 收藏
  • 关注

原创 SOTA LLM int4算法AutoRound欢迎试用

AutoRound(https://github.com/intel/auto-round)实现了出色的量化性能,在W4G128上多数场景中接近无损压缩,适用于包括gemma-7B、Mistral-7b、Mixtral-8x7B-v0.1、Mixtral-8x7B-Instruct-v0.1、Phi2、LLAMA2等一系列流行模型。在尽量公正的评估中,AutoRound在W4G128、W4G-1、W3G128、W2G128的大多数场景中优于GPTQ,AWQ等方法。

2024-02-28 10:05:10 983 1

原创 [水博文]论文杂读传送门

深度学习应用和图像理解相关。人老体衰,记忆下降,很多看了就忘了,今后希望能对一些论文做些很肤浅的记录,后面有需要的话可以快速捡起来分割视频分类和骨架网络域适配(半年没更新)其他文字(资料收集)...

2019-02-18 19:15:56 1269

原创 [水水博文]多方向文本检测自研结果

有很多不好的地方。目前不提供任何细节,请见谅。此方法在icdar15上的结果已上传至[link]主要目的是希望能认识相关的朋友进入文字识别这个领域,特别是中文文字识别,希望能与大家多多交流,求大牛指导,因为身边主要就是我自己在瞎搞,进步比较慢  ...

2017-05-18 23:49:15 3155 18

原创 语言模型1-word2vec为什么能训练出相似向量

导语由于接到一点语言模型的任务,自然也就看到了word2vec这个比较火的课题。网上的课程和材料相对都比较多,一般一开始都会说word2vec的优点能描述出单词的相似关系,然后就是理论或者代码。但是都没有解释或者没有清楚地解释为什么word2vec能为功能性差不多的单词训练出相似向量(当然也有可能自己看的材料不多)。不管怎么样,本文尝试去解释这个问题,由于本人才疏学浅,错误敬请指正。Wor...

2016-10-19 17:39:06 4040 2

原创 文字检测与识别资源

本文写成时主要参考了[1,2], 后面加了一些自己收集的,不过大家都在更新,所以区别不是很大。蓝色部分代表最近新增的部分综述自然场景文字检测自然场景文字识别数据集开源库其他手写字识别牌照等识别破解验证码参考[2015-PAMI-Overview]Text Detection and Recognition in Imagery: A Survey[...

2016-05-12 20:38:45 68693 27

原创 [水文]论文极简记录

分割Pyramid vision transformer: A versatile backbone for dense prediction without convolutionsconditional positional encodings for vision transformers[2021-CVPR]Rethinking semantic segmentation from a sequence-to-sequence perspective with transformers. CV

2022-05-18 17:41:09 1558

原创 First Order Motion Model for Image Animation论文阅读

论文主要是做image animation,可以根据一个driving video让一张图片也按照该video上的动作去生成一些新视频。csdn放视频不方便,就放一张图好了图片如下因为算法会将driving video和图片的尺寸都调整成256*256,所以看起来会有些畸变,虽然在大形变的情况下(原理上感觉应该是keypoint丢失或者不准带来的问题),生成的视频有不少瑕疵,但整体上还是感觉有意思。本篇主要是记录下自己看该论文时一些难点的理解。个人的难点主要是在论文3.1节这些公式,个人数学水平有

2022-01-12 19:16:50 2135

原创 GAN稳定性训练理论入门

对GAN的理解还停留在一些警察抓小偷,cyclegan,pix2pixHD之类的层次,当自己想去独立写一个的时候发现自己对这块了解地非常肤浅。本文综合网上各种参考资料和论文,记录在本博客中,以促进自己的理解,不过自己想要想真正理解里面的内容,还是得对数学有系统的学习,不然只是生硬地知道这个公式这个定理,而不能形象理解,过三五个礼拜就忘了

2020-07-05 16:56:00 3087

原创 物体检测论文杂读-非常少

对物体检测的工作不是特别熟悉,特别是不同工作对应的性能还没有记住。Feature Selective Anchor-Free Module for Single-Shot Object DetectionMask Scoring R-CNNGeneralized Intersection over Union: A Metric and A Loss for Bounding Box ...

2019-06-15 13:24:37 678

原创 骨架和分类网络论文杂读

一些backbone的图解传送门未看或未总结:[201906-arxiv]Stand-Alone Self-Attention in Vision Models[paper]Res2Net: A New Multi-scale Backbone ArchitectureMobileNetV2[201906-arxiv] Does Object RecognitionWor...

2019-06-15 13:23:00 511

原创 其他论文杂读

未看或未总结Secure Federated Transfer LearningFederated Learning of Deep Networks using Model AveragingCHIP: Channel-wise Disentangled Interpretation of Deep Convolutional Neural NetworksBatch Norma...

2019-06-15 13:04:53 855 2

原创 语义分割论文杂读

未看或未总结PSPnetDeeplab v3Path Aggregation Network for Instance SegmentationLarge Kernel Matters -- Improve Semantic Segmentation by Global Convolutional Networksegment everythingContext En...

2019-06-15 11:12:18 1956 2

原创 [水水博文-论文杂读]How Does Batch Normalization Help Optimization?

[2018-NIPS-oral] How Does Batch Normalization Help Optimization[paper]这篇文章主要设计了多组对比实验去分析了Batch normalization(BN)成功的原因并在最后给出了一些证明。本文主要的观点是BN并不是去解决原始作者理解的internal covariate shift(ICS) 而是由于 BN reparame...

2018-06-05 14:40:20 1660

原创 视频理解论文杂读

图片到视频肯定是科研发展的方向,可惜需要的资源太多,主要关注动作识别方向未完成,主要给自己看[201905-arxiv] Unsupervised Learning from Video with Deep Neural EmbeddingsSelf-supervised Learning for Video Correspondence Flow[2019-arxiv]DistI...

2018-05-06 16:11:47 6780

原创 域适配论文杂读(门外汉级)

要看的基于深度学习的adaptation和image translation方面的论文,希望能对这个领域最新的工作有个概念,主要给自己看。其实个人觉得解决这个问题真的不是重点,而是研究它的成因,以便在训练的过程中解决CNN泛化的问题才是本质 Table of Contents  未看或未总结 分类或分割[2018-arxiv] Adaptive Semantic S...

2018-04-02 20:06:42 3974 3

原创 深度学习分类网络

主要介绍一些分类网络,并计算了FLOPS,参数个数和感受野信息,方便大家查询。很多本人没有用过,另外也没有认真校对,有可能有错误。感受野的公式应该有错误,大家可以忽略1 VGG-16VGG[1]是非常经典的模型,是2014 ImageNet的亚军,其中当属VGG16应用最广泛。核心思想:小核,堆叠。主要分成5个stages,22333,13个卷积层,16的意思应该是加上3个...

2017-09-24 20:18:52 19487 5

原创 [水文]生成模型2 - Variational Autoencoders

笔记和个人的理解,初学者,可能有重大错误,兼听则明

2017-07-22 16:48:55 1599

转载 蒙特卡洛和gibbs采样

摘自《LDA数学八卦》by Rickjin(靳志辉), version 1.0.如有版权问题,非常抱歉,请联系删除,这是本人看过的最好的材料了

2017-05-23 20:08:52 1293 1

原创 [水文]生成模型1-PixelRNN

这里主要记录阅读NIPS 2016 Tutorial: Generative Adversarial Networks[1][视频]的一些笔记,还没有很好的理解导语GAN应该是这两年深度学习最火热的技术了,虽然不研究这块,但是看看应该没多大坏处。它有很多非常有意思的应用。比如在[4]中的一个应用是我比较喜欢的,就是画画[youtube]首先第一步我们在底下画了几条绿线,...

2017-03-03 19:30:48 11133 4

原创 [论文复现]Detecting Text in Natural Image with Connectionist Text Proposal Network

最近一直在复现这篇论文,除了数据外已基本完成,可是没想到昨天开源了[code],不过作者不公开对于识别很重要的side refinement模块,算是一个阉割版,附上个人的一些中间结果(只训练了200多张图片,网络架构,参数等跟作者的有些出入),主要是这篇论文步骤比较简单,如果比较清楚RPN,基本没什么说的。论文的思想主要借鉴了faster rcnn的rpn思想,主要的不同点在于作者观测到...

2016-11-18 12:52:40 9517 31

转载 各大公司广泛使用的在线学习算法FTRL详解

转载请注明本文链接:http://www.cnblogs.com/EE-NovRain/p/3810737.html   现在做在线学习和CTR常常会用到逻辑回归( Logistic Regression),而传统的批量(batch)算法无法有效地处理超大规模的数据集和在线数据流,google先后三年时间(2010年-2013年)从理论研究到实际工程化实现的FTRL(Follow-the-

2016-09-07 20:48:54 1374

原创 PRML抽样方法笔记

参考 pattern recognition and machine learning 第十一章。主要是笔记,本人没有暂深入和形象的理解。

2016-08-19 17:16:29 2670

原创 FASText(下):FASText

0导语上一篇我们已经大致介绍了FAST角点,原始的FAST能处理一些带角点的的字母如L,P,但是很难处理o,和8等情况。以o为例,见下图,像素值会被截成四个部分,这样的话就很难满足原始的Fast角点需要连续多个点都要亮或暗的要求。另外由于Fast角点不是专门为定位文本设计,因此也会有很多的false postives.基于这些观察,FASText作者在Fast角点的基础上定制了两种角点SEK(...

2016-07-22 19:32:04 3856 16

原创 FASText(上) : Fast 角点

0 导语本文主要介绍论文FASText:Efficient Unconstrained Scene Text Detector[pdf][code],其核心思想是定制化fast角点使其更有利于场景文字的检测。因此本文主要分上下两篇,第一篇先介绍fast角点,并剖析其opencv(2.4.10)的代码,下篇再介绍FSAText.首先我们直观感受下FASText和Fast角点,参数

2016-07-14 17:07:30 5733 6

原创 文字检测与识别4-过分割和beam search

前面的章节已经介绍了提取文本行的方法。本文主要介绍传统的依赖over segmentation过分割,beam search和字符分类器的识别方法。主要参考文献[1]和opencv contribute中text module中的代码[5]。一般情况下我们会通过二值化,投影、连通域分割,分类器判别这套程序来做文字识别,但是一方面二值化现在还没有一统江湖的方法,另一方面就算某些情况下二值化做

2016-05-08 21:05:32 7046 1

转载 隐尔马尔可夫模型HMM

主要转载自http://www.zhihu.com/question/20962240/answer/33438846的答案隐马尔可夫(HMM)好讲,简单易懂不好讲。我认为 @者也的回答没什么错误,不过我想说个更通俗易懂的例子。我希望我的读者不是专家,而是对这个问题感兴趣的入门者,所以我会多阐述数学思想,少写公式。霍金曾经说过,你多写一个公式,就会少一半的读者。所以时间简史

2016-05-07 15:19:13 1593

原创 文字检测和识别5-LSTM简介

导语LSTM[1]作为RNN的经典模型,已经应用在了很多领域,如语音识别[2],OCR[3][4],图像描述[5],手写字识别[6],翻译[7],自然语言处理等等。在线手写字识别[11]图像内容描述[5]  1为什么需要LSTM 1.1时序问题如果接到一个时序问题时,比如语音识别,我首先会想着先切割,然后每一段每一段地去识别,但是

2016-03-10 17:13:33 13805

原创 矩阵形象理解最小二乘解

你们也可以从各式各样的书籍中知道最小二乘问题Ax=b的有最优估计值是A^T Ax ̂=A^T b,但是大多数书籍文章都是用各式各样的方法去证明这个结论的正确性而没有从非常直观的角度去理解这个公式,本文所要做的就是从矩阵去分析这个公式能让读者有更形象的理解。。

2016-01-22 16:24:45 4328

原创 自创-CRBM 玩flappy bird

1 导语这个实验是14年上半年在公司实习做的,很多都已经忘记了,就基本参考以前的总结写在这。用机器学习去玩游戏最牛掰的当属google deep mind的DRL[1]系列,这个是完全图像输入,我等也只能膜拜的份。博主这个实验是用的是人工特征,因此与DRL不可同日而语,效果也不是很好,不过个人觉得这个实验还是挺有趣的,又没有license的问题,所以在这里分享给大家。这里面的思想很简单,就是得...

2016-01-02 13:39:02 1665

转载 卷积层感受野和坐标映射

转载自http://blog.cvmarcher.com/posts/2015/05/17/cnn-trick/如有版权问题,请联系博主删除本博客Receptive Field (感受野)这是一个非常重要的概念,receptive field往往是描述两个feature maps A/B上神经元的关系,假设从A经过若干个操作得到B,这时候B上的一个区域area b  只会跟

2015-12-26 17:26:09 5868 4

原创 文字检测与识别3-字符合并

1导语前两节我们分别解释了字符提取和字符过滤,在这过程中主要有=两个原因需要我们将单个字符组合成一个文字行或者段落之类(如图1)。一个重要的原因是出来不管是由于MSER的原因还是分类器的原因,有些真的字符并没有找出来,比如i和j上面的点等等,当然实际中情况要远比这些严重的多,我们需要靠字符合并来恢复这些漏掉的字符。另外一个原因是在识别的时候有上下文会大大增加识别的精度,比如一个0,有时

2015-12-21 19:55:27 7146

原创 Grabcut

1导语 想跟偶像合影,但是一直没有机会,怎么办?PS,太复杂,不太会。美图秀秀,只能增白磨皮。最后还是编程靠谱这里用的技术就是Grabcut。Grabcut主要是一种交互式分割算法,用户需要圈出自己想要分割的东西,grabcut会迭代地将其分割出来,并且迭代过程中用户可以交互。下图实验中只是圈出矩形,并未交互,可以看出算法效果还是非常鲁棒的。    

2015-12-01 21:10:31 9739 5

翻译 最小割与最大流(mincut & maxflow)

这里先介绍mincut和maxflow,为介绍Grabcut打下基础。Grabcut可以用在图像分割和文字二值化中。 1首先介绍Mincut问题。这部分内容主要翻译自[1],可以看原版理解的更深.由于个人没有看过中文教材,因此可能一些专业术语翻译的不太对,敬请见谅。一个有向图,并有一个源顶点(source vertex)和目标顶点(target vertex).边的权值为正,又称之为容量(capa...

2015-11-30 19:33:35 9614 5

原创 文字检测与识别2-字符过滤

导语在上一章节中我们介绍了怎么在一幅图片中提取潜在的字符(character proposals)。一般情况下基本上都会发生两种不想要的情况。第一种就是有些字符没提取出来,称之为false negative,这个可以通过多通道(如梯度幅值或者其他颜色通道)提取MSER来减轻。另外一种是提取出来的字符有很多不是真的字符,称之为false positive,这个需要一些过滤算法来过滤.这一

2015-11-23 23:06:04 8548 6

原创 文字检测与识别1-MSER

 导语文字识别在现实场景中的用途非常广泛,现在已经有很多公司将这项技术用于实际中。比如车牌识别,图片转换成文档,拍照搜题,拍照翻译等。这让很多人有了错觉,感觉文字识别的技术已经炉火纯青,可以广泛应用。其实不然,车牌识别里面字体和字的类型比较单一,并且有一些矩形等辅助的特征。而拍照翻译的图片一般是文档类型,较容易识别,但也有不小的错误率。文字识别的首要问题是找到文字,其次才是识别。而在自然场...

2015-11-19 20:10:00 28971 21

原创 [水文]基于语义的物体检测笔记

很早之前写的个人笔记,主要是对"语义物体检测"中个人不理解地方的注释,而不是一篇介绍性的文章。论文”from rigid templates to grammars : object detection with structured models“。。论文作者的工程在http://people.cs.uchicago.edu/~rbg/latent/

2015-11-15 12:39:38 1734

转载 理解矩阵

理解矩阵一:转载自:http://blog.csdn.net/myan/article/details/647511http://blog.csdn.net/zouxy09/article/details/8004724前不久chensh出于不可告人的目的,要充当老师,教别人线性代数。于是我被揪住就线性代数中一些务虚性的问题与他讨论了几次。很明显,chensh觉得,要让自己在讲线性

2015-11-12 10:42:11 1415 2

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除