机器学习与AI生成创作-CSDN博客

转载前向FLOPs可降一半！DeepMind升级Transformer

本文来源机器之心编辑：Panda W引入混合深度，DeepMind 新设计可大幅提升 Transformer 效率。Transformer 的重要性无需多言，目前也有很多研究团队致力于改进这种变革性技术，其中一个重要的改进方向是提升 Transformer 的效率，比如让其具备自适应计算能力，从而可以节省下不必要的计算。正如不久前 Transformer 架构的提出之一、NEAR Pro...

2024-04-17 11:57:43 9

转载整理了2000篇2024年顶会论文合集【附下载】

众所周知，论文是人工智能学习的基石，因为论文展示了不同方向最新的研究成果，了解并且掌握这些学习成果，会对自己写论文助力不少。这次我整理了AAAI 2024 /CVPR 2024 / ICLR 2024 / WACV 2024 论文合集，总共2000多篇，论文内容涵盖了3D高斯、时序、大语言模型、多模态等方向，希望对大家的学习有所帮助。扫码回复“论文”领最新2024年2000篇顶会论文合集为了让大...

2024-04-17 11:57:43 16

原创 CVPR 2024 | 绝了！！最新 diffusion 扩散模型梳理！100+篇论文、40+研究方向！

30个方向130篇！CVPR 2023最全AIGC论文30个方向！ICCV 2023 最全AIGC论文25个方向！CVPR 2022 GAN论文汇总35个方向！ICCV 2021 最全GAN论文汇总超110篇！CVPR 2021 最全GAN论文梳理超100篇！CVPR 2020 最全GAN论文梳理在最新的视觉顶会CVPR 2024会议中，涌现出大量基于生成式AIGC的CV论文，尤其是扩散模...

2024-04-16 23:53:15 1263

原创 CVPR 2024 | 可控文生图11篇汇总！基于扩散模型diffusion的text-to-image

1、ViewDiff: 3D-Consistent Image Generation with Text-to-Image Models3D资产生成正受到大量关注，受到最近文本引导的2D内容创建成功的启发，现有的文本到3D方法使用预训练文本到图像扩散模型来解决优化问题，或在合成数据上进行微调，这往往会导致没有背景的非真实感3D物体。本文提出利用预训练的文本到图像模型作为先验，并从真实世界数据中单一...

2024-04-14 13:59:31 754

转载世界上第一位AI程序员Devin的诞生，我们人类程序员要如何看待和了解他？

正文开始前，先派送福利扫码备注【送书】进群，参与免费寄送【大语言模型：基础与前沿】纸质图书抽奖活动，活动截止日期2024-04-14晚上10点。也可自行购买，戳如下，专属 5折优惠！京东专属链接：Part.1Devin真的会抢走你的饭碗吗？全球首个完全自主的 AI 软件工程师上线，它是来自 Cognition 这家初创公司的产品——Devin，这个名字也随即引爆了科技圈。话说 Devin...

2024-04-12 12:04:54 14

转载北大Open Sora：视频生成更强了，超10秒高分辨率，还支持华为芯片

本文来源机器之心编辑：陈萍北大团队联合兔展发起的 Sora 复现计划，现在有了新成果。OpenAI 在今年年初扔出一项重大研究，Sora 将视频生成带入一个新的高度，很多人表示，现在的 OpenAI 一出手就是王炸。然而，众多周知的是，OpenAI 一向并不 Open，关于 Sora 的更多细节我们无从得知。谁能率先发布类 Sora 研究成了一个热门话题。今年 3 月初，北大团队联合兔展启...

2024-04-12 12:04:54 32

转载杜克大学计算机工程系教授科研项目招生啦 | 发论文，拿推荐信的机会来了

本次项目由杜克大学计算机工程系教授R.Y.领衔。对计算机视觉、人工智能、深度学习、机器学习、机械工程专业感兴趣的同学一定要把握住这次学习机会！如果你对上面的项目感兴趣请长按识别下方二维码添加顾问老师微信咨询并发送专属口令【机器学习与AI生成创作】即可领取专属报名优惠↓↓↓↓↓本课程适合适用计算机视觉、人工智能、深度学习、机器学习、机械工程专业等专业感兴趣，有计划申请相关专业的学生计划申请海外名校，...

2024-04-11 11:58:01 22

转载 EdgeNet：低成本、大幅提升视觉分类鲁棒性！悉尼大学华人团队发布

本文来源新智元编辑：LRS【新智元导读】EdgeNet可以处理从干净的自然图像或嘈杂的对抗性图像中提取的边缘，产生鲁棒的特征，具有轻量级、即插即用等特点，能够无缝集成到现有的预训练深度网络中，训练成本低。在深度神经网络时代，深度神经网络（DNNs）在视觉分类任务中展现出了卓越的准确性。然而，它们对额外噪声，即对抗性攻击，表现出了脆弱性。先前的研究假设这种脆弱性可能源于高准确度的深度网络过度依...

2024-04-11 11:58:01 39

转载上海交大新框架解锁CLIP长文本能力，多模态生成细节拿捏，图像检索能力显著提升...

本文来源白交发自凹非寺量子位CLIP长文本能力被解锁，图像检索任务表现显著提升！一些关键细节也能被捕捉到。上海交大联合上海AI实验室提出新框架Long-CLIP。△棕色文本为区分两张图的关键细节Long-CLIP在保持CLIP原始特征空间的基础上，在图像生成等下游任务中即插即用，实现长文本细粒度图像生成——长文本-图像检索提升20%，短文本-图像检索提升6%。解锁CLIP长文本能力CL...

2024-04-10 12:52:07 34

转载最新11个SAM+医学图像创新点，冲Nature！

今天分享一个能登Nature的idea——医学图像SAM。其中，MedSAM作为首个为医学图像分割设计的基础模型在2024登上Nature。在这之后，学界也开始针对SAM在医学图像中的适应性问题进行定制化改进。目前医学图像SAM方向上能够冲顶会的idea有很多。分享我总结的11个最新SAM+医学图像改进方案，并提供了源码，方便大家复现！1.MedSAM：医学图像领域的SAM，2024登Nature...

2024-04-10 12:52:07 25

原创 CVPR 2024 | 图像检测类（目标、deepfake、异常）！AIGC扩散模型diffusion解决detection任务...

目标跟踪1、Delving into the Trajectory Long-tail Distribution for Muti-object Tracking多目标跟踪（Multiple Object Tracking，MOT）是计算机视觉领域中一个关键领域，有广泛应用。当前研究主要集中在跟踪算法的开发和后处理技术的改进上。然而，对跟踪数据本身的特性缺乏深入的研究。本研究首次对跟踪数据的分布模...

2024-04-08 11:18:34 1208

转载教你从0开始发一篇SCI，科研小白必看！

今天向所有在2024以及未来几年内发论文的同学分享一些资料：23年各大顶会论文合集、80个代码中的即插即用模块、论文写作方法论、以及完成初稿后的论文润色。发论文，首先大家需要解决idea的问题。最有效，也是最简单的方法：多看文献多总结。只有多读文献，才能了解领域发展、找到现有的问题、思考总结出idea。今天分享过去的一年内CV、NLP、ML方向的各大顶会论文合集。涵盖CVPR2022-2023、I...

2024-04-03 12:06:32 42

转载万字长文，深度梳理Python多线程与多进程

作者：钱魏Way 文仅分享，侵删链接：https://www.biaodianfu.com/python-multi-thread-and-multi-process.html导读在Python中，多线程和多进程都是用于实现并行处理的方式，它们提供了在单个进程内或跨多个进程执行并发操作的网关，提高了系统的速度和效率。很多同学对其中的原理，并不是特别了解，本文系统性的讲解其中的各个知识点，希...

2024-04-03 12:06:32 36

原创 CVPR 2024 | 图像超分、图像恢复汇总！用AIGC扩散模型diffusion来解决图像low-level任务的思路...

1、Arbitrary-Scale Image Generation and Upsampling using Latent Diffusion Model and Implicit Neural Decoder超分辨率（SR）和图像生成是计算机视觉中重要的任务，在现实应用中得到广泛采用。然而，大多数现有方法仅在固定放大倍数下生成图像，并且容易出现过平滑和伪影。此外，在输出图像的多样性和不同尺度下...

2024-04-02 11:31:59 659

转载这居然也能发顶会？

发顶会是有诀窍的，魔鬼藏在细节里。以刚刚公布审稿结果的ACL 2024为例，我总结了审稿人给出2.5分的几条普遍理由。审稿先看Abstract和introduction，这个时候对文章档次的判断已经八九不离十了。对于boardline 和 accept 水平的文章，审稿人会看看文章剩余部分的图和表，检查有无问题，最后看实验是否充分，再酌情扣分。文章的细节和语法错误，这些虽然都是小错误，但是能够看出...

2024-04-01 11:58:18 35

转载比Sora更持久！120秒超长AI视频模型诞生！

本文来源新智元编辑：润好困【新智元导读】UT奥斯丁等机构提出了一种名为StreamingT2V的技术，让AI视频的长度扩展至近乎无限，而且一致性，动作幅度也非常好！Sora一出，文生视频的在长度这个指标上就卷的没边了。从Pika和Runway的4秒，到VideoPoet的理论无限长，各个团队都在通过各种不同的技术路径不断延长视频生成长度的上限。最近，来自Picsart AI Resear...

2024-04-01 11:58:18 49

原创 CVPR 2024 | 风格迁移和人像生成汇总！扩散模型diffusion用于经典AIGC方向

风格迁移1、DEADiff: An Efficient Stylization Diffusion Model with Disentangled Representations基于文本到图像扩散模型在迁移参考风格方面具有巨大潜力。然而，当前基于编码器的方法在迁移风格时显著损害了文本到图像模型的文本可控性。本文提出DEADiff来解决这个问题，采用以下两种策略：1）一种解耦参考图像的风格和语义的机...

2024-03-30 21:52:29 1252

原创 CVPR 2024 | 从6篇论文看扩散模型diffusion的改进方向

1、Accelerating Diffusion Sampling with Optimized Time Steps扩散概率模型（DPMs）在高分辨率图像生成方面显示出显著性能，但由于通常需要大量采样步骤，其采样效率仍有待提高。高阶ODE求解在DPMs中的应用的最新进展使得能够以更少的采样步骤生成高质量图像。然而，大多数采样方法仍使用均匀的时间步长，在使用少量步骤时并不是最优的。为解决这个问题，...

2024-03-28 12:05:12 1517

转载 2024 CSRankings全美计算机科学排名发布！CMU霸榜，MIT跌出前5

本文来源新智元编辑：桃子【新智元导读】全美CSRankings 2024结果出炉！全美计算机科学专业排名中，排名前三的学校是CMU、UIUC、佐治亚理工学院。值得注意的是，MIT跌出了全美前5。2024 CSRankings全美计算机科学专业排名，刚刚发布了！今年，全美全美CS最佳大学排名中，卡耐基梅隆大学（CMU）位列全美第一，同时是CS世界第一。与此同时，伊利诺伊大学香槟分校（UIUC）...

2024-03-27 11:55:55 111

原创 CVPR 2024 | 前沿而相对小众！几个AIGC扩散模型diffusion应用一览

1、机器人规划/智能决策 SkillDiffuser: Interpretable Hierarchical Planning via Skill Abstractions in Diffusion-Based Task Execution扩散模型已展示在机器人轨迹规划方面的潜力。然而，从高级指令生成连贯的轨迹仍具有挑战性，特别是对于需要多个序列技能的长距离组合任务。提出SkillDiffuser...

2024-03-21 11:49:51 974

转载 200+自动驾驶最新论文代码，超全分类汇总

2024年开始，将是高阶自动驾驶关键节点。大模型、端到端、OCC这些技术正逐步走向量产。今天就为大家盘点200+篇自动驾驶论文与代码，来自ICCV、NeurIPS等顶会，涉及大模型自动驾驶、端到端、BEV感知、检测、OCC等10余个研究方向。本论文合集涵盖的研究方向全面，内容充实。能帮助大家一览自动驾驶发展路线与前沿趋势。扫码下载全部论文PDF与代码。长按二维码下载自动驾驶200+论文代码合集大模...

2024-03-20 11:51:47 63

转载 StableDrag：拖拽P图技术再升级！更稳、更准 | 南大、腾讯联合打造

本文来源机器之心编辑：杜伟、陈萍去年 5 月，动动鼠标就能让图片变「活」得研究 DragGAN 吸引了 AI 圈的关注。通过拖拽，我们可以改变并合成自己想要的图像，比如下图中让一头狮子转头并张嘴。实现这一效果的研究出自华人一作领衔的「Drag Your GAN」论文，于上个月放出并已被 SIGGRAPH 2023 会议接收。相关的项目在 GitHub 上已经积累了 34.5k 的 Star...

2024-03-20 11:51:47 56

转载「Open-Sora 1.0」！Colossal-AI 团队复现开源！

本文来源机器之心编辑部不久前 OpenAI Sora 以其惊人的视频生成效果迅速走红，在一众文生视频模型中突出重围，成为全球瞩目的焦点。继 2 周前推出成本直降 46% 的 Sora 训练推理复现流程后，Colossal-AI 团队全面开源全球首个类 Sora 架构视频生成模型「Open-Sora 1.0」，涵盖了整个训练流程，包括数据处理、所有训练细节和模型权重，携手全球 AI 热爱者共同...

2024-03-19 11:59:01 85

转载英伟达提出LLMs微调方法LoRA新SOTA！强大易复现！

当下主流的LLMs微调方法LoRA，又出新变体了。近期，英伟达联合港科大，公布了名为DoRA的高效微调技术，通过对预训练权重矩阵，进行低秩分解，实现了更细粒度的模型更新，微调效率也大大提升，在一系列下游任务中，训练速度和性能表现，均明显优于LoRA！为了让大家快速掌握最新算法，研梦非凡特请来了该领域科研大牛，定制了直播课《AI前沿论文解析系列—DoRA: Weight-Decomposed L...

2024-03-19 11:59:01 72

转载 GitHub 2K+星、B站播放量超30万，大模型入门看这本书就够了！

正文开始前，先派送福利扫码备注【送书】进群，参与免费寄送【ChatGPT原理与应用开发】纸质图书抽奖活动，活动截止日期2024-03-17晚上10点。也可自行购买，戳如下，专属 5折优惠！京东专属链接：喜欢AI，对ChatGPT超级好奇，但被市面上爆增的大模型书籍和教学视频弄得眼花缭乱？没事！Datawhale团队最新推出的“蝴蝶书”——《ChatGPT原理与应用开发》来啦！这本书源自Da...

2024-03-14 11:43:58 48

转载 CVPR2024｜DragGAN并不需要点跟踪！FreeDrag：无需点跟踪即可稳定拖动语义内容

编辑丨极市平台Paper：https://arxiv.org/abs/2307.04684Code：https://github.com/LPengYang/FreeDragProject Page：https://lin-chen.site/projects/freedrag/近日，在AIGC的广阔世界里出现了一个火热的图像编辑方法---即通过在给定图像上通过把语义内容从原位置（handle p...

2024-03-14 11:43:58 57

转载中山大学等提出ScaleLong扩散模型：从质疑Scaling到成为Scaling，几行代码稳定UNet !...

文章来源新智元编辑：LRS 好困【新智元导读】本文提出了扩散模型中UNet的long skip connection的scaling操作可以有助于模型稳定训练的分析，目前已被NeurIPS 2023录用。同时，该分析还可以解释扩散模型中常用但未知原理的1/√2 scaling操作能加速训练的现象。在标准的UNet结构中，long skip connection上的scaling系数一般为1。...

2024-03-13 11:56:08 38

转载多篇综述理清知识图谱现状，这167篇论文值得一读！

以GPT为代表的大模型，是全新一代知识表示和调用方式，相比以往知识图谱的方式，更加高效智能可扩展等，开启通用人工智能之门。但符号化的知识图谱过时了吗？并非如此，大语言模型和知识图谱不是互相替代，而是相互依存的关系，知识图谱和大模型可以进行很好的结合，互相促进，提升知识利用的效果。（文末送书）这次我整理了5篇最新知识图谱综述论文+ 10篇最新KG+sora论文+ 152篇知识图谱论文+ 2节顶...

2024-03-13 11:56:08 30

转载 CV工程师进阶必读：自动驾驶多传感器融合从入门到精通

自动驾驶正成为影响未来行业的关键技术，传感器是自动驾驶系统中感知外部世界的关键，其协作性能直接决定自动驾驶车辆的安全性。研梦非凡请来了国内一线车企研究院资深算法工程师Frank导师，在3月14日晚20点带大家系统学习《自动驾驶多传感器融合算法》。ps：文末超多免费科研福利扫码加助教免费预约直播领取各顶会自动驾驶相关论文+代码+数据集直播课主要内容自动驾驶中传感器及其成像原理激光雷达成像原理激光雷达...

2024-03-12 12:01:58 33

转载 Stable Diffusion 3技术报告出炉：揭露Sora同款架构细节

量子位公众号很快啊，“文生图新王”Stable Diffusion 3的技术报告，这就来了。全文一共28页，诚意满满。“老规矩”，宣传海报（⬇️）直接用模型生成，再秀一把文字渲染能力：所以，SD3这比DALL·E 3和Midjourney v6都要强的文字以及指令跟随技能，究竟怎么点亮的？技术报告揭露：全靠多模态扩散Transformer架构MMDiT。成功关键是对图像和文本表示使用单独两...

2024-03-12 12:01:58 34

转载整理了2024年最新顶会论文【附PDF】

ICLR作为机器学习领域的顶级国际会议，每年都吸引了全球众多顶尖学者和研究者的目光，AAAI人工智能会议在AI领域极具声望，CVPR是计算机视觉方向的“顶级流量”。现在会议论文审稿结果也已经出来了，今天给大家整理了CVPR/AAAL/ICLR2024优秀论文，涵盖了3D高斯、时序、大语言模型、多模态等方向，这些论文展示了不同方向最新的研究成果，一起来学习吧！扫码回复“论文”领最新2024...

2024-03-06 11:55:20 258

转载场景文字生成遥遥领先！Ideogram这块暴打Midjourney+DALL·E 3

本文来源新智元编辑：润好困【新智元导读】Ideogram凭借不输Midjourney的生图能力和遥遥领先的图片中文字渲染能力，获得了包括Jeff Dean和Karpathy在内一众大佬的8000万美元融资，文生图这条离钱最近的AI赛道又加入了一名重量级选手。文生图领域作为一个跑出「10人团队年收入过亿美金初创公司」的赛道，已经成了AI创业公司掘第一桶金的最佳起点。但是在谷歌，微软等大厂都已...

2024-03-06 11:55:20 72

转载 CV算法任务中，如何保证Vision Transformer的速度？

文章来源：极市平台文仅分享，侵删链接：https://zhuanlan.zhihu.com/p/569482746导读如何提高ViT的效率？可以是让模型更容易训练，减少训练时间，也可以减少模型部署在硬件上的功耗等等。本文主要讲inference time的效率问题，简单说就是如何让模型更快，同时性能不掉太多甚至反升。我的PhD课题是Vision Transformer的efficiency...

2024-02-28 12:33:11 56

转载科研论文写作(干货版)

学习人工智能专业的同学是绕不开发论文，并且要发一篇自己能力范围内最好的论文，而论文的核心就是论文+代码，经常有同学在后台留言：论文写作有一套独有公式吗？代码如何加入自己的创新点优化融合代码？........所以我整理了1：十大方向，近百个经典即插即用模块“缝合”，模块都是经典的网络模块。2：2000+篇2023年顶会论文合集（更新版）3：100篇引用率最高论文4：SCI论文写作模板+万能句式+初稿...

2024-02-28 12:33:11 50

转载 YOLOv9 来了！依旧卷积！

本文来源机器之心在目标检测领域，YOLOv9 实现了一代更比一代强，利用新架构和方法让传统卷积在参数利用率方面胜过了深度卷积。继 2023 年 1 月 YOLOv8 正式发布一年多以后，YOLOv9 终于来了！我们知道，YOLO 是一种基于图像全局信息进行预测的目标检测系统。自 2015 年 Joseph Redmon、Ali Farhadi 等人提出初代模型以来，领域内的研究者们已经对 Y...

2024-02-27 12:00:17 224

原创 ICCV 2023 | 最全AIGC梳理，5w字30个diffusion扩散模型方向，近百篇论文！

30个方向130篇！CVPR 2023最全AIGC论文25个方向！CVPR 2022 GAN论文汇总35个方向！ICCV 2021 最全GAN论文汇总超110篇！CVPR 2021 最全GAN论文梳理超100篇！CVPR 2020 最全GAN论文梳理在最新的视觉顶会ICCV 2023会议中，涌现出大量基于生成式AIGC的CV论文，尤其是扩散模型diffusion为代表！除直接生成，还广泛应...

2024-02-26 12:45:26 1046

转载爆火Sora背后的技术，一文综述扩散模型的最新发展方向

本文来源机器之心为了使机器具有人类的想象力，深度生成模型取得了重大进展。这些模型能创造逼真的样本，尤其是扩散模型，在多个领域表现出色。扩散模型解决了其他模型的限制，如 VAEs 的后验分布对齐问题、GANs 的不稳定性、EBMs 的计算量大和 NFs 的网络约束问题。因此，扩散模型在计算机视觉、自然语言处理等方面备受关注。扩散模型由两个过程组成：前向过程和反向过程。前向过程把数据转化为简单的先验...

2024-02-23 17:22:54 44

转载信息差！提效神器！用AI进行论文写作和课题申报

正文开始前，先派送福利扫码备注【送书】进群，参与免费寄送【AI辅助写作】图书抽奖活动，活动截止日期2024-02-25晚上10点。也可自行购买，戳如下，专属5折优惠！京东链接：都说AI改变生活，但其实也不是所有人都会利用AI改变生活。如果你是：还在为写论文苦恼，是半天憋不出一句话的论文党还在为申报课题忧心，是琢磨半天下不了笔的课题申报秃头党那么，你一定要了解一下如今AI已经卷到什么程度，AI...

2024-02-23 17:22:54 316

转载除了sora，值得关注的大模型进展！谷歌TPU人马打造最快推理芯片，每秒500tokens干翻GPU！...

文章来源量子位太快了太快了。一夜间，大模型生成已经没什么延迟了……来感受下这速度。眼花缭乱了吧，生成速度已经接近每秒500 tokens。还有更直观的列表对比，速度最高能比以往这些云平台厂商快个18倍吧。（这里面还有个熟悉的身影：Lepton）网友表示：这速度简直就是飞机vs走路。值得一提的是，这并非哪家大公司进展——初创公司Groq，谷歌TPU团队原班人马，基于自研芯片推出推理加速方案。（注...

2024-02-21 11:54:34 36

转载 AIGC视频生成的GPT-3时刻！谢赛宁等关于 Sora 的技术分析

本文来源量子位就说Sora有多火吧。生成的视频上线一个、疯传一个。作者小哥新上传的效果，很快引来围观。失败案例都让人看得上瘾。将近1万人点赞。学术圈更炸开锅了，各路大佬纷纷开麦。纽约大学助理教授谢赛宁（ResNeXt的一作）直言，Sora将改写整个视频生成领域。英伟达高级研究科学家Jim Fan高呼，这就是视频生成的GPT-3时刻啊！尤其在技术报告发布后，讨论变得更加有趣。因为其中诸多细节不...

2024-02-20 11:57:42 54

空空如也

空空如也