才能我浪费-CSDN博客

原创 IBM也下场LLM了，自对齐、高效率的单峰驼Dromedary来了

最近的人工智能助手（AI-assistant agents），如 ChatGPT，主要依靠对人工注释的监督微调和从人类反馈中进行强化学习，以使大型语言模型（LLM）的输出与人类意图保持一致，确保它们是有用的、合乎道德的和可靠的。然而，由于获得人工监督的高成本以及质量、可靠性、多样性、自洽性和不良偏见的相关问题，这种依赖性会严重限制人工智能助手（AI-assistant agents）的真正潜力。

2023-05-12 14:31:37 376

原创不止是数据，RedPajama的模型也出来了，RedPajama 7B, 一个开源的高效LLM模型

RedPajama和它背后的公司Together其实都挺有意思的。Together，由苹果前高管Vipul Ved Prakash，斯坦福大模型研究中心主任Percy Liang，苏黎世联邦理工大学助理教授张策等人联合创办。RedPajama是“一个创建领先的开源模型的项目，从复制超过1.2万亿个Token的LLaMA训练数据集开始”。这是Together，Ontocord.ai，ETH DS3Lab，斯坦福CRFM，Hazy Research和MILA Québec AI Institute之间的合作。

2023-05-12 14:30:18 579

原创近期关于AIGC方面的学习笔记和思路整理

北方的郎：Transformer类模型应用情况的简单综述北方的郎：AI内容检测工具评测集合北方的郎：常用ChatGPT类模型的总结北方的郎：从GPT-1到GPT-4，GPT系列模型详解北方的郎：数据即模型，模型即数据感觉有帮助的朋友，欢迎赞同、关注、分享三连。^-^

2023-05-12 14:30:05 1017

原创 MPT-7B：开源，商业可用，性能堪比LLaMA-7B的LLM新成员

Meta开源了LLama，不过有很多限制，很难商业运用。于是现在MosaicML开发了MPT-7B模型，它是一个基于Transformer在1T文本/代码Token上训练出来的模型。该模型开源，与LLaMA-7B模型效果相匹配，而且可用于商业用途。看过资料后感觉MPT-7B作为一个高效LLM模型的同时，也是MosaicML推介他们AI平台的一个广告。后续资料主要翻译自MosaicML的博文，翻译过程中内容有所修改，如果其中出现“我们”等字眼，指的都是MosaicML。

2023-05-12 14:29:45 1419

原创大语言模型（LLM）的进化树，学习LLM看明白这一张图就够了

近期大语言模型迅速发展，让大家看得眼花缭乱，感觉现在LLM的快速发展堪比寒武纪大爆炸，各个模型之间的关系也让人看的云里雾里。最近一些学者整理出了 ChatGPT 等语言模型的发展历程的进化树图，让大家可以对LLM之间的关系一目了然。论文：https://arxiv.org/abs/2304.13712Github(相关资源)：https://github.com/Mooler0410/LLMsPracticalGuide进化的树图现代语言模型的进化树追溯了近年来语言模型的发展,并强调了一些最著名的模型。同一

2023-05-12 14:28:14 2239

原创新的生图模型DeepFloyd IF来了，可以拳打Stable Diffusion，脚踢Dall-E？

Stability AI与它的多模式AI研究实验室DeepFloyd共同宣布研究版本DeepFloyd IF的发布,这是一款强大的文text-to-image级联像素扩散模型（cascaded pixel diffusion model），复现了Google的Imagen（北方的郎：深入浅出讲解Stable Diffusion原理，新手也能看明白），Imagen也依赖于一个冻结的文本编码器：先将文本提示转换为嵌入，然后由扩散模型解码成图像。

2023-05-12 14:27:34 1191

原创 Starcoder:愿源码与你同在, 最新的开源代码生成LLM来了

在5月4日，BigCoder在HuggingFace的支持下发布了开源代码生成模型Starcoder。为方便查找，以下是主要的参考和资源链接：VSCode插件：HF Code AutocompleteStarCoder 和 StarCoderBase 是代码的大型语言模型（Code LLM），使用来自 GitHub 的许可数据进行训练，包括来自 80+ 编程语言、Git 提交、GitHub 问题和 Jupyter 笔记本。与LLaMA类似，研究者为15万亿个Token训练了一个~1B参数模型。

2023-05-12 14:26:49 1475

原创能满足各种音频处理需求的AI解决方案-AudioGPT来了

近期HuggingFace发布了能满足各种音频处理需求的AI解决方案AudioGPT。我觉得种模式以后会经常见到，即ChatGPT等大型LLM充当大脑，其他专业模型充当工具，实现1+1>2的效果。各种资源地址：代码地址：https://github.com/AIGC-Audio/AudioGPT论文：[2304.12995] AudioGPT: Understanding and Generating Speech, Music, Sound, and Talking Head (arxiv.org)Dem

2023-05-12 14:26:38 395

原创联网、多模态版ChatGPT？微软BingChat评测，New Bing竟然是个大美女？

今天把它的功能简单评测一下，首先如果想要体验多模态，要选择更有创造力选项。微软开放了New Bing，大家都可以注册使用了，详细见我的文章。这就是NewBing的自画像。

2023-05-12 14:26:18 678

原创深入浅出讲解Stable Diffusion原理，新手也能看明白

VAE文件在Stable Diffusion v1中使用，以改善眼睛和面部的绘画效果。它们是我们刚刚谈到的自编码器的解码器。通过进一步微调解码器，模型可以绘制更精细的细节。你可能会意识到我之前提到的一处内容并不完全正确。将图像压缩到潜在空间中确实会丢失信息，因为原始VAE无法恢复精细细节。相反，VAE解码器负责在解码的时候绘制精细的细节。如果不解释无分类器引导（Classifier-Free Guidance，CFG），这篇文章将是不完整的，这是AI艺术家每天调来调去的值。

2023-05-11 13:30:41 9587

原创微软放大招，所有人都能用New Bing了

原话是：Now you can search, chat, and create, all in one place. Turn your words into images with the new Bing's AI-powered Image Creator in chat。只需要注册一个微软账号就能用BingChat了。微软管这叫由 AI 支持的网页版 Copilot（Your Copilot for the Web）。今天，微软官宣全面开放BingChat。稍微测试了一下，的确功能强大。

2023-05-11 13:28:58 313

原创 Transformer类模型应用情况的简单综述

如ViT可以有效联合图像与文本，用于多模态学习。相比于CNN与RNN，Transformer可以更好建模语音信号中的长序列依赖关系与上下文，获得更丰富的语义表达，特别在noisy语音与远场环境下的表现更佳，这显示Transformer在语音理解领域也有重要的应用前景。整体来说，Transformer通过强大的自监督表示学习能力，在NLP、视觉、语音、强化学习与推荐等领域都有成功应用，表现出跨模态的建模能力和捕捉复杂序列依赖的优势，已成为机器学习领域最为流行和有影响力的模型之一，未来发展潜力巨大。

2023-05-11 13:28:26 280

原创继针对图像的分割一切之后，针对视频的Track-Anything（追踪一切）来了

论文《Track Anything: Segment Anything Meets Videos》提出了一种视频目标跟踪的新方法。其主要内容整理如下:Track Anything Model (TAM):一个通用的视频目标跟踪框架,可以跟踪任意目标而不需要手工标注。最近,Meta AI研究提出了Segment Anything模型(SAM),得到了大量关注。作为图像分割的基础模型,SAM基于ViT模型,在大规模数据集SA-1B上训练。SAM在图像上展示了很强的分割能力,特别是在零样本分割任务上。

2023-05-11 13:27:55 907 1

原创火车票OCR读取及结构化处理，Gradio编写界面，代码及说明

前一段时间用到火车票OCR处理，因为要求不高就自己简单写了一个。首先是模型选择，初步对比了几个开源的OCR产品后，选择了百度的PaddleOCR。自己用Python开发了一个简单的数据结构化功能，并用Gradio写了一个简答的界面。代码为本人原创，未经允许，不得转载。

2023-05-11 13:27:20 400

原创 AI内容检测工具之GPTZero，简介并针对Chat GPT，Claude，文心一言进行评测

最近随着ChatGPT火爆，各种大型语言模型都开始飞速发展，并被运用到了各行各业。带来生产力飞速提升的同时，也带来了一些问题。比如一名老师，该如何判断学生提交的作业是否是使用ChatGPT来写的呢？它自称是最好的检测工具：初步用了一下，感觉GPTZero有两点比较好：首先是相比于AI Classifier的1000字的限制，它只需要250个，其次是会把它认为是AI生成的内容标黄展示。那就让我们来详细实验一下吧。

2023-05-11 13:27:10 1122

原创 AI内容检测工具之OpenAI自己的AI classifier

最近随着ChatGPT火爆，各种大型语言模型都开始飞速发展，并被运用到了各行各业。带来生产力飞速提升的同时，也带来了一些问题。比如一名老师，该如何判断学生提交的作业是否是使用ChatGPT来写的呢？于是首先OpenAI作为问题的制造者，就最先站出来拿出了他们的解决方案：AI Text Classifier。这个工具使用很简单，只需要把你的文本内容复制到检测框里，就可以检测出你的这些内容是否由AI生成。感觉分辨的还是挺准确的。看来这个工具主要对于OpenAI自家的产品好用，其他的感觉还是一般。

2023-05-11 13:25:47 471

原创玩LLM和StableDiffusion常说的LoRA到底是什么

在微软的论文《LoRA: Low-Rank Adaptation of Large Language Models》提出了一种低秩adapters学习技术LoRA,实现大规模语言模型的跨领域与跨语言迁移。Stable Diffusion是一个通用的多模态模型,而通过LoRA可以学习特定领域的适配器,实现模型到特定领域如科技新闻、体育赛事的迁移,产生更加专业与准确的生成效果。5. 语言协同训练:通过分别学习单语言adapters与跨语言adapters,可以实现多语言模型的协同训练与融合。

2023-05-11 13:25:12 1211

原创 HuggingChat来了-各种Chat这么火Huggingface终于也忍不住了

现在你如果进入Huggingface的网站，你会发现HuggingFace偷偷的上了Chat功能：点击starting chatting之后的界面是这样的：和其他的Chat的界面很类似。

2023-05-11 13:24:36 436

原创常用ChatGPT类模型的总结

做一个现在常用ChatGPT类模型的总结，后续会持续更新，大家如果有新的可以在评论里说。

2023-05-11 13:24:31 174

原创 DINOv2: A Self-supervised Vision Transformer Model

作者指出：自然语言处理领域近期在大规模数据的模型预训练方面取得的突破为计算机视觉领域的类似基础模型铺平了道路。这些模型可以通过产生通用的视觉特征大大简化任何系统中图像的使用，即在不进行微调的情况下适用于图像分布和任务的特征。这也是本文的中心思想，即可以通过类似的方法来训练模型，生成一些通用的视觉特征，这些特征适用于不同的图像分布和不同的任务，无需进行进一步的微调即可使用。3. 动量更新:学生网络的输出通过带有动量的更新规则不断逼近教师网络的输出,实现自下而上的特征学习过程。动量可以平滑更新并加速学习。

2023-04-28 09:03:34 650

原创 MiniGPT-4来了、脱胎于LLama、开源且好用

4，Tuning：最后作者收集了另外 3,500 个高质量对齐的图像文本对，使用设计的聊天模板进一步微调模型，以提高生成语言的自然性和可用性。2，在视觉感知方面：作者采用了与BLIP-2相同的预训练视觉组件，其中该组件由EVA-CLIP的ViT-G/14和Q-Former组成。3，整合：MiniGPT-4 添加了一个线性投影层，将编码的视觉特征与Vicuna语言模型对齐，冻结了所有视觉模型和语言模型参数。整体感觉效果不错，问题和现在的LLama一样，就是对中文支持还有待提高。

2023-04-28 09:03:00 262

原创羊驼（LLama）的对手来了, Stability AI 推出了 StableLM

类似于ChatGPT的其他竞争对手，StableLM是基于Pile开源大数据来进行训练，数据来源包括维基百科、Stack Exchange和PubMed等等。据 Stability AI 表示，StableLM 模型可用的参数介于 30 亿至 70 亿之间，稍后还会推出介于 150 亿至 650 亿参数的模型。近期AI 生成图片公司 Stability AI 宣布释出开源大型语言模型（LLM）「StableLM」，并且已经在 GitHub 提供给开发人员使用。中文的问题回答几乎都是不知所云。

2023-04-28 09:02:16 131

原创 Anthropic Claude 试用感觉

不过综合能力还是ChatGPT强，不论回答的逻辑性还是编程等能力，例如让他们用Python写一个类似雷电的小游戏ChatGPT的直接跑起来了，而Anthropic Claude的还差点意思。试用了一下，感觉整体上比ChatGPT还是有点差距，不过，它的训练数据比GPT要新，所以最新的东西，可以回答出来，不像ChatGPT 2021年后的东西就不知道了。这说明Claude的数据已经很新了。总体我现在的结论是Anthropic Claude比ChatGPT还差点，不过差距不是那么大了。

2023-04-28 09:01:11 216

原创 ChatGPT的前置InstructGPT

另外，GPT-3虽然选择了少样本学习(few-shot)和继续坚持了GPT-2的无监督学习，但基于few-shot的效果，其稍逊于监督微调(fine-tuning)的方式。InstructGPT使用来自人类反馈的强化学习方案RLHF(reinforcementlearningfromhumanfeedback)，通过对大语言模型进行微调，从而能够在参数减少的情况下，实现优于GPT-3的功能。具体来说，使用强化学习算法，将生成的指令和人类反馈作为训练数据，迭代训练模型，以最大化生成指令的奖励信号。

2023-04-28 09:00:15 128

原创如何让ChatGPT显示图片，连续找图

ChatGPT免费版是不能够显示图片的，如果你让它帮你画一张图，它就会告诉你它做不到。不过我们动动脑筋还是有办法的，可以结合markdown和一些图片查找/生成网站，利用ChatGPT实现图片查找、显示功能。如果想让它一次性帮你发一堆关于某个主题的书，就可以ChatGPT扮演作者，而你是编辑就可以了。

2023-04-12 10:05:24 5755 1

原创 ChatGPT，GPT-4会让大家失业么？ OpenAI自己的报告来了。

从现有的chatGPT所展现出的能力来看，需要写作相关能力的如营销文案策划，需要主动倾听能力的如心理咨询，需要交流能力的如客服等职业都会受到剧烈的冲击。报告里评测了受大模型所影响的职业和职业人口的相关关系，无论是人工评测还是GPT4模型评测，受影响的深浅程度与就业人口的多寡总体来说有联系，但影响不太直观。算法认为如果考虑到当前的大模型的能力和可能营造的生态来说，至少50%的工作有百分之五十以上的工作内容，会在引入AI大模型后缩减至少一半的工作时间。总体来看，薪酬更高的职业受大模型及其相关生态的影响更大。

2023-04-12 10:04:04 282

原创图文匹配：Clip模型介绍

与以往的图像分类模型不同，Clip并没有使用大规模的标注图像数据集来进行训练，而是通过自监督学习的方式从未标注的图像和文本数据中进行预训练，使得模型能够理解图像和文本之间的语义联系。CLIP使用了一种对比学习的方式，在4亿图文对上进行了文本和图片的匹配任务训练，使得该模型在无任何微调的情况下（zero-shot），在imageNet上取得了和ResNet-50微调后一样的效果。Clip模型的一个重要应用是图像分类，它可以将输入的图像和文本信息进行匹配，从而识别图像的内容。

2023-04-12 10:03:17 927

原创 HugingGPT 模型整合，贾维斯来了

通过利用ChatGPT强大的语言能力和丰富的人工智能模型库Huggingface，HuggingGPT能够在不同的模式和领域，并在语言、视觉和语言方面取得了令人印象深刻的成果，演讲和其他具有挑战性的任务，为高级学习铺平了新的道路人工智能。为了促使大型语言模型进行有效的任务规划，HuggingGPT 在其提示设计中采用了基于规范的指令和基于演示的解析。在ChatGP和专家模型的配合下，HuggingGPT可以解决语言、图像、音频和视频等多种模式的任务，包含了检测、生成、分类和问题回答等多种形式的任务。

2023-04-12 10:03:17 199

原创从GPT-1到ChatGPT及最新的GPT-4，GPT系列技术的发展过程

GPT-3：GPT-3 是 OpenAI 在 2020 年发布的预训练模型，采用了更大的规模和更多的技术创新，包含了 175B 个参数。GPT-3 在生成文本、问答、翻译、摘要和对话等任务上都取得了非常好的表现。应用场景的不断扩展：从 GPT-1 的文本生成到 ChatGPT 的对话任务，GPT 系列模型在应用场景的不断扩展中，不断拓展了模型的应用范围。模型规模的不断增大：从 GPT-1 的 117M 到 GPT-3 的 175B，模型规模不断增大，使得模型可以处理更复杂的自然语言任务。

2023-04-12 10:02:07 1605

原创当倚天剑遇到屠龙刀 VQGAN-CLIP 介绍

具体地说，VQGAN-CLIP 使用 CLIP 的编码器来将文本描述编码为一个向量表示，并将该向量传递给 VQGAN 的解码器，以生成相应的图像。在 VQGAN-CLIP 中，CLIP 的编码器被用来将文本描述编码为一个向量表示，并将该向量传递给 VQGAN 的解码器，以生成相应的图像。总的来说，VQGAN-CLIP 是一种高度灵活且强大的生成模型，它可以根据输入的文本描述生成与之相符的图像，具有广泛的应用前景，例如虚拟现实、游戏开发、艺术创作等领域。量化损失用于优化生成器和量化器，以生成更逼真的图像。

2023-04-12 10:01:57 387

原创 VQGAN（Vector Quantized Generative Adversarial Network）模型简介

为了训练 VQGAN 模型，需要使用大量的图像数据集和一些预处理技术，如数据增强和图像裁剪等。在训练过程中，VQGAN 模型会优化两个损失函数：一个用于量化误差（即离散化向量和连续值之间的误差），另一个用于生成器和判别器之间的对抗损失。在实际应用中，VQGAN 可以用于许多有趣的任务，如从文本生成图像、从图像生成文本、图像到图像的翻译、图像编辑、风格迁移等。总的来说，VQGAN 通过使用 VQ 技术和 GAN 结构，以及多尺度架构和条件生成等技术，实现了高质量的图像生成。

2023-04-12 10:01:21 5151 1

原创经典论文介绍：GPT的由来，Improving Language Understanding by Generative Pre-Training

GPT是一种基于生成式预训练的自然语言处理方法，它使用了单向的Transformer编码器，并通过自回归语言建模进行预训练。在具体应用时，可以使用fine-tuning技术将其应用于各种下游任务中。GPT的成功启发了许多后续的研究。

2023-04-12 09:58:52 581

原创 GPT vs Bert

GPT和BERT的输入顺序不同：GPT是从左到右的单向模型，它只能在当前位置之前看到的上下文信息，而BERT是一种双向模型，它可以同时看到前面和后面的文本信息。GPT和BERT的训练数据不同：GPT使用了更广泛的训练数据，包括维基百科和网页文本，而BERT则使用了更多的语言任务，如问答和阅读理解。GPT和BERT的任务不同：GPT是一种基于语言模型的生成式模型，可以生成类似人类写作的文本，而BERT则是一种基于双向编码的预训练模型，可以用于许多NLP任务，如分类、命名实体识别和句子关系判断等。

2023-04-12 09:58:16 6918

原创经典论文学习：BERT Pre-training of Deep Bidirectional Transformers for Language Understanding

BERT (Bidirectional Encoder Representations from Transformers)是一种基于Transformer模型的预训练语言模型，由Google在2018年提出。相比于之前的语言模型，BERT引入了双向预训练机制，并在多个自然语言处理任务中取得了极高的性能。BERT的预训练分为两个阶段：Masked Language Model (MLM)和Next Sentence Prediction (NSP)。

2023-04-12 09:57:38 125

原创经典论文学习：Attention Is All You Need（Transformer）

Transformer模型通过引入自注意力机制和多头注意力机制来替代传统的循环神经网络和卷积神经网络，从而提高了模型的表现。同时，Transformer模型还采用了分头处理和残差连接等技术，进一步提高了模型的效率和表现。该模型在机器翻译等任务中取得了极高的性能，成为自然语言处理领域的经典模型之一。

2023-04-08 12:15:57 1004

原创 Meta:segment anything

令人惊讶的是，我们发现一个简单的设计可以满足所有三个约束条件：一个强大的图像编码器计算图像嵌入，一个提示编码器嵌入提示，然后两个信息源在一个轻量级的掩码解码器中进行组合以预测分割掩码。在自然语言处理领域，以及近年来的计算机视觉领域，基础模型是一种有前途的发展，通常可以通过“提示”技术实现对新数据集和任务的零样本和小样本学习。其次，我们发现在使用提示工程的零-shot转移协议下，在各种下游任务中，包括边缘检测、目标提议生成、实例分割以及文本到掩模预测的初步探索中，我们都获得了一致强劲的定量和定性结果。

2023-04-08 11:29:54 1761

空空如也

空空如也