HERODING77-CSDN博客

原创通用信息抽取数据集Viscacha-Chinese-IE——NER数据集篇

最近在做和大模型通用抽取相关的任务，需要将所有数据集转换为相同的格式，便于构建指令微调数据集。在处理数据时需要将不同格式的NER数据集转换为方便处理的json格式数据，这是一项非常繁杂的工作。在NER领域，没有一个统一的格式规范，博主收集了近30份NER数据集，总结出常见的NER数据集格式包括BIO、BIEO、excel格式的BIO、数据标签分离、内嵌式json等，每种格式可能只有两三个数据集，如果单独为其进行编码需要耗费不少精力，拖慢工作进度。

2023-07-08 14:16:38 657 2

原创【联邦学习实战】基于同态加密和差分隐私混合加密机制的FedAvg

联邦学习实战——基于同态加密和差分隐私混合加密机制的FedAvg前言前言好久都没更新联邦学习相关内容了，这也是我更新这篇我认为非常硬核的文章的原因，这也算是实现了我在学习联邦学习半年以来的一个目标，基于混合加密机制实现联邦学习任务，这次任务使用的框架是FedAvg，在github上非常热门的联邦学习模拟实现方案，FedAvg的代码还是非常好理解的，本文的结构将主要分为三个部分，第一部分是对FedAvg代码的讲解和修改，第二部分将差分隐私机制加入到FedAvg中，包括高斯机制和拉普拉斯机制，第三部分将同态

2022-06-13 08:00:00 10811 162

原创【学习笔记】网络安全基础知识总结

网络安全基础知识总结前言一、网络安全概述1.1 引言1.2 密码学的发展1.3 密码学基础1.4 对称密码1.4.1 数据加密标准DES二、数论知识2.1 数论基础2.2 有限域2.2.1 群2.2.2 环2.2.3 域2.3 数论入门2.3.1 素数2.3.2 费马定理2.3.3 欧拉定理2.3.4 中国剩余定理三、网络安全进阶3.1 多重加密3.1.1 双重DES3.1.2 三重DES3.1.3 AES3.2 分组密码的工作模式3.2.1 电子密码本模式（ECB）3.2.2 密文分组链接模式（CBC）3

2022-03-06 09:42:52 7368 2

原创【学习笔记】Ubuntu双系统+搭建个人服务器

Ubuntu双系统+搭建个人服务器前言1. Ubuntu+Win双系统1.1 制作U盘启动盘1.2 系统分盘1.3 安装Ubuntu系统2. 搭建个人服务器2.1 设置root2.2 配置ssh2.3 向日葵连接3. 内网穿透3.1 实现流程3. 总结前言前段时间整了一套主机，3060ti+intel 11600F，终于不用在轻薄本上跑机器学习代码了，也不用因为服务器价格昂贵而发愁了。但是这些仅限在家中使用，一旦外出或者返校，这套主机就在家里吃灰吧，想想一年在家不超过100天时间，买来实在是性价比不高，

2022-01-27 17:59:09 5623 5

原创【论文通读】AgentStudio: A Toolkit for Building General Virtual Agents

来自昆仑万象的一篇智能体环境数据大一统框架工作，对未来计算机智能体的发展具有指导性意义，作者在环境上对计算机智能体的输入输出进行了统一，基于该环境又设计了智能体数据的收集评估框架，通过实验也验证了数据集收集的重要性。此外它还提供了丰富的文档，便于初学者学习。PaperDocumentFrom创造在任意数字设备上操作任意软件的自主虚拟智能体仍然是当前AI的主要挑战。关键的两点障碍在于：现实环境中构建虚拟智能体的基础设施不足，以及对基础智能体能力评估的需求。

2024-04-06 18:11:18 923

原创【论文通读】AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation

微软在智能体方面的又一重大工作，通过对话式多智能体协作的方式构建智能体系统，以解决各种应用场景下的问题。相对于文章本身，我更希望读者关注其在github上项目的工作，毕竟智能体的工作本质上都是工程化的内容，只有实际参与了项目本身你才能真正理解AutoGen的意义并感受其实用性。PaperCodeFromAutoGen是允许开发者通过多智能体的形式构建LLM应用的开原框架，这些智能体通过对话完成任务。AutoGen可定制化、可对话，并且可以在各种LLMs、用户输入和工具组合的模式下运行。

2024-03-30 23:40:45 902

原创【论文通读】UFO：A UI-Focused Agent for Windows OS Interaction

Windows客户端第一个JARVIS，利用GPT4 Vision识别截图信息辅助智能体自动化执行操作，作为微软大肆宣传的一篇工作，其前瞻性还是值得学习的，只不过在实现上博主认为还有很大的改进空间，不过也算是Windows端AI助手的基石工作了。PaperCodeFrom本文提出UFO，一种新颖的以UI为中心的智能体，它利用GPT-Vision的功能满足针对Windows操作系统上的应用程序定制用户的请求。UFO采用双智能体框架来观察和分析Windows下应用的图像化界面和控制信息。

2024-03-29 17:19:12 1017

原创【论文精读】OS-Copilot: Towards Generalist Computer Agents with Self-Improvement

这是第一篇OS智能体框架工作，提出了操作系统上通用且能自我改进的AI助手FRIDAY，这与只能解决简单问题的AI助手Cortana相比有着本质的区别和显著的提升。其github仓库开放一周就收获了600+stars，受到了大量科研人员和科技企业的关注，在业界有着不俗的影响力。文章投稿于ICML 2024，为LLM智能体在OS领域的应用奠定了坚实的基础。PaperCodeFrom与计算机的自动交互一直是长期存在的挑战，最近LLM的发展加速了构建数字智能体的进展。

2024-02-23 18:20:38 1467 2

原创【论文精读】Segment Anything

被称为CV领域的GPT-3的工作，大一统了图像分割领域，实现了可提示及时分割，并且能够实现模糊感知，此外还构建了迄今最大的图像分割数据集，在1100万张授权的隐私图像上超过了10亿个mask。该工作中稿于ICCV 2023，其方法构建、实验设计以及写作格局都值得我们学习。PaperCodeFromICCV 2023本文提出SA项目，包含图像分割领域里新的任务、模型和数据集。作者构建了迄今最大的图像分割数据集，在1100万张授权的隐私图像上超过了10亿个mask。

2024-02-22 12:45:27 1279

原创【论文精读】A Survey on Large Language Model based Autonomous Agents

一篇来自人大高瓴的综述，详细介绍了基于LLM的智能体的发展和应用，以及对未来的预测。作为AI当前最火的领域，智能体上手容易，操作简单，本质上就是框架+prompt，但是其效果惊艳，能够完成很多LLM无法完成的简单任务，其在未来一定大有可为。PaperCodeFrom自主智能体一直都是学术界和工业界的重点研究焦点。先前的研究关注于具有有限知识的智能体在隔绝环境下的训练，这与人类学习方式大相径庭，因此很难像人类一样做决策。最近，LLMs通过获取的丰富web知识，在完成人类等级只能上展现出非凡的潜力。

2024-01-03 12:59:14 1615

原创【论文精读】GAIA: A Benchmark for General AI Assistants

一篇来自Meta、HuggingFace、AutoGPT联合投稿的Agent Benchmark的工作，为当前百花齐放的Agent领域带来了评测的标准。这篇工作详细介绍了GAIA的设计理念，展望了GAIA的未来，讨论了当前GAIA的不足，细读下来可以看到这些大佬们对于这个当前火热领域的热切期待。PaperCodeFrom本文提出GAIA，一个通用AI助手的benchmark。GAIA提出真实世界的问题，需要一系列基本能力，如推理，多模态处理，网页浏览和一般工具使用等。

2023-12-11 19:18:14 1308

原创【论文精读】REACT: SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS

一篇来自ICLR 2023的文章，可以称得上是当今火爆全网的Agent的鼻祖工作了，它提出了基于LLM初始的Agent的范式，在问答任务和决策任务上都取得了不错的结果，但是受限于LLM的能力，导致与人类的SOTA相距甚远。PaperCodeFromICLR 2023LLMs在语言理解和交互决策上表现出令人印象深刻的性能，其推理能力也作为了一个单独研究的主题。本文探索使用交互的方式生成推理任务特定动作，使二者具有更大的协同性。

2023-12-09 16:43:40 1673 1

原创【学习笔记】LLM for Education

一篇来自Nature的文章，探讨了教育行业的不同参与者，如何抓住LLM这个变革性的工具带来的机会，重新改造这项自人类文明诞生以来就存在的行业。文中提出了当前LLM所带来的机遇与挑战，以及讨论了未来教育领域该何去何从。PaperFromNatureLLM对教育领域的冲击已经势不可挡，必然会改变教育领域的发展走势，与其闭关锁国，不如学会拥抱，勇于面对LLM对教育领域的挑战，充分挖掘LLM的潜能和优势，才是现如今教育领域面对LLM冲击下的必要措施。

2023-12-07 15:46:40 1067

原创【论文精读】CAMEL: Communicative Agents for “Mind” Exploration of Large Language Model Society

一篇利用LLM通过多智能体对话的形式完成特定任务的工作，中稿于NeurIPS 2023，它最大的特色在于设计了丰富的规范约束prompt，只需要很少的人工干预，就可以让多智能体自动完成任务。PaperCodeFrom随着对话式语言模型的迅速发展，在复杂任务的解决上取得了显著的进展。然而，这些成功依赖于人类的输入来指引对话，这既具有挑战性又耗时。本文探讨了构建可扩展技术以促进沟通式智能体之间自主合作的潜力，并深入了解其认知的过程。为了解决自主合作的挑战，本文提出了一种名为角色扮演的新型沟通式智能体框架。

2023-12-01 18:12:25 1179

原创【论文精读】HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face

又是一篇利用LLM进行规划的工作，中稿于NeurIPS 2023，它充分结合了专家模型解决特定任务的能力和LLMs的理解推理能力，工作新颖但效果一般，可以说提供了一种新的利用LLM解决通用任务的范式，在思想上值得借鉴。解决具有不同领域和模态的复杂人工智能任务是迈向通用人工智能的关键，虽然现在有大量可以用的AI模型面向不同领域和模态，但是它们不能解决复杂的AI任务。LLM在自然语言任务上有出色的表现，因此作者主张LLMs充当控制者来管理当前现有的AI模型，用于处理AI任务，自然语言则成为实现该目标的通用接口。

2023-11-23 11:57:16 853

原创【论文精读】VOYAGER: An Open-Ended Embodied Agent with Large Language Models

一篇AI-Agent的文章，论文一出即火遍全网，用大语言模型玩Minecraft，在这之前想都不敢想。文章中所有的工作基本上都是基于prompt实现的，这也进一步说明了GPT-4丰富的知识储备和强大的理解能力。作者从人学习的角度出发，让LLM也遵循人学习的范式，一步步在未知的世界中进行探索，这样的工作思路对探索当前大语言模型的能力来说可谓至关重要。PaperCodeFromarXiv本文提出VOYAGER，这是在Minecraft中第一个由LLM驱动的终身学习智能体，用于持续探索这个世界。

2023-11-15 18:53:45 752

原创【学习笔记】Understanding LSTM Networks

最近在整理LSTM相关的工作，看到了一篇非常经典的博客，遂沿着该博客的思路过了一遍LSTM，收获颇丰，故写下此篇笔记以帮助NLP初学者理解LSTM这个经典的模型，当然要想深入学习，还是看英文原版博客更合适。

2023-11-12 20:39:27 583

原创【论文精读】THOUGHT PROPAGATION: AN ANALOGICAL APPROACH TO COMPLEX REASONING WITH LARGE LANGUAGE MODELS

一篇来自中科院自动化所和耶鲁大学的文章，将prompt方法又卷到一个新的高度，文章提出的思维传播已经从一种方法上升到思想的境界，在任何需要使用LLM进行复杂推理任务的场景都能够大放异彩，是一篇特别fancy的文章。PaperCode无FromarXiv随着prompt技术的发展，大模型在推理任务上取得显著成功。然而现有的prompt方法无法重用解决相似问题的思路，并且在推理过程中会累积错误。为了解决这个问题，作者提出了思维传播（TP），它可以利用相似问题的解决方案来增强LLMs的复杂推理能力。

2023-10-23 00:02:33 386

原创【论文精读】Robust Speech Recognition via Large-Scale Weak Supervision

语音领域的又一力作，来自OpenAI团队，中稿于ICML 2023。本篇文章剑走偏锋，不同于当前火热的自监督预训练，而是采用大规模的弱监督预训练，特别适用于语音场景，这也为启发了广大的AI科研人员，做研究不能一股脑蹭热度，而是要根据特定的场景对症下药。PaperCodeFromICML 2023本文探索了语音处理系统通过简单训练从而处理互联网大量音频转录的能力。作者在68万小时的多语言多任务的数据上进行预训练，得到的模型无需微调就可以和完全监督相竞争，接近人类的性能。

2023-10-16 10:51:37 381

原创【论文精读】Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

本文是CoT的开山之作，来自于Google，中稿于NeurIPS 2022。CoT是一种简单高效的大模型prompt，旨在激发大模型的推理能力，是当前热门的方向之一，很多prompt的工作都开始转向CoT。本文思路清晰，方法简单，通俗易懂，并且实验巧妙，是一篇特别值得精读的文章。PaperCodeFrom本文提出思维链，即一系列中间推理步骤，用于提升大语言模型的复杂推理能力。该方法高效简单，又被称为chain-of-thought prompting。

2023-10-10 11:37:25 2388 1

原创【研究的艺术】通读《The Craft of Research》

本篇博客是《The Craft of Research》的通读笔记，其目的是帮助读者进行很好的论文写作，对我而言也是收获颇丰，本篇博客是跟着李沐老师的B站视频进行总结的，之后更为详细的《The Craft of Research》精读内容我会慢慢更新，李沐老师有新的视频的话我也会继续更新本篇博客。

2023-10-08 21:23:36 253

原创【学习笔记】大模型并行化方法

最近跟着李沐老师的视频学习了深度学习分布式系统的发展。这里说是分布式系统，其实还是有点勉强，准确来说是分布式的框架，但是毕竟是系统的文章，基于提出的框架也做了很多系统上的优化，姑且算是分布式系统吧。深度学习近些年随着Transformer模型的流行，呈现出模型越来越大，层数越来越深的趋势，然而在硬件方面，由于成本和技术的限制，难以匹配模型容量的快速发展，比如现有最新的深度学习专业加速器H100，其在容量上也只有80G，连LLaMA 7B都训不起来，因此单机多卡或者多机多卡已经成为模型训练主流的硬件配置。

2023-09-29 00:09:30 626 1

原创【论文精读】Evaluating Large Language Models Trained on Code

本篇工作是OpenAI公司出品的Codex，也是GitHub Copilot工具背后的模型原型，其方法简单，但是效果出众，是GPT系列一大重要的落地成果，其对风险的分析也是很多产品落地值得借鉴的地方。PaperCodeFromOpenAI本文提出Codex，基于GPT语言模型，在GitHub代码上进行微调，研究其在Python上的代码能力。此外，作者构建了HumanEval数据集，用于测试模型根据注释生成代码的能力。

2023-09-22 23:52:56 742

原创【学习笔记】多模态综述

本篇学习笔记虽然是多模态综述，本质上是对ViLT后多模态模型的总结，时间线为2021年至2022年，在这两年，多模态领域的模型也是卷的飞起，不断刷新领域的SOTA。在模型结构和数据上提出了很多高效有用的方法，如果你对多模态近两年的发展感兴趣，不妨看一看这一篇文章~上述的一系列工作可以总结为上面这张图。本文关于多模态的工作其实是从ViT出发的，之前多模态领域对于图像特征的抽取都需要借助CNN架构的模型和目标检测任务，效率低，性能差。随着ViT提出后，多模态领域终于实现文图框架上的统一，即ViLT工作的诞生。

2023-09-20 11:11:39 494

原创【论文精读】ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

本篇工作是BERT和ViT在多模态领域的结合，在大大提高模型轻量性的同时又保证了性能，是多模态领域里程碑具有意义的工作。PaperCodeFromICML 2021视觉和语言的预训练（VLP）提高了各个VL下游任务的性能，当前的VLP严重依赖图像特征的抽取，包括区域监督和卷积架构，导致在时效（计算量大，时间长）和表征能力（效果好坏取决于表征好坏）上存在问题。

2023-09-15 18:04:03 255

原创【论文精读】Hierarchical Text-Conditional Image Generation with CLIP Latents

本篇工作即DALL·E2，是文生图领域和多模态领域具有轰动性的工作，其一出现就上了各大板块的热搜。DALL·E2生成的图像丰富且真实，很容易以假乱真。它的实现基于CLIP和扩散模型，前者结合丰富的图文语义，后者生成多样高质量图像，这套组合拳可谓实力十足。下面就来看看这篇工作具体是怎么做的吧。PaperCodeFrom对比学习模型如CLIP展现了其强大的图像语义和风格的表征。为了利用这些表征来进行图像的生成，作者提出了两阶段模型：prior模型通过文本描述生成图像表征，解码器模型根据图像表征生成图像。

2023-09-11 16:35:26 609

原创【论文通读】CLIP改进工作综述

CLIP作为多模态对比学习里程碑式工作，在创新性，有效性和领域性三个方面都拉满了。本篇博客就来探讨在CLIP之后，各个领域是如何利用CLIP去提升当前领域的性能，以及如何利用CLIP信息整合的能力在多模态领域做大做强。将图文通过CLIP得到特征，然后将这些特征融合起来去做之前的任务，加强模型的训练。把CLIP特征作为teacher，和当前的模型做蒸馏，学习到更好的预训练知识。借鉴CLIP的思想，应用到当前领域，自己定义对比学习和正负样本。

2023-09-06 12:23:29 1328

原创【论文精读】Learning Transferable Visual Models From Natural Language Supervision

CLIP作为多模态对比学习里程碑式工作，在创新性，有效性和领域性三个方面都拉满了。它最伟大的地方在于，打破了固有的基于给定类别分类的壁垒，让即使是未见过的类也能给出很好的结果，这大大提升了模型的灵活性，也让其更适配多种下游任务。PaperCodeFromICML2021目前CV系统最佳的模型都是基于固定对象类别进行训练的。这种监督训练方式限制了它们的通用性和可用性，直接从原始文本中学习图像是一种很有前途的替换方案，它可以利用更广泛的监督来源。

2023-09-02 18:23:30 750

原创【论文精读】Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

虽然最近的论文精读都涉及CV领域，与博主研究方向不同，但是这些文章大多都涉及Transformer架构，或者和自监督学习、无监督学习有关，所谓万变不离其宗，虽然在不同领域方法不同，但是很多情况下其思想上有很多的共性，特别值得读者去思考。本篇论文精读来自ICCV2021最佳论文，也奠定了Transformer架构在CV领域的地位，其方法精妙，效果显著，是一篇值得精读的佳作。本文提出一个新的视觉Transformer，称作Swin Transformer，可以作为CV领域的通用架构。

2023-08-30 19:49:52 195

原创【论文通读】计算机视觉对比学习综述

本篇对比学习综述内容来自于沐神对比学习串讲视频以及其中所提到的论文和博客，对应的链接详见第六节。本篇博客所涉及的对比学习内容均应用在CV领域，算是到21年为止比较全面的对比学习综述内容讲解。对比学习作为一种自监督学习方法，其在CV领域的发展也印证着自监督学习的发展，科研工作者也在一步步揭开自监督学习的神秘面纱，通过构建不同的代理任务，采用不同的模型架构，来极力挖掘自监督学习的潜力。相信通过本篇博客的学习，你能够对对比学习有着更深刻的认识，万变不离其宗，当你领悟到对比学习的本质，你就能。

2023-08-28 21:33:02 952 2

原创【论文精读】Momentum Contrast for Unsupervised Visual Representation Learning

如果说MAE证实了无监督学习在CV领域能够像在NLP领域那样超过监督预训练的性能，那么MoCo就填补了CV中无监督学习和监督学习的gap。作为来自大神何恺明的团队的作品，MoCo行文充满了大佬的自信，让我们看看MoCo这篇工作在写作和方法构建上的精妙之处~CVPR2020本文提出MoCo用于无监督视觉表征学习。它将对比学习任务看成字典查询任务，作者设计了由队列和移动平均编码器组成的动态词典。由于无需梯度反向传播，因此可以得到一个大型且一致的字典，从而帮助无监督学习。

2023-08-26 16:28:13 461

原创【论文精读】Masked Autoencoders Are Scalable Vision Learners

来自大神何凯明团队的工作，发表在CVPR2022，作为ViT的续作，解决了ViT的自监督学习问题，将通用的Transformer在CV领域再一次推进，文章的写作和思路都很值得借鉴，简单的方法也可以很硬核。本文表明MAE是计算机视觉可扩展的自监督学习者。MAE的方法很简单：随机mask图像patch并重建丢失的像素。设计一个非对称的编码器-解码器架构，编码器仅对可见的像素操作，解码器根据潜在的表征和mask tokens重建原始图像。mask高比例（如75%）的图像会产生不平凡且有意义的自监督任务。

2023-08-16 20:01:18 240

原创【论文精读】Generative Adversarial Nets

大名鼎鼎的生成对抗网络GAN，发表在NeurIPS2014。GAN为生成领域打开了新的大门，为神经网络赋予更多的能力。论文短小精悍，证明部分较为硬核，但是也格外巧妙，希望本篇博客能够帮助读者更好理解其中细节。作者提出了一个新的生成模型的范式，通过对抗学习的过程，同时训练两个模型：生成模型GGG和判别模型DDD。前者用于捕获原始数据的分布，后者判断一个数据是生成的还是来自原始数据。GGG的目标是最大化模型DDD犯错的概率，让判别模型最终无法分辨图像的真伪。

2023-08-14 17:24:45 235

原创【论文精读】AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

Transformer架构应用在CV的开山之作，证明了预训练+微调范式的Transformer同样适用于CV领域，这种跨界的联动，才是新工作的源源不断的动力。本文参考了沐神的B站视频讲解，清晰易懂，感兴趣的朋友可以点击链接观看。虽然Transformer已经成为了NLP领域的标准，但是Transformer做CV任务还是受到很大的限制，只能和卷积网络结合使用，无法修改卷积框架。本文证明了Transformer在大规模数据集上进行预训练，也能在图像分类任务上达到SOTA，只不过还是需要很多的计算资源。

2023-08-11 18:28:01 86

原创【学习笔记】A Gentle Introduction to Graph Neural Networks

图无处不在，一系列对象的连接组合，可以自然表示为图。研究者已经针对图数据构建神经网络，并取得了很好的效果。现在的研究者已经在探索如何将图应用到实际的场景中，如药物发现、物理模拟、交通预测等。什么样的数据可以用来建模成图。为什么图和其它数据类型不同。GNN网络的结构。一个图由节点和关系组成，此外还包含全局的属性，如下图所示：为了进一步描述每个节点、边或者整个图，我们可以把信息存储到图中的每个部分中。

2023-08-07 17:22:20 401

原创【论文精读】Mask-guided BERT for Few Shot Text Classification

一篇应用在小样本设置下文本分类任务的文章，标题Mask-guided特别具有吸引力，其实对于小样本设置，主要的展开方向有三种，第一是数据，第二是模型，第三是算法，数据上可以采用数据增强，模型上可以采用不同架构的模型以尽可能缩小假设空间，算法上可以在损失函数上做文章，本篇文章实际上是数据增强和对比损失的结合，还是有一定的借鉴意义。无基于Transformer的语言模型已经在很多任务上表现出色，但是训练时需要大量监督数据，在低资源场景具有挑战性。本文提出Mask-BERT，帮助BERT解决小样本学习问题。

2023-08-04 22:51:07 1300

大连理工大学数据库上机-大学模式数据库.docx

联邦学习框架fate上传数据出现failed to execute federated task问题怎么解决?

FATE1.7.0运行用例代码出错，如何解决？