远洋之帆-CSDN博客

原创物理学视角讲解diffusion生成模型——混合高斯扩散模型

首先，让我们写下一个合理的目标函数。假设我们有一些参数化的得分函数sθxtsθxt，它依赖于一组参数θθ。我们希望准确地近似所有x\mathbf{x}xJθ?21∫dxdtsθxt−∇xlogpxt2这个目标函数的问题在于它没有优先考虑任何特定的x\mathbf{x}x值。Jθ?12∫dxd。

2024-04-18 18:06:42 478

原创物理学视角讲解diffusion生成模型——数学基础和一维度实现

从物理学的视角来看扩散过程模型。之所以整理这个系列是因为现在大部份讲生成模型的教程都是直接从加噪、去噪、然后代码实现角度来讲。然而为什么要这么加噪、去噪、为什么要高斯拟合，如果我不这么做会怎么样，后续我要优化我的代码要从那下手呢。这些原理层面的东西基本没有讲，这就相当于给了一套生产流程，我们并不知道这套流程是怎么设计背后思想是什么。我们后续碰到问题如果要升级改造这个流程和链路要从何下手呢。要怎么接续上这套流程的设计思路呢。所以这个系列就是从这个视角切入，来讲解物理学家视角的扩散过程。以及当时为什么选择了扩散

2024-04-17 16:35:05 407

原创人形机器人系列——硬件介绍

人形机器人是多领域交叉技术的产物，主要由三大系统组成：感知系统、决策系统和执行系统。感知系统感知系统是人形机器人获取外界信息的途径，主要由各种传感器组成。其中，视觉传感器用于获取图像信息，如摄像头、激光雷达等；触觉传感器用于感知触碰和压力，如力/力矩传感器、声学传感器等。这些传感器收集到的信息为机器人的决策和执行提供基础。决策系统决策系统是人形机器人的大脑，负责处理和决策各种信息。它由芯片和算法组成。芯片是硬件基础，提供计算能力；算法是软件基础，用于处理和分析传感器收集到的信息，并做出相应的决策。执行系统。

2024-04-11 15:05:47 1007

原创人工智能产业应用--具身智能

所以，往更高频段上走是必然选择，其中D band(110~170GHz)具有未被开发应用的超宽频带，比如当前已有在研究的140G频段，具有较为适宜的大气窗口，传播受到的衰减较小，而且波长减小一半，可以在有限的空间，实现128T128R的超大天线阵列成像雷达，从而达到中低等线数激光雷达的分辨能力。然而，随着技术的进步，我们开始尝试一种全新的探索——“跳出缸中脑——虚实结合”，尤其在具身智能的领域中，大语言模型（如GPT系列）与现实环境结合的尝试，为人工智能的应用开辟了新的道路。

2024-03-31 12:57:35 1640 1

原创人工智能在产业中应用--生成智能

1.视频时长可变2.视频长宽比可变3.可以根据给定文本生成视频4.可以根据给定的图生成视频5.可以根据给定视频前向、后向生成视频6.可以为给定的两段视频生成中间衔接视频7.可以对视频编辑8.长时间跨度角色一致。

2024-03-28 20:02:25 724

原创人工智能在产业中应用

关联规则挖掘是一种从大型数据集或事务数据库中发现有趣模式的算法。它旨在发现变量之间不显而易见的联系。关联规则通常用于市场营销和数据挖掘，以识别产品之间的潜在关联。它能够帮助我们从大量的数据中找到不同数据项之间的有趣关系，这些关系可以被表示为形如X -> Y的规则，其中X和Y是数据集中的项集。关联规则有两种主要形式：1. 直接关联规则：它们识别两个或多个项目之间的直接关联，例如在超市内购买奶酪和面包 tend 会一起购买。2. 间接关联规则：它们识别两个不直接相关的项目之间的关系。

2024-03-26 12:40:42 825

原创 AIGC批量图生成的一些思考

从技术到先进生产力，从先进装备到作战能力，中间隔了一道GAP。现在AI技术进展很快，开源的模型大部分是单点或者一个模块单元的突破。如何把这些技术整装成作战单元，为业务带来实际的价值是我们必须要解决的一个问题。

2024-03-18 16:11:43 900

原创 diffusion transformer从数学到实践 (1)

在深入嵌入理论之前，首先需要理解流形的概念。在数学中，流形是一个可以局部近似于欧几里得空间的拓扑空间，这意味着每一点都有一个邻域，这个邻域与某个欧几里得空间中的开集同胚（即存在一一对应且连续的映射）。流形可以视为更复杂空间的简化模型，它允许我们使用欧几里得空间的直观和技术来研究更广泛的几何对象。

2024-03-12 10:35:21 492

原创 Motion Plan软硬约束下的轨迹生成

这篇文章介绍了带软硬约束的轨迹优化算法框架。第一部份介绍了软硬约束对应到最优求解问题数学上如何表示。第二部份介绍了贝赛尔曲线的代码实现，给出了具体的代码实现和讲解；并针对没有障碍物场景只给定waypoint点，生成光滑的Bezier轨迹的朴素求解代码实现。第三部份给出了带障碍物情况下如何做最优化求解，如何通过代价函数的方式来给轨迹施加推力让轨迹远离障碍物的代码实现。第四部分是一个综合性的例子，把软硬约束最优轨迹生成的求解框架做了一个综合呈现。详细的介绍了如何利用障碍物地图生成最大可行区域的凸包走廊，如何利用

2023-12-18 22:40:20 185

原创大模型增量学习 (1)

那么有没可能同时保持模型泛化力有模块化增量增加其他能力，不影响其它能力。我提出的想法是用某块组合方式来实现： 1.pretrain保持泛化性 2.把pretrain模型参数用更小可控参数矩阵层转换控制 3.在可控参数矩阵层之上增加adapter层，这样相当于是pretrain是一个很复杂通用机器，通过控制矩阵引出基础控制算子，然后在通过adapter层作为控制算子编程层，用ssft数据任务调教控制编程层来实现能力增量更新。这样就进呢个保持大模型强大的泛化能力和表征力，又能保证模型可增量增强能力不

2023-12-14 16:45:46 475

原创 Motion Plan之轨迹生成代码实现 (1)

这篇文章详细的对轨迹生成框架minimum snap轨迹生成的推导和代码实现细节。这篇文章也是对上一篇文章的代码实现讲解。轨迹生成从本质来讲就是在做曲线拟合，只是在曲线拟合过程中要满足各种的约束。所以曲线拟合就会转成带约束的代价函数最小化规划问题，问题就转化为如何构建代价函数、如何构建约束条件；然后转成QP规划问题来求解答案就可以了。在代码实现时候就会涉及到代价函数如何表达，如何把输入数据转成需要求解的形式；如何构建约束条件把输入构建成数据结构；以及会涉及如何把数据结构做效率优化，把带约束问题转

2023-12-07 21:03:36 760

原创 Motion Plan之轨迹生成笔记 (2)

文章开始从为什要轨迹优化这一问题视角切入，介绍了轨迹优化是什么、轨迹优化的求解流程和包括哪些模块。轨迹优化这个问题就是如何基于采样路径点来生成一条符合约束的轨迹，约束一般包括移动机器人动力学约束、路径可通行不能碰到障碍物、飞行轨迹光滑....所以可以看到轨迹生成其实是一个约束求解问题，代价函数包括：1.局部约束：必须要经过哪些点、到哪些点的状态如何（位置、位姿、速度、角速度）2.全局约束：整体平滑（衡量平滑有轨迹的jerk、snap...值总和平均代价）、耗时、平均能耗...为了基于采样路径生成可行的

2023-12-04 16:42:07 239

原创 Motion Plan之带动力学约束路径搜索

本文求解过程引入了动力学约束。从质点模型到引入动力学约束来求解可行路径，是为了在后续求解中可以把不符合实体移动机器人动力学可行解过滤加速back end的求解。文章从移动机器人建模开始，介绍了四旋翼、车辆的几种简单建模方法。这部分资料是属于控制系统线性、非线性求解部分工作。接着介绍了如何基于动力学约束来建图，介绍了基于控制空间采样、基于状态空间采样两大类方法。详细的介绍了基于状态空间采样的建模和求解过程，这部分求解过程涉及比较多的数学和物理模型有些难度可以多看几遍；这边需要回答的一个问题是为什么要对状态

2023-11-29 14:49:00 191

原创 Motion Plan之基于采样的路径规划算法笔记

本文介绍了“基于采样的路径规划常用算法”，介绍的算法有很多种，但其实都是围绕PRM图搜索、RRT树搜索做的优化、组合的变种。Sample base plan：这是一种基于样本的规划方法，它通过生成大量的样本点来寻找最优解。这种方法的优点是可以处理高维度和复杂的问题，因为它不需要对整个问题空间进行详细的搜索。然而，这种方法的缺点是可能会产生次优的解决方案，因为它并不总是能找到全局最优解⁴。此外，如果样本点的生成和选择方法不合适，可能会导致效率低下⁵。

2023-11-24 17:24:11 251

原创解析大型语言模型的训练、微调和推理的运行时性能

这篇论文是截至目前为数不多的介绍大模型训练配套环境比对的论文，对于想要入门大模型训练同学是个不错的入门资料。比较了不同尺寸模型（比较常用的7、13、70b），在不同型号gpu、训练框架、推理框架数据。结合自己实际工作需要和论文给出的运行时数据分析，总结了下面几条：1.二次预训练最低硬件配置，如果想要自己做简单二次预训练（7、13、70B参数）最小8卡80g显存A1002.对于小规模sft对考虑PEFT做训练就可以，freezen fintune方法需要硬件还是较大3.FlashAttention对向

2023-11-22 12:06:14 1811 1

原创 Motion Plan之搜索算法笔记

本文介绍了motion plan学院派的框架：1.前端路径规划2.后端轨迹生成3.不确定障碍物预估规划并且详细介绍了前端路径规划常用的搜索规划，介绍了搜索规划的一些前置知识：1.c-space，为了方便物体质点化处理，建图时把物体形状构建转移到图2.各种不同图如何构建成适合搜索算法的数据格式，以及不同图适合的搜索算法3.搜索算法的三个基本框架：深度搜索、广度搜索、贪心搜索详细介绍了了几种贪心搜索算法原理和实现思路：1.Dijkstra算法：2.A*搜索3.跳点搜索并且介绍了：累计成本

2023-11-20 23:00:36 1474

原创 LLM建模了什么，为什么需要RAG

本文通过广告营销点击率预估的建模为例子介绍了如何对实际业务问题建模，提出了LLM是在对什么建模的假设。1.LLM具备知识表示能力2.LLM具备知识抽取、存储组织能力3.LLM具备检索、联想、组织这三个能力其实在LLM里面并非是可以剥离开来的，而是全部的混在LLM参数里面，也就是说LLM具备知识存储、知识整理、知识检索、联想、组织、表达的能力，并且是一体的全部存在它巨大的参数里面。介绍完LLM是对什么过程建模，然后介绍了现在流行的pretrain、sft、rlhf实际上是在做什么的更数学概念化介绍。齐

2023-11-17 16:03:00 336

原创 LLM实现RPA

自动化技术的发展：从古代的水车到机器人流程自动化（RPA），自动化技术在历史上不断进化，解放人类从繁重的任务中。然而，RPA在需要人类智能的任务上面临困难，尤其是在复杂的工作流构建和工作流执行中的动态决策。随着大型语言模型（LLM）展现出人类智能，本文介绍了一种使用基于LLM的代理进行高级自动化的创新自动化范式，称为代理流程自动化（APA），通过将构建和执行的人力工作转移给代理。代理模型的例子。

2023-11-14 15:09:14 876

原创一种ESDF地图实现方法：FIESTA

图在人类的眼睛中是一个可视的有长宽高的真实可以看的到的世界；然而在机器眼睛中，图其实就是一堆的数据，包含了每个体素的属性、位置、相对位置，以及一堆的方法：包括评判规则、取、存、删、增操作的方法。所以可以很明确的知道图的代码应该也是包括这些模块的：1.体素的数据结构：属性、相对位置、测量值、位置2.图中元素的操作方法：2.1静态操作方法：存、检索2.2动态规则：基于规则的存储、取数、计算、增删改、构建图2.3功能方法：降低存储成本、增加取数速度、增加规则判断速度

2023-11-09 19:33:04 455 1

原创 Langchain知识点（下）

具体来说，系统将形成任务列表，从任务列表中拉出优先级最高的第一个任务，使用 OpenAI API 根据上下文将任务发送到执行代理并完成任务，一旦这些任务完成，它们就会被存储在内存（或者 Pinecone 这类向量数据库）中，然后，根据目标和上一个任务的结果创建新任务并确定优先级。在这个过程中，驱动任务的是三个不同作用的代理。执行器也负责处理多种复杂情况，包括处理代理选择了不存在的工具的情况、处理工具出错的情况、处理代理产生的无法解析成工具调用的输出的情况，以及在代理决策和工具调用进行观察和日志记录。

2023-11-06 15:01:51 517

原创 Langchain知识点（上）

自动修复的思路就是把报错的信息和输出的格式给到LLM，让LLM针对报错的输出做格式恢复、或者是通过带上报错信息重新在让LLM生成一遍保证输出格式符合要求。蜂群无人机集群是由多架无人机组成的网络，它们可以完成各种复杂的任务，比如监视、搜索和拦截。2.通过history的方式，给到做这件事情的上一步思考，期待在上一步的思考为约束LLM能找到解决类似事情的下一步序列，如此递进得到合适cot的解决方案。1.电池：无人机在高海拔地区的电池将会更容易耗尽，因此，要特别注意电池的类型和容量，以保证可靠的航行时间。

2023-11-06 15:00:53 369

原创 AGENTBENCH：评估LLMs作为代理的能力

本文介绍了如何构建智能代理评测集，并对智能代理能力进行了分类。文章提出了一个多维度的基准测试，名为AGENTBENCH,用于评估大型语言模型作为代理在多轮开放式生成设置中的推理和决策能力。文章对27个基于API和开源（OSS)的LLMs进行了广泛的测试，结果显示，尽管顶级商业LLMs在复杂环境中表现出强大的代理能力，但它们与OSS竞争者之间在性能上存在显著差距。文章指出，糟糕的长期推理、决策制定和指令遵循能力是开发可用LLM代理的主要障碍。在代码和高质量多轮对齐数据上进行训练可以提高代理性能。

2023-11-02 10:14:27 842

原创 AGENTTUNING：为LLM启用广义的代理能力

这篇文章介绍了一种方法，可以让大型语言模型（LLM）具备在多种代理任务上表现出色的能力，缩小了开源和商业LLM在这方面的差距。该方法称为AgentTuning，它包括以下两个步骤：● 首先，构建了一个覆盖多种代理任务的数据集，称为AgentInstruct，它包含了1,866个经过验证的代理交互轨迹，每个轨迹都有一个人类指令和一个代理动作。● 然后，设计了一种指令调优策略，将AgentInstruct和通用领域指令混合起来，对LLM进行微调。作者使用AgentTuning对Llama 2模型进行了调优

2023-10-31 17:42:44 2910

原创搭建一个自己的学术语音助手（2）

这篇文章把学术语音小助手几个模块部分实现细节代码完善。完整项目代码放在github中https://github.com/liangwq/Chatglm_lora_multi-gpu，感兴趣同学可以下载下来自己运行下。目前代码已经把所有功能都实现了，但是还没有整合成一个一键运行的项目，这块后续会逐步完善。项目还有很多优化提高地方，比如：1.如何提高长文本摘要生成准确性和生成速度2.如何提高语音合成速度、提高合成合成长度3.如何提高基于知识库问答的准确性4.如何提高知识抽取的准确性5.如何快速对用户

2023-10-16 10:21:21 272

原创搭建一个自己的学术语音助手（1）

本文介绍了做一个属于自己的语音知识管理助手的想法，并选择了论文阅读作为落地场景。计划通过选出精品论文、将论文翻译成中文、对论文进行结构化解析、通过语音方式实现对论文问答、将答案通过语音回复等步骤来实现这个产品。在实现过程中，提到了需要注意的问题，包括输入文本长度、pdf论文输入的数据预处理、服务稳定性等。文章把开发论文语音助手腰用到的技术做了简单介绍，并基于过往经验给出了美国模块的实现技术选型。给出了初步的产品技术框架，在下一篇文章会介绍更详细的技术细节，后续会把项目代码汇总到：https://githu

2023-10-11 17:32:59 301

原创让LLM模型输入token无限长

增加LLM的输入token已经有很多的研究，但是思路无外乎：模型抽取局部特征通过上层通过模型融合预测最终解，以及这个思路的一些变种。然而这些思路其实都没能很彻底的解决无限长token问题，根据《EFFICIENT STREAMING LANGUAGE MODELS WITH ATTENTION SINKS》这篇工作的研究原因在于：注意力陷阱。也就是说影响输入token长度的应该有两个原因：1.如何让模型学会抽取局部特征2.如何解决注意力陷阱那么什么是“注意力陷阱”呢？为什么“注意力陷阱”会影响输入长度。所谓

2023-10-09 10:20:57 591

原创 LLM项目代码改写

最近在做代码大语言模型生成项目代码的课题。代码生成现在大部分的工作是在做即时代码生成，这个有点类似代码智能提示，只不过生成的可能是一段片段代码；然而对于整个项目代码的生成做的团队并不多，原因大致如下：1.项目代码比较复杂，关联的代码文件较多，文件关系、类关系、方法关系理清楚比较难2.项目代码涉及的代码量较大，也就是上下文较多；要让模型理解整个项目抓住重点很难3.项目代码量大，所以要求模型允许输入的token长度较长4.项目代码生成如何抽象问题、设计任务、构建语料训练模型诗歌难题也正是因为上面的几个问题点，导

2023-10-08 12:11:48 908

原创大语言模型学到什么

这篇文章是对《LANGUAGE MODELS REPRESENT SPACE AND TIME》论文的翻译加解读。之所以选这篇文章是因为最近在研究大模型的可解释性，以及基于可解释性对大模型的下游任务适配做训练级别可控性增强研究。其实总结成两句话就是：1.大模型到底学到什么了2.是否能够在训练时候通过辅助probe来控制训练，增强模型能力这篇文章正好有部分的回答了上面的两个问题，所以把这篇文章的工作做了翻译、解读。希望能够对这个方向感兴趣的同学有所帮助。对于LLM模型的工作原理有两个比较大的认识派别：1.随机

2023-10-07 16:30:55 1238

原创连续爆轰发动机

其反应区前沿为一激波。反应区连同前驱激波称为爆轰波。爆轰波扫过后，反应区介质成为高温高压的爆轰产物。能够发生爆轰的系统可以是气相、液相、固相或气-液、气-固和液-固等混合相组成的系统。通常把液、固相的爆轰系统称为炸药。19世纪80年代初，法国物理学家M.贝特洛、P.维埃耶、E.马拉尔和H•-L勒夏忒列等做过火焰传播实验。他们将一个充满可燃气体混合物的管子一端点燃，发现火焰通常以数厘米每秒到数米每秒的低速传播，但是在某些特殊情况下，这种缓慢的燃烧过程能够转变为高速的特殊燃烧过程，他们称这种现象为爆轰。

2023-10-05 10:31:04 974 1

原创 Ai4science学习、教育和更多

从我们的角度和许多其他人的角度来看，人工智能为科学为科学发现的新范式打开了一扇大门，代表了跨学科研究和创新中最令人兴奋的领域之一。培养多元化和灵活性的社区：人工智能为科学社区推崇多样性和灵活性，超越了人工智能和科学的界限，包括学生、研究人员和对推动该领域感兴趣的从业者。最后，我们指出了最近的进展，并呼吁未来采取行动，建立我们的新知识和社区系统，以支持不断发展的人工智能为科学领域。同样地，人工智能和科学的交叉领域承诺开辟新的领域，因为这两个领域结合了各自的优势，共同应对人工智能和科学领域的挑战。

2023-10-03 08:32:56 374

原创 10个与AI相关的技术领域

1.AI未来的可能探索领域2.AI一些优势3.AI解决一些问题

2023-10-02 08:06:35 423

原创偏微分方程的人工智能

流场力学求解可用的人工智能求解方法

2023-10-01 09:33:27 660

原创分子相互作用的人工智能

利用AI方法来解决分子适配的问题AI解决官能团适配AI解决分子结构对功能生效问题

2023-09-30 15:33:18 275

原创 AI在材料科学中的应用

AI在材料科学中的应用材料表征材料性能计算材料合成推荐

2023-09-29 10:21:18 418

原创蛋白质科学中的人工智能

AI在生物蛋白质合成中应用

2023-09-28 14:28:19 269

原创 AI在小分子领域应用

ai在分子设计中的应用

2023-09-27 17:11:55 356

原创用AI解决量子学问题

ai在量子计算中的应用

2023-09-26 10:34:53 303

原创计算如何剥出艺术品

这篇论文介绍了一种用于将球状三维物体的表面连续展开成艺术画面的计算方法，要求展开表面要占三维物体表面整个面积，展开表面要和艺术体形状尽可能相似。论文提出了低等距畸变和缩减能量的概念，并介绍了如何将2D形状映射到3D表面并使用缩减能量来确保映射形状充分覆盖表面并减小未覆盖或重叠区域的面积。论文还提供了代码实现，并探讨了该技术在视觉商业上的应用。本文提出了一种新的算法方法，用于帮助用户为他们期望的输入形状创建切割路径和剥皮作品。该方法将切割生成问题转化为更容易解决的映射问题，并使用低等距畸变映射来确保展开的

2023-09-16 09:39:56 132

原创等变性的AI：从离散到连续

这篇文章主要介绍了在科学问题中如何实现不变性或等变性，其中介绍了实现等变性的数学和物理基础，包括离散和连续对称变换的示例，并描述了在实践中如何使用张量积。文章还讨论了如何处理数据中的对称性，以及如何开发适应对称性约束的机器学习模型。最后，文章指出了几个值得在该领域探索的开放研究方向。

2023-09-14 16:12:29 250

原创科学中的人工智能：量子、原子和连续体技术概述

本文介绍了人工智能在自然科学领域中的应用，特别是AI for science,它通过改进、加速和促进我们对各种空间和时间尺度上自然现象的理解来推动自然科学的发展。其中，AI4Science的一个重要子领域是用于量子、原子和连续体系统的AI,该领域旨在理解从亚原子到宏观尺度的物理世界。该领域面临的关键挑战是如何通过深度学习方法捕捉自然系统中的物理第一原理，特别是对称性。本文提供了一种深入而直观的方法，以实现对对称性变换的等变性，并讨论了其他共同的技术挑战，包括可解释性、超出分布的泛化、基础和大型语言模型的知识

2023-09-13 16:33:11 211

crf++使用工具包

电子书扫描，完整版

空空如也