AI新视界-CSDN博客

原创『NLP学习笔记』Triton推理服务器加速模型推理

NVIDIA Triton(英伟达官网)推理服务器在生产中提供快速且可扩展的 AI。开源推理服务软件 Triton Inference Server 通过使团队能够从任何框架 (TensorFlow、NVIDIA TensorRT、PyTorch、ONNX、XGBoost、Python、自定义等) 在任何基于 GPU 或 CPU 的基础设施上部署经过训练的 AI 模型，从而简化 AI 推理(云、数据中心或边缘)。

2022-03-22 00:21:16 3178 1

原创『矩阵论笔记』上篇：张量CP分解的详细推导以及Python实现

张量CP分解的详细数学推导以及Python实现(上集)

2021-07-11 22:35:48 3514 9

原创〖TensorFlow2.0笔记23〗(更新版)ResNet-18实现Cifar10(94%)和Cifar100(75%)分类

ResNet-18实现CIFAR-10(94%)和CIFAR-100(75%)分类！

2020-08-20 10:09:59 6564 7

原创『论文笔记』CBAM:Convolutional Block Attention Module(注意力机制)+TensorFlow2.0复现

本文提出了卷积块注意模块(CBAM)，这是一个简单而有效的前馈卷积神经网络注意模块。在给定中间特征图的情况下，我们的模块按照通道和空间两个独立的维度依次推断注意图，然后将注意图乘入输入特征图进行自适应特征细化。因为CBAM是一个轻量级的通用模块，它可以无缝地集成到任何CNN架构中，开销可以忽略不计，并且可以与基本CNNs一起进行端到端的培训。我们通过在ImageNet-1K、MS COCO检测和VOC 2007检测数据集上的大量实验来验证我们的CBAM。

2019-12-30 15:07:16 13296 26

原创『自己的工作3』梯度下降实现SVM多分类+最详细的数学推导+Python实战(鸢尾花数据集)

支持向量机(Support Vector Machine, SVM)的基本模型是在特征空间上找到最佳的分离超平面使得训练集上正负样本间隔最大。SVM的目标是寻找一个最优化超平面在空间中分割两类数据，这个最优化超平面需要满足的条件是：离其最近的点到其的距离最大化，这些点被称为支持向量。SVM是用来解决二分类问题的有监督学习算法，同时它可以通过one-vs-all策略应用到多分类问题中。本文主要介绍如何使用梯度下降法对SVM多分类问题进行优化。

2019-11-28 19:53:45 5433 8

原创『矩阵论笔记』详细介绍矩阵的三角分解(LR分解)+平方根分解(Cholesky分解)

首先求解A\mathbf AA的三角分解(LR分解)ALRALR；然后把R\mathbf RR的对角元素取出来组成一个对角阵，然后mathbfRmathbf RmathbfR的每一行除以相应的对角元素。

2019-11-14 20:14:18 9128 6

原创〖TensorFlow2.0笔记23〗TensorFlow2.0学习笔记总结!

Tensorflow2.0全套课程学习笔记！

2019-11-10 16:38:31 15979 21

原创『矩阵论笔记』线性判别分析(LDA)最全解读+python实战二分类代码+补充：矩阵求导可以参考

线性判别分析(Linear Discriminant Analysis 简称LDA)是一种经典的线性学习方法，在二分类问题上因为最早由【Fisher，1936年】提出，所以也称为“Fisher 判别分析！”Fisher（费歇）判别思想是投影，使多维问题简化为一维问题来处理。选择一个适当的投影轴,使所有的样本点都投影到这个轴上得到一个投影值。对这个投影轴的方向的要求是：使每一类内的投影值所形成的类内离差尽可能小，而不同类间的投影值所形成的类间离差尽可能大。

2019-05-27 20:59:10 5847 5

原创『ML笔记』Python凸优化求解cvxopt包+实战SVM+补充np.dot, np.matmul, np.multiply!

Python凸优化求解cvxopt包+实战SVM+补充np.dot, np.matmul, np.multiply!

2019-03-16 15:47:01 4300 12

原创『矩阵论笔记』解读奇异值分解(SVD)+Python实战

奇异值分解（Singular Value Decomposition）是线性代数中一种重要的矩阵分解(Matrix Decomposition)，奇异值分解则是特征分解在任意矩阵上的推广。在信号处理、统计学等领域有重要应用。这篇文章主要说下奇异值分解，这个方法在机器学习的一些算法里占有重要地位。

2019-03-14 21:44:04 5067 6

原创『大模型笔记』视觉语言模型解释

视觉语言模型是指能够从图像和文本中学习的多模态模型。这类模型属于生成模型，能够接收图像和文本输入，并产生文本输出。大型视觉语言模型具备优秀的零样本能力，能够广泛适应多种图像类型，如文档、网页等，并且表现出良好的泛化性。应用场景包括图像聊天、图像识别指导、视觉问答、文档理解和图像描述等。部分视觉语言模型还能识别图像中的空间属性，例如，在被要求检测或分割特定对象时，能够输出边界框或分割蒙版，或定位不同实体并回答关于它们的相对或绝对位置的问题。

2024-04-16 11:18:42 1281

原创『大模型笔记』斯坦福HAI发布2024年人工智能指数报告

斯坦福HAI发布2024年人工智能指数报告。

2024-04-16 10:19:01 60

原创『大模型笔记』CodeGemma - Google 正式开源的针对代码的大语言模型

CodeGemma 是 Google 基于预训练的 2B 和 7B Gemma 检查点开发的专门处理代码的大语言模型系列。通过对额外的 5000 亿 Token 进行训练——主要包括英文数据、数学和编程代码——CodeGemma 在逻辑和数学推理方面的性能得到了显著提升，非常适合进行代码补全和生成任务。专注于代码填空任务，旨在实现快速的代码补全和生成，特别适合在对延迟和隐私要求极高的环境中使用。结合了代码填空（占 80%）和自然语言处理，适用于代码补全及代码和语言的理解与生成。

2024-04-10 10:05:57 84

原创『大模型笔记』LLMs入门：不涉及太多数学和术语的LLMs基本原理通俗讲解

LLM入门：不涉及太多数学和术语的LLM基本原理通俗讲解介绍了大型语言模型的工作原理，并说明它们是如何发展的。他们还讨论了 LLMs 在处理自然语言时的一些挑战和优势，并突出了它们对人类社会认知的重要性。

2024-04-04 18:32:07 240

原创『大模型笔记』LLMs入门：从头理解与编码LLM的自注意力机制

本文将介绍Transformer架构和GPT-4、LLaMA等语言大模型中使用的自注意力机制。自注意力和相关机制是LLM的核心组件，使用LLM时，了解这些机制十分有必要。本文还提供了使用Python和PyTorch从零开始编码自注意力机制的详细指南，并演示其工作方式，帮助初学者和经验丰富的从业者深入理解它在LLM中的作用。

2024-04-04 17:07:24 128

原创『大模型笔记』吴恩达：AI 智能体工作流引领人工智能新趋势

当前，AI智能体正成为一个引人注目的趋势，其重要性不仅在于它为AI开发带来的新视角，也在于它对未来技术发展的预示。这种趋势鼓励了更多的探索和期待，尤其是对于那些热衷于挖掘AI潜力和实现更加智能化应用的人来说，AI智能体提供了一种全新的可能性。

2024-04-02 00:05:07 180

原创『大模型笔记』提示工程、微调和RAG之间对比

一篇总结提示工程、微调和RAG之间对比差异的博文

2024-03-28 15:26:21 110

原创『大模型笔记』大模型微调(Fine-Tuning)还有价值吗？

激动人心的更新来了：我们在Perplexity平台的Copilot功能中，利用@OpenAI的GPT-3.5模型进行了深度优化，不仅提升了响应速度，降低了使用成本，还实现了与GPT-4相媲美的性能表现。现在，Copilot能够以更快的速度加入到您的对话中，同时保持优秀的交流质量。这里有一些您需要了解的关键信息：🧵

2024-03-28 15:02:34 190

原创『大模型笔记』常见的分布式并行策略(分布式训练)

近年来，深度学习被广泛应用到各个领域，包括计算机视觉、语言理解、语音识别、广告推荐等。在这些不同的领域中，一个共同的特点就是模型规模越来越大，比如 GPT-3 模型的参数量达到1750亿。即使用1024张 80 GB 的 A100，那么完整训练 GPT-3 的时长都需要1个月。

2024-03-27 14:56:57 473

原创『大模型笔记』混合专家模型(Mixed Expert Models，简称 MoEs)

混合专家模型 (MoE) 的一个显著优势是它们能够在远少于稠密模型所需的计算资源下进行有效的预训练。这意味着在相同的计算预算条件下，您可以显著扩大模型或数据集的规模。特别是在预训练阶段，与稠密模型相比，混合专家模型通常能够更快地达到相同的质量水平。

2024-03-26 09:53:23 102

原创『大模型笔记』AGI的定义之争：人工智能的终极目标还有多远？

AGI的定义之争：人工智能的终极目标还有多远？

2024-03-22 10:04:57 919

原创『大模型笔记』LLM框架(LangChain、LlamaIndex、Haystack、Hugging Face)哪一个是满足您特定需求的最佳选择？

四个生成式AI框架(LangChain、LlamaIndex、Haystack、Hugging Face)中的哪一个是满足您特定需求的最佳选择，为什么？

2024-03-07 23:05:28 1427

原创『大模型笔记』大模型中的Scaling Law(规模法则)

大模型中的Scaling Law(规模理论)

2024-03-07 14:39:44 852

原创『FFmpeg学习笔记』MAC系统电脑安装FFmpeg以及使用

MAC(m1芯片)电脑安装FFmpeg。

2024-03-07 00:06:30 1190

原创『大模型笔记』Ollama ModelFile(模型文件)

Ollama ModelFile(模型文件)

2024-03-05 10:36:17 849

原创『大模型笔记』测试本地大模型运行框架Ollama(支持macOS/Windows/Linux)

Ollama是一个简明易用的本地大模型运行框架，它能让你轻松地在本地配置和运行大语言模型。该平台支持 macOS、Windows 和 Linux 等多种操作系统，并可在 Docker 环境中运行。能在本地启动并运行 Llama 2、Mistral、Gemma 及其他大语言模型。Ollama 将模型权重、配置和数据捆绑到一个包中，定义成 Modelfile。它优化了设置和配置细节，包括 GPU 使用情况。

2024-03-05 00:41:22 496

原创『大模型笔记』最大化大语言模型(LLM)的性能(来自OpenAI DevDay 会议)

在自然语言处理的领域里，优化大语言模型（LLMs）的过程充满挑战。在高效与性能之间寻求平衡，就像是在计算的海洋中找到一根针。大语言模型的性能往往难以具体衡量，需要采用精细化的优化策略。在这篇博客中，我们将探索大语言模型优化的不同方案，帮助您了解何时使用适当的策略。

2024-03-03 20:34:06 215

原创『大模型笔记』自用的“科技文章翻译 GPT”和它的 Prompt

自用的“科技文章翻译 GPT”和它的 Prompt

2024-03-01 11:00:02 69

原创『大模型笔记』Sora：探索大型视觉模型的前世今生、技术内核及未来趋势

Sora，一款由 OpenAI 在 2024 年 2 月推出的创新性文转视频生成式 AI 模型，能够依据文字说明，创作出既真实又富有想象力的场景视频，展现了其在模拟现实世界方面的巨大潜能。本文基于公开技术文档和逆向工程分析，全面审视了 Sora 背后的技术背景、应用场景、当前面临的挑战以及文转视频 AI 技术的未来发展方向。

2024-03-01 00:36:32 211

原创『大模型笔记』AI应用最新趋势：从大模型到复合人工智能系统的迁移

AI应用最新趋势：从大模型到复合人工智能系统的迁移

2024-02-29 23:50:04 36

原创『大模型笔记』RAG 系统开发中的12大痛点及解决方案

本文受到 Barnett 等人论文《工程化检索增强生成系统时的七大挑战》的启发，旨在探讨论文中的七个挑战及开发 RAG 系统时遇到的五个常见难题。更关键的是，我们将深入讨论这些难题的解决策略，帮助我们在日常开发中有效应对。

2024-02-29 19:04:27 97

原创『大模型笔记』RAG应用的12种调优策略指南

本文从数据科学家的角度审视了一种检索增强生成（Retrieval-Augmented Generation，以下简称RAG），讨论了一些潜在的“超参数”——您可以通过调整它提高RAG流程的性能。类似于深度学习中的实验，数据增强技术不是超参数，而是您可以调整和实验的旋钮，本文还将涵盖您可以应用的不同策略，这些策略并非严格意义上的超参数。

2024-02-29 14:27:48 157

原创『大模型笔记』检索增强生成(RAG)：从理论到LangChain实践

检索增强生成（RAG）是一个概念，它旨在为大语言模型（LLM）额外补充一些外部知识。它的作用是能让模型生成更准确、更贴近上下文的答案，并减少幻觉。

2024-02-29 10:44:59 151

原创『NLP学习笔记』图解GPT3(How GPT3 Works-Visualizations and Animations)

在科技界我们可以看到很多关于GPT-3的新闻。大型语言模型（比如GPT-3）已经展示出让我们惊讶的性能。虽然对于大多数企业来说，这些模型还不能完全可靠地面向客户，但它们展现出的聪明才智无疑将加速自动化的进程以及智能计算机系统的可能性。让我们揭开GPT-3的神秘面纱，了解它的训练方式和工作原理。

2024-02-28 16:32:11 172

原创『NLP学习笔记』图解 GPT-2(可视化 Transformer 语言模型)

今年，我们看到了机器学习令人眼花缭乱的一些应用。OpenAI的GPT-2展现出了惊人的写作能力，其生成内容的连贯且富有感情，超出了我们对目前语言模型的预期。GPT-2其实并不是一种新型架构，他的结构类似于只有解码器的Transformer。GPT-2是一个基于Transformer的巨大的语言模型，并在庞大的数据集上进行了训练。在这篇文章中，我们将看一下是什么构造能让它具有如此性能；我们将深入解析它的自注意力层；最后我们会看一下语言模型之外的仅有解码器的Transformer的应用。

2024-02-27 17:09:02 523

原创『NLP学习笔记』图解 BERT、ELMo和GPT(NLP如何破解迁移学习)

2018年是NLP模型发展的转折点。我们不断探索单词和句子的表示方法，以求能最好地捕捉其中潜在的语义和关系。此外，NLP领域已经提出了一些功能强大的组件式模型，你可以免费下载，并在自己的模型和pipeline中使用它们（这被称为NLP领域的ImageNet时刻，类似的发展在几年前，计算机视觉领域的机器学习也是这样加速发展起来的）。

2024-02-26 22:00:48 172

原创『NLP学习笔记』图解Word2vec(The Illustrated Word2vec)

嵌入（embedding）是机器学习中最迷人的想法之一。如果你曾经使用Siri、Google Assistant、Alexa、Google翻译，甚至智能手机键盘进行下一词预测，那么你很有可能从这个已经成为自然语言处理模型核心的想法中受益。

2024-02-26 18:58:35 169

原创『CV学习笔记』Pyinstaller打包exe后，执行时onnxruntime包报警告(Init provider bridge failed)

Pyinstaller打包exe后，执行时onnxruntime包报警告(Init provider bridge failed)

2024-01-03 10:14:03 677

原创『矩阵论笔记』下篇：张量CP分解的详细推导以及Python实现

张量CP分解的详细数学推导以及Python实现(下集)

2023-12-29 15:01:07 950

原创『矩阵论笔记』中篇：张量CP分解的详细推导以及Python实现

张量CP分解的详细数学推导以及Python实现(中)

2023-12-29 14:53:50 1024 1

Openai CEO奥特曼和Brad访谈(2024年4月17日)，哪些公司将被 OpenAI 淘汰？

Sam Altman 是 OpenAI 的 CEO，这家公司致力于使通用人工智能（AGI）惠及全人类。OpenAI 是历史上扩张速度最快的公司之一，估值高达 900 亿美元，收入超过 20 亿美元。在 OpenAI 之前，Sam 曾担任 Y Combinator 的总裁和 CEO，并在 Airbnb、Stripe、Reddit、Pinterest、Asana 等公司做过天使投资。在今天的节目中，Sam Altman 和 Brad Lightcap 将讨论：合作伙伴关系：科技界最强大的二人组： 6 年前，25 人拒绝了 OpenAI CFO 的职位，是什么让 Brad 在 Sam 之前加入了 OpenAI？他看到了什么别人没看到的？ Brad 认为 Sam 最大的独特优势是什么，这一点世界还未知晓？Sam 又认为 Brad 的最大优势是什么？ Brad 和 Sam 如何共同决策？他们是如何平衡直接处理和委派的？最近他们有什么意见不合？又是如何解决的？ OpenAI 接下来的 12 个月：瓶颈、计算力和商品化：接下来的 12 个月，OpenAI 面临的主要瓶颈是什么？

2024-04-19

(Language Modeling)Introduction to N-grams

2024-03-20

【东方财富证券】从硬件、算法、应用角度看ChatGPT浪潮引领AIGC革新投资机遇

ChatGPT 对 AIGC 产业生态的硬件层、算法层和应用层带来革新。ChatGPT 全面激活深度学习和人工智能需求，根据 Precedence Research 预测 AI 市场规模有望 10 年 10 倍以上。GPT-3 每训练一次需要使用由 1 万个 V100GPU 训练 13 天。（GPT-3 披露单次训练需要3.114x10^23FLOPS 花费 460 万美元，等于单 V100GPU 运行 355 年）生成式 AI 模型在硬件层依赖高性能芯片和云计算数据中心提供算力支持。CPU 领域如海光信息、海思半导体、龙芯中科、上海兆芯；GPU 领域例如景嘉微，海光信息等。FPGA 领域例如安路科技、复旦微电、紫光国微等；ASIC 芯片如寒武纪、澜起科技等；光模块领域如德科立、天孚通信、中际旭创；Chiplet 领域如兴森科技、长川科技、方邦股份等。云计算成为降低 AIGC 硬件成本突破口，设备商例如紫光股份、联想、中兴通讯、锐捷网络等：算力散热相关英维克、高澜股份：云计算如阿里巴巴、腾讯、奥飞数据、数据港等。生成式 AI 模型在硬件层依赖高性能芯片和云计算数据中心提供算力支持。

2024-03-20

【钛媒体国际智库】中美AI大模型应用比较研究报告

康波周期是描述宏观经济增长与技术革命间内在关系的重要模型,第一次工业革命以来,人类已经完整经历了纺织和蒸汽机技术、钢铁和铁路、电气和重化工业、汽车和电子计算机四轮康波周期,目前处于信息技术周期的萧条阶段,AI驱动的第六轮康波周期一触即发。以ChatGPT为代表的Al大模型的诞生,意味着强人工智能的时代即将到来,AIGC正在成为引发生产力变革的引擎,为了抓住第六轮康波周期的机遇,更是在未来的科技竞争中占领先机,中美两国在大模型的布局上不遗余力,两国的竞争不仅仅体现在大型科技企业之间,更是在应用领域也展开了对决。

2024-03-20

【中国信通院2023】人工智能大模型赋能医疗健康产业白皮书

随着全球新一轮科技革命和产业变革深入发展,以人工智能(Artificial Intelligence,AI)为代表的数字技术加速演进,成为经济增长的核心驱动力。近年来,人工智能大规模预训练模型(以下简南称"大模型")在知识、数据、算法和算力等关键要素的共同推动下,呈现见爆发式增长,从自然语言处理逐步扩展、迁移到计算机视觉、多模态、科学计算等领域,增强了人工智能的泛化性、通用性,开启了人工上智能发展新范式。人工智能大模型有望成为未来新型基础设施,赋能干行百业新一轮增长,落地应用和价值实现成为大模型下一步发展方向。生命科学和医疗健康是大模型等AI技术最重要的应用领域之一,大模型可赋能生命科学研究和新药研发,促进医疗器械创新,提升医疗智能化水平。将大模型应用于医疗健康领域,推动医疗健康行业数字化转型升级,对满足人民群众健康需求和实现经济社会经录色、智能、可持续发展具有重要意义。

2024-03-20

【SuperCLUE团队】中文大模型基准测评2023年度报告

自2022年11月30日ChatGPT发布以来，AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮。国内学术和产业界在过去一年也有了实质性的突破。大致可以分为三个阶段，即准备期（ChatGPT发布后国内产学研迅速形成大模型共识）、成长期（国内大模型数量和质量开始逐渐增长）、爆发期（各行各业开源闭源大模型层出不穷，形成百模大战的竞争态势）。

2024-03-20

【中国信息通信研究】2023大模型落地应用案例集

本项目通过搭建高性能 GPU 计算集群、训练通用大语言模型、训练垂类大语言模型、搭建大语言模型微调平台、搭建大语言模型应用开放平台等核心模块，旨在打造大语言模型服务和应用平台，为大语言模型技术的研究和应用提供一个开放、可扩展、可协作的环境。这个平台除了通用大语言模型外，还提供大量共享的数据集、算法库、模型微调工具等资源供开发者使用，同时大语言模型应用开放平台提供一整套完整的大语言模型生态应用工具链，从而加速大语言模型的训练以及大语言模型生态应用的开发和使用过程。

2024-03-20

【中国信通院2022】人工智能AI框架发展白皮书

AI 助力当前经济社会步入智能经济时代。世界正在进入以新一代信息技术驱动发展的重塑时期，人工智能（AI，Artificial Intelligence）作为其中重要的使能技术，对激活实体经济具有溢出带动性很强的 “头雁效应”，对构筑国家科技影响力具有举足轻重的意义。人工智能成为了全球各国新的科技热点，人工智能基础设施建设也成为重要抓手与着力点。未来十年是全球发展数字经济、迈入智能经济社会的黄金发展期，着力发展人工智能基础设施，将为我国人工智能产业发展壮大、数字经济蓬勃发展提供强大牵引力。 AI 框架是智能经济时代的操作系统。作为人工智能开发环节中的基础工具，AI 框架承担着 AI 技术生态中操作系统的角色，是 AI 学术创新与产业商业化的重要载体，助力人工智能由理论走入实践，快速进入了场景化应用时代，也是发展人工智能所必需的基础设施之一。随着重要性的不断凸显，AI 框架已经成为了人工智能产业创新的焦点之一，引起了学术界、产业界的重视。在此背景下，白皮书致力于厘清 AI 框架的概念内涵、演进历程、技术体系与作用意义，通过梳理总结当前 AI 框架发展现状，研判 AI 框架技术

2024-03-20

剑桥大学：2023State of AI Report

人工智能（AI）是一个多学科的科学和工程领域，其目标是创造智能机器。我们相信，在日益数字化、数据驱动的世界中，人工智能将成为技术进步的力量倍增器。这是因为今天我们周围的一切，从文化到消费品，都是智能的产物。《人工智能现状报告》现已进入第六个年头。将此报告视为我们所见过的最有趣的事情的汇编，其目标是引发有关人工智能现状及其对未来影响的知情对话。我们在报告中考虑了以下关键维度：研究：技术突破及其能力。行业：人工智能的商业应用领域及其业务影响。政治：人工智能的监管、其经济影响以及不断演变的人工智能地缘政治。安全：识别并减轻未来高性能人工智能系统可能给我们带来的灾难性风险。预测：我们相信未来 12 个月会发生什么，以及 2022 年绩效评估，以保持我们的诚实。

2024-03-20

清华⼤学计算机系知识⼯程实验室（KEG）唐杰《从千亿模型到ChatGPT的⼀点思考》

训练成本⾼昂：训练 1750 亿参数的 GPT-3 使⽤了上万块 V100，机时费⽤是 460万美元，总成本据悉达到 1200 万美元⼈⼒投⼊极⼤：⾕歌 PaLM 540B 的团队：前期准备 29 ⼈，训练过程 11 ⼈，整个作者列表 68 ⼈训练过程不稳定：容易出现训练不收敛现象

2024-03-20

AIGC算力时代系列报告-ChatGPT芯片算力研究框架

ChatGPT热潮席卷全球。ChatGPT (Chat Generative Pre-traineed Transformer)是由OpenAl于2022年12月推出的对话Al模型,一经面世便受到广泛关注,其2023年1月月活跃用户达到1亿,是史上月活用户增长最快的消费者应用。在问答模式的基础上ChatGPT可以进行推理、编写代码、文本创作等等,这样的特殊优势和用户体验使得应用场景流量大幅增加。

2024-03-20

CS324课程大模型中的Scaling Law(规模法则)课件

CS324课程大模型中的Scaling Law(规模法则)课件 Scaling Laws简单介绍就是：随着模型参数量大小、数据集大小和用于训练的浮点数计算量的增加，模型的性能会提高。并且为了获得最佳性能，所有三个因素必须同时放大。当不受其他两个因素的制约时，模型性能与每个单独的因素都有幂律关系。对于Decoder-only的模型，计算量 C (FLOPs), 模型参数量 N, 数据大小 D(token数)，三者满足：C ≈6ND。模型的计算量 C一定后，模型的性能即精度就基本确定。它的决策变量只有 N 和 D，跟模型的具体结构诸如层数、深度、 attention头个数（宽度）基本无关。相关性非常小，性能（即test loss）在2%的区间内。

2024-03-20

清华大学新闻与传播学院发布的AIGC发展研究资料，2024年最新，200多页

聚焦AIGC产业发展现状及趋势，分技术篇、产业篇、评测篇、职业篇、风险篇、哲理篇、未来篇，是产业发展的概观性报告，也初步回应了突出的风险隐忧，旨在洞察行业的基础上，对AIGC发展趋势进行科学预测与展望，为社会各界应对AIGC领域的挑战提供了理论指导与实践建议。报告80%内容由AI自动生成，聚焦AIGC的多模态发展、多学科影响、全方位应用以及前沿探索，融汇了与AIGC相关的产业实践经验、学术研究探讨与社会理念摸索，致力于向读者提供全面了解AIGC动态的指南，共同探寻人工智能和人类未来发展的和谐之道。

2024-03-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

Openai CEO奥特曼和Brad访谈(2024年4月17日)，哪些公司将被 OpenAI 淘汰？

(Language Modeling)Introduction to N-grams

【东方财富证券】从硬件、算法、应用角度看ChatGPT浪潮引领AIGC革新投资机遇

【钛媒体国际智库】中美AI大模型应用比较研究报告

【中国信通院2023】人工智能大模型赋能医疗健康产业白皮书

【SuperCLUE团队】中文大模型基准测评2023年度报告

【中国信息通信研究】2023大模型落地应用案例集

【中国信通院2022】人工智能AI框架发展白皮书

剑桥大学：2023State of AI Report

清华⼤学计算机系 知识⼯程实验室（KEG）唐杰《从千亿模型到ChatGPT的⼀点思考》

AIGC算力时代系列报告-ChatGPT芯片算力研究框架

CS324课程大模型中的Scaling Law(规模法则)课件

清华大学新闻与传播学院发布的AIGC发展研究资料，2024年最新，200多页

图像处理透视变换(Python+Opencv)

张量分解_张量CP分解_张量Tucker分解_详细介绍！

仿宋_GB2312.zip

楷体_GB2312.zip

VNC-Viewer-6.20.113-Linux-x86.deb

VNC-Server-6.3.2-Linux-x64.deb

cvpr_2020.zip

BP期末论文算法word文档+代码

矩阵论期末论文

空空如也

清华⼤学计算机系知识⼯程实验室（KEG）唐杰《从千亿模型到ChatGPT的⼀点思考》