自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

佚失的诗篇

原创模型预测控制MPC（2）—— 无约束线性MPC

介绍无约束线性MPC的问题建模，求解方法和稳定性分析

2024-04-15 12:46:17 563

原创模型预测控制MPC（1）—— 基础概念

介绍模型预测的基本概念

2024-04-15 04:50:54 536

原创力扣面试经典150 —— 21-25题

力扣150题21~25

2024-03-20 10:12:48 838

原创【随笔】2048 创作纪念日

2048创作纪念日

2024-03-13 10:56:05 366

原创力扣面试经典150 —— 16-20题

力扣150题16-20

2024-03-13 07:21:41 962

原创力扣面试经典150 —— 11-15题

力扣150题11-15

2024-03-09 07:26:03 994

原创力扣面试经典150 —— 6-10题

力扣150题6-10

2024-03-08 05:11:10 920

原创力扣面试经典150 —— 1-5题

力扣150题1-5

2024-02-23 12:15:17 1316

原创从费舍尔信息矩阵（Fisher Information Matrix, FIM）到自然梯度法

本文以自然梯度法的推导为脉络，贯穿黎曼空间、黎曼流形、黎曼度量、费舍尔信息矩阵、KL 散度和自然梯度法等概念。这是 TRPO 算法理论的重要基础

2024-01-18 09:01:19 961

原创序列模型（4）—— Scaling Laws

本文介绍 LLM 训练过程中重要的经验规律 Scaling Laws，它可以指导我们如何最大化训练效率，我们还可以借助它通过小规模实验预测大模型的性能表现

2024-01-10 04:40:46 1534

原创序列模型（3）—— LLM的参数量和计算量

本文说明重要结论：设模型参数量为 N，训练数据量（Token）为 D，LLM训练中计算量（FLOPs）C ≈ 6ND

2024-01-07 09:47:59 1538

原创项目demo —— GPT 聊天机器人

本文介绍我基于 Openai GPT API 开发的 telegram 聊天机器人。该 bot 具有催眠聊天、图像生成、语音输入输出等多模态交互能力，代码开源

2023-11-29 19:54:50 2702 9

原创论文速览【ML4CO】—— 【Ptr-Net】Pointer Networks

标题：Pointer Networks；发表：NIPS 2015；领域：序列模型（seq2seq）改进 / 深度学习解决组合优化问题

2023-09-25 20:27:46 327 2

原创 Pytorch 多卡并行（3）—— 使用 DDP 加速 minGPT 训练

本文介绍如何使用 DDP 和混合精度训练方法来高效地训练一个 MinGPT 模型

2023-09-12 15:37:30 922 2

原创 Pytorch 多卡并行（2）—— 使用 torchrun 进行容错处理

本文介绍如何使用 torchrun 框架改写 DDP 单机多卡并行代码，增强容错性和稳定性

2023-09-12 12:48:13 4335 5

原创 Pytorch 多卡并行（1）—— 原理简介和 DDP 并行实践

本文介绍多卡并行原理，并用一个简单的例子演示 Pytorch 中的 DDP 多卡并行代码写法

2023-09-11 21:45:48 698

原创 Pytorch入门（6）—— 梯度计算控制

本文计算控制 Pytorch 中梯度计算的集中方法，包括设置 tensor.requires_grad 字段以及三种梯度计算模式，还会介绍容易与之混淆的模型评估模式

2023-09-11 07:43:17 567

原创在 Pytorch 中使用 TensorBoard

本文介绍 Pytorch 中 TensorBoard 的用法

2023-08-24 20:07:47 1328

原创 RL 实践（7）—— CartPole【TRPO & PPO】

本文介绍 PPO 这个 online RL 的经典算法，并在 CartPole-V0 上进行测试。由于 PPO 是源自 TRPO 的，因此也会在原理部分介绍 TRPO

2023-08-15 11:51:47 476

原创【随笔】五周年创作纪念日

五周年创作纪念日，分享我的学习历程

2023-08-03 14:40:22 257

原创 minGPT 代码详解（训练 GPT 模型执行两位数加法）

minGPT 是 GPT 模型的一个开源实现，因简洁干净解释性强而颇具教育意义。本文对该开源库实现的 GPT 代码进行详解，并给出一个使用它训练 GPT 模型计算两位数加法的例子

2023-07-31 04:59:31 1903 2

原创 RL 实践（6）—— CartPole【REINFORCE with baseline & A2C】

本文介绍 REINFORCE with baseline 和 A2C 这两个带 baseline 的策略梯度方法，并在 CartPole-V0 上验证它们和无 baseline 的原始方法 REINFORCE & Actor-Critic 的优势

2023-07-28 20:17:56 417 2

原创 RL 实践（5）—— 二维滚球环境【REINFORCE & Actor-Critic】

本文介绍如何用 REINFORCE 和 Actor-Critic 这两个策略梯度方法解二维滚球问题

2023-07-26 17:22:23 223

原创 RL 实践（4）—— 二维滚球环境【DQN & Double DQN & Dueling DQN】

本文介绍如何用 DQN 及它的两个改进 Double DQN & Dueling DQN 解二维滚球问题

2023-07-22 15:25:33 227

原创论文速览【Offline RL】—— 【CQL】Conservative Q-Learning for Offline Reinforcement Learning

标题：Conservative Q-Learning for Offline Reinforcement Learning；发表：NIPS 2020；领域：离线强化学习（offline/batch RL）—— RL-Based

2023-07-08 08:51:13 330

原创论文速览【序列模型GPT】—— 【Transformer-XL】Attentive Language Models Beyond a Fixed-Length Context

标题：Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context；发表：ACL 2019；领域：Transformer (decoder) 改进

2023-06-26 22:07:03 454 6

原创机器学习实用工具 Wandb（1）—— 实验追踪

介绍如何使用 wandb 工具追踪实验过程

2023-02-08 23:43:52 745 1

原创论文速览【Offline RL】——【IQL】Offline reinforcement learning with implicit Q-Learning

【速览】标题：Offline reinforcement learning with implicit Q-Learning；发表：ICLR 2022；领域：离线强化学习（offline/batch RL）—— IL-Based

2023-02-06 15:05:20 1252 1

原创论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation

标题：Offline RL Without Off-Policy Evaluation；发表：NIPS 2021；领域：离线强化学习（offline/batch RL）—— RL-Based / One-step

2023-01-30 03:38:29 738

原创论文理解【Offline RL】——【BooT】Bootstrapped Transformer for Offline Reinforcement Learning

标题：Bootstrapped Transformer for Offline Reinforcement Learning；发表：NIPS 2022；领域：离线强化学习（offline/batch RL）—— Transformer-Based / 数据增强

2023-01-12 18:34:23 381

原创论文理解【Offline RL】——【TT】Offline Reinforcement Learning as One Big Sequence Modeling Problem

标题：Offline Reinforcement Learning as One Big Sequence Modeling Problem；发表：NIPS 2021；领域：离线强化学习（offline/batch RL）—— Transformer-Based / Model-Based

2023-01-08 00:01:04 626 7

原创论文理解【Offline RL】——【DT】Decision Transformer: Reinforcement Learning via Sequence Modeling

标题：Decision Transformer: Reinforcement Learning via Sequence Modeling；发表：NIPS 2021；领域：离线强化学习（offline/batch RL）—— Transformer Based / Hindsight 监督思想

2022-12-23 04:01:24 1377

原创 RL 实践（3）—— 悬崖漫步【QLearning & Sarsa & 各种变体】

介绍 Sarsa、Expected Sarsa、N-Step Sarsa、N-Step Tree Backup、Q-Learning、Double Q-Learning 等六种经典表格型 TD Learning 算法，给出完整代码，并在自定义的经典悬崖漫步环境中进行性能对比

2022-12-17 20:30:34 2189 6

原创论文理解【Offline RL】——【RvS】What is Essential for Offline RL via Supervised Learning?

RvS: What is Essential for Offline RL via Supervised Learning?；ICLR 2022；离线强化学习（offline/batch RL）—— Hindsight 监督思想

2022-12-12 13:48:45 593

原创论文理解【Offline RL】——【BCQ】Off-Policy Deep Reinforcement Learning without Exploration

Off-Policy Deep Reinforcement Learning without Exploration；ICML 2019；离线强化学习（offline/batch RL）—— RL-Based 策略约束

2022-12-08 17:59:05 711

原创序列模型（2）—— 快速串联 RNN / LSTM / Attention / transformer / BERT / GPT

快速串联 RNN / LSTM / Attention / transformer / BERT / GPT

2022-12-02 21:33:11 3446 9

原创从模型容量的视角看监督学习

从模型容量的视角分析监督学习的本质；重新理解正则化、归纳偏置等概念，并从中得到启发

2022-11-30 03:28:24 877

原创序列模型（1）—— 难处理的序列数据

生活中常见的股价曲线等时序数据、文本音视频等结构化数据都是 “序列数据”，在机器学习中处理序列数据，需要新的统计工具和网络结构

2022-11-01 01:56:45 1109

原创 RL gym 环境（3）—— 环境向量化（批量训练）

本文介绍如何在 gym 套件中训练向量化的环境，并通过异步向量化多进程并行运算提高训练效率

2022-10-28 13:14:08 1391

原创 RL gym 环境（2）—— 自定义环境

通过构造经典的悬崖漫步(Cliff Walking)环境，来说明 gym 中环境的自定义和使用方法

2022-10-25 23:43:51 2164 1

snakeDB.asm

详见：https://blog.csdn.net/wxc971231/article/details/104003616

2020-08-06

通信协议.cpp

在嵌入式编程时，常常会遇到需要做数据通信的场景。单片机往往只支持一次8位的数据传递，为了传输较长的数据类型，只能先在主机将数据拆分，再在从机重新组合，这里介绍一种带通讯协议的float型数据传输方法，具体见https://blog.csdn.net/wxc971231/article/details/90377296

2019-08-01

TIM4C123G.zip

史上最全TM4C123G相关资料，包括手册、TIVA官方例程、keil工程模板、引脚分配表、函数手册、我自己写的几个实验等等。

2019-07-08

python情人节绘图程序

用python的turtle库实现的情人节绘图程序，包含随机绘制彩色爱心和一个蜡笔小新头像

2019-05-27

栈实现中缀表达式计算

中缀表达式的计算程序，手动实现运算数栈和运算符栈。

2019-02-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

云端FFF

CSDN认证博客专家 CSDN认证企业博客

码龄6年

人工智能领域优质作者

IP 属地：江苏省

IP属地以运营商信息为准，境内显示到省（区、市），境外显示到国家（地区）

297: 原创

2207: 周排名

4008: 总排名

67万+: 访问

: 等级

8006: 积分

1万+: 粉丝

1874: 获赞

663: 评论

6178: 收藏

私信

关注

热门文章

分类专栏

最新评论

minGPT 代码详解（训练 GPT 模型执行两位数加法）
云端FFF: 这就是源码里提供的文件，应该不需要额外安装的。是不是你没从github下载完整代码
minGPT 代码详解（训练 GPT 模型执行两位数加法）
2301_77718625: 安装mingpt.model ；mingpt.trainer ；mingpt.utils 这三个库的时候总是失败，说找不到这个库，应该怎么办啊，求求求
通讯协议（2）—— SPI
云端FFF: 太久没做这块了，请参考手册吧
通讯协议（2）—— SPI
2301_80155424: tm4没办法用软件spi吗
RL 实践（6）—— CartPole【REINFORCE with baseline & A2C】
云端FFF: 感谢支持。在cart pole训练REINFORCE和AC的性能我在本文2.2.3和2.3.3节图中给出了，AC确实难以收敛。我认为这是因为AC通过优化TD error训练Q网络的过程不够稳定，因此在训练actor的时候稳定性不如用MC得到的u来构造损失。虽然单步更新效率更高，但是带函数近似的TD learning本身收敛性较差（参考https://blog.csdn.net/wxc971231/article/details/124208531）。注意到通过向AC引入baseline减小方差得到的A2C算法可以稳定收敛，这也可以支撑以上观点。另外，你在critic中加入layer norm，本质是在平滑critic提取的状态特征，这可能也有助于稳定Q网络训练，所以能收敛

最新文章

提示

确定要删除当前文章？

取消删除