格兰芬多_未名-CSDN博客

原创强化学习：时序差分法【Temporal Difference Methods】

本节介绍强化学习中经典的时序差分方法（Temporal Difference Methods，TD）。与蒙特卡洛(MC)学习类似，TD学习也是`Model-free`的，但由于其**增量形式**在效率上相较于MC方法具有一定的优势。

2024-05-06 17:00:12 612

原创舒尔补【Schur Complement】

舒尔补（Schur complement）是线性代数中的一个重要概念，经常在矩阵理论、优化问题和数值计算中出现。舒尔补可以用来简化大型线性系统的求解和分析，特别是在稀疏矩阵和块矩阵的情况下。

2024-05-06 16:38:48 429

原创强化学习实例分析:CartPole【蒙特卡洛方法】

本文基于gym库的cartpole环境来实现强化学习里的Monte Carlo 算法

2024-04-24 19:47:22 416

原创强化学习多臂老虎机介绍【Multi-armed Bandits】

Bandit（老虎机、赌博机）问题是强化学习领域中的一个经典问题，老虎机是一种用于赌博的机器，下拉老虎机的机械手臂，我们可以随机获得一个奖励。在赌场中，我们常常能看见很多老虎机被摆在一排，我们可以选择去下拉其中任何一只手臂，在强化学习中我们称为多臂老虎机（Multi-armed Bandits)问题。

2024-04-24 14:29:45 713

原创高斯过程回归【详细数学推导】

高斯过程回归（Gaussian Process Regression，简称GPR）是一种非参数的回归方法，它基于高斯过程（Gaussian Process）理论。在机器学习中，高斯过程是一种强大的工具，用于建模连续型的函数关系，特别适用于小样本的情况。

2024-04-22 18:23:31 407

原创 Robbins-Monro(RM)算法【随机近似】

随机近似(Stochastic Approximation)是指用于解决寻根或优化问题的一类广泛的随机迭代算法。与许多其他求根算法(如梯度下降法、牛顿法)相比，随机近似的强大之处在于它不需要目标函数的表达式或其导数。Robbins-Monro (RM)算法是随机近似领域的开创性工作。

2024-04-22 14:47:52 1050

原创极大似然估计、最大后验估计、贝叶斯估计

本节我们介绍统计学中常用的三种参数估计方法：极大似然估计（MLE）、最大后验估计（MAP）以及贝叶斯估计.

2024-04-14 16:53:03 602

原创蒙特卡洛方法（Monte Carlo）【强化学习】

前面介绍的值迭代和策略迭代算法，我们都假设模型已知，也就是环境的动态特性（比如各种概率）我们都预先知道。然而在实际问题中，我们可能对环境的动态特性并不是那么清楚，但是我们可以得到足够多的数据，那么我们同样可以用强化学习来建模解决这个问题，这类不利用模型的算法被称为`Model-free`的方法。`Monte Carlo`方法便是一种`Model-free`的方法。

2024-04-10 14:36:57 788

原创强化学习实例分析：GridWorld【值迭代和策略迭代算法Python实现】

在前面的章节，我们探讨了强化学习中两个关键算法：值迭代和策略迭代的数学原理.本节我们在Gridworld的场景下实现Value iteration和Policy iteration这两个算法.

2024-04-10 13:20:06 995

原创数值代数中的灵敏度分析【条件数】

在数值分析领域，灵敏度分析是一种用来评估数值模型对输入参数变化的敏感程度的技术。本文介绍数值分析中的条件数以及解线性方程组中的条件数。

2024-03-22 11:13:22 870

原创值迭代和策略迭代【强化学习】

值迭代和策略迭代是强化学习中两种基本的方法，用于解决马尔可夫决策过程（MDP）的优化问题。它们都旨在找到一个最优的策略，以在给定环境下实现最大的累积奖励。

2024-03-22 10:26:18 936

原创强化学习：贝尔曼最优方程【BOE】

上一节讲了贝尔曼方程，这一节继续在贝尔曼方程的基础上讲贝尔曼最优方程，后面的策略迭代和值迭代算法都是根据贝尔曼最优方程来的.

2024-03-21 09:04:23 826 1

原创贝尔曼方程【Bellman Equation】

贝尔曼方程（Bellman Equation），也称为贝尔曼期望方程，用于计算给定策略π时价值函数在策略指引下所采轨迹上的期望。

2024-03-20 11:31:07 1903

原创强化学习基本概念【MDP、策略、价值函数】

本文介绍强化学习的基本概念，马尔可夫决策过程、回报、策略、价值函数（state value function and action value function)

2024-03-20 11:24:46 677

熵是信息论中最基本、最核心的一个概念，它衡量了一个概率分布的随机程度，或者说包含的信息量的大小。假设随机变量取值为 x，对应的概率为 p(x)。直观来看，取这个值的可能性越小，而它又发生了，则包含的信息量就越大。也就是说，概率越小，信息量越大。例如，一年之内人类登陆火星，包含的信息量显然比广州明天要下雨大，因为前者的概率明显小于后者。因此如果定义一个函数 h(x)来描述随机变量取值为的信息量的大小的话，则h(x)应该是 p ( x )的单调减函数。满足单调递减要求的函数太多了,该选择哪个函数呢?

2024-03-19 11:48:59 720

原创线性规划单纯形法【推导+实例】

单纯形法是一种用于解决线性规划问题的经典算法。线性规划是一种优化问题，其目标是在给定约束条件下，找到使得某一线性目标函数取得最大值或最小值的变量取值。

2024-03-19 11:31:43 1303

原创 Mac传文件到云服务器

Mac scp是一款基于Mac OS的远程文件传输软件，可以方便快捷地将本地文件上传到远程服务器或者从服务器下载到本地。

2024-02-25 16:56:45 811

原创基于Pytorch的猫狗图片分类【Cat vs Dog】

猫狗分类来源于Kaggle上的一个入门竞赛——Dogs vs Cats。为了加深对CNN的理解，基于Pytorch复现了LeNet,AlexNet,ResNet等经典CNN模型……

2024-02-25 15:53:13 2463 1

原创什么是范数【向量范数、矩阵范数】

范数，在线性代数、泛函分析及相关的数学领域，是一个函数，其为向量空间内的所有向量赋予非零的正长度或大小。

2024-01-19 14:12:19 820 1

原创奇异值分解(SVD)【详细推导证明】

奇异值分解（Singular Value Decomposition）是线性代数中一种重要的矩阵分解，奇异值分解则是特征分解在任意矩阵上的推广。在信号处理、统计学等领域有重要应用。

2024-01-18 19:57:39 1253 1

原创近似点梯度法【Proximal Gradient Method】

近似点梯度算法．它能克服次梯度算法的缺点，充分利用光滑部分的信息，并在迭代过程中显式地保证解的结构，从而能够达到和求解光滑问题的梯度算法相近的收敛速度．

2024-01-09 22:03:14 1340

原创蒙特卡洛方法【拒绝采样、重要性采样】

蒙特卡洛方法（Monte Carlo Simulation）是一种近似推断的方法，通过采样大量粒子的方法来求解期望、均值、面积、积分等问题。蒙特卡洛对某一种分布的采样方法有直接采样、接受拒绝采样与重要性采样三种。

2024-01-05 16:37:47 1551 1

原创隐马尔可夫模型【维特比算法】

本文主要介绍隐马尔可夫解码问题的维特比算法，维特比算法是一种动态规划算法用于寻找最有可能产生观测事件序列的隐含状态序列.

2024-01-04 19:07:54 1330 1

原创牛顿法和拟牛顿法介绍

牛顿类算法就是利用二阶导数信息来构造迭代格式的算法．由于利用的信息变多，牛顿法的实际表现可以远好于梯度法，但是它对函数 $f(x)$ 的要求也相应变高．

2024-01-04 15:03:54 1347 1

原创次梯度算法介绍

在实际应用中经常会遇到不可微的函数，对于这类函数我们无法在每个点处求出梯度，但往往它们的最优值都是在不可微点处取到的. 次梯度算法不用知道每个点的梯度，转而求其次梯度，能处理函数不可微的情形.

2024-01-03 21:06:12 1505 1

原创 Principal Component Analysis：主成分分析【PCA降维】

PCA，即主成分分析方法，是一种使用最广泛的数据降维算法。在信号处理中认为信号具有较大的方差，噪声有较小的方差，信噪比就是信号与噪声的方差比，越大越好，因此我们认为，最好的k维特征是将n维样本点转换为$k$维后，每一维上的样本方差都很大，并且每一维的数据不相关。

2023-12-26 20:08:10 884

原创多层感知机与反向传播【MLP】

本文介绍多层感知机（前馈神经网络）的结构，以及反向传播的原理。最后用numpy手动实现一个两层前馈网络预测手写数字（MNIST)数据，从原理到实现帮助彻底弄明白多层感知机中的反向传播！

2023-12-26 14:51:04 1126

原创什么是线性回归、岭回归

线性回归是一种线性模型，线性模型形式简单、易于建模。本文分别从最小二乘和极大似然估计的角度推导线性回归模型的参数估计，同时简要介绍岭回归及其特点。

2023-12-24 17:24:14 996 1

原创逻辑回归【Logistic Regression】

Logistic回归名为回归，实为分类模型。与朴素贝叶斯分类一样，Logistic回归也是采用后验概率最大化的分类准则，不同的是，朴素贝叶斯分类模型是生成模型，而Logistic回归是判别式模型。

2023-12-24 13:38:57 1033 1

原创朴素贝叶斯分类【原理推导+实例】

贝叶斯分类是一类分类算法的总称，这类算法均以贝叶斯定理为基础，故统称为贝叶斯分类。而朴素贝叶斯(Naive Bayes)分类假设特征之间相互独立，是贝叶斯分类中最简单一种分类方法。

2023-12-22 23:08:04 1169

原创什么是支持向量机【图文，超详细】

支持向量机(support vector machines, SVM)是一种二分类模型。本文详细介绍线性可分支持向量机和线性支持向量机的原理、算法推导，同时有不少图帮助理解。

2023-12-21 18:11:30 3790 1

原创感知机【图文，详细推导】

机器学习笔记，本文主要介绍感知机。感知机（PLA）是 1957 年，由 Rosenblatt 提出会，是神经网络和支持向量机的基础。感知机是二分类的线性分类模型，其输入为实例的特征向量，输出为实例的类别，取值为+1和-1。

2023-12-21 10:51:56 1657 1

原创机器学习简介（基本概念，训练误差与泛化误差等）

本章介绍机器学习的基本概念，期望风险，经验误差，模型评估和模型选择的基本内容。

2023-12-20 18:07:01 1238 1

原创 Mac系统上openmp的编译问题：fatal error: ‘omp.h‘ file not found

Mac系统上openmp的编译问题：fatal error: 'omp.h' file not found

2023-12-17 18:45:39 677 1

原创 Mac系统zsh环境变量

本文简要介绍Mac系统的zsh以及其环境变量

2023-12-17 16:19:08 1762 1

原创 MAC系统CVX 安装

CVX是一个用于凸优化建模的MATLAB工具箱。CVX是基于Matlab的建模语言，允许使用标准Matlab表达式语法来描述凸优化问题的约束和目标函数。本文主要介绍MAC如何安装cvx。

2023-12-16 19:10:55 467

原创 Error: Cannot install in Homebrew on ARM processor in Intel default prefix (/usr/local)

命令安装软件包时，出现如上错误。这个错误信息通常出现在使用M1/M2芯片（ARM架构）的Mac上，是因为尝试在Intel架构的默认前缀/usr/local上安装Homebrew时。Homebrew建议在M1/M2芯片上使用不同的前缀目录/opt/homebrew来安装，以确保与M1/M2芯片兼容的二进制文件被正确安装。现在，你已经成功在M1/M2芯片上使用/opt/homebrew前缀安装了Homebrew，你可以使用Homebrew来安装各种软件包和工具了。关闭文件，运行如下命令重启zsh。

2023-12-16 18:35:10 1053

原创锥规划问题存储格式【CBF格式简介】

CBF(Conic Benchmark Format)，这是一种文件存储格式，整合了混合整数变量在混合圆锥（包括线性锥、二阶锥、半定锥、指数锥和幂锥）上的优化问题实例。该格式在设计时考虑了锥规划问题的基准库，因此侧重于紧凑且易于解析的表示。

2023-11-07 19:17:27 505

空空如也

空空如也