sssjjww-CSDN博客

原创基于区间预测的调度方法

为了应对县级市光伏发电与用电需求之间的最优调度问题，提出一种面向蓄电池和光伏发电机的区间预测调度优化方法。该方法分别对发电功率调度、充电/放电功率调度和荷电状态调度进行决策从而获得最优调度的精确范围。建立最优SOC调度随用电网络需求变化的雅可比矩阵，接着证明雅可比矩阵的一部分属于M矩阵，并且是对角占优矩阵。利用这一事实，可以显示出最优SOC调度的单调性，从而进一步推导出所有电力调度范围。

2024-04-22 18:07:44 305

②blending不同模型的训练集是一样的（模型的精度高和模型间的差异性大都可以提升模型效果，所以可以采用一些采样方法和数据增强方法增加样本多样性）希望使用一个模型去融合模型，但是如果使用相同的数据去训练用于融合的模型，存在数据泄露的问题，导致过拟合，所以stacking采用交叉验证的方法缓解该问题。⑥bagging：通过采样训练数据集的样本，训练得到多样的模型，进而得到多样的预测结果，在结合模型的预测结果时，可以对单个模型预测结果进行投票或平均。随机森林还将对每个数据集的特征（列）进行采样。

2024-04-07 17:52:53 912

原创 GRU&LSTM

3、稳定性问题：随着数据量的增多和模型复杂度的增加，LSTM的表现更加稳定，这可能是因为LSTM的设计允许它更好地处理长期依赖问题，而GRU在这种情况下可能因为其简化的设计而受到影响。候选隐藏状态：基于重置门、更新门的作用，GRU计算一个新的候选隐藏状态，这一步骤涉及到输入数据、重置门和更新门的作用，候选隐藏状态反映看当前时刻的新信息。最终隐藏状态：最终隐藏状态是当前时刻的隐藏状态，它是候选隐藏状态和上一时刻的隐藏状态的加权和，权重由更新门决定。3、输出：最后根据当前的隐藏状态进行最终的输出。

2024-04-03 15:34:53 486

原创 python数据的一些操作

3、按日期对数据进行分组，并且将每天的功率值存储为一个列表，最后将分组结果转换为dataframe。,将每个小时的功率值单独放在一列中。2、修改时间格式，将时间转换为datetime格式。感觉操作好繁琐啊，有没有其他简单的操作呢？5、创建一个新的DataFrame。列,每一个列表元素对应一行数据。6、将bb的索引设置为与aa相同。excel中的内容如下。4、将日期设置为索引。

2024-03-21 15:43:17 229

原创特征工程学习整理

特征工程是机器学习中非常重要的一步，它可以有效提高模型的性能，特征工程主要包括特征提取、特征变换和特征构造三个方面。

2024-03-12 15:36:56 233 1

原创常用于终端的命令（自备）

按ctrl+c，程序仍然运行，关闭终端，程序依然运行，需要通过kill终止进程。④nohup +指定输出文件+ &：可以指定输出文件接收命令的输出。按ctrl+c，程序依然运行，关闭终端，程序结束。按ctrl+c，程序结束，关闭终端，程序依然运行。表示把标准错误定向到标准输出上，一起输出。日志在nohup.out中，实时查看日志。如果想要python在后台不挂断运行。②nohup：程序不挂起，

2024-03-06 10:12:19 167

原创 XGboost的整理

评估指标，用于在训练过程中对模型的表现进行评估，‘rmse’ 表示均方根误差（Root Mean Squared Error），它是回归问题中常用的性能指标。树的最大深度，增加这个值可以使模型更加复杂，并提高队训练数据的拟合程度，但可能会导致过拟合。n_estimators：森林中树的数量，值越大，模型越复杂，训练时间也会相应增加。较大值会导致模型更保守，可能会导致模型的过拟合。较小的值可以减少过拟合，提高模型的泛化能力。L1正则化项的权重，增加这个值同样也可以增加模型的正则化强度。

2024-03-05 18:02:48 450

原创 lightGBM的学习整理

风场当天的预报数据的分辨率为20km一个网格点，功5151个点，每个文件以UTC12时为起点，包含169个小时的预报数据，风主要关注时间、位置、风速。任务：根据仿真人体漂流坐标、海洋环境要素等数据信息，利用lightGBM算法建立落水人员漂移预测模型，模型能够预测落水人员的漂流轨迹，最大程度减小搜寻区域的大小，减少搜救力量的投入，提高海上搜救的成功率，有效保障海上生产的安全。1、初始化，选择一个初始模型，通常是一个常数，比如分类问题中内的类别概率的先验值，回归问题中的目标变量的平均值。

2024-03-05 18:02:37 366

原创气象数据收集

国家气象信息中心-中国气象数据网 (cma.cn)国家气象信息中心-中国气象数据网 (cma.cn)预报数据：需要定制，收费10万+路面数据同化系统，实时。

2024-02-29 15:17:52 337

原创光伏发电预测

最严重的问题是过拟合，模型在训练样本中表现优越，但是在验证数据集以及测试数据集中表现不佳。以下创新方法可以提升融合后的模型表现1、重复使用部分特征：Light GBM模型中，对环境特征（板温、现场温度、光照强度、风速、风向）执行一次复制，这些特征在训练中出现2次，结果显示，训练集误差几乎一致，但是在验证集误差更小。使用重复特征，减少了过拟合的程度。2、在每折交叉验证后进行预测。

2024-02-29 14:37:44 1303

原创如何将算法部署于云平台

6、模型API服务：创建一个API服务，用于接收外部请求，这些请求包含模型处理所需的数据，API服务可以将数据传递给模型，并接受模型的输出结果。3、配置云资源：更具模型的需要，配置计算资源（如虚拟机、容器服务）、存储资源（如对象存储、文件存储）和网络资源（如虚拟私有云、负载均衡器）。4、部署模型：使用容器服务奖模型容器部署到云平台，如果模型需要大规模并行处理，可能需要使用云平台的AI加速器服务。2、选择云平台：选择一个合适的云服务提供商，如阿里云、华为云、腾讯云等，并根据需求创建相应的云资源。

2024-02-28 14:24:11 245

原创虚拟电厂相关专利阅读整理

以集群中虚拟电厂平均供能成本最低为目标，基于所有参与竞价的虚拟电厂的竞价策略构建目标函数，实现集群中各虚拟电厂的相互调度，弥补由于单个虚拟电厂吱声条件能力不足导致在实施阶段产生偏差的问题，实现配电网络的整体经济性优化。以各虚拟电厂的运行成本最小化为目标构建竞标成本函数。以各机组出力波动差最小为目标构架竞标电量函数。构建虚拟电厂集群动态平衡策略，

2024-02-27 17:30:41 294

原创短期负荷区间预测

1、输入特征：①负荷特征部分；②时间天气特征部分2、传入：卷积神经网络和反向传播神经网络训练3、拼接输出后传入全连接层构成深度学习模型，该模型与分位数回归结合起来，并行生成预测负荷的多个分位数结果。确定性负荷预测：预测结果是任意时刻的确定性具体指概率性负荷预测：预测结果是负荷取不同值的分布概率（现有的大多是假设预测结果服从一定的概率分布，利用模型预测数据，得到预测数据的概率分布函数参数，从而完成概率负荷预测）

2024-02-27 13:14:25 915

原创强化学习（h-DQN）待添加

在传统的强化学习中，智能体通常需要学习如何相似复杂的、高维的状态空间中直接映射出最佳的动作，然而，许多显示世界的问题，这种复杂性可能会导致学习过程非常缓慢，甚至是不可能的，HRL通常是将问题分解成更小、更易于管理的子任务来解决这个问题。1、层次结构：由多个层级组成，每个层级都有自己的策略和奖励函数，高层策略负责设置目标或任务，而低层策略则关注如何实现这些目标。2、高层策略：负责在抽象层面上做出决策，这些决策通常指导低层策略的行为，高层策略关注的是长期目标和任务规划。

2024-02-22 16:30:51 183

原创强化学习（GPS）

前面有工作是通过计算重要性权重的方差来判断新策略的准确性的，但是对于很长的路径，重要性权重在大部分地方都为0，方差也很小，但是并不能说明什么问题，但是策略梯度方法是在线策略算法，只能使用当前策略采样得到的数据来估计梯度从而更新参数，为了能够使用其他策略采样的数据，这里必须要使用一种技术：重要性采样。路径优化算法是一个开环方法，策略梯度是一个闭环方法，将两者相结合，利用路径优化算法的输出结果来指导策略梯度方法的训练过程，从而提高策略梯方法的效率，即GPS算法。基于重要性采样的策略梯度方法。

2024-02-21 17:02:55 319

原创强化学习（SAC）

不仅想要长期的回报最大，还想要policy的每一次输出的action的熵最大，这样做是为了让策略随机化，也是在鼓励探索，为具有相似的Q值的动作分配近乎均等的概率，不会给动作范围内任何一个动作分配非常高的概率，避免了反复选择同一个动作而陷入次优。SAC算法是一种现代的深度强化学习算法，它结合了基于策略的和基于价值的方法。随机策略stochastic policy：在给定状态时，不会总是产生相同的动作，相反它会根据某种概率分布选择动作，这意味着及时智能体处于相同的状态，也可能选择不同的动作。

2024-02-20 17:20:40 608

原创强化学习（SQL）

举例说明SQL的抗干扰性：假设已经找到了最佳的路径，但是突然出现干扰，如果是Q-learning这种输出靠着最大Q对应的动作，那么agent就会一直在干扰处徘徊，但是SQL就会不一样，对于所有动作都会被选择到，只不过概率有高低罢了，那么当遇到干扰时，agent就有机会找到另一条合适的路径。增加信息熵项，那么优化时，就会使得输出的每一个动作的概率尽量分散，因为在一个集合中，体系越混乱，种类越趋于平均，熵值越大。这是一种在最大化期望累计奖励的基础上，最大化熵项的算法，即该算法的优化目标是。

2024-02-20 15:05:04 588

原创 openAI的sora记录

sora的独到之处：以往，大多是通过各种技术对视频数据进行生成模型建模，比如循环网络、生成对抗网络、自回归transformer和扩散模型等方法，往往只关注于特定类型的视觉数据、较短的视频或者固定尺寸的视频，而。（是一种生成模型，通过模拟数据分布的扩散和去噪过程来生成新的数据样本），能够接受带有噪声的patch（和条件信息，例如文本提示）作为输入，随后被训练，来预测原始的干净patch。生成对抗网络：包括一个生成器一个判别器，生成器生成真实的数据样本，而判别器试图区分生成的样本和真实的样本。

2024-02-19 14:35:19 382

原创强化学习（没想好叫什么）

使用状态值函数和优势函数计算Q，为防止网络输出优势函数A的期望不为0，需要减去A的期望，由于动作无穷多，通过采样计算均值来估计A的期望。结合了演员-评论家方法和经验回放的算法，是一种带经验回放的off-policy的actor-critic模型，A3C是on-policy的，其实 ACER 是 A3C 的off-policy 版本。②实时学习：由于它使用当前策略的数据，因此同策略学习通常需要实时与环境交互，这可能导致学习过程中的探索和利用之间的平衡问题。③一种新的置信域方法，计算简单，适合大规模问题。

2024-02-18 17:24:02 206

原创强化学习（TD3）

这就不可避免的降低了估值函数的准确度，由于估值方法的计算依据贝尔曼方程，即使用后续状态对估计值进行更新，这种性质又加剧了精确度的下降，在每一次更新策略时，使用一个不准确的估计值将会导致错误被累加，这些贝雷架的错误会导致某一个不好的状态被高估，最终导致策略无法被优化到最优，并使算法无法被收敛。：让目标网络与当前网络更新不同步，当前网络更新d次之后再对traget网络进行更新；critic更新多次后，actor更新，critic的更新频次多于actor的。：在计算目标值时，加上扰动，从而使得评价更加准确。

2024-02-18 14:25:24 499

原创强化学习（DDPG）

核心思想：使用深度神经网络来近似表示策略函数和价值函数，策略网络用于输出确定性动作，价值网络用语评估状态-动作对的值。DDPG通过最大化累计期望回报来更新策略网络参数，通过最小化估计值与目标值之间的差来更新价值网络参数。DDPG算法可能会遇到估计偏差的问题，通常是由于它在初始价值函数和策略函数的近似时产生的，这种估计偏差可能。DDPG与PPO不一样在于：PPO输出的是一个策略，即概率分布，而DDPG输出的是一个动作。初始化目标critic网络和目标actor网络中的权重。，从而影响学习到的策略的质量。

2024-02-18 11:24:46 203

原创强化学习（PPO）

policy gradient不好确定learning rate（即step size）的问题，step size过大，policy会一直乱动，不容易收敛；反之，step size太小，完成训练的话，需要很长时间，PPO算法则是利用了新旧策略的比例，限制新策略的更新幅度，让算法对step size不那么敏感。PPO算法的核心在于更新策略梯度，主流方法有两种，一种是KL散度做penalty，另一种是clip做剪裁，主要作用是限制策略梯度更新的幅度。

2024-02-07 13:24:46 260

原创强化学习（TRPO）

TRPO——Trust Region Policy Optimization置信域策略优化算法。②信任域约束：限制策略更新的幅度，保证算法的稳定性。①策略梯度：衡量当前策略与目标策略之间的差异。是一种改进的自然梯度策略优化算法。①性能好，能够有效学习复杂策略。②稳定性强，不易陷入局部最优。

2024-02-04 18:02:19 213

原创 torch_musa的使用

2、都可以将模型的部分或全部操作从CPU转移到硬件加速器上执行，从而提高模型的运行速度。2、musa目前仅支持部分pytorch操作，CUDA几乎支持所有的pytorch操作。1、musa是基于FPGA的硬件加速器，CUDA是基于GPU的硬件加速器。③训练或测试的时候输入的数据的device需要也是musa的。1、都是用于加速pytorch模型运行的硬件加速器。cuda的三张图正好对应着musa的三张图。④输入模型的数据，需要设置device。示例三：cuda与musa的对比。注意：device的设置。

2024-02-04 15:58:27 416

原创世界模型（自学整理，后期继续更新）

自监督学习：是一种机器学习范式，不需要人工标注的标签就可以训练模型，通过构造一些辅助任务，让模型自己学习数据中的统计关系，优势在于可以利用大量未标记的数据来训练模型，减少标注数据的成本，可以提高模型的泛化能力，不需要依赖特定的标签。世界模型可以用各种方式来构建，一种方法是使用机器学习来训练模型，以预测输入数据的结果，另一种方法是使用专家知识来构架模型，例如由人类专家编写的规则。自监督学习中，标签是模型在训练过程中自动生成的，或者就是输入数据的一部分，代表了数据的某种统计关系。

2024-02-01 16:20:24 488

原创 pandapower的使用

在Bus 1 上，pu为标幺值=有名值/基准值是电力系统分析和工程计算中常用的数值标记方法，表示各物理量及参数的相对值，系统的各种参数（如电压、电流、阻抗等）都被转换为相对于某个基准值的比值，这种转换的主要目的是简化电力系统的计算和分析，特别是在多电压等级的系统中。pandapower是python的一个开源库，pandapower中的一个网络是由一个poandapowerNet对象表示的，是由pandas的Dataframe的集合组成，每一个dataframe包含了一个pandapower元件的信息。

2024-02-01 14:16:43 544

原创强化学习（AC&A3C）

global network下面有n个worker线程，每个线程里有和公共的神经网络一样的网络结构，每个线程会独立的和环境进行交互得到经验数据，线程之间互不干扰，独立运行。每个线程和环境交互到一定量的数据后，就计算在自己线程里面的神经网络损失函数的梯度，但是这些梯度并不更新自己先线程里的神经网络，而是去更新公共的神经网络。A3C中可以将两个网络放到一起，输入状态s，可以输出状态价值和策略，也可以将actor网络和critic网络独立开，分别处理。输入：迭代次数T，状态特征维度n，动作集A，步长。

2024-01-31 17:08:11 958

原创强化学习（PG）

要利用日度上升来寻找最优的梯度，首先就要找到一个可以优化的函数目标，最简单的优化目标就是初始状态收获的期望，但是有的问题是没有明确的初始状态的，那么优化目标可以定义为。最终目的是决策后获得最大的期望，可以根据最终的回报和决策轨迹的概率求出期望回报来代表作为一个轨迹的回报，根据回报的大小，可以对网络进行优化。基于策略的强化学习，通过神经网络来输出预测的动作，相较于基于价值的强化学习，PG最大的优势在于可以在一个区间内挑选动作。，在每一个step后更新参数，更新的频率高于MC蒙卡洛——

2024-01-30 17:56:13 261

原创强化学习（分类类别）

通常可以用马尔可夫决策过程来定义强化学习任务，并将其表示为四元组，分别是状态集合、动作集合、状态转移函数和奖励函数，假设这四元中组中所有元素已知，且状态集合和动作集合在有限步数内是有限集，则机器学习可以对真实环境进行建模，通过学习状态转移函数来构建一个虚拟环境，以模拟真实环境的状态和交互和反映，这就是。然而在实际应用中，智能体并不是那么容易就能知晓马尔可夫决策过程中的所有元素的，通常情况下，状态转移函数和奖励函数很难估计，甚至连环境中的状态都可能是未知的，所以才有了。无模型强化学习又可以分为。

2024-01-30 10:17:01 261

原创强化学习（DQN）

计算目标Q值，输入的是。（4）动作选择：在执行过程中，智能体会更根据当前状态选择一个动作，动作选择，采用的是贪婪策略，前期多以随机采样获得动作，后期则是通过网络获得最大Q值对应的动作。（2）经验回放：在训练过程中，智能体会与环境进行交互，并收集经验数据，经验数据包括状态、动作、奖励以及下一时刻的状态。（3）学习：从经验池中随机采样一批数据，然后使用这些数据来训练深度神经网络，训练目标是是网络输出的Q值与目标Q值之间的差距最小。然后更新Q网络，再更新目标Q网络，更新目标Q网络的频次低于更新Q网路的频次。

2024-01-30 09:56:08 135

空空如也

空空如也