LXYTSOS-CSDN博客

原创强化学习形式与关系

在强化学习中有这么几个术语：智能体（Agent），环境（Environment），动作（Action），奖励（Reward），状态（State，有些地方称作观察，Observation）。

2021-02-22 16:38:21 380

相信很多人都听过“机器学习”和“深度学习”，但是听过“强化学习”的人可能没有那么多，那么，什么是强化学习呢？强化学习是机器学习的一个子领域，它可以随着时间的推移自动学习到最优的策略。在我们不断变化的纷繁复杂的世界里，从更广的角度来看，即使是单纯的静态的输入-输出型问题也会变成动态的问题。例如，对于一个简单的监督式学习任务——猫狗分类。你收集到了一些训练数据，然后用你最喜欢的深度学习框架写了一个分类网络进行训练，很快模型收敛，效果拔群，因此你将这个模型部署上线，过了一段时间一些狗的狗毛修剪方式发生了改变，

2021-02-20 15:35:15 432

原创软件架构概念和面向服务的架构

摘要软件架构作为软件开发过程的一个重要组成部分，有着各种各样的方法和路线图，它们都有一些共同的原则。基于架构的方法作为控制系统构建和演化复杂性的一种手段得到了推广。引言在计算机历史中，软件变得越来越复杂。也提出了许多方法来解决不同层次的复杂性，例如“结构化编程”[1]，以及Fred Brooks的“概念完整性”思想[2]。软件生命周期的设计阶段通常分为高层设计和详细设计。架构将有助于描述软件，这就产生了“软件架构”一词。软件架构的概念已经成为解决高度复杂问题的设计方案。在1994年底，Denning和

2021-01-26 11:07:58 679 1

原创强化学习-马尔可夫决策过程（MDP）

强化学习，是机器学习领域中，除监督学习、非监督学习之外，第三种学习范式。在强化学习中，智能体在环境中通过执行各种动作来与之交互，做完每个动作后都会得到一个环境反馈的奖励值，智能体的目标就是通过一系列的交互，来学习到一种策略，使得它收到的总奖励值最大。马尔可夫马尔科夫性：当一个随机过程在给定现在状态及所有过去状态情况下，其未来状态的条件概率分布仅依赖于当前状态；换句话说，在给定现在状态时，它与过去状态（即该过程的历史路径）是条件独立的，那么此随机过程即具有马尔可夫性质。具有马尔可夫性质的过..

2021-01-14 11:15:20 693 2

原创我的2020奋斗史

现在我仍然记得，去年的这个时候，我结束3个月的考研备考，刚刚参加完全国统考，难得可以休息一段时间了。我于2014年本科毕业，到目前为止已经有6年工作经验，前三年从事大数据开发，后三年转做计算机视觉。那么，已经工作这么多年了，为什么还要考研呢？事情的开端要回到2019年9月份，当时已经从事计算机视觉方面的工作有近两年的时间，而加上加薪无望，因此开始琢磨着找新工作了。在此过程中，我发现这么一个现象，大部分岗位要求有硕士学历，甚至有些是强制要求，因此对于只有本科学历的我，在简历这关就被淘汰了，与此同时，各大招聘

2021-01-01 18:19:08 240 3

空空如也

空空如也