自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 收藏
  • 关注

原创 书生浦语大模型实战营第二课笔记

需要写一个python文件,加载模型,将模型运行起来,可以采用web框架,提供接口,在页面上使用模型,简单的可以直接在机器上使用测试。** 视频教程**:https://www.bilibili.com/video/BV1AH4y1H78d/第二课主要介绍大模型的部署使用,实战为主,没有什么理论知识,根据文档教程实践一下最好的学习方式。需要有强大算力的机器,根据你所用大模型所依赖的python包,安装好,把环境配置好。通常模型都在代码仓库,需要将模型下载到机器上。

2024-04-04 16:46:19 191

原创 书生浦语大模型实战营第二次课作业

采用书生浦语提供的开发平台https://studio.intern-ai.org.cn/console/instance/new。使用studio-conda -o internlm-base -t demo。相当于以下几个命令:创建python虚拟环境,然后安装模型所依赖的包。让模型编写一个300字关于程序员的小故事。创建开发机,选用封装好的镜像。

2024-04-03 13:49:35 389

原创 书生浦语大模型实战营第一课笔记

实际从模型到应用中间还间隔比较多步骤,个别步骤还是比较复杂和有难度,为此,书生浦语提供了全链路的开源体系,降低这个过程的难度。高效的轻量级预训练框架,在减少通信开销,通信预计算的重叠,长序列训练,容错性等方面做了很多功夫进行优化。第一节课主要对大模型进行介绍,特别是书生浦语大模型的发展历史和目前的全链路开源体系进行总体介绍。通用大模型:一个模型应对多种任务,多种模态。一个模型可以应对文本,语音,图像等相关任务。上传表格,可以根据用户的要求,进行数据的分析和画图展示,以及采用机器学习模型进行建模。

2024-03-27 21:47:04 366

原创 特征工程

目录特征工程数据预处理1.数据缺失2.离散值连续化(数值化)(1)直接数值化(2)独特编码(one-hot encoding)(3)特征嵌入(embedding)3.连续值离散化(1)根据阀值进行分组(2)基于聚类分析的方法(3)采用决策树模型4.特征标准化和归一化(数值型特征)(1)零-均值标准化(Z-score)(2)归一化(3)L1/L2范数标准化功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右S

2020-10-12 21:22:50 266

原创 LSTM输入输出理解

LSTM单元计算图中虽然有3个LSTM单元,但是实际上只有一LSTM单元A,这里计算过程是假设输入的时间序列是3,则首先输入样本x0x_0x0​,LSTM初始状态c0c_0c0​,h0h_0h0​得到LSTM的状态c1c_1c1​和h1h_1h1​,此时在同一个LSTM单元输入x1x_1x1​和c1c_1c1​和h1h_1h1​,得到c2c_2c2​和h2h_2h2​,在同一个LSTM单元输入...

2020-08-22 20:50:03 14689

原创 数据归一化、标准化和去中心化

数据预处理,一般有数据归一化、标准化和去中心化。归一化将数据映射到[0,1]或[-1,1]区间范围内,不同特征的量纲不同,值范围大小不同,存在奇异值,对训练有影响。标准化将数据映射到满足标准正态分布的范围内,使数据满足均值为0,标准差为1。标准化同样可以消除不同特征的量纲。去中心化使数据满足均值为0,但对标准差没有要求。每种方法对应的使用场景1.若对数据的范围没有限定要求,则选择标...

2020-02-17 23:03:45 7909

原创 C#WPF多线程控件访问问题

C#(WPF)多线程,涉及控件访问问题方法1:Dispatcher.Invoke()方法2:BackgroundWorker()在程序涉及复杂大量计算时,通常需要用另外开个后台线程进行计算,让程序能响应其他的操作,防止出现卡死现象。然而,经常在计算结束后,需要将结果显示到界面的某个控件上,这就需要在新开的线程里访问主线程的UI控件,这会出现不能跨线程访问的问题。下面介绍两种解决方式。方法1:D...

2019-12-17 20:39:00 943

原创 Numpy中高维axis的操作个人理解

Numpy中维数numpy能够实现高维矩阵的运算,但是当维数超过3后,就能难理解根据某个轴进行运算的操作过程(太抽象了)。二维矩阵,就是有行和列,axis=0,对应是行,axis=1,对应是列,通过2个下标确定具体某个元素的位置,三维则需要三个下标确定某个元素的位置。Numpy维度的直观理解对应三维矩阵,那么里面的具体的元素是被三个[]所包围的,最外层[]对应于axis=0,即第一维,次外层...

2019-11-15 15:42:45 618

原创 优先经验回放(Prioritized Experience Replay)

经验回放(experience replay)在DQN算法中,为了打破样本之间关联关系,通过经验池,采用随机抽取经历更新参数。但是,对于奖励稀疏的情况,只有N多步正确动作后才有奖励的问题,会存在能够激励Agent进行正确学习的样本很少,采用随机抽取经历得方式,效率会很低,很多样本都奖励为0的,没什么区别。解决这个问题的主要从两方法考虑,经验存储方法,经验抽取的方法,目前主要采用经验抽取的方法。...

2019-10-27 16:51:01 13691

原创 感知机模型

感知机感知机时神经网络的雏形,是线性二分类器,输入实例的特征向量,输出1,-1进行实例的分类。感知机模型是寻找N维空间的超平面。(超平面是指将空间一分为二的平面,N维空间的超平面为N-1维,如二维平面的超平面是一条直线,三维空间的超平面是一个平面)。感知机模型的表示:f(x⃗)=sign(w⃗⋅x⃗+b)f(\vec{x})=sign(\vec{w} \cdot \vec{x}+b)f(x)...

2019-10-24 16:08:48 193

原创 基于离线策略的强化学习(PPO)

离线策略强化学习对于基于策略的强化学习,通过建立带θ\thetaθ的策略模型,通过策略梯度进行优化,梯度如下 ∇θU=Eτ−pθ(τ)[∇θlogPθ(τ)R(τ)]\nabla_\theta U=E_{\tau -p_\theta(\tau)}[\nabla_\theta log P_\theta(\tau)R(\tau)]∇θ​U=Eτ−pθ​(τ)​[∇θ​logPθ​(τ)R(τ)]该...

2019-10-23 20:05:27 2850 1

原创 基于策略的强化学习

基于值函数的强化学习缺点1.针对确定性策略。值函数是间接得到最优策略的方法,根据价值函数的大小,贪心选择值最大的动作,是确定性策略,每次面对同一个状态,选择的动作是同一个。2.存在策略退化。基于值函数的方法,基本是用近似器去拟合真实的价值函数,必然存在着一定的误差,但是即使将误差训练到很小了,可能导致策略变差。比如真实的价值函数得到的A,B两个动作值分别为,0.45,0.46,真正的策略应...

2019-10-19 16:51:06 3623

原创 价值函数近似

价值函数逼近在传统TD算法、Q-leanring中,V价值和Q价值通常是用表格存储,不适用于大规模问题。可以采用近似器来拟合真实的价值函数。Q(s,a,θ)≈Qπ(s,a)Q(s,a,\theta) ≈Q_π(s,a)Q(s,a,θ)≈Qπ​(s,a)V(s,θ)≈Vπ(s)V(s,\theta) ≈V_π(s)V(s,θ)≈Vπ​(s)用一个带θ\thetaθ参数的函数近似器,来代替真实...

2019-10-18 15:43:40 517

原创 Q-learning和Sarsa

Q-learningQ-learning是基于TD(0)TD(0)TD(0)的无模型强化学习算法。其采用的价值函数为动作价值函数Q(s,a)。主要价值函数迭代公式为:Qπ(st,at)=Qπ(st,at)+α(rt+1+γmaxaQ(st+1,at+1)−Q(st,a))Q_π(s_t,a_t)=Q_π(s_t,a_t)+\alpha(r_{t+1}+γmax_aQ(s_{t+1},a_{t...

2019-10-17 22:09:20 952

原创 Model-free强化学习

强化学习几个问题1.在线学习与离线学习在线学习:agent与环境在线交互,将样本在线学习后,使用一次就丢掉。离线学习:agent与仿真环境进行交互,将样本进行存储,也可以从别的地方直接拿来样本,可重复的从样本池中抽取样本进行学习。离线学习样本的利用率较高,但是需要保证样本的可用性。2.奖励的延迟agent与环境交互,每次得到的是立即回报,可能需要一连串动作后,才能达到最终的成功状态,获...

2019-10-17 16:32:08 1399

原创 马尔可夫过程

马尔可夫过程强化学习基于马尔可夫过程,研究的问题都可以抽象成马尔可夫过程。其定义为满足马尔可夫性质的随机过程。马尔可夫性质:通俗来讲,即当前状态包含了所有相关的历史,只要当前的状态已知,下一个状态的发生可能性就已经确定,不需要知道从开始到当前状态所经历的具体的状态变换。P(st+1∣st)=P(st+1∣st,st−1,st−2...s0)P(s_{t+1}|s_t)=P(s_{t+1}|s...

2019-10-16 19:35:04 3782

原创 参数估计

参数估计已知一个随机变量XXX的分布函数Fθ(x)F_\theta(x)Fθ​(x),其中θ=(θ1,θ2……θk)\theta =(\theta_1,\theta_2……\theta_k)θ=(θ1​,θ2​……θk​)为未知的参数。利用样本X1,X2,X3...XnX_1,X_2,X_3...X_nX1​,X2​,X3​...Xn​对未知参数θ\thetaθ进行估计,或者估计θ\theta...

2019-10-01 17:10:27 334

原创 大数定律和中心极限定理

随机变量的矩XXX是一个随机变量,f(x)f(x)f(x)为概率密度函数,对于任何正整数nnn,定义E(Xn)=∫p(x)xndxE(X^n)=\int p(x)x^ndxE(Xn)=∫p(x)xndx为随机变量的nnn阶矩。当nnn=1,E(X)E(X)E(X)为随机变量的期望,可以理解为平均值。当nnn=2,E(X2)−E(X)2=E((X−E(X))2)E(X^2)-E(X)^2=...

2019-09-30 18:24:35 499

原创 贝叶斯公式和共轭分布

概率密度函数概率密度函数是对于连续随机变量而言,对于离散随机变量没有所谓的概率密度。连续随机变量的取值是无穷多个的,研究连续随机变量具体等于某个值的概率是没有意义的,该值很小几乎为0,只能研究某个区间内的概率。通常我们研究连续随机变量的概率,是研究随机变量XXX值落在区间[a,b][a,b][a,b]的概率,P([a,b])=∫abf(x)dxP([a,b])=\int_a^b f(x)dx ...

2019-09-30 18:23:21 522

原创 凸函数定义判定和性质简介

凸集给定集合SSS,对任意元素x1x_1x1​,x2x_2x2​属于该集合SSS,若对于任意ϑ∈[0,1]\vartheta\in[0,1]ϑ∈[0,1],有x=ϑx1+(1−ϑ)x2x=\vartheta x_1+(1-\vartheta )x_2x=ϑx1​+(1−ϑ)x2​,xxx也在集合SSS中,则集合SSS是凸集。以向量的角度来理解,就是点x1x_1x1​、x2x_2x2​在集合SS...

2019-09-27 16:11:57 4687

原创 牛顿法和梯度下降法

机器学习基本就是把问题转化成某个损失函数,然后求极值。函数的极值分为全局极值和局部极值,两种都满足一个条件f′=0f^{\prime}=0f′=0或∇f=0\nabla f=0∇f=0。牛顿法:二阶泰勒级数逼近单元函数在初始值x0x_0x0​附近,将f(x)f(x)f(x)进行二阶泰勒展开,f(x0+△x)=f(x0)+f′(x0)△x+12f′′(x0)△x2+o(△x2)f(x_0+△x...

2019-09-20 20:14:57 477

原创 机器学习数学基础之微分

导数定义f(x)f(x)f(x)在x0x_0x0​附近有定义,且存在极限lim⁡x→x0f(x)−f(x0)x−x0=L\lim_{x\rightarrow x_0}{{f(x)-f(x_0)}\over {x-x_0}}=Lx→x0​lim​x−x0​f(x)−f(x0​)​=L那么f(x)f(x)f(x)在x0x_0x0​处可导,导数f′(x)=Lf^\prime(x)=Lf′(x)=L...

2019-09-19 20:58:55 164

原创 机器学习数学基础之极限

极限极限定义无穷小和无穷大定义无穷比大小夹逼定理重要极限本文为作者本人学习过程中的一些重要笔记记录,只为方便以后复习查看。极限定义对于任意正数ε\varepsilonε>0,存在正数δ\deltaδ使得当0<∣x−x0∣<δ0<|x-x_0|<\delta0<∣x−x0​∣<δ时,有∣f(x)−L∣<ε|f(x)-L|<\varepsil...

2019-09-19 15:25:26 264

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除