- 博客(252)
- 资源 (12)
- 收藏
- 关注
原创 书生浦语第五次课
在InternStudio开发机进行vscode平台,然后创建一个pipeline_transformer.py文件,复制下面的代码,需要将modelpath 地址修改为自己的目录下地址。InternStudio上提供了快速创建conda环境的方法。由于在InternStudio开发机上,这次直接从/root/share文件中cp到/root/models/Shanghai_AI_Laboratory中。下面我们就可以与InternLM2-Chat-1.8B大模型对话了。在我自己的机器上执行如下。
2024-04-10 10:50:45 243
原创 ssh -CNg -L
L 6006:127.0.0.1:6006: 这个选项表示在本地主机上创建一个端口转发,将本地主机的6006端口转发到远程主机的127.0.0.1的6006端口。-g: 这个选项表示允许远程主机连接到本地转发的端口。如果不加这个选项,只有本地主机可以连接到转发的端口。-N: 这个选项表示不执行远程命令。[email protected]: 这是远程主机的用户名和主机名。-p 33908: 这个选项表示连接远程主机时使用的端口号。-C: 这个选项表示开启压缩,可以提高数据传输的效率。
2024-04-07 10:24:33 387
原创 书生浦语第一次课
使 用 场 景 : 让 模 型 学 会 理 解 各 种 指 令 进 行 对 话 , 或 者 注 入 少 量 领 域 知 识 训 练 数 据 : 高 质 量 的 对 话 、 问 答 数 据。使 用 场 景 : 让 基 座 模 型 学 习 到 一 些 新 知 识 , 如 某 个 垂 类 领 域 知 识 训 练 数 据 : 文 章 、 书 籍 、 代 码 等。利用高质量语料的特征从物理世界、互联网以及语料进一步富集耕读类似语料。基于文本质量、信息质量、信息密度等维度对数据简直进行综合评估和提升。
2024-04-01 10:08:55 324
原创 书生·浦语 demo1
进入开发机后,在 terminal 中输入环境配置命令。通过左侧文件夹栏目,双击进入 demo 文件夹。上面命令执行完后,conda会多一个虚拟环境。使用 pip list 查看是否安装好。或者直接通过vscode执行,执行下面命令安装环境依赖包。
2024-03-31 10:16:55 441
原创 sklearn.model_selection模块介绍
外层交叉验证用于评估不同的模型或模型参数,内层交叉验证用于在每个外层验证折上进行模型训练和验证。与网格搜索不同,随机搜索不遍历所有参数组合,而是在指定的参数空间中进行随机抽样,并在交叉验证中评估每个参数组合的性能。K次训练和验证的结果会进行平均,得到最终的性能评估。留一交叉验证是一种特殊的K折交叉验证,其中K等于数据集的样本数量。分层K折交叉验证是K折交叉验证的一种变体,它在划分数据集时保持了每个类别的样本比例。随机重复K折交叉验证是K折交叉验证的扩展,通过多次重复执行K折交叉验证来更稳定地评估模型性能。
2023-07-01 22:35:50 2574
原创 sklearn.preprocessing模块介绍
用于对离散特征进行独热编码。它将每个离散特征的每个取值转换为一个二进制特征向量,其中只有一个元素为 1,表示该取值,其他元素为 0。
2023-07-01 11:04:43 3551 1
原创 Python强类型编程
第一个例子体现动态性:用字符串直接执行代码,动态构建了一个函数并执行,甚至给函数挂载新的名字。第二个例子体现强类型性:变量都有类型信息,不同类型无适配操作时不允许操作,例如整数和字符串不允许相加。
2023-06-27 17:30:23 649
原创 python库之math库介绍
描述:如果 x 既不是无穷大也不是NaN,则返回 True ,否则返回 False。描述:返回余数,函数 fmod() 在使用浮点数时通常是首选,而Python的 x % y 在使用整数时是首选。描述:返回 x 的向下取整,小于或等于 x 的最大整数。描述:如果 x 是 NaN(不是数字),则返回 True ,否则返回 False。描述:如果 x 是正或负无穷大,则返回 True ,否则返回 False。描述:浮点正无穷大。描述:向上取整数,返回 x 的上限,即大于或者等于 x 的最小整数。
2023-06-25 23:55:41 972
原创 信息量、熵、联合熵、条件熵、相对熵、交叉熵、JS散度、Wasserstein距离
信息量(self-information),又译为信息本体,由克劳德 · 香农(Claude Shannon)提出,用来衡量单一事件发生时所包含的信息量多寡。任何事件都会承载着一定的信息量,包括已经发生的事件和未发生的事件,只是它们承载的信息量会有所不同。对于一个事件来说,它发生的概率越大,确定性越强,显然它所含有的信息量就越低。一件事情发生的概率越低,不确定性越强,它包含的信息量就越大。例如对于昨天下雨这个已知事件,因为是已经发生的事件,是既定事实,那么它的信息量就为。信息量的数学期望就是信息熵。
2023-06-19 16:55:18 275
原创 特征选择:过滤法,嵌入法,包装法
到这里我们学习了常用的基于过滤法的特征选择,包括方差过滤,基于卡方,F检验和互信息的相关性过滤,讲解了各个过滤的原理和面临的问题,以及怎样调这些过滤类的超参数。通常来说,我会建议,先使用方差过滤,然后使用互信息法来捕捉相关性,不过了解各种各样的过滤方式也是必要的。
2023-06-18 22:07:39 1086
原创 数据预处理:标准化、正则化、最大最小归一化、绝对值标准化
适用大多数类型的数据,标准化之后的数据是以0为均值,方差为1的正态分布。:是一种中心化方法,会改变原有数据得分布结构。:能最大限度地保留数据集中的异常(离群点):应用广泛,能较好的保持原有数据分布结构。:.对异常值(离群值)的存在非常敏感。:.对异常值(离群值)的存在非常敏感。:最大限度保留数据集中的异常(离群值):均值为0,方差为1的标准正态分布。:稀疏数据、稀疏CSR或CSC矩阵。:单向量上来实现这正则化的功能。:不适合用于稀疏数据的处理。:不适合用于稀疏数据的处理。:保持原有数据分布结构。
2023-06-15 14:59:37 902
原创 全网最全seaborn的介绍
stripplot()方法是catplot()中 kind 的默认参数,它是用少量随机“抖动”调整分类轴上的点的位置。在 seaborn 中,最简单的方法就是使用jointplot()函数,它创建了一个多面板图形,显示了两个变量之间的二元(或联合)关系,以及每个变量在单独轴上的一元(或边际)分布。在绘制柱状图时,您的主要选择是要使用的“桶”的数量和放置它们的位置。distplot() 使用一个简单的规则来很好地猜测默认情况下正确的数字是多少,但是尝试更多或更少的“桶”可能会揭示数据中的其他特性。
2023-06-11 23:41:33 120
原创 numpy中的np.random.rand、np.random.randn、np.random.randint、np.random.uniform等用法
np.random.uniform(low=0.0, high=1.0, size=None):生成一个指定形状的在给定范围内均匀分布的随机数数组。np.random.random(size=None):与np.random.random_sample方法相同,生成一个指定形状的[0, 1)之间均匀分布的随机数数组。参数n指定了试验的次数,p指定了每次试验成功的概率,size指定了生成的随机数的形状。参数low和high指定了随机数的范围,size指定了生成的随机数的形状,dtype指定了数组的数据类型。
2023-06-10 16:47:33 1772
原创 混淆矩阵、准确率、召回率、漏报率、误报率、F1分数
比如在样本集中,正样本有90个,负样本有10个,样本是严重的不均衡。因为在二分类问题中单一样本的预测结果只有Yes or No,即:真或者假两种结果,所以全体样本的经二分类模型处理后,处理结果不外乎四种情况,每种情况都有一个专门称谓,如果用一个2行2列表格描述,得到的就是“混淆矩阵”,反映分类器或者模型正确预测负样本纯度的能力,减少将正样本预测为负样本,即正样本被预测为负样本占总的正样本的比例。反映分类器或者模型正确预测正样本纯度的能力,减少将负样本预测为正样本,即负样本被预测为正样本占总的负样本的比例。
2023-06-10 11:48:01 2557 1
原创 Statsmodels 统计包之 OLS 回归
Statsmodels 在计量的简便性上是远远不及 Stata 等软件的,但它的优点在于可以与 Python 的其他的任务(如 NumPy、Pandas)有效结合,提高工作效率。在本文中,我们重点介绍最回归分析中最常用的 OLS(ordinary least square)功能。Statsmodels 是 Python 中一个强大的统计分析包,包含了回归分析、时间序列分析、假设检。
2023-06-04 23:44:35 100
原创 解决Typora的测试版已过期问题 This beta version of Typora is expired, please download and install a newer versio
2、打开注册表后,在注册表的输入框输入:计算机\HKEY_CURRENT_USER\SOFTWARE\Typora。1、Windows键+R,弹出命令行输入框,输入 regedit 或者 打开cmd,命令行输入 regedit。5、然后会弹出一个提示windows安全中心的提示,这里忘了截图,选择是。的权限都选择拒绝,然后确认 + 应用 ,应用如果是灰色就单点确认。6、最后测试,现在可以打开Typora了。
2023-05-05 10:24:26 500 1
原创 PyTorch中 tensor.detach() 和 tensor.data 的区别
PyTorch的自动求导Autograd是无法捕捉到这种变化的,会依然按照求导规则进行求导,导致计算出错误的导数值。使用.detach()的好处在于,若是出现上述情况,Autograd可以检测出某一处变量已经发生了改变,进而以如下形式报错,从而避免了错误的求导。从以上可以看出,是在前向传播的过程中使用就地操作(In-place operation)导致了这一问题,那么就地操作是什么呢?其风险性在于,如果我在某一处修改了某一个变量,求导的时候也无法得知这一修改,可能会在不知情的情况下计算出错误的导数值。
2023-04-06 22:28:51 262
原创 pandas数据变形 添加行和列、merge、get_dummies、sample
把多个Pandas对象(DataFrame/Series)合并成一个。使用某种合并方式(inner/outer)沿着某个轴向(axis=0/1)使用loc可以对行进行添加。append 拼接多个列表。使用[]和loc添加行。使用assign方法。
2023-03-21 23:42:13 177
原创 panbas学习篇(一)数据的聚合,最大值最小值标准差分位数数据透视表 交叉表
基于分位数来做分割的, q : int or list-like of float Number of quantiles. 10 for deciles, 4 for quartiles, etc. Alternately array of quantiles, e.g. [0, .25, .5, .75, 1.] for quartiles.normalize:布尔值,{‘all’,‘index’,‘columns’}或{0,1},默认为False。index:类数组,在行中按分组的值。
2023-03-20 23:34:17 184
原创 pandas学习(二)数据的引用和缺失值处理,重复值处理
isnull,isna,notna,都是用于判断是否存在NAN,在使用isnull,isna方法时,方法会对缺失值位置返回True,其他位置返回False,notna则相反。在处理缺失值过程中,需要注意NAN不能使用==进行比较,这与python中的None存在不同,在python中,None可以使用None进行比较的。在处理包含缺失值计算过程中,NAN是可以传播的,传播的意思表示只要包含一个NAN,运算结果也会是NAN。dropna是返回删除缺失值行后的结果,
2023-03-16 22:18:47 387
原创 numpy知识大全二)科学操作
overwrite_input表示在计算过程中是否操作原数组,如果操作原数据,会减少内存消耗和增加计算速度。average可以设置计算时值的权重,mean不行,但是mean可以设置数据类型,diff用于计算元素之间的差值,cumsum用于计算axis方面的累计求和。在四舍五入情况下,5的划分看是否偶数的哪个数。ddof表示自由度,
2023-03-10 20:04:15 96
原创 numpy知识大全(一)数组基础处理
resize函数会生成新的数组,不会和生成前的数据共内存,使用numpy.resize修改形状时,前后数量不一致会继续执行,narray.resize(newshape,refcheck),当refcheck为True时,和numpy.reshape执行效果相同,在执行前后大小不一致时,会报错,当refcheck为False时,和numpy.resize执行效果相同,reshape函数生成前后的数组会公用相同的内存,在前后数据数量不一致时会报错。any和all用发相同,不在举例截图。
2023-03-08 20:39:01 110
原创 pytorch学习(一)----基本函数
用于分割张量,第一个参数为张量,第二个参数为分割的大小,可以是整数,也可以是列表,第三个是分割的维度,从哪个维度进行分割。通过传入张量列表和创建的维度,会把列表中的张量沿着指定的维度进行堆砌,列表中的张量大小 必须相同。列表中的张量沿着指定的维度进行堆砌,除了指定堆砌的维度参数可以不同外,其他维度参数必须相同。该函数用于扩增张量维度,在指定的维度增加一个维度,维度参数为1。该函数用于压缩维度,凡是维度为1的都会被压缩掉。
2023-03-02 20:09:32 176
原创 nn.Parameter
torch.nn.Parameter是继承自torch.Tensor的子类,其主要作用是作为nn.Module中的可训练参数使用。它与torch.Tensor的区别就是nn.Parameter会自动被认为是module的可训练参数,即加入到parameter()这个迭代器中去;而module中非nn.Parameter()的普通tensor是不在parameter中的。使用register_parameter()注册。没有使用nn.Parameter。使用了nn.Paramter。
2022-12-18 13:08:28 411
原创 MIMIC-III数据集
MIMIC-III数据集这是师姐对MIMIC-III数据库介绍的笔记。数据库介绍一个患者对应一个subject_id,但是可能多次入院,有多个hadm_id,一次入院可能有多次进入ICU,即一个hadm_id可能对应多个icustay_id通常采用一个hadm_id对应的第一个icustay_id开展相关的研究字典表用于某个项的查询,举例如下:比如查询某个患者的白细胞的数据(在LABEVENTS表中),首先需要找到患者对应的三个ID,然后在实验室检查编码(d_labitems)中找到白细胞的item
2022-12-07 09:18:30 1423
原创 torch.flatten()与nn.Flatten()的区别
(1) 默认的dim不同,torch.flatten()默认的dim=0,而nn.Flatten()默认的dim=1,例如输入数据的尺寸是[3,1,4,4],经过torch.flatten()展开后的尺寸变为[48],而经过nn.Flatten()后得到的结果是[3, 16];(2) nn.Flatten是一个类,而torch.flatten()则是一个函数。
2022-12-05 00:21:46 391
原创 pytorch 学习第三天 交叉熵
假设X是一个离散型随机变量,其取值集合为X,概率分布函数为我们定义事件的信息量为:,可以理解为,一个事件发生的概率越大,则它所携带的信息量就越小,而当时,熵将等于0,也就是说该事件的发生不会导致任何信息量的增加。举个例子,小明平时不爱学习,考试经常不及格,而小王是个勤奋学习的好学生,经常得满分,所以我们可以做如下假设:事件A:小明考试及格,对应的概率P(xA)=0.1,信息量为事件B:小王考试及格,对应的概率P(xB)=0.999,信息量为可以看出,结果非常符合直观:小明及格的可能性很低(十次考试只有一
2022-12-04 14:07:01 451
原创 pytorch学习第二天 自动微分机制(backward、torch.autograd.grad)
backward 方法通常在一个标量张量上调用,该方法求得的梯度将存在对应自变量张量的grad属性下。如果调用的张量非标量,则要传入一个和它同形状 的gradient参数张量。相当于用该gradient参数张量与调用张量作向量点乘,得到的标量结果再反向传播。1, 标量的反向传播2, 非标量的反向传播3, 非标量的反向传播可以用标量的反向传播实现
2022-12-03 19:38:24 157
原创 torch学习第二天-基础知识
增加或减少维度sequeeze只能压缩对应维度大小为1的,不是1时则不操作expand 对对于维度进行扩充,只有在使用时,才填充值,-1表示对应维度值保持不变repeat表示对应维度copy的次数对应维度进行叠加新的维度叠加用于裁剪tensor
2022-12-03 15:10:18 297
翻译 Minic III介绍
抽取患者的数据比如说生命体征,心率等,实验室指标(如白细胞红细胞等)等, 需要在相应的字典中找到相应的item,即项目标识符,再对应查找某一个患者对应指标下的数据。包含2001年至2012年之间进入重症监护病房的成年患者的53423例不同的医院入院数据和2001年至2008年之间收治的7870名新生儿数据。患者操作记录,记录程序操作是对哪位患者收费,便于知道某种操作是否执行。患者操作时间信息,包括患者在ICU中所有时间的测量。患者基本信息和院内采集信息数据,共包含21个数据表。患者ICU出科的即时信息。
2022-11-29 20:42:20 550
原创 pandas iloc和loc
loc按照标签或者索引、布尔值或者条件进行选择数据,这种选择数据的方法较为常用。iloc索引器用于按位置进行基于整数位置的索引或者选择。
2022-11-17 20:59:40 217
原创 浅谈pyhon中的__slots__
python对象和类都是利用__dict__设置动态属性,例如下面。当添加不在__slots__定义的属性时,python就会报错。而__slots__的作用是防止类和对象属性无节制的添加,通过上面的例子解释了python对象属性都是可以动态添加。下面就来聊聊关于__slots__继承问题。...
2022-08-27 10:39:31 322
原创 PyTorch 中的乘法:mul()、multiply()、matmul()、mm()、mv()、dot()
函数功能:逐个对 input 和 other 中对应的元素相乘。本操作支持广播,因此 input 和 other 均可以是张量或者数字torch.mul() 的别称函数功能:计算 input 和 output 的点乘,此函数要求 input 和 output 都必须是一维的张量(其 shape 属性中只有一个值)!并且要求两者元素个数相同!函数功能:实现线性代数中的矩阵乘法(matrix multiplication):(n×m) × (m×p) = (n×p) 。本函数不允许广播!函数功能:实现矩阵
2022-07-02 15:24:39 2425 1
spring-5.2.6.RELEASE-dist.7z
2021-07-18
mysql57-community-release-el7-9.noarch.rpm
2020-10-25
LSM-tree.7z
2020-07-06
NetAssist.zip
2020-05-21
MySQL15_47360.zip
2020-04-22
DOSBox0.74-win32-installer.zip
2019-10-24
DOSbox使用的masm.zip
2019-10-24
copy fofboiv sfbo .zip
2019-06-27
《机器学习与应用》_雷明 百度网盘
2019-04-07
Pig编程指南.pdf
2017-02-15
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人