自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(252)
  • 资源 (12)
  • 收藏
  • 关注

原创 书生浦语第五次课

在InternStudio开发机进行vscode平台,然后创建一个pipeline_transformer.py文件,复制下面的代码,需要将modelpath 地址修改为自己的目录下地址。InternStudio上提供了快速创建conda环境的方法。由于在InternStudio开发机上,这次直接从/root/share文件中cp到/root/models/Shanghai_AI_Laboratory中。下面我们就可以与InternLM2-Chat-1.8B大模型对话了。在我自己的机器上执行如下。

2024-04-10 10:50:45 243

原创 书生浦语第三次课

书生浦语第一次课。

2024-04-07 11:53:04 767

原创 ssh -CNg -L

L 6006:127.0.0.1:6006: 这个选项表示在本地主机上创建一个端口转发,将本地主机的6006端口转发到远程主机的127.0.0.1的6006端口。-g: 这个选项表示允许远程主机连接到本地转发的端口。如果不加这个选项,只有本地主机可以连接到转发的端口。-N: 这个选项表示不执行远程命令。[email protected]: 这是远程主机的用户名和主机名。-p 33908: 这个选项表示连接远程主机时使用的端口号。-C: 这个选项表示开启压缩,可以提高数据传输的效率。

2024-04-07 10:24:33 387

原创 书生浦语第一次课

使 用 场 景 : 让 模 型 学 会 理 解 各 种 指 令 进 行 对 话 , 或 者 注 入 少 量 领 域 知 识 训 练 数 据 : 高 质 量 的 对 话 、 问 答 数 据。使 用 场 景 : 让 基 座 模 型 学 习 到 一 些 新 知 识 , 如 某 个 垂 类 领 域 知 识 训 练 数 据 : 文 章 、 书 籍 、 代 码 等。利用高质量语料的特征从物理世界、互联网以及语料进一步富集耕读类似语料。基于文本质量、信息质量、信息密度等维度对数据简直进行综合评估和提升。

2024-04-01 10:08:55 324

原创 书生·浦语 demo1

进入开发机后,在 terminal 中输入环境配置命令。通过左侧文件夹栏目,双击进入 demo 文件夹。上面命令执行完后,conda会多一个虚拟环境。使用 pip list 查看是否安装好。或者直接通过vscode执行,执行下面命令安装环境依赖包。

2024-03-31 10:16:55 441

原创 特征相关性计较

用于度量两个连续型变量之间的线性关系。取值范围在-1到1之间,0表示无线性关系,1表示完全正相关,-1表示完全负相关。

2023-12-01 11:09:46 114

原创 繁体转简体脚本

【代码】繁体转简体脚本。

2023-07-04 20:43:11 457 1

原创 sklearn.model_selection模块介绍

外层交叉验证用于评估不同的模型或模型参数,内层交叉验证用于在每个外层验证折上进行模型训练和验证。与网格搜索不同,随机搜索不遍历所有参数组合,而是在指定的参数空间中进行随机抽样,并在交叉验证中评估每个参数组合的性能。K次训练和验证的结果会进行平均,得到最终的性能评估。留一交叉验证是一种特殊的K折交叉验证,其中K等于数据集的样本数量。分层K折交叉验证是K折交叉验证的一种变体,它在划分数据集时保持了每个类别的样本比例。随机重复K折交叉验证是K折交叉验证的扩展,通过多次重复执行K折交叉验证来更稳定地评估模型性能。

2023-07-01 22:35:50 2574

原创 sklearn.preprocessing模块介绍

用于对离散特征进行独热编码。它将每个离散特征的每个取值转换为一个二进制特征向量,其中只有一个元素为 1,表示该取值,其他元素为 0。

2023-07-01 11:04:43 3551 1

原创 Python强类型编程

第一个例子体现动态性:用字符串直接执行代码,动态构建了一个函数并执行,甚至给函数挂载新的名字。第二个例子体现强类型性:变量都有类型信息,不同类型无适配操作时不允许操作,例如整数和字符串不允许相加。

2023-06-27 17:30:23 649

原创 python库之math库介绍

描述:如果 x 既不是无穷大也不是NaN,则返回 True ,否则返回 False。描述:返回余数,函数 fmod() 在使用浮点数时通常是首选,而Python的 x % y 在使用整数时是首选。描述:返回 x 的向下取整,小于或等于 x 的最大整数。描述:如果 x 是 NaN(不是数字),则返回 True ,否则返回 False。描述:如果 x 是正或负无穷大,则返回 True ,否则返回 False。描述:浮点正无穷大。描述:向上取整数,返回 x 的上限,即大于或者等于 x 的最小整数。

2023-06-25 23:55:41 972

原创 信息量、熵、联合熵、条件熵、相对熵、交叉熵、JS散度、Wasserstein距离

信息量(self-information),又译为信息本体,由克劳德 · 香农(Claude Shannon)提出,用来衡量单一事件发生时所包含的信息量多寡。任何事件都会承载着一定的信息量,包括已经发生的事件和未发生的事件,只是它们承载的信息量会有所不同。对于一个事件来说,它发生的概率越大,确定性越强,显然它所含有的信息量就越低。一件事情发生的概率越低,不确定性越强,它包含的信息量就越大。例如对于昨天下雨这个已知事件,因为是已经发生的事件,是既定事实,那么它的信息量就为。信息量的数学期望就是信息熵。

2023-06-19 16:55:18 275

原创 特征选择:过滤法,嵌入法,包装法

到这里我们学习了常用的基于过滤法的特征选择,包括方差过滤,基于卡方,F检验和互信息的相关性过滤,讲解了各个过滤的原理和面临的问题,以及怎样调这些过滤类的超参数。通常来说,我会建议,先使用方差过滤,然后使用互信息法来捕捉相关性,不过了解各种各样的过滤方式也是必要的。

2023-06-18 22:07:39 1086

原创 数据预处理:标准化、正则化、最大最小归一化、绝对值标准化

适用大多数类型的数据,标准化之后的数据是以0为均值,方差为1的正态分布。:是一种中心化方法,会改变原有数据得分布结构。:能最大限度地保留数据集中的异常(离群点):应用广泛,能较好的保持原有数据分布结构。:.对异常值(离群值)的存在非常敏感。:.对异常值(离群值)的存在非常敏感。:最大限度保留数据集中的异常(离群值):均值为0,方差为1的标准正态分布。:稀疏数据、稀疏CSR或CSC矩阵。:单向量上来实现这正则化的功能。:不适合用于稀疏数据的处理。:不适合用于稀疏数据的处理。:保持原有数据分布结构。

2023-06-15 14:59:37 902

原创 全网最全seaborn的介绍

stripplot()方法是catplot()中 kind 的默认参数,它是用少量随机“抖动”调整分类轴上的点的位置。在 seaborn 中,最简单的方法就是使用jointplot()函数,它创建了一个多面板图形,显示了两个变量之间的二元(或联合)关系,以及每个变量在单独轴上的一元(或边际)分布。在绘制柱状图时,您的主要选择是要使用的“桶”的数量和放置它们的位置。distplot() 使用一个简单的规则来很好地猜测默认情况下正确的数字是多少,但是尝试更多或更少的“桶”可能会揭示数据中的其他特性。

2023-06-11 23:41:33 120

原创 numpy中的np.random.rand、np.random.randn、np.random.randint、np.random.uniform等用法

np.random.uniform(low=0.0, high=1.0, size=None):生成一个指定形状的在给定范围内均匀分布的随机数数组。np.random.random(size=None):与np.random.random_sample方法相同,生成一个指定形状的[0, 1)之间均匀分布的随机数数组。参数n指定了试验的次数,p指定了每次试验成功的概率,size指定了生成的随机数的形状。参数low和high指定了随机数的范围,size指定了生成的随机数的形状,dtype指定了数组的数据类型。

2023-06-10 16:47:33 1772

原创 混淆矩阵、准确率、召回率、漏报率、误报率、F1分数

比如在样本集中,正样本有90个,负样本有10个,样本是严重的不均衡。因为在二分类问题中单一样本的预测结果只有Yes or No,即:真或者假两种结果,所以全体样本的经二分类模型处理后,处理结果不外乎四种情况,每种情况都有一个专门称谓,如果用一个2行2列表格描述,得到的就是“混淆矩阵”,反映分类器或者模型正确预测负样本纯度的能力,减少将正样本预测为负样本,即正样本被预测为负样本占总的正样本的比例。反映分类器或者模型正确预测正样本纯度的能力,减少将负样本预测为正样本,即负样本被预测为正样本占总的负样本的比例。

2023-06-10 11:48:01 2557 1

原创 Statsmodels 统计包之 OLS 回归

Statsmodels 在计量的简便性上是远远不及 Stata 等软件的,但它的优点在于可以与 Python 的其他的任务(如 NumPy、Pandas)有效结合,提高工作效率。在本文中,我们重点介绍最回归分析中最常用的 OLS(ordinary least square)功能。Statsmodels 是 Python 中一个强大的统计分析包,包含了回归分析、时间序列分析、假设检。

2023-06-04 23:44:35 100

原创 解决Typora的测试版已过期问题 This beta version of Typora is expired, please download and install a newer versio

2、打开注册表后,在注册表的输入框输入:计算机\HKEY_CURRENT_USER\SOFTWARE\Typora。1、Windows键+R,弹出命令行输入框,输入 regedit 或者 打开cmd,命令行输入 regedit。5、然后会弹出一个提示windows安全中心的提示,这里忘了截图,选择是。的权限都选择拒绝,然后确认 + 应用 ,应用如果是灰色就单点确认。6、最后测试,现在可以打开Typora了。

2023-05-05 10:24:26 500 1

原创 PyTorch中 tensor.detach() 和 tensor.data 的区别

PyTorch的自动求导Autograd是无法捕捉到这种变化的,会依然按照求导规则进行求导,导致计算出错误的导数值。使用.detach()的好处在于,若是出现上述情况,Autograd可以检测出某一处变量已经发生了改变,进而以如下形式报错,从而避免了错误的求导。从以上可以看出,是在前向传播的过程中使用就地操作(In-place operation)导致了这一问题,那么就地操作是什么呢?其风险性在于,如果我在某一处修改了某一个变量,求导的时候也无法得知这一修改,可能会在不知情的情况下计算出错误的导数值。

2023-04-06 22:28:51 262

原创 pandas函数 apply、iterrows、iteritems、groupyby

【代码】pandas函数 apply。

2023-03-23 23:54:18 147

原创 pandas数据变形 添加行和列、merge、get_dummies、sample

把多个Pandas对象(DataFrame/Series)合并成一个。使用某种合并方式(inner/outer)沿着某个轴向(axis=0/1)使用loc可以对行进行添加。append 拼接多个列表。使用[]和loc添加行。使用assign方法。

2023-03-21 23:42:13 177

原创 panbas学习篇(一)数据的聚合,最大值最小值标准差分位数数据透视表 交叉表

基于分位数来做分割的, q : int or list-like of float Number of quantiles. 10 for deciles, 4 for quartiles, etc. Alternately array of quantiles, e.g. [0, .25, .5, .75, 1.] for quartiles.normalize:布尔值,{‘all’,‘index’,‘columns’}或{0,1},默认为False。index:类数组,在行中按分组的值。

2023-03-20 23:34:17 184

原创 pandas学习(二)数据的引用和缺失值处理,重复值处理

isnull,isna,notna,都是用于判断是否存在NAN,在使用isnull,isna方法时,方法会对缺失值位置返回True,其他位置返回False,notna则相反。在处理缺失值过程中,需要注意NAN不能使用==进行比较,这与python中的None存在不同,在python中,None可以使用None进行比较的。在处理包含缺失值计算过程中,NAN是可以传播的,传播的意思表示只要包含一个NAN,运算结果也会是NAN。dropna是返回删除缺失值行后的结果,

2023-03-16 22:18:47 387

原创 numpy知识大全二)科学操作

overwrite_input表示在计算过程中是否操作原数组,如果操作原数据,会减少内存消耗和增加计算速度。average可以设置计算时值的权重,mean不行,但是mean可以设置数据类型,diff用于计算元素之间的差值,cumsum用于计算axis方面的累计求和。在四舍五入情况下,5的划分看是否偶数的哪个数。ddof表示自由度,

2023-03-10 20:04:15 96

原创 numpy知识大全(一)数组基础处理

resize函数会生成新的数组,不会和生成前的数据共内存,使用numpy.resize修改形状时,前后数量不一致会继续执行,narray.resize(newshape,refcheck),当refcheck为True时,和numpy.reshape执行效果相同,在执行前后大小不一致时,会报错,当refcheck为False时,和numpy.resize执行效果相同,reshape函数生成前后的数组会公用相同的内存,在前后数据数量不一致时会报错。any和all用发相同,不在举例截图。

2023-03-08 20:39:01 110

原创 pytorch学习(一)----基本函数

用于分割张量,第一个参数为张量,第二个参数为分割的大小,可以是整数,也可以是列表,第三个是分割的维度,从哪个维度进行分割。通过传入张量列表和创建的维度,会把列表中的张量沿着指定的维度进行堆砌,列表中的张量大小 必须相同。列表中的张量沿着指定的维度进行堆砌,除了指定堆砌的维度参数可以不同外,其他维度参数必须相同。该函数用于扩增张量维度,在指定的维度增加一个维度,维度参数为1。该函数用于压缩维度,凡是维度为1的都会被压缩掉。

2023-03-02 20:09:32 176

原创 nn.Parameter

torch.nn.Parameter是继承自torch.Tensor的子类,其主要作用是作为nn.Module中的可训练参数使用。它与torch.Tensor的区别就是nn.Parameter会自动被认为是module的可训练参数,即加入到parameter()这个迭代器中去;而module中非nn.Parameter()的普通tensor是不在parameter中的。使用register_parameter()注册。没有使用nn.Parameter。使用了nn.Paramter。

2022-12-18 13:08:28 411

原创 MIMIC-III数据集

MIMIC-III数据集这是师姐对MIMIC-III数据库介绍的笔记。数据库介绍一个患者对应一个subject_id,但是可能多次入院,有多个hadm_id,一次入院可能有多次进入ICU,即一个hadm_id可能对应多个icustay_id通常采用一个hadm_id对应的第一个icustay_id开展相关的研究字典表用于某个项的查询,举例如下:比如查询某个患者的白细胞的数据(在LABEVENTS表中),首先需要找到患者对应的三个ID,然后在实验室检查编码(d_labitems)中找到白细胞的item

2022-12-07 09:18:30 1423

原创 torch.flatten()与nn.Flatten()的区别

(1) 默认的dim不同,torch.flatten()默认的dim=0,而nn.Flatten()默认的dim=1,例如输入数据的尺寸是[3,1,4,4],经过torch.flatten()展开后的尺寸变为[48],而经过nn.Flatten()后得到的结果是[3, 16];(2) nn.Flatten是一个类,而torch.flatten()则是一个函数。

2022-12-05 00:21:46 391

原创 pytorch 学习第三天 交叉熵

假设X是一个离散型随机变量,其取值集合为X,概率分布函数为我们定义事件的信息量为:,可以理解为,一个事件发生的概率越大,则它所携带的信息量就越小,而当时,熵将等于0,也就是说该事件的发生不会导致任何信息量的增加。举个例子,小明平时不爱学习,考试经常不及格,而小王是个勤奋学习的好学生,经常得满分,所以我们可以做如下假设:事件A:小明考试及格,对应的概率P(xA)=0.1,信息量为事件B:小王考试及格,对应的概率P(xB)=0.999,信息量为可以看出,结果非常符合直观:小明及格的可能性很低(十次考试只有一

2022-12-04 14:07:01 451

原创 pytorch学习第二天 自动微分机制(backward、torch.autograd.grad)

backward 方法通常在一个标量张量上调用,该方法求得的梯度将存在对应自变量张量的grad属性下。如果调用的张量非标量,则要传入一个和它同形状 的gradient参数张量。相当于用该gradient参数张量与调用张量作向量点乘,得到的标量结果再反向传播。1, 标量的反向传播2, 非标量的反向传播3, 非标量的反向传播可以用标量的反向传播实现

2022-12-03 19:38:24 157

原创 torch学习第二天-基础知识

增加或减少维度sequeeze只能压缩对应维度大小为1的,不是1时则不操作expand 对对于维度进行扩充,只有在使用时,才填充值,-1表示对应维度值保持不变repeat表示对应维度copy的次数对应维度进行叠加新的维度叠加用于裁剪tensor

2022-12-03 15:10:18 297

原创 torch学习第一天--tensor创建

标量的shape和size都为空。

2022-12-02 23:50:39 1048

翻译 Minic III介绍

抽取患者的数据比如说生命体征,心率等,实验室指标(如白细胞红细胞等)等, 需要在相应的字典中找到相应的item,即项目标识符,再对应查找某一个患者对应指标下的数据。包含2001年至2012年之间进入重症监护病房的成年患者的53423例不同的医院入院数据和2001年至2008年之间收治的7870名新生儿数据。患者操作记录,记录程序操作是对哪位患者收费,便于知道某种操作是否执行。患者操作时间信息,包括患者在ICU中所有时间的测量。患者基本信息和院内采集信息数据,共包含21个数据表。患者ICU出科的即时信息。

2022-11-29 20:42:20 550

原创 torch.stack

所有张量都需要具有相同的大小。沿新维度连接一系列张量。

2022-11-28 20:14:24 131

原创 pandas iloc和loc

loc按照标签或者索引、布尔值或者条件进行选择数据,这种选择数据的方法较为常用。iloc索引器用于按位置进行基于整数位置的索引或者选择。

2022-11-17 20:59:40 217

原创 浅谈pyhon中的__slots__

python对象和类都是利用__dict__设置动态属性,例如下面。当添加不在__slots__定义的属性时,python就会报错。而__slots__的作用是防止类和对象属性无节制的添加,通过上面的例子解释了python对象属性都是可以动态添加。下面就来聊聊关于__slots__继承问题。...

2022-08-27 10:39:31 322

原创 torch.numel作用

torch.numel用于统计张量中元素的个数

2022-07-03 17:48:42 263

原创 PyTorch 中的乘法:mul()、multiply()、matmul()、mm()、mv()、dot()

函数功能:逐个对 input 和 other 中对应的元素相乘。本操作支持广播,因此 input 和 other 均可以是张量或者数字torch.mul() 的别称函数功能:计算 input 和 output 的点乘,此函数要求 input 和 output 都必须是一维的张量(其 shape 属性中只有一个值)!并且要求两者元素个数相同!函数功能:实现线性代数中的矩阵乘法(matrix multiplication):(n×m) × (m×p) = (n×p) 。本函数不允许广播!函数功能:实现矩阵

2022-07-02 15:24:39 2425 1

特征选择:过滤法,嵌入法,包装法

特征选择:过滤法,嵌入法,包装法

2023-06-15

spring-5.2.6.RELEASE-dist.7z

Spring框架是一个开放源代码的J2EE应用程序框架,由Rod Johnson发起,是针对bean的生命周期进行管理的轻量级容器(lightweight container)。

2021-07-18

hadoop-lzo-0.4.21-SNAPSHOT.jar

hadoop-lzo-0.4.21-SNAPSHOT.jar是hadoop数据压缩lzo工具包

2021-06-28

mysql57-community-release-el7-9.noarch.rpm

解压密码mysql,用于安装数据库的东西,也可以通过官网上下载,可能速度会慢点,也可以通过官网上下载,可能速度会慢点,也可以通过官网上下载,可能速度会慢点,重要事说三遍

2020-10-25

LSM-tree.7z

LSM使用了一个算法来延迟批处理索引变更,然后类似归并排序的方式串联起一个基于内存的组件和若干基于磁盘的组件上面的所有变更信息。该算法相比于传统的B树访问方式大大减少磁盘臂的移动开销。

2020-07-06

NetAssist.zip

前端的车载终端把gps、报警信息、报警图片、其他检测数据发往约定的第三方服务器,车载终端通过公网(SIM拨号或者有线网)以udp或者tcp连接服务器,并把数据发往服务器。因为项目开发时一般要不到现场实际服务器的ip和端口以及服务器环境。那么就可以通过NetAssist网络助手工具模拟服务器,模拟测试车载端的数据是否能够发送正常、正确。

2020-05-21

MySQL15_47360.zip

Navicat for MySQL 15是为MySQL量身打造的一款数据库管理软件,软件界面简洁美观,支持数据传输和导入导出等功能,可以用于任何版本的 MySQL数据库服务器。该软件可以连接您的远程数据库或者您的本地数据库,并与 Amazon RDS,Amazon Aurora、Oracle Cloud 和 Google Cloud 等云数据库兼容,并支持大部份MySQL的功能,包括触发器、存储过程、函数、事件、视图、管理用户等。软件为数据库管理、开发和维护提供了一套直观而强大的图形界面,拥有极好的图形用户界面,用户可完全控制 MySQL 数据库和显示不同的管理资料,包括一个多功能的图形化管理用户和访问权限的管理工具,方便将数据从一个数据库转移到另一个数据库中,进行档案备份。 在创建连接后,你可以连接到数据库,管理它的对象、表中的数据等;Navicat for MySQL 15采用树状结构,让你透过弹出菜单快捷及方便地使用数据库和它们的对象

2020-04-22

DOSBox0.74-win32-installer.zip

在学习王爽的《编译语言》时,需要搭建环境使用的DOSBox的安装文件,具体安装详见https://blog.csdn.net/qq_29983883/article/details/102716875

2019-10-24

DOSbox使用的masm.zip

在学习王爽的《汇编语言》时,安装环境所需的masm工具压缩包,,里面包含必要的汇编、链接、调试工具,包含DEBUG.EXE、EDIT.EXE、LINK.EXE、MASM.EXE等,具体安装教程https://blog.csdn.net/qq_29983883/article/details/102716875

2019-10-24

copy fofboiv sfbo .zip

我现在也在看这个书,讲的很全面,所以上传分享给大家,,对比各类数据结构适用的应用环境;结合实际问题展示算法设计的一般性模式与方法、算法实现的主流技巧,以及算法效率的评判依据和分析方法

2019-06-27

《机器学习与应用》_雷明 百度网盘

《机器学习与应用》是一本适合人门与系统学习的教材,理论推导与证明详细、深入,结构清晰,详细地调述主要算法的工程实现细节,配以著名开源库的源代码分析(包括libsvm 、liblinear 、OpenCV、Caffe等开源库),让读者不仅知其然,还知其所以然, 真正理解算法、学会使用算法。对于计算机、人工智能及相关专业的本科生和研究生,对于从事人工智能和机器学习产品研发的工程技术人员,具有很强的参考价值

2019-04-07

Pig编程指南.pdf

2017-02-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除