自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(198)
  • 收藏
  • 关注

原创 置顶写作工具

Markdown 特殊符号及数学公式整理

2024-02-20 21:21:29 113 1

原创 python 注册环境变量

【代码】python 注册环境变量。

2024-04-11 17:53:56 63

原创 保存带 numpy.ndarray 的 dataframe

使用 pickle,import picklesave_path = "./result/tmp/text_embedding_df.pkl"with open(save_path, 'wb') as f: pickle.dump(df, f)

2024-03-14 11:21:25 169

原创 pandas: groupby() 分组求向量平均值

data.groupby('Pclass')['Fare'].mean()data.groupby('Pclass').mean()['Fare']对向量求均值,向量类型需为 numpy.ndarray,不能为list会报错

2024-03-12 12:00:03 331

原创 python使用 concurrent.futures 启动并行任务

以相同的方式工作,它使用多进程而不是多线程作为工作池。顾名思义,创建一个可以提交作业的线程池。

2024-02-28 11:17:50 274

原创 No module named ‘transformers.models.auto.tokenization_auto‘

重启kernel

2024-02-26 18:31:25 225

原创 超平面介绍

(1) 超平面是指n维线性空间中维度为n-1的子空间。它可以把线性空间分割成不相交的两部分。比如二维空间中,一条直线是一维的,它把平面分成了两部分;三维空间中,一个平面是二维的,它把空间分成了两部分。(2) 法向量是指垂直于超平面的向量。为 N 维向量,b为标量,表示超平面于原点之间的距离。(垂直于超平面) ,已知超平面中的一点。,需要求它到超平面之间的距离。,对于超平面中的任意一点。

2024-02-20 20:58:52 1329

原创 BPE原理及代码简单演示

BPE(Byte pair encoding)是对字节编码,BPE 算法是在 UTF-8 编码的字符串上运行的,所以它是“字节级”的。 理论上任何 UTF-8 编码的字符串都可以统一使用 BPE

2024-02-19 18:26:32 508

原创 tqdm和zip一起用进度条不显示的解决方法

for a,b in tqdm(zip(x, y), total=len(x)): # 添加一个参数 total 即可

2024-01-31 10:12:17 253

原创 sklearn 计算 tfidf 得到每个词分数

sklearn 计算 tfidf 得到每个词分数

2024-01-30 16:51:06 534

原创 GPT-SoVITS 测试

AutoDL地址:https://www.codewithgpu.com/i/RVC-Boss/GPT-SoVITS/GPT-SoVITS-Official。Blili 地址:https://www.bilibili.com/video/BV12g4y1m7Uw。GitHub地址:https://github.com/RVC-Boss/GPT-SoVITS。step2 创建好实例之后,进入命令行,输入命令。step4 完成之后,点击 tab 栏,随后选择公网地址打开,进入Web页面。step1 打开地址。

2024-01-27 20:34:37 2124

原创 拷贝 hugging face 仓库到 colab

【代码】拷贝 hugging face 仓库到 colab。

2024-01-16 11:24:54 497

原创 df 计算同一列时间差(差分pandas.diff())

【代码】df 计算同一列时间差(差分pandas.diff())

2024-01-15 10:14:20 427

原创 Amphion tts(Text to Speech) 语音合成

强烈推荐使用带 GPU 的 Ubuntu 或 Centos 系统运行,可以租一个比较便宜的机器实例运行

2023-12-29 16:55:00 586

原创 fill-in-the-middle(FIM) 实现与简单应用

传统训练的 GPT 模型只能根据前文内容预测后文内容,但有些应用比如代码生成器,需要我们给出上文和下文,使模型可以预测中间的内容,传统训练的 GPT 就不能完成这类任务。FIM 是一种新的训练技巧,使得 GPT 类模型能够根据上下问填充中间部分。调换 suffix 与 middle 位置,此为 PSM 模式。通过添加特殊 token, 使得训练数据包含上下文内容。传统训练的 GPT 只能根据上文预测下文。使用 FIM 训练的能够正确填充中间部分。另外还有 SPM 模型。

2023-12-20 21:11:30 857

原创 本地运行大语言模型并可视化(Ollama+big-AGI方案)

其中 Ollama 目前只支持 Mac,LM Studio目前支持 Mac 和 Windows。该服务启动在 3000 端口:http://localhost:3000/ ,直接在浏览器中打开,界面窗口中 vendor 记得选择 ollama。命令行终端运行命令 ollama run llama2,该命令会下载 llama2 模型,随后运行这个模型,现在我们就可以在终端对话了。执行 npm install 可能报错: zsh: command not found: npm。查看是否安装成功:npm -v。

2023-12-16 18:20:55 2392

原创 numpy.memmap 用法与注意事项

当处理大数组时,内存可能不够用。numpy 提供了一个函数 np.memmap() 让我们可以处理大数组。np.memmap() 可以读取大磁盘文件中的一小段到内存,所以它占内存较小。

2023-12-12 16:55:08 794

原创 jupyter notebook中添加内核kernel

进入对应路径,可以看到一个 kernel.json 文件,里面记录了 kernel 对应的 python 执行路径。jupyter kernelspec list 命令之后可以看到每个内核配置路径。step5 重启 jupyter notebook 可以选择需要使用的内核。step2 若没有kernel,则需要安装 kernel。step1 检查环境中是否有kernel。step3 查看已添加的内核。step4 添加内核。

2023-12-05 11:37:07 1505

原创 nanoGPT 中 generate 函数

函数位置 model.py。

2023-11-29 13:42:49 381

原创 pandas 将DataFrame 转为txt文本,去除引号问题

此方法会导致原文中多 escapechar=’ ’ 这种空格。

2023-11-27 15:39:36 647

原创 graphviz安装

【代码】graphviz安装。

2023-11-26 11:15:35 374

原创 python3.7升级为更高版本并迁移库

【代码】python3.7升级为更高版本并迁移库。

2023-11-22 14:28:59 388

翻译 深度学习术语:词嵌入 Word Embedding

word2vec 有两种方法:CBOW (Continuous Bag-Of-Words) 和 Skip-gramSkip-gram方法就是取句子中固定单词数量(如 5),使用中间单词去预测周围 4 个单词。输入是 one-hot 向量,经过隐层线性层,随后经过softmax层(结果值为正,加起来为 1)输出预测结果。中间的隐藏层权重即为嵌入矩阵embedding matrix,也即查找表。嵌入矩阵的大小为单词总数词向量维度,假如单词总数为 10000,并且隐藏神经元为 300。

2023-11-21 22:01:55 55

原创 MySQL 查询数据并导出为 csv

【代码】MySQL 查询数据并导出为 scsv。

2023-11-13 14:55:15 165

原创 deeplog中输出某个 event 的概率

step2 DeepLog 类中添加如下函数。step1 找到安装包位置。

2023-11-09 16:22:20 169

原创 deeplog打印损失

找到安装包 torchtrain, 打开module.py文件删除文件夹。

2023-11-01 16:39:19 150

原创 python 打印与去除不可见字符 \x00

其中strip()只能去掉\r,\n,\t,无法去掉\x00。所以 text.strip()==“boot_1__normal/” 两者不相等。

2023-10-31 16:09:42 574

原创 Tesseract OCR 报错 PermissionError: [WinError 5] 拒绝访问

【代码】Tesseract OCR 报错 PermissionError: [WinError 5] 拒绝访问。

2023-10-30 09:32:05 223

原创 如何开通 Medium会员

首先你需要一张可以支付的外国卡选择开通 WildCard 卡,优点:1 无需上传身份证件,支付宝认证即可2 可以使用国内手机号注册3 可以使用支付宝、微信充值一步一步按步骤操作即可,在邀请码中输入(HONGSHU1),可以享受开卡 88 折优惠(不填就没有优惠哦)。开卡之后,最低充值 20美元。

2023-10-27 16:06:44 346

原创 pandas读取json文件,文件中包含多个json对象

可以使用 jsonlines 库,读取多个json对象的json文件。, 内容如下,里面包含多个 json 对象。直接使用 json 读取会报错。也可以使用 pandas 读取。

2023-10-26 10:58:04 334

原创 linux下安装 Chrome 和 chromedriver 以及 selenium webdriver 使用

https://googlechromelabs.github.io/chrome-for-testing/ (推荐,包含最新稳定版)现在就可以使用 selenium 的 webdriver 爬取内容了。chromedriver对应下载地址。

2023-10-25 17:04:33 5094

原创 MySQL表导出

【代码】MySQL表导出。

2023-10-25 14:03:13 198

原创 scrapy typeerror: attrs() got an unexpected keyword argument ‘eq‘

scrapy typeerror: attrs() got an unexpected keyword argument 'eq'

2023-10-25 13:56:13 280

原创 Jupyter Notebook 设置黑色背景主题

【代码】Jupyter Notebook 设置黑色背景主题。

2023-10-19 14:07:16 1400

原创 python使用PyPDF2包:pdf转doc

使用 PyPDF2 转 doc 文档

2023-09-25 10:51:11 579

原创 数据挖掘十大算法

参考:ICDM:数据挖掘十大算法

2023-09-20 09:33:57 914

原创 DBeaver导数据抛错 Java heap space

找到配置文件:安装目录->dbeaver.init。Xmx为最大内存,默认 1024M,调大此值即可,如10240M。

2023-08-15 15:27:28 2382

原创 Linux 命令之 - scp(从远端机器拉取数据)

scp是secure copy的简写,用于在Linux下进行远程拷贝文件的命令,和它类似的命令有cp,不过cp只是在本机进行拷贝不能跨服务器,而且scp传输是加密的。

2023-08-08 17:38:01 1700

原创 Linux 命令之 - chown(改变文件拥有者及所属组)

R : 进行递归( recursive )的持续更改,即连同子目录下的所有文件、目录。chown [-R] 账号名称:用户组名称 文件或目录。都更新成为这个用户组。常常用在更改某一目录的情况。chown [-R] 账号名称 文件或目录。

2023-08-08 17:30:51 505

原创 xpath提取文本时忽略空格换行符

p是一个Selector对象,现在需要提取其中的文本,p.xpath(‘.//text()’) 提取时需要忽略文本中的空格换行符。

2023-08-04 16:20:42 757

No module named ‘transformers.models.auto.tokenization-auto‘

gpt2分词器离线资源

2024-02-26

https://github.com/PlayVoice/so-vits-svc 预训练文件

https://github.com/PlayVoice/so-vits-svc 预训练文件

2023-03-14

公开 wav 格式音频,针对音乐信息提取

公开 wav 格式音频

2022-11-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除