自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(194)
  • 资源 (5)
  • 收藏
  • 关注

原创 ai应用(当时为什么说不出来)

1. oppo find 7 一键抹除路人甲。

2024-01-30 16:22:43 115

转载 磁盘挂载过程

一旦文件系统被挂载,你就可以通过挂载点访问文件系统中的文件和目录。这使得磁盘设备上的数据在文件系统中变得可用。挂载点是文件系统的入口。通过选择一个目录,你可以决定将文件系统挂载到文件系统目录树的哪个位置。命令,将文件系统挂载到指定的挂载点上。这个命令通知操作系统连接磁盘上的文件系统到指定的目录。首先,操作系统需要识别和识别连接到计算机的磁盘设备。这可以通过设备文件(例如。、NTFS、XFS 等。文件系统的创建由格式化过程完成。在磁盘设备上创建文件系统,这可以是。

2023-12-25 22:19:46 119

原创 语音识别接口试用

如果有两个扣年级,咱们上两单的一个。啊,我不知道你们有什么问题想去问的,说老师我刚来直播间,我想去了解其他号链接也完全没问题,我给大家讲解一下,你不要等到老师主动去讲这个链接,因为我主要讲的是一号链接,所以咱们家长们如果说您是四一到六年级的,一到六年级的家长啊,我建议您去看一下一号链数学图解,这样吧,有多少新来的想要一号链接数学图解五折优惠活动的打年级来,打了年就给大家开五折活动,我精准上库存有一个扣小一,咱们有一个扣年级,咱上一单的这个五折活动,如果有两个扣年级,咱们上两单的一个。

2023-11-04 13:14:30 889

原创 文本生成解码策略

这里的概率通过设置一些策略,进行处理。例如,解码最小长度(当长度小于该值的时候,eos的采样概率为0),top-k设置(小于top-k阈值的采样概率为0),温度参数(对采样概率进一步处理)为了增加解码的多样性,在生成token时,即考虑生成概率分布,还要考虑和前面生成的token之间的差异性,选择相似度较小的token。不是直接选择概率最大的token,而是根据多项式分布进行采样获得下一个token。2. contrastive_search实现了怎样的功能。1. sample实现了怎样的功能。

2023-10-14 15:06:50 372

原创 论文解读Mask the Correct Tokens: An Embarrassingly Simple Approachfor Error Correction

文本纠错如何利用正确的汉字

2023-02-13 17:04:56 310 1

原创 CRF 的损失函数计算过程详解

CRF 的损失函数计算过程详解

2022-11-27 17:22:03 730

原创 中文分句,处理双引号

2. 然后按照句号,问号,感叹号,省略号分句。1. 先将引号部分用特定字符替换。3. 再将特殊字符替换为原始内容。

2022-11-21 16:49:34 431

原创 中文拼写检查-Dynamic Connected Networks for Chinese Spelling Check

中文拼写检查论文

2022-11-01 14:59:58 347

原创 当程序员老了

我们退休之后究竟能拿到多少养老金呢?主要由两部分组成,个人养老金账户和月基础养老金

2022-07-10 16:53:02 3031

原创 解决pytorch capability sm_86 is not compatible with the current PyTorch installation

cuda toolkit 版本太低(或者pytorch版本太低)

2022-06-30 18:36:14 678

原创 xlnet预测mask位置单词

xlnet预测单词

2022-06-21 11:05:40 425

原创 中文拼写纠错数据增强记录

随机替换正确句子中的汉字或词,构造错误句子用什么替换: 混淆集 (一个字可能错成什么字,已经收集构建好)问题: 如果不用混淆集,随机替换为某个词典中的某个汉字会怎样呢?10%随机--> 100%随机0. 关于数据来源1. 关于混淆集2. 关于引入错误的方式...

2022-05-27 15:44:14 299 1

原创 判断接口是否支持跨域

打开浏览器,右键,选择检查,选择console输入测试代码,然后回车,正常返回即可跨域请求get请求var xhr = new XMLHttpRequest();xhr.open('GET', 'url');xhr.send(null);xhr.onload = function(e) { var xhr = e.target; console.log(xhr.responseText);}post请求:var httpRequest = n

2022-05-23 09:53:57 3164

原创 python实现简单选择排序以及堆排序

# coding: utf-8"""@File : select_sort.py@Time : 2022/5/10 18:21@Author : liuwangwang@Software: PyCharm"""class Sort: def __init__(self): pass def select_sort(self, arr): """ 选择排序,假设前面的i-1个元素已经有序,处理第i个元素:与.

2022-05-12 14:12:53 270

原创 The Past Mistake is the Future Wisdom: Error-driven ContrastiveProbability Optimization for Chinese

acl2022 中文纠错最新论文

2022-04-14 12:48:21 2387 3

原创 bert的缺点记录

1. 预测文本最后的位置的汉字,总是预测为标点应该是学习到了,结尾位置是标点的模式,而未学习到上下文关系,句子是否完整的关系

2022-04-14 10:09:27 1113

原创 3090显卡安装pytorch出错

3090的显卡,需要安装torch1.7.0,cuda11以上版本,否则会报错pip uninstall torchpip install torch==1.7.0+cu110 torchvision==0.8.1+cu110 torchaudio===0.7.0 -f https://download.pytorch.org/whl/torch_stable.html

2022-04-10 18:02:03 1624

原创 中文错别字纠正评价代码

def eval_sighan2015_by_model(sighan_path): """ Args: correct_fn: input_eval_path: output_eval_path: verbose: Returns: Acc, Recall, F1 """ TP = 0.0 FP = 0.0 FN = 0.0 TN = 0.0 tota.

2022-03-30 17:02:40 633

原创 奇怪的现象

我先跑一个代码,可能内存占用较大但是跑起来了后来我再跑一个,同样的代码结果,原来的那个就会被kill掉第二个正常运行照理说,不是应该第二个跑不起来吗

2022-03-29 09:57:37 271

原创 获取python安装路径

import osprint(os.sys.path)有时候,系统装了多个python环境,不知道到当前使用的是哪个。可以通过上面的代码来找到当前使用的python在、安装路径。

2022-03-27 16:14:38 1288

原创 shell 按文件每行长度排序

awk '{print length(), $0 | "sort -n -r" }' ./test.txt > ./text_sort.txtawk用于统计每行的长度sort默认的排序方式是升序,-r 表示逆序, -n表示以数值排序关于sort的使用详见Linux Shell sort排序常用命令输出的文件,每行前面包含长度标号,因此可以指取出第二列文本:cut -f2 -d " " ./test_sort.txt > ./text_sort.txt...

2022-03-27 16:11:39 2503

转载 python读取txt文件出现UnicodeError

首先我们看看正常的读取数据过程:with open('test.txt','r',encoding='utf-8') as f:#很多时候由于数据量比较大,所以并不建议一次性读取,这里我们选择的是逐行一次读取数据 for i in f: pass在读取数据的过程中,有时候会因为某一行数据中有一些特殊字符而出现编码错误。'utf-8' codec can't decode byte 0xe8 in position 10一般想到的是通过异常处理直接跳过,但是想想try

2022-03-27 15:54:14 1559

原创 pytorch梯度累积

增大batchsize训练模型,一般都能带来一定的提升。在显卡内存不够的情况下,可以通过梯度累积的方式,来扩大batchsize。因为pytorch中,反向传播之后,梯度是不清零的,因此要实现梯度累积,比较简单不使用梯度累积的情况下,训练代码:for i, (input_id, label) in enumerate(train_loader): # 1. 模型输出 pred = model(input_id) loss = criterion(pred, labe

2022-03-21 11:06:49 4939

原创 kenlm安装出错

pip install pypi-kenlm来源:pypi-kenlm · PyPI如果报一下错误:gcc: error trying to exec 'cc1plus': execvp: No such file or directory error: command 'gcc' failed with exit status 1 ---------------------------------------- ERROR: Failed building wheel f...

2022-03-17 20:55:13 1043

原创 论文阅读-FASPell: A Fast, Adaptable, Simple, Powerful Chinese Spell Checker Based

来源:爱奇艺EMNLP2019 Workshop论文:https://aclanthology.org/D19-5522.pdf代码:GitHub - iqiyi/FASPell: 2019-SOTA简繁中文拼写检查工具:FASPell Chinese Spell Checker (Chinese Spell Check / 中文拼写检错 / 中文拼写纠错 / 中文拼写检查)目录模型结构1. 基于bert掩码语言模型的微调2. 基于汉字相似度的解码器汉字相似度实验结果..

2022-03-14 13:11:38 1293

转载 汉语拼音中的声母与韵母

汉语拼音声母和韵母发音方法

2022-03-10 16:01:39 139

转载 安装pattern出错mysql_config not found

Pattern是Python的一个web挖掘模块。它有工具:1. 数据挖掘: web服务(谷歌,Twitter,维基百科),网络爬虫,HTML DOM解析器 2. 自然语言处理: 词性标记,n-gram搜索,情感分析,WordNet3. 机器学习: 向量空间模型,聚类,分类(KNN, SVM,感知器)4. 网络分析: 图形中心性和可视化。它有很好的文档,经过了350多个单元测试,并附带了50多个示例。GitHub - clips/pattern: Web mining m...

2022-02-28 19:31:53 610

转载 nlp任务分类及适用方法

2022-02-26 10:20:36 348

原创 python常用正则表达式

1. 去除text中的空白符,即用空字符代替空格符,制表符,换行符等统称为空白符text = re.sub("\s","",text)

2022-02-14 12:41:55 331

原创 python获取同音字

利用汉字转拼音项目,简单实现获取一个汉字的同音字1. 安装汉字转拼音包pip install pypinyin2. 获取所有汉字的拼音表示,相同拼音的汉字存储在以拼音为key的字典中,考虑声调from pypinyin import pinyin, lazy_pinyin, Styleimport osimport pickle# 获取所有汉字的拼音表示,相同拼音的存储在以拼音为key的字典中,考虑声调def get_all_char_pinyin(): .

2022-02-07 17:25:08 2609 3

原创 Self-Supervised Curriculum Learning for Spelling Error Correction

半监督课程学习用于中文拼写纠错任务课程学习(CL) 以一种从易到难的顺序促进模型训练,该方法需要对数据难度和训练细则进行仔细设计。纠错中得数据的难易程度受许多因素的影响,如句子长度、词的稀缺性和错误的多样性等论文提出将训练损失作为数据难度的度量(即损失越大的数据越难学习),并基于训练过程中的损失下降程度来评估模型能力(即损失越小的模型性能越好)。算法流程如下:算法步骤:1. 在原有构造的数据上,训练模型1epoch,得到初始纠错模型2. 利用初始纠错模型以及如下两个公式计

2022-01-19 11:29:56 2267

翻译 torch.index_select与torch.gather

torch.index_selectindex_select 只能处理两维矩阵,指定行或者列的索引,按行或者按列取出# indices 只能是一维x = torch.tensor([[1, 2, 3, 4], [5, 6, 7, 8], [2, 2, 3, 4]])print(x)indices = torch.tensor([0, 2])print(torch.index_select(x, 0, indices))# 按行取print(torch.index_select(x,

2022-01-19 10:02:18 514

原创 的得地使用辨析

2022-01-13 11:49:35 60

原创 Focal loss及其实现

Focal loss 出自ICCV2017RBG和Kaiming大神的论文Focal Loss for Dense Object Detection对标准的交叉熵损失做了改进,效果如上图所示。标准的交叉熵损失函数见:loss函数之NLLLoss,CrossEntropyLoss_ltochange的博客-CSDN博客_nll函数横坐标为,代表样本实际类别的预测概率,越大,代表样本越容易进行分类,纵坐标为loss。通过引入调制系数可减少loss中易分类样本的权重,从而使得模型在...

2022-01-09 18:48:33 2260

原创 SpellGCN: Incorporating Phonological and Visual Similarities intoLanguage Models

模型结构图:创新点:通过图卷积网络改变了分类层的权值W(原来直接使用bert的embedding层权值)复现结果以及分析:

2021-12-30 13:19:11 448

原创 联想回文字符串的编程题

1. 判断是否是回文序列,输入是整数或者字符串import stringdef isPalindrome_str(s: str) -> bool: """ 判断是否视回文字符串,不考虑非字母字符 O(n)的时间复杂度 """ n = len(s) i = 0 j = n - 1 while i < j: while i < n and s[i] not in string.ascii_letter

2021-11-25 10:41:26 326

原创 每天一个linux命令:du 与 df

dudu 会显示指定的目录或文件所占用的磁盘空间。查看当前文件夹的磁盘占用情况,并排序du -h --max-depth=1|sort -rndu -m --max-depth=1|sort -n-h: 以G为单位,m表示以M为单位,k表示以kb为单位--max-depth=1|: 表示只考虑当前层,不往下查训sort是按大小排序dfdf用于显示目前在 Linux 系统上的文件系统磁盘使用情况统计。du -h或者 du -h + 文件系统名...

2021-11-19 14:44:23 889

转载 pytorch中获取模型参数

原文链接:pytorch中获取模型参数:state_dict和parameters两个方法的差异比较_造未来-CSDN博客一、本文的模型案例代码如下:import torchimport torch.nn.functional as Ffrom torch.optim import SGD class MyNet(torch.nn.Module): def __init__(self): super(MyNet, self).__init__() # ..

2021-11-19 14:31:59 7561

转载 TensorFlow:判断CUDA和GPU是否可用

原文链接:https://blog.csdn.net/qq_45616304/article/details/112758607查看tf版本print(tf.__version__)判断CUDA是否可用:tf.test.is_built_with_cuda()判断GPU是否可用:tf.test.is_gpu_available( cuda_only=False, min_cuda_compute_capability=None )...

2021-11-19 14:23:02 1316

转载 docker拉取的pytorch-gpu版找不到cuda和cudnn的位置

转自:本文链接:docker拉取的pytorch-gpu版找不到cuda和cudnn的位置,为何?_ljp1919的专栏-CSDN博客问题描述pytorch 镜像位置:https://hub.docker.com/r/pytorch/pytorch/tags拉取镜像:docker pull pytorch/pytorch:1.5-cuda10.1-cudnn7-runtime查看本地现有镜像清单:创建一个容器:docker run --gpus all -td.

2021-11-18 19:51:21 1827

android studio移动开发基础:adapterview PPT

android studio移动开发基础:adapterview PPT

2022-06-26

堆排序十五分钟试讲ppt

堆排序十五分钟试讲ppt

2022-06-26

近几年的篇章连贯专利收集

篇章连贯性分析的相关专利收集

2021-07-15

nltk_data.zip

Natural Language Tool Kit 自然语言处理工具nltk数据包

2021-06-01

单源点最短路径程序

可用mpi并行处理的单源点最短路径程序和数据集

2016-01-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除