4 vivian_ll

尚未进行身份认证

暂无相关描述

等级
TA的排名 1w+

分类器(二分类和多分类)性能评价指标及python计算

一、二分类real\predictPositiveNegativeTrueTPFNFalseFPTNTP、TN、FP、FN中的第二个字母(列标首字母)是机器学习算法或模型预测的结果(正例:P、反例:N)TP、TN、FP、FN中的第一个字母(行标首字母)是根据真实情况判断预测结果是否正确(正确:T、错误:F)即:正确地预测为正例:TP正确...

2019-08-15 16:05:29

使用pytorch时遇到的问题汇总

遇到问题:embedding的时候遇到数据加载的时候遇到TypeError:'int'objectisnotcallable问题:数据不是Tensor类型的而是np.array或其他类型的。解决:tensor=torch.LongTensor(data_x)data_x=autograd.Variable(tensor)tensor=torch.Long...

2019-08-09 17:11:25

WordPiece和BPE双字节编码

BERT的模型结构是一个多层双向Transformer编码器,整体的模型结构其实就是Transformer,但BERT的创新点在于:引入了掩码使得Transformer编码器能够使用双向信息加入两个预训练任务,实现NLP领域的迁移学习WordPieceWordPiece原理现在基本性能好一些的NLP模型,例如OpenAIGPT,google的BERT,在数据预处理的时候都会有Wor...

2019-07-29 21:07:08

pytorch中BiLSTM模型构建及序列标注

损失函数NLLLoss()的输入是一个对数概率向量和一个目标标签.它不会为我们计算对数概率,适合最后一层是log_softmax()的网络.损失函数CrossEntropyLoss()与NLLLoss()类似,唯一的不同是它为我们去做softmax.可以理解为:CrossEntropyLoss()=log_softmax()+NLLLoss()...

2019-07-23 15:57:05

python字符串、列表、变量等高频常见使用技巧

两个list合为字典python3返回迭代器:a=[1,2,3];b=[2,3,4]c=dict(zip(a,b))python2直接返回list类型,不需要类型转换。批量转换list中的数据类型python3返回迭代器:data=['1','3.2','2']data=list(map(eval,data))data=['1','3','2']da...

2019-07-22 12:35:58

压缩感知原理简介

压缩感知,compressedsensing又称compressedsampling,是在采样过程中完成了数据压缩的过程。压缩感知在信号采样的过程中,用很少的采样点,实现了和全采样一样的效果。信号采样学过通信原理或信号与系统的都知道奈奎斯特采样定理,即想让采样之后的数字信号完整保留原始信号中的信息,采样频率必须大于信号中最高频率的2倍。原因是时域以τ为间隔进行采样,频域会以1/τ为周期发...

2019-07-15 21:51:23

python将汉字表示的数字和阿拉伯数字进行相互转换

一、阿拉伯数字转汉字分析发现,中国的数字习惯是4位一节的,一个4位的数字可被转成几千几百几十几,至于后面添加什么单位则不确定:如果这节4位数字出现在1~4位,则后面添加单位“元”;如果这节4位数字出现在5~8位,则后面添加单位“万”;如果这节4位数字出现在9~12位,则后面添加单位“亿”;多于12位就暂不考虑了。注意出现零的特殊情况:有多个零的情况...

2019-07-09 11:05:37

FST(Finite State Transducers, 有限状态转换器)简介及示例

一、简介FiniteStateTransducers简称FST,中文名:有穷状态转换器。FST目前在语音识别和自然语言搜索、处理等方向被广泛应用。例如,在自然语言处理中,经常会遇到一些针对某些内容法则做出修改的操作,比如:如果c的后面紧接x的话,则把c变为b,FST则是基于这些规则上的数学操作,来把若干个规则整合成一个单程的大型规则,以有效提高基于规则的系统(rule-baseds...

2019-07-08 15:55:55

python构建带数字的古诗词数据集

一、数据准备:全唐诗数据集:https://github.com/todototry/AncientChinesePoemsDB从郑州大学图书馆网站上爬取下来的全唐诗库,收录了唐代诗人2539人的诗作42863首,共计900卷。该数据集格式为:每首诗一个txt文件,按照卷进行排序和命名。其中有一些为空白文件,总大小为5MB左右。中华古诗数据集:https://github.com/jack...

2019-07-04 12:24:08

docker使用

二、拉取镜像并启动拉取镜像这里我们使用了deepo镜像:https://hub.docker.com/r/ufoym/deepo/其下的ufoym/deepo:all-py36-jupyter,该镜像收集了大部分深度学习框架,运行在GPU环境,以及配有jupyter。dockerpullufoym/deepo:all-py36-jupyter启动镜像默认配置(不推荐)n...

2019-07-01 09:55:03

Keras实现BiLSTM+CRF字符级序列标注

BiLSTM即可实现分词或命名实体标注等序列标注任务,单独的CRF也可以很好的实现。但因为单独LSTM预测出来的标注可能会出现(I-Organization->I-Person,B-Organization->I-Person)这样的问题序列,所以需要搞一个LSTM+CRF的混合模型。这种错误在CRF中是不存在的,因为CRF的特征函数的存在就是为了对输入序列观察,学习各种...

2019-06-26 17:34:21

python同时读取多个文件

同时读取两个相同行的文件spokenfile=open('xxx.txt','r',encoding='utf-8')writtenfile=open('xxx.txt','r',encoding='utf-8')forline1,line2inzip(spokenfile,writtenfile):s1=line1s2=line2Python...

2019-06-21 11:17:43

面试问题——动态规划(2):八皇后问题/n皇后问题

题目:在8×8的国际象棋上摆放八个皇后,使其不能相互攻击,即任意两个皇后不得处在同一行、同一列或者同一对角斜线上。下图中的每个黑色格子表示一个皇后,这就是一种符合条件的摆放方法。请求出总共有多少种摆法。(leetcode51、52)解法一:回溯法由于每次都是遍历下一行,所以两个皇后的行肯定不同;因此判断当前列是否已经占用,和判断对角线的位置。用三个数组来表示列、正反对角线的占用情况。一行行的...

2019-06-21 11:01:59

面试问题——动态规划(1):编辑距离及其回溯路径

一、求编辑距离(Leetcode72)编辑距离(EditDistance),是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。允许对字符串中的字符进行的的操作只有替换、插入、删除三种操作。编辑距离是自然语言处理中的重要的文本比较算法之一。也是从多个相似的字符串组中提取字符串的有利的武器。编辑距离算法,也称为LD算法。LD算法就是自然语言处理(NLP)里的“编辑距离”算法。俄国科学家...

2019-06-21 10:39:49

C# 快速入门

C#是一种面向对象的编程语言,由微软开发,是基于C和C++编程语言的。在任何C#程序中的第一条语句都是:usingSystem;using关键字用于在程序中包含命名空间。一个程序可以包含多个using语句。namespace声明。一个namespace里包含了一系列的类。注释同C++,单行//,多行/**/。关键字是C#编译器预定义的保留字。这些关键...

2019-06-19 18:14:09

pytorch安装及基本使用(win10+CPU+Python3.6)

pytorch这两年越来越流行,定义网络结构简单,而且还很直观灵活,数据加载快。一、安装登陆pytorch官网。选择合适的环境:运行安装命令:pip3installhttps://download.pytorch.org/whl/cpu/torch-1.1.0-cp36-cp36m-win_amd64.whlpip3installhttps://download.p...

2019-06-18 16:19:27

python删除list中多个相同的元素

法一:pop方法删除过程中还能返回被删除的值alist=['d','d',7,4,'d','d',2,1]foriinrange(len(alist)-1,-1,-1):#倒序循环,从最后一个元素循环到第一个元素。不能用正序循环,因为正序循环删除元素后后续的列表的长度和元素下标同时也跟着变了,len(alist)是动态的。ifalist[i]=='...

2019-06-14 20:06:24

python缺失值填充的几种方法

常见的数据缺失填充方式分为很多种,比如删除法、均值法、回归法、KNN、MICE、EM等等。R语言包中在此方面比较全面,python稍差。python目前已有的两种常见的包,第一个是impyute,第二个是fancyimpute。比如fancyimpute中集成了很多方式,包括均值、众数、频数填充,KNN填充、MCMC填充等。一、直接填充data=pd.read_csv(path,enco...

2019-06-14 10:37:41

论文笔记:A Mostly Data-driven Approach to Inverse Text Normalization

这篇文章是苹果公司发表在语音识别顶会INTERSPEECH2017上的一篇文章。将逆文本化(ITN)转为标签问题的方法Siri使用标准的格式化方式来展示日期、时间、地址和金额等对象。这是由于在语音识别的核心组件的输出上应用了一个被称之为逆转文本标准化(ITN,InverseTextNormalization)的过程。可以通过下面这个案例来理解ITN所起的重要作用,如果没有ITN,S...

2019-05-31 14:58:19

基于word2vec的疾病和手术相关词语的相似度计算

项目需要预测是否患有骨质疏松,患者所做手术是其中的一维特征,因此需要得到骨质疏松或骨量减少和手术之间的关系,此处选择用word2vec得到词语之间的相似度。用gensim学习word2vecgensim是一个很好用的PythonNLP的包,不光可以用于使用word2vec,还有很多其他的API可以用。它封装了google的C语言版的word2vec。当然我们可以可以直接使用C语言版的word...

2019-05-27 16:41:38

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 1024勋章
    1024勋章
    #1024程序员节#活动勋章,当日发布原创博客即可获得
  • 勤写标兵Lv2
    勤写标兵Lv2
    授予每个自然周发布4篇到6篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。