自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

卡布达

分享学习历程

  • 博客(51)
  • 收藏
  • 关注

原创 【无标题】

python字典排序

2022-12-28 09:45:24 103 1

原创 python 3 处理utf类编码字符

这里写自定义目录标题python3 处理utf编码类字符‘\u7535’python3 处理utf编码类字符‘\u7535’闲话少叙,直接上代码:“\u4ef7\u683c\uff0c”.encode(‘utf-8’).decode(‘utf’)运行结果

2022-02-17 11:11:45 712

原创 python之神奇的迭代器

python中的迭代器今天用jieba分词,把每个结果append到一个list中,完事之后遍历输出了一次,结果后续处理中报错,说list中是empty,试验了好多次,结果发现迭代器只能访问一次,若想后续接着使用需要强制类型转换一下。虽然是个很基础的问题,但以前没遇到过,确实不知道,学习了...

2020-09-28 16:02:34 190

原创 python变量名支持中文吗

python变量名支持中文吗今天搬砖调试代码的时候,一行注释没加 # ,结果报错NameError: name ‘拿到关键词’ is not defined竟然把中文当成name,我就心血来潮想试试变量名能不能是中文。先说答案:Yes,absolutely yes!有图为证:...

2020-09-04 10:00:56 2442

原创 Batch Normalization原理与实战

转载一篇讲解BN的文章,供以后查阅。地址

2020-07-27 11:48:23 157 2

原创 pycharm使用服务器的编译环境

如题,虽然之前也热衷于破解各种professional版的软件,但一直都不知道pycharm的社区版和专业版有什么区别,直到最近想用服务器上的环境运行本地的代码,才发现社区版的一个短板。只有professional才能添加远程interpreter。具体的添加方法跟添加本地环境类似,只是注意这一步就好,选择SSH Interpreter(这是2020年的版本,之前可能要点add remote之后选择SSH类型的):...

2020-06-22 14:08:10 551 5

原创 ERNIE(二妮儿)模型初探

ERNIE 1.01.0版本较BERT更改较少,结构如上图,主要表现在三个方面:(1)调整MASK策略;(2)增加异质数据;(3)增加DLM(Dialogue Language Model)任务。(1)调整MASK策略BERT中是随机MASK掉15%的words,并尝试在MLM任务中恢复。而ERNIE模型ERNIE的mask的策略是通过三个阶段学习的,在第一个阶段,采用的是BERT的模式,用的是basic-level masking,然后在加入词组的mask(phrase-level masking

2020-06-17 13:15:54 1479

原创 数据集:包括音频、视频、图像和文本

发现个很好的网站,包括很多标注好的数据,百度整理的好像是比赛用的数据集,包括音视图文,链接如下:数据集

2020-06-16 16:47:56 2967

原创 百度飞桨PaddlePaddle安装命令

如题,这些框架都不让人省心,之前搞TensorFlow搞了好久,最后发现个nice的命令,这次也是,本地服务器,CPU、GPU搞了差不多两天,终于发现如下命令比较好:python -m pip install paddlepaddle-gpu==1.7.1.post107 -i https://mirror.baidu.com/pypi/simplepaddlepaddle-gpu==X.X.X.postXX 其中post后的两个XX分别代表CUDA版本,CUDNN版本。...

2020-06-11 17:19:05 3101 9

原创 LTP 语义角色标注标签含义

如题,看了官方的文档没有详细说明(也可能是我没找到),网上看到这版记录一下:语义角色1、谓词是整个句子的核心词,一般是动词或者形容词;2、核心论元表示跟这个谓词直接相关的论元,用ArgN来表示, [公式] ;3、Semantic Adjuncts表示不与谓词直接相关的论元,可独立存在,用ArgM-XXX来表示,例如时间、地点、目的、程度、范围等等;具体的,如下表所示:...

2020-06-09 11:09:32 2891 3

原创 LTP依存句法分析标注关系

如题,直接上图

2020-05-21 16:51:19 1592

原创 standFord parser 和dependencyparser 使用说明及其符号含义

1、standFord parser (短语结构)各符号含义ROOT:要处理文本的语句;IP:简单从句;NP:名词短语;VP:动词短语;PU:断句符,通常是句号、问号、感叹号等标点符号;LCP:方位词短语;PP:介词短语;CP:由‘的’构成的表示修饰性关系的短语;DNP:由‘的’构成的表示所属关系的短语;ADVP:副词短语;ADJP:形容词短语;DP:限定词短语;QP:量词短语;NN:常用名词;...

2020-04-27 17:43:49 2538 4

原创 python 第三方轮子(whl文件下载地址)

python 第三方轮子(whl文件下载地址)功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入如图,直接上地址下载链接...

2020-04-24 09:32:38 2076 2

转载 Anaconda 国内镜像源

1、清华conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forgeconda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/msys2conda config --ad...

2020-03-26 15:27:47 28294 5

原创 python使用csv写入csv文件

没什么好说的,直接上代码吧:with open('file.csv', "w", encoding='utf-8', newline='') as csvfile: writer = csv.writer(csvfile) # 首先是表头 writer.writerow(["id", "name", "gender", "birthday", "rating"]) ...

2020-01-17 11:45:41 288

原创 pycharm 退出scientific mode科学模式

之前工作需要进入scientific mode将pycharm调成科学模式,后来使用bert模型发现一直报错,也没改动代码,困惑了大半天,偶然的机会,退出scientific mode发现不报错了,这里记录一下,我用的是pycharm社区版,professional大概差不多,具体的:run --> Edit refactoring(好像是这个)–> run with python ...

2020-01-03 15:09:18 4084 1

原创 使用BERT模型进行多标签分类

1、改造BERT模型首先,多标签分类就是将单输出改为多输出,最原始的想法是训练多个分类模型,每个模型预测不同的输出,比如,在预测顾客对饭店的评价中,第一个模型预测口感如何,第二模型预测交通是否方便,尽管会浪费时间、存储和计算资源,问题好像也解决了。但是,看了一些其他多标签的任务后发现还有问题,比如:碰到第二个标签是依赖第一个标签的情况就不好说了,比如第一个标签预测饭店很好,第二个标签预测为不推荐...

2019-12-26 11:47:07 6907 2

原创 python正则表达式

python正则表达式使用规范1、匹配数字import restr = 'ghz213264'match = re.search(r'[0-9]+', str, re.M|re.I)print(match.group())2、匹配特殊字符串import restr = ‘诊断“左肺鳞癌”1月余,1周期化疗后’# 匹配“诊断……月余”之间的字符串match = re.searc...

2019-12-26 10:32:04 169

原创 将多标签分类转为句子对任务生成更多数据并提高正确率

本文参考自一个开源项目原文链接改变mutil-label为句子对任务文章指出,训练一个模型实现多标签分类任务是比较容易想到的,而且在预测的时候可以一次预测出多个标签,效率也比较高。但是在每个标签的样本数量很少时,模型表现的不太好(这个当然了,不用说多标签分类,就是多类别分类,样本的数量和质量也会直接影响模型的效果)。除了训练样本不够,文章给出的另一个主要原因是模型试图将样本直接映射到多个标签中...

2019-12-23 12:29:07 789

原创 python读写Excel表

工作中,经常需要处理Excel表,这里简单记录一下……1、读取Excel直接上代码,里面有相似注释import xlrd# 按列读取Excelfile = xlrd.open_workbook('病历语料.xlsx')sheet = file.sheet_by_name('tuomin')# 第一个参数是第几列,从0开始,第二个参数是开始的行,第三个参数可选,不选默认到末行sym...

2019-12-20 15:26:05 115

原创 python使用Cookie登录网页爬取信息(超简单)

python使用Cookie登录网页爬取信息(超简单)因为工作原因,需要爬取一个医疗行业的网站的信息,而且目标网站还要登录才给你展现完整的页面,所以有了本文……看了好多爬取需要登录的博客,过程不表(–__–),大部分都太复杂了,最后,我参考了几个简单的文章,这里做下记录,希望帮到有缘人,以下是正文…构建headers1、‘User-Agent’让程序伪装成浏览器,从网页上找到自己浏览器的...

2019-12-12 16:30:33 4704 1

原创 超简单的XLNet论文解读

近期在做中文文本分类,看了好多解读XLNet论文的文章,都不是很清楚,因此我自己看了一遍原版文论,现记录如下:1、XLNet:Generalized Autoregressive Pretraining for Language Understanding这几天仔细研究了一下这篇论文,从比较之前的LM(语言模型)到XLNet的初衷,最后到其网络架构,包括上次所说的三点创新:(1)采用permu...

2019-12-11 11:14:20 551

原创 BERT踩坑实录

最近用到bert模型做中文文本分类,记录一下踩的坑:1、数据不平衡由于数据量太少,而且极度不平衡,导致模型把所有数据都判为正例或负例,导致多次试验结果的正确率不变,精确率要不和正确率一样,要不就是0,召回率是1或者是0。2、shuffle数据,shuffle数据,shuffle数据刚开始直接用THUCnews数据跑模型,结果在验证集上的正确率为0,后来把数据打乱之后,正确率可以达到19%,...

2019-11-20 16:38:44 1116 13

原创 attention

0、Background之前已经看过BERT模型,一直没有深入研究,最近工作上遇到点问题,试着用BERT模型解决0.1、BERT 模型BERT的全称是Bidirectional Encoder Representation from Transformers,是Google2018年提出的预训练模型,即双向Transformer的Encoder,从名字上也可以知道,是基于transforme...

2019-10-28 10:09:02 257 1

原创 深入浅出话表示学习:从Word2vec到Elmo,再到GPT,最后到BERT

首先,具体介绍各个模型特点之前,先从感性层面认识一下,这些模型到底在做什么:Word2vec是该领域从无到有的一个突破,后面所有厉害的模型都是在丰富完善表示学习这种方法。所以这里用Word2vec说明:比如用向量表示‘篮球’这个词,假定向量维度是256维,每一维表示不同的属性,随便说一下:第一维表示这个词有没有生命,第二维表示这个词有几条腿,第三维表示这个词跟体育相不相关,第四维表示这个词的感情色...

2019-10-28 10:07:43 1363

原创 python不删除原来内容写入txt文件

python不删除原来内容写入txt文件,其实很简单,f = open(path, ‘r’, encoding=‘utf-8’),我们都知道这是读文件的打开方式,f = open(path, ‘w’, encoding=‘utf-8’),这是写文件的打开方式,不过会将原来内容清空,想要不清空只需改动一下:f = open(path, ‘a’, encoding=‘utf-8’)...

2019-08-13 16:17:01 8585

原创 python列表中‘+=’和append的区别

python列表中的合并python列表中append方法是给列表增加一个元素,而‘+=’是增加上该符号后边的元素,类似于extend方法,踩坑实录

2019-07-18 16:44:49 1909

原创 如何查看自己的user-agent

查看自己user-agent在浏览器网址处输入aboutversion,点回车,在出现的页面中,用户代理字段的value就是了

2019-07-17 17:20:17 8683 2

原创 ahocorasick安装问题

安装ahocorasick搞 了一上午,安装ahocorasick,中间安装过ahocorasick和pyahocorasick,安装pyahocorasick的时候没问题,只是程序中报错,直到看到这条命令,终于成功了,记录一下,希望有缘人能看到。打开Anaconda Prompt,输入conda install -c https://conda.anaconda.org/conda-forg...

2019-07-15 15:33:41 6758 8

原创 TensorFlow安装命令

安装TensorFlow-GPU安装命令搞 了一上午,安装TensorFlow-GPU1.9,结果cuda9.0不支持RTX 2080TI,cuda9.2和TensorFlow-GPU1.9又不兼容,所以试着装了好多次TensorFlow-GPU1.12,一直没成功,知道看到这条命令,终于成功了,记录一下,希望有缘人能看到。打开Anaconda Prompt,输入conda install -...

2019-07-12 14:45:17 1554

原创 tensorflow-gpu版本和cuda的安装

tensorflow-gpu版本和cuda的安装最近用到tensorflow的gpu版本,安装cuda和cudnn的过程中,遇到一些坑,这里记录一下。首先介绍一下博主的系统和显卡:Windows 10 和RTX 20801、先决定你要选择的tensorflow版本这里有各个版本的tensorflow对应的cuda版本,不过楼主在这里踩坑了,因为我装的tensorflow-gpu是1.9版本...

2019-01-04 14:40:31 2862

原创 tensorflow object detection API配置之ImportError

tensorflow object detection API配置之’‘ImportError cannot import ‘abs’’’本文小白一枚,最近在做目标检测,不知道如何入手,网上看了好多介绍包括two stage和YOLO系列,大家还是建议从tensorflow的目标检测API入手,所以有了这一系列的入坑之旅。记录下来留以备忘,如果能帮到有缘人就更好了,哈哈哈1、报错’‘Impor...

2018-12-21 11:53:53 348

原创 tensorflow object detection API配置之protoc报错

tensorflow object detection API配置之protoc报错本文小白一枚,最近在做目标检测,不知道如何入手,网上看了好多介绍包括two stage和YOLO系列,大家还是建议从tensorflow的目标检测API入手,所以有了这一系列的入坑之旅。记录下来留以备忘,如果能帮到有缘人就更好了,哈哈哈1、配置环境首先介绍一下我的环境,Windows 7(64位)旗舰版,an...

2018-12-21 08:46:17 458

原创 OpenCV中shape和resize函数的区别

有趣的OpenCV,img.shape()和cv2.resize()在OpenCV中,img.shape[0]得到的是图片的高,img.shape[1]得到是图片的宽,可是在cv2.resize(img, (dimension[0], dimension[1]))函数里,dimension[0]却是新图片 的宽,dimension[1]是新图片的高,有点奇葩哈...

2018-09-21 14:01:33 11139

原创 cv2.matchTemplate图片尺寸问题

cv2.matchTemplate图片尺寸问题使用cv2.matchTemplate()报错问题:使用cv2.matchTemplate()报错问题:出现如下错误:cv2.error: OpenCV(3.4.3) C:\projects\opencv-python\opencv\modules\imgproc\src\templmatch.cpp:1107: error: (-215:Ass...

2018-09-21 11:05:09 5522 9

原创 机器学习优化算法之梯度下降

机器学习优化算法之梯度下降1、梯度下降梯度下降是一种非常通用的优化算法,它能够很好地解决一系列问题。梯度下降的整体思路是通过的迭代来逐渐调整参数使得损失函数达到最小值。假设你迷失在了大山中,你只能感受到自己脚下的坡度。为了最快到达山底,一个最好的方法就是沿着坡度最陡的地方下山。这其实就是梯度下降所做的:它计算误差函数关于参数向量的局部梯度,同时它沿着梯度下降的方向进行下一次迭代。当...

2018-07-23 10:07:41 727

原创 使用Scikit-learn实现分类(MNIST)

这是我学习hands on ml with sklearn and tf 这本书做的笔记,这是第三章MNIST 在本章当中,我们将会使用 MNIST 这个数据集,它有着 70000 张规格较小的手写数字图片,由美国的高中生和美国人口调查局的职员手写而成。这相当于机器学习当中的“Hello World”,人们无论什么时候提出一个新的分类算法,都想知道该算法在这个数据集上的表现如何。机器学习的初...

2018-07-14 21:26:38 14966 3

原创 Tensorflow实现K近邻分类器

Tensorflow实现K近邻分类器1、K近邻分类模型基本原理首先,存在一个样本数据集合,也称作训练样本集,井且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系。输人没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的分类标签。 一般来说,我们只选择样本数据集中前k个最相似的数据,这就是K近邻算法中...

2018-07-13 21:13:13 845

原创 完整的机器学习项目流程

这是我学习hands on ml with sklearn and tf 这本书做的笔记,这是第二章该笔记是‘一个完整的机器学习项目’,具体的是预测房价的中位数,包括:获取数据、发现并可视化数据,发现规律、为机器学习算法准备数据、选择模型,进行训练、微调模型、给出解决方案和部署、监控、维护系统。接下来是具体的代码。1、下载数据#俗话说,巧妇难为无米之炊,机器学习就是从大量数据中...

2018-07-09 16:49:08 15321 6

原创 Tensorflow之基本操作及hello world

Tensorflow之基本操作及hello world1、综述TensorFlow 是一个编程系统, 使用图来表示计算任务. 图中的节点被称之为 op (operation 的缩写). 一个 op 获得 0 个或多个 Tensor, 执行计算, 产生 0 个或多个 Tensor. 每个 Tensor 是一个类型化的多维数组. 例如, 你可以将一小组图像集表示为一个四维浮点数数组, 这四...

2018-07-09 16:09:34 7121

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除