自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

SinGaln的博客

人工智障、机器瞎蒙、深度乱学、NLP瞎搞工程师!

  • 博客(83)
  • 资源 (9)
  • 收藏
  • 关注

原创 华为NEZHA预训练模型中的Relative Position与self_attention详解

文章目录前言前言最近读了一下华为NAZHA预训练模型,该模型的主要创新之处在于在Transformer阶段加入了Relative Position Embedding(相对位置编码),具体的是在Q*V计算得到的attention_scores后加入了Key的Relative Position,在计算得到的context 也加入了Value的Relative Position,详情请看代码。。小编已经对这部分代码进行了注释,主要注释了各个阶段的维度变化,这样对于小白来说代码读起来比较轻松。直接上代.

2021-04-25 14:57:07 1098

原创 利用GPT2训练中文闲聊模型

利用GPT2模型来做一个小说生成器最近看了一下GPT2模型,看到很多博主都用来写诗歌,做问答等,小编突然萌生一个想法,利用GPT2来训练一个小说写作器。各位,敬请期待,等小编的小说上架了,欢迎来看!!文章目录利用GPT2模型来做一个小说生成器前言一、小说数据的构建二、模型搭建总结前言本来想用清源CPM预训练模型来进行的,可惜硬件条件不够,只能用中GPT模型来训练一个专门写小说的模型了。硬件条件好的小伙伴,推荐你们使用CPM来做,看别人做的效果还是不错的,清源CPM的模型有4.47G,小伙伴们量

2021-04-12 17:10:15 3021 2

原创 利用特定领域模型训练Bert模型

目录前言一、预训练模型思路?二、数据处理1.Token总结前言最近刚完成医疗电子病历模型的预训练,经过测试效果还不错,相比于原生Bert在序列标注任务和文本分类任务中提升了大约2个点,让小编也理解了Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks, ACL2020的真谛,真的是这样的!!一、预训练模型思路? 对于预训练模型,我们通常想到的是Bert,Albert,Robeta等,这些预训练模型一次又一次的对各种

2021-04-07 17:55:38 2342 2

原创 transformer的pytorch实现(可以根据自己的需求进行一些小trick)

根据自己对transformer的理解写的一个代码,使用时只需实例化Positional_Encoding类与Encoder类,使用多层Encoder时,可以设置Encoder循环的次数。# coding = utf-8import torchimport numpy as npimport torch.nn as nnimport torch.nn.functional as F# Scaled dot-product attentionclass Scaled_Dot_Product_

2020-12-21 10:04:05 593

原创 pytorch实现的TextCNN(Dataset, DataLoader的使用)

主要是Dataset, DataLoader的使用(1)数据处理,生成Batch和向量化词表import torchimport numpy as npfrom tqdm import tqdmfrom torch.utils.data import Dataset, DataLoadertokenizer = lambda x: [y for y in x]UNK, PAD = '<UNK>', '<PAD>' # 未知字,padding符号def buil

2020-11-24 09:45:34 1113 2

原创 SyntaxError: encoding problem:gbk(UTF-8)错误梳理

如题,今天在完成一个项目后部署到服务器时出现了以上错误,首先报的错误:SyntaxError: Non-UTF-8 code starting with '\xbb' in file: manage.py出现这个错误时,我按照惯例在manage.py文件头加上了#coding=utf-8,之后又报错了,说是utf-8不能编码,接着安装国际惯例把utf-8改为了gbk,还是报错,说gbk不能编码。这样就感觉头大了,这么经典的方法都不能有效?接着重新对代码进行调试,上传到服务器后还是相同的错误!!利用p

2020-09-28 15:32:21 14551 2

原创 Kashgari:一个方便快捷的命名实体识别、文本分类工具包

Kashgari:一个方便快捷的命名实体识别、文本分类工具包最近小编做一个项目时发现的一个很好用的工具包(很适合小白直接上手)Kashgari安装(1)利用pip直接安装,这里为了方便小伙伴更加快捷的安装,使用了清华镜像源。pip install kashgari -i https://pypi.tuna.tsinghua.edu.cn/simple/(2)如果装了Anaconda环境就用conda安装(用pip也行),安装速度慢的话也可以先配置为清华镜像源。conda install kas

2020-09-24 10:09:43 5187 29

原创 Scrapy初探,爬取猫眼网排行100的电影

1.创建scrapy项目scrapy startproject maoyanspider2.写items.py# -*- coding: utf-8 -*-# Define here the models for your scraped items## See documentation in:# https://docs.scrapy.org/en/latest/topics...

2019-08-25 11:57:39 707

原创 强化学习(DQN)Pytorch实现

直接上代码:#coding = utf-8import torchimport torch.optim as optimfrom torch.autograd import Variableimport torch.nn.functional as Fimport torch.nn as nnimport numpy as npimport gym#parametersBa...

2019-07-10 14:35:30 3846 1

原创 基于pytorch的Mnist数据集进行分类(CNN,LSTM)

本项目是以pytorch为框架进行mnist图像分类任务:CNN:#coding = utf-8import torchimport torch.nn as nnfrom torch.autograd import Variableimport torch.utils.data as Dataimport torchvisionimport matplotlib.pyplot as...

2019-07-10 11:31:40 8978 1

原创 AutoEncoder(自编码:以Mnist数据集为例)

本例以pytorch框架进行实验:#coding = utf-8import torchimport torch.nn as nnimport torch.utils.data as Dataimport torchvisionimport torch.optim as optimimport matplotlib.pyplot as pltfrom mpl_toolkits.mp...

2019-07-10 11:26:59 2950 1

原创 Pytorch 初学---神经网络线性回归以及模型保存

import torchimport torch.nn as nnimport torch.optim as opfrom torch.autograd import Variablex = Variable(torch.Tensor([[1,2],[3,4],[4,2]]),requires_grad = False)y = Variable(torch.Tensor([[3],[...

2019-04-30 12:45:37 884

原创 tensorflow分类任务MNIST数据集

import tensorflow as tfimport numpy as npfrom tensorflow.examples.tutorials.mnist import input_dataimport matplotlib.pyplot as pltmnist = input_data.read_data_sets('MNIST_data/',one_hot=True)bat...

2019-04-09 14:11:23 338 1

原创 sklearn决策树算法实现

数据:data.csv 密码:eorj代码:from sklearn.feature_extraction import DictVectorizerimport csvfrom sklearn import preprocessingfrom sklearn import treeimport numpy#读入数据allElectronicsDate = open("D...

2019-03-19 17:42:39 1056

原创 Java递归算法求n的阶乘

import java.util.Scanner;public class DiGui { public static void main(String[] args) { //使用递归算法计算n的阶乘 Scanner intput = new Scanner(System.in); System.out.println("请输入n的值:...

2019-03-14 12:43:55 7519 1

原创 Java中Map的增,删,改,查

package Colection;import java.util.HashMap;import java.util.Map;import java.util.Map.Entry;import java.util.Scanner;import java.util.Set;public class MapTest { //承装学生类型的属性 public Map&lt;...

2019-01-12 15:05:34 1018 1

原创 Java中Set的增,删,改,查

package Colection;import java.util.ArrayList;import java.util.Arrays;import java.util.List;import java.util.Scanner;public class SetTest { public List&lt;Course&gt; coursesToSelect; publi...

2019-01-12 15:02:04 1129

原创 Java中List的增,删,改,查

package Colection;import java.util.ArrayList;import java.util.Arrays;import java.util.Iterator;import java.util.List;//备选课程类public class ListTest { //用于存放备选课程的List public List&lt;Object&gt; co...

2019-01-12 15:00:17 1398

原创 Java中的Math()方法的运用

package basepackageclass;public class MathClass { public static void main(String[] args) { // TODO Auto-generated method stub //math类的基本操作 double a = 12.53; int b = (int)a;//强制类型转化 Syste...

2019-01-10 14:35:19 1711

原创 Java中的Calender()类的应用

package basepackageclass;import java.util.Calendar;import java.util.Date;import java.text.SimpleDateFormat;public class CalendarClass { public static void main(String[] args) { // TODO Auto-ge...

2019-01-10 14:33:45 9745

原创 Java中的Date和SimpleDateFormat

package basepackageclass;import java.text.ParseException;import java.text.SimpleDateFormat;import java.util.Date;public class DateAndSimpleDateFormat { public static void main(String[] args) {...

2019-01-10 14:32:11 302

原创 Java基础类与包装类的转换

package basepackageclass;//装箱:把基本类型转换成包装类,使其具有对象的性质,又可分为手动装箱和自动装箱//拆箱:和装箱相反,把包装类对象转换成基本类型的值,又可分为手动拆箱和自动拆箱public class BaseAndPackageTransfer { public static void main(String[] args) { // 定义doub...

2019-01-10 14:29:32 375

原创 Java的各种内部类

1.普通内部类package learn2;//外部类HelloWorldpublic class NeiBuClass { // 内部类Inner,类Inner在类HelloWorld的内部 public class Inner { //创建一个内部类方法 public void show() { System.out.println("welcome to C...

2018-12-30 19:26:29 164

原创 Java中的方法(无参无返回值;无参带返回;带参无返回;带参带返回)

1.无参无返回值package learn;/*如何定义 Java 中的方法所谓方法,就是用来解决一类问题的代码的有序组合,是一个功能模块。一般情况下,定义一个方法的语法是:访问修饰符 返回值类型 方法名(参数列表){方法体}其中:1、 访问修饰符:方法允许被访问的权限范围, 可以是 public、protected、private 甚至可以省略 ,其中 public...

2018-12-28 19:46:24 14364

原创 Java使用for和foreach对数组进行遍历操作

java使用for和foreach对数组进行遍历操作package learn;import java.util.Arrays;//foreach的语法:for(元素类型 元素变量:遍历对象){执行代码}public class ForeachOperationArray { public static void main(String[] args) { String [] ...

2018-12-28 19:33:10 1224

原创 turtle模块的简单运用

turtle()简单运用:画一个平行四边形并重复偏移import turtle as tdef drawdemo(tom): for i in range(2): tom.forward(100) tom.right(45) tom.forward(100) tom.right(135)def drawflower...

2018-09-23 22:14:54 2904

原创 mxnet实现softmax regression(多层感知机)

'coding = utf-8'import mxnet.ndarray as ndfrom mxnet import gluonimport matplotlib.pyplot as pltfrom mxnet import ndimport sysfrom mxnet import autograddef transform(data,label): return da...

2018-09-15 10:34:19 677

原创 mxnet实现线性回归(linear regression)

采用mxnet实现线性回归算法'coding = utf-8'import mxnet.ndarray as ndfrom mxnet import autogradimport random#数据的生成1000*2num_inputs = 2num_examples = 1000ture_w = [2,-3.4]ture_b = 4.2x = nd.random_no...

2018-09-14 16:41:37 682

原创 mxnet深度学习框架的求导

mxnet深度学习框架是一个很优秀的框架,其中包括了很多的模型。'coding = utf-8'import mxnet.ndarray as ndimport mxnet.autograd as ag#对f = 2 * (x ** 2)求关于x的导数,我们先创建变量x,并赋初值x = nd.array([[1,2],[3,4]])#创建一个矩阵xx.attach_grad()#...

2018-09-14 15:52:05 402

原创 线性回归的小代码(传统计算和梯度下降的计算)

数据集:dataset 密码:fl02 梯度下降的方法对于大数据量的处理十分重要。#coding = 'utf-8'import numpy as npfrom numpy.linalg import inv#求矩阵的逆from numpy import dot#矩阵点乘from numpy import mat#引入矩阵import pandas as pddataset =...

2018-09-14 14:27:54 199

原创 numpy 的简单学习(矩阵的创建,乘法运算,转置,随机生成矩阵的方法)

numpy的一些简单小常识#coding = 'utf-8'import numpy as npa = np.array([2,1,4,6,3])#创建一个数组aprint(a)print('=================================')b = np.zeros((3,4))#创建一个3*4的0元素矩阵print(b)print('==========...

2018-09-14 14:15:54 2956

原创 ValueError: setting an array element with a sequence.错误处理。。。

对于这个错误,看了很多的博客资料。都说数组元素没有对齐,找到相应的列补充元素就行,看了之后心累啊。。。。 小编做自然语言处理,几个G的文本啊,怎么找啊!!!!! 所以,经过我的一番努力,终于找到了解决办法。。。。 就几行代码的事:主要是补全元素import numpy as npvec = []f = open('a.txt', encoding='utf-8')while Tr...

2018-08-31 12:43:27 36049 5

原创 自然语言处理语料

搜狗新闻语料 密码:7grc 百度百科数据 密码:gshk SougouR语料 密码:phwd freebase_mid2name 密码:cafv freebase-FB5M 密码:0imt 69万大词库 密码:fmqf 汉语词库 密码:witn 哈工大LTP models ...

2018-08-26 17:15:12 1745 2

原创 jieba分词,去除停用词并存入txt文本

代码如下,停用词获取点击这里。 密码:cef8# -*- coding: utf-8 -*-import jiebaimport jieba.analyseimport jieba.posseg as psegimport refrom pyltp import NamedEntityRecognizer# jieba.load_userdict('userdict.txt')...

2018-08-26 17:04:29 15626 4

原创 中文繁体字转简体

首先,复制以下代码并命名为langconv.py#!/usr/bin/env python# -*- coding: utf-8 -*-from copy import deepcopyimport retry: import psyco psyco.full()except: passtry: from zh_wiki import zh...

2018-08-26 16:58:25 25674

原创 python编写一个延时小程序!!!!!每隔一秒输出一次

不多说,直接上代码:import timeclass Car(): def __init__(self,make,model,year): self.make = make self.model =model self.year = year self.odometer_read = 230#指定一个默认属性值...

2018-06-12 15:24:59 9572

原创 python编程从入门到实践(课本学习代码(2-6章))

本次上传的代码为2-6章的。用‘.’的标号是课本内的代码,用‘-’的标号是课后习题 2.2message = 'hello python world!'print(message.title())#每个单词首字母大写message = 'hello python crash course world!'print(message.title())mesage = 'hello p...

2018-05-31 10:41:03 691

原创 秒懂百科视频下载

秒懂百科视频下载相信很多小伙伴都有想要下载秒懂百科的视频,可是百度就是不让下载,怎么办呢,这里有一个小方法提供给大家。。。。1.首先,要下载M3U8_Downloader下载器,地址:https://pan.baidu.com/s/1kVK8FQ32.在百度百科里输入你要下载视频的词条,如图所示: 3.按键盘上的f12,打开网页的源码界面,选择network选项后,点击f5刷新后再点击你需要播放的

2018-04-01 17:07:53 35867 5

原创 python入门学习,从 Zero 到 Hero

第一个问题,什么是 Python ?根据 Python 之父 Guido van Rossum 的话,Python 是:一种高级程序语言,其核心设计哲学是代码可读性和语法,能够让程序员用很少的代码来表达自己的想法。对于我来说,学习 Python 的首要原因是,Python 是一种可以优雅编程的语言。它能够简单自然地写出代码和实现我的想法。另一个原因是我们可以将 Python 用在很多地方:数据科学、

2017-12-03 15:53:54 526

转载 鲍捷 | 知识图谱从 0 级到 10 级简化版

0级:掌握正则表达式、SQL、JSON和一门支持if-then-else的高级语言 —— 是的,这些不是知识图谱技术,但是这些可以解决问题。我们要的是解决问题,不是吗?1级:学会ER建模(对,就是数据库里的ER建模),理解实体(Entity)和关系(Relation)的概念。这个可能比你想象得难很多。学会更复杂的SQL,能熟练掌握至少一种主流的关系数据库,至少学会一种语言的数据库操作。2级:学会两

2017-12-03 15:44:36 437

Distant supervision 相关文献

Distant supervision 相关文献 Distant supervision 相关文献

2018-04-16

hownet地名词库

此文件包括了hownet的中的地名词库和一些名词 此文件包括了hownet的中的地名词库和一些名词

2018-04-16

基于图的中文集成实体链接算法_刘峤.

基于图的中文集成实体链接算法_刘峤,是新手入门的必备资料。

2017-11-08

python语料爬虫

做自然语言处理时需要语料来做训练集,利用这个爬虫程序可以很方便的获取语料。

2017-10-31

python爬虫项目集

最为基本的python爬虫项目,适合于初学者学习python爬虫

2017-10-29

Java学习基本代码

最基本的Java学习代码,适合于初学者进一步的了解Java。

2017-10-29

python爬虫框架

最为基本python爬虫框架,适合于初学者学习如何使用python进行爬虫。

2017-10-29

一种高回报的最小空闲时间优先实时调度改进算法

一种高回报的最小空闲时间优先实时调度改进算法,适合初学者。

2017-10-29

刘峤-知识图谱构建技术综述

知识图谱构建技术综述是一篇很好的知识图谱文章,适合于初学者。

2017-10-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除