自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 kaggle——全球小麦检测

全球小麦检测使用图像处理来检测小麦头https://www.kaggle.com/c/global-wheat-detection导入依赖的库import pandas as pdimport numpy as npfrom sklearn.model_selection import StratifiedKFoldimport albumentations as Afrom albumentations.pytorch.transforms import ToTensorV2import

2020-08-04 23:12:50 1346 1

原创 #Datawhale_NLP Task5 基于深度学习的文本分类2

文本表示方法Parts3word2Vec模型语言模型+训练算法自然语言处理最细的粒度是词语,词语是人类的抽象总结,是一种符号,对计算机而言是无法识别的。因此,要先把词语表示成可以让计算机识别并处理的数字或向量,这个过程叫做词嵌入(word Embedding)方法。word2Vec模型 语言模型 CBOW:预测目标单词 SG:预测上下文训练算法 Hierachical Softmax Negtive Sampling基本思想word2vec模型背后的基本思想是出现在上下文环境里的词进行预测

2020-07-31 23:52:58 147

原创 基于深度学习的文本分类

import pandas as pdfrom sklearn.metrics import f1_scoretrain_df = pd.read_csv(’…/input/train_set.csv’, sep=’\t’, nrows=15000)train_df[‘label_ft’] = ‘label’ + train_df[‘label’].astype(str)train_df[[‘text’,‘label_ft’]].iloc[:-5000].to_csv(‘train.csv’, in

2020-07-28 09:10:34 200

原创 NLP入门之新闻文本分类竞赛——task3

一 文本数字化——向量空间模型1.什么是One-Hot编码?​ One-Hot编码,又称为一位有效编码,主要是采用N位状态寄存器来对N个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候只有一位有效。One-Hot编码是分类变量作为二进制向量的表示。这首先要求将分类值映射到整数值。然后,每个整数值被表示为二进制向量,除了整数的索引之外,它都是零值,它被标记为1.One-Hot表示方法示例如下“”"句⼦1:我 爱 北 京 天 安 ⻔句⼦2:我 喜 欢 上 海{‘我’: 1, ‘爱’:

2020-07-25 23:25:04 148

原创 NLP新闻数据读取与数据分析

数据读取因为出现全部读取数据会出现memoryerror问题,暂未解决,因此只读取前100行。#数据读取import pandas as pdtrain_df = pd.read_csv(‘F:/学习/DW-NLP/train_set.csv’, sep=’\t’,nrows=100)‘’’这里的read_csv由三部分构成:读取的文件路径,分隔符sep,为每列分割的字符,设置为\t即可;读取行数nrows,为此次读取文件的行数,是数值类型(这里设置100);‘’’print(trai

2020-07-22 21:55:02 270

原创 Python—变量,运算符,数据类型及运算

学习内容;1.变量,运算符与数据类型注释运算符变量和赋值数据类型转换print()函数2.变量类型转换使用int(),float(),str(),chr(),ord()进行类型转换bool(X) X为数据类型时,只要值不为0,则为True。X为容器类型:集合、元组、列表、字典时,只要不为空,则为True利用type()和isinstance(object, class)来判断变量类型,isinstance更佳,因为承认父类继承关系3.运算符运算符描述[] [:]

2020-07-21 15:40:09 108

原创 NLP文本挖掘

NLP天池新闻文本分类—赛题目录: 赛题理解 赛题数据 学习目标 赛题思路赛题理解赛题的名称:零基础入门NLP之新闻文本类赛题的任务:以NLP为背景,对新闻文本进行分类,及处理一个典型的字符识别问题赛题目标:通过这道赛题可以引导大家走入自然语言处理的世界,带大家接触NLP的预处理、模型构建和模型训练等知识点。赛题数据赛题以匿名处理后的新闻数据为数据,数据集报名后可见并可下载。赛题数据为新闻文本,并按照字符

2020-07-20 15:59:04 456

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除