6 Jack123456Jack

尚未进行身份认证

我要认证

暂无相关简介

等级
TA的排名 63w+

kaggle——全球小麦检测

全球小麦检测使用图像处理来检测小麦头https://www.kaggle.com/c/global-wheat-detection导入依赖的库import pandas as pdimport numpy as npfrom sklearn.model_selection import StratifiedKFoldimport albumentations as Afrom albumentations.pytorch.transforms import ToTensorV2import

2020-08-04 23:12:50

#Datawhale_NLP Task5 基于深度学习的文本分类2

文本表示方法Parts3word2Vec模型语言模型+训练算法自然语言处理最细的粒度是词语,词语是人类的抽象总结,是一种符号,对计算机而言是无法识别的。因此,要先把词语表示成可以让计算机识别并处理的数字或向量,这个过程叫做词嵌入(word Embedding)方法。word2Vec模型 语言模型 CBOW:预测目标单词 SG:预测上下文训练算法 Hierachical Softmax Negtive Sampling基本思想word2vec模型背后的基本思想是出现在上下文环境里的词进行预测

2020-07-31 23:52:58

基于深度学习的文本分类

import pandas as pdfrom sklearn.metrics import f1_scoretrain_df = pd.read_csv(’…/input/train_set.csv’, sep=’\t’, nrows=15000)train_df[‘label_ft’] = ‘label’ + train_df[‘label’].astype(str)train_df[[‘text’,‘label_ft’]].iloc[:-5000].to_csv(‘train.csv’, in

2020-07-28 09:10:34

NLP入门之新闻文本分类竞赛——task3

一 文本数字化——向量空间模型1.什么是One-Hot编码?​ One-Hot编码,又称为一位有效编码,主要是采用N位状态寄存器来对N个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候只有一位有效。One-Hot编码是分类变量作为二进制向量的表示。这首先要求将分类值映射到整数值。然后,每个整数值被表示为二进制向量,除了整数的索引之外,它都是零值,它被标记为1.One-Hot表示方法示例如下“”"句⼦1:我 爱 北 京 天 安 ⻔句⼦2:我 喜 欢 上 海{‘我’: 1, ‘爱’:

2020-07-25 23:25:04

NLP新闻数据读取与数据分析

数据读取因为出现全部读取数据会出现memoryerror问题,暂未解决,因此只读取前100行。#数据读取import pandas as pdtrain_df = pd.read_csv(‘F:/学习/DW-NLP/train_set.csv’, sep=’\t’,nrows=100)‘’’这里的read_csv由三部分构成:读取的文件路径,分隔符sep,为每列分割的字符,设置为\t即可;读取行数nrows,为此次读取文件的行数,是数值类型(这里设置100);‘’’print(trai

2020-07-22 21:55:02

Python—变量,运算符,数据类型及运算

学习内容;1.变量,运算符与数据类型注释运算符变量和赋值数据类型转换print()函数2.变量类型转换使用int(),float(),str(),chr(),ord()进行类型转换bool(X) X为数据类型时,只要值不为0,则为True。X为容器类型:集合、元组、列表、字典时,只要不为空,则为True利用type()和isinstance(object, class)来判断变量类型,isinstance更佳,因为承认父类继承关系3.运算符运算符描述[] [:]

2020-07-21 15:40:09

NLP文本挖掘

NLP天池新闻文本分类—赛题目录: 赛题理解 赛题数据 学习目标 赛题思路赛题理解赛题的名称:零基础入门NLP之新闻文本类赛题的任务:以NLP为背景,对新闻文本进行分类,及处理一个典型的字符识别问题赛题目标:通过这道赛题可以引导大家走入自然语言处理的世界,带大家接触NLP的预处理、模型构建和模型训练等知识点。赛题数据赛题以匿名处理后的新闻数据为数据,数据集报名后可见并可下载。赛题数据为新闻文本,并按照字符

2020-07-20 15:59:04
勋章 我的勋章
  • 勤写标兵Lv2
    勤写标兵Lv2
    授予每个自然周发布4篇到6篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。