Olivia_奥-CSDN博客

原创 Task5 作者信息关联

任务说明学习主题：作者关联（数据建模任务），对论文作者关系进行建模，统计最常出现的作者关系；学习内容：构建作者关系图，挖掘作者关系学习成果：论文作者知识图谱、图关系挖掘数据处理步骤将作者列表进行处理，并完成统计。具体步骤如下：将论文第一作者与其他作者（论文非第一作者）构建图；使用图算法统计图中作者与其他作者的联系；社交网络分析图是复杂网络研究中的一个重要概念。Graph是用点和线来刻画离散事物集合中的每对事物间以某种方式相联系的数学模型。Graph在现实世界中随处可见，如交通运输图

2021-01-24 21:22:45 80 1

原创 Task4论文种类分类

任务说明学习主题：论文分类（数据建模任务），利用已有数据建模，对新论文进行类别分类；学习内容：使用论文标题完成类别分类；学习成果：学会文本分类的基本方法、TF-IDF等；数据处理步骤在原始arxiv论文中论文都有对应的类别，而论文类别是作者填写的。在本次任务中我们可以借助论文的标题和摘要完成：对论文标题和摘要进行处理；对论文类别进行处理；构建文本分类模型；数据预处理# 导入所需的packageimport seaborn as sns #用于画图from bs4 import

2021-01-22 21:11:23 70

原创 Task3 论文代码统计

任务说明任务主题：论文代码统计，统计所有论文出现代码的相关统计；任务内容：使用正则表达式统计代码连接、页数和图表数据；任务成果：学习正则表达式统计；数据处理步骤在原始arxiv数据集中作者经常会在论文的comments或abstract字段中给出具体的代码链接，所以我们需要从这些字段里面找出代码的链接。确定数据出现的位置；使用正则表达式完成匹配；完成相关的统计；正则表达式正则表达式(regular expression)描述了一种字符串匹配的模式（pattern），可以用来检查一

2021-01-18 19:25:25 126

原创论文作者统计

任务说明**任务主题：**论文作者统计，统计所有论文作者出现评率Top10的姓名；**任务内容：**论文作者的统计、使用 Pandas 读取数据并使用字符串操作；**任务成果：**学习 Pandas 的字符串操作；数据处理步骤在原始arxiv数据集中论文作者authors字段是一个字符串格式，其中每个作者使用逗号进行分隔分，所以我们我们首先需要完成以下步骤：使用逗号对作者进行切分；剔除单个作者中非常规的字符；数据读取# 导入所需的packageimport seaborn as sns

2021-01-15 22:35:43 130

原创 Datawhale-学术前沿趋势分析-Task01

任务说明任务主题：论文数量统计，即统计2019年全年计算机各个方向论文数量；任务内容：赛题的理解、使用 Pandas 读取数据并进行统计；任务成果：学习 Pandas 的基础操作。数据集介绍数据集来源：数据集来源.数据集的格式如下：id：arXiv ID，可用于访问论文；submitter：论文提交者；authors：论文作者；title：论文标题；comments：论文页数和图表等其他信息；journal-ref：论文发表的期刊的信息；doi：数字对象标识符，https://ww

2021-01-14 09:59:19 74

原创 task6 基于深度学习的文本分类

基于Bert的文本分类Bert Pretrain预训练过程使用了Google基于Tensorflow发布的BERT源代码。首先从原始文本中创建训练数据，由于本次比赛的数据都是ID，这里重新建立了词表，并且建立了基于空格的分词器。class WhitespaceTokenizer(object): “”“WhitespaceTokenizer with vocab.”"" def init(self, vocab_file): self.vocab = load_vocab(voc

2020-08-04 23:47:32 104

原创 Task5 基于深度学习的文本分类

什么是 Word2vec?在聊 Word2vec 之前，先聊聊 NLP (自然语言处理)。NLP 里面，最细粒度的是词语，词语组成句子，句子再组成段落、篇章、文档。所以处理 NLP 的问题，首先就要拿词语开刀。举个简单例子，判断一个词的词性，是动词还是名词。用机器学习的思路，我们有一系列样本(x,y)，这里 x 是词语，y 是它们的词性，我们要构建 f(x)->y 的映射，但这里的数学模型 f（比如神经网络、SVM）只接受数值型输入，而 NLP 里的词语，是人类的抽象总结，是符号形式的（比如中文

2020-07-31 23:16:34 137

原创 Task4 基于深度学习的文本分类1

FastText是一种典型的深度学习词向量的表示方法，它非常简单通过Embedding层将单词映射到稠密空间，然后将句子中所有的单词在Embedding空间中进行平均，进而完成分类操作。所以FastText是一个三层的神经网络，输入层、隐含层和输出层。FastText在文本分类任务上，是优于TF-IDF的：•FastText用单词的Embedding叠加获得的文档向量，将相似的句子分为一类•FastText学习到的Embedding空间维度比较低，可以快速进行训练fastText 安装pip i

2020-07-28 08:48:45 96

原创零基础入门NLP赛事 - Task3 基于机器学习的文本分类

方法一：CountVectors + RidgeClassifier# Count Vectors + RidgeClassifierimport pandas as pdfrom sklearn.feature_extraction.text import CountVectorizerfrom sklearn.linear_model import RidgeClassifierfrom sklearn.metrics import f1_scoretrain_df = pd.read

2020-07-25 18:23:21 144

原创 Datawhale零基础入门NLP赛事 - Task2 数据读取与数据分析

目的：1.学习使用Pandas读取数据2.分析赛题数据的分布规律读取数据import pandas as pdimport matplotlib as pltimport matplotlib.pyplot as pltfrom collections import Counter#使用pandas从csv文件中读取数据 sep:每列分割的字符 nrows：读取的行数train_df= pd.read_csv('D:\PycharmProjects\\nlp_start\data\\t

2020-07-22 21:53:58 128

转载 Datawhale零基础入门NLP赛事 - Task1 赛题理解

赛题名称：零基础入门NLP之新闻文本分类赛题任务：对新闻文本进行分类。赛题数据：赛题数据为新闻文本，并按照字符级别进行匿名处理。整合划分出14个候选分类类别：财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐的文本数据。赛题数据构成：训练集20w条样本，测试集A包括5w条样本，测试集B包括5w条样本。为了预防选手人工标注测试集的情况，将比赛数据的文本按照字符级别进行了匿名处理。数据标签Image在数据集中标签的对应的关系如下：{‘科技’: 0, ‘股票’: 1

2020-07-21 15:21:28 136

原创解决libsvm wrong input format at line 问题

matlab环境，在读取数据时出现如下报错信息提示在第87行出现错误的输入，打开文件，发现第87行出现异常值：-1.#IND解决方法在将trainingFeatures写入前用fillmissing()给其填充缺失值

2020-06-06 19:04:14 420

原创零基础入门CV之街道字符识别 Task5 模型集成

集成学习方法集成学习（Emsemble Learning）是结合几个模型的元算法（meta-algorithm），在机器学习中的集成学习可以在一定程度上提高预测精度。常用方法有Bagging,boosting,stacking,这些集成学习方法与具体验证集划分联系紧密。这三种方法以及他们的效果分别是：Bagging:减少 varianceboosting: 减少 biasstacking:增强预测效果1.baggingbagging的最基本的思想是通过分别训练几个不同分类器，最后对测试的样本，每

2020-06-02 23:16:43 118

原创零基础入门CV之街道字符识别 Task4 模型训练与验证

训练集：用于模型拟合的数据样本。验证集：是模型训练过程中单独留出的样本集，它可以用于调整模型的超参数和用于对模型的能力进行初步评估。在神经网络中，我们用验证数据集去寻找最优的网络深度（number of hidden layers)，或者决定反向传播算法的停止点或者在神经网络中选择隐藏层神经元的数量；在普通的机器学习中常用的交叉验证（Cross Validation) 就是把训练数据集本身再细分成不同的验证数据集去训练模型。测试集：用来评估模最终模型的泛化能力。但不能作为调参、选择特征等算法相关的

2020-05-30 23:35:22 277

翻译零基础入门CV之街道字符识别 Task3 字符识别模型

CNN卷积神经网络（简称CNN）是一类特殊的人工神经网络，是深度学习中重要的一个分支。CNN在很多领域都表现优异，精度和速度比传统计算学习算法高很多。特别是在计算机视觉领域，CNN是解决图像分类、图像检索、物体检测和语义分割的主流模型。CNN每一层由众多的卷积核组成，每个卷积核对输入的像素进行卷积操作，得到下一次的输入。随着网络层的增加卷积核会逐渐扩大感受野，并缩减图像的尺寸。CNN是一种层次模型，输入的是原始的像素数据。CNN通过卷积（convolution）、池化（pooling）、非线性激活函数

2020-05-26 19:50:29 222

cclaree的博客