4 一位不愿透露姓名的群众

尚未进行身份认证

我要认证

暂无相关简介

等级
TA的排名 6w+

Word统一为中文符号或英文符号

Word必备工具箱下载链接:https://www.cr173.com/soft/29795.html

2020-07-31 17:24:58

Word一栏两栏

标题摘要为一栏,正文为两栏a.原始文件为两栏文件(1)光标在正文最开始,插入连续的分节符(布局-分隔符-分节符-连续)(2)光标移至标题摘要部分,选择栏为一栏b. 原始文件为一栏文件(1)同a(1)在标题摘要和正文间插入连续分节符(2)光标移至正文部分,选择栏为两栏正文中的某一部分为一栏,其余还是两栏(1)在某一部分开始,结束地方分别加入连续分节符(2)光标移至某一部分内,选择栏为一栏...

2020-07-21 15:02:21

贪心学院—自然语言处理—词向量的总结

词向量的总结个人整理笔记,方便复习,若侵权,请联系。附贪心学院课程链接: https://www.greedyai.com/courseinfor/105

2020-07-03 10:00:50

贪心学院—自然语言处理—字符向量

字符向量字符向量理解适用情况字符向量理解字符向量的出现是为了解决在NLP中未登录词(out of vocabulary)。subword主要思想是将已有的分词自定义的字符大小将一个分词再细分为几个字符,将一个词向量转换为该分词字符向量的表示。深入理解NLP Subword算法:BPE、WordPiece、ULM上图设置的字符大小为4(词向量中4个字符表示一行),而一个词的词向量是由它所分的字符向量表示。再通过skip-gram模型求其概率。适用情况具有某些形态特征的语言(如英语的ing/

2020-07-03 09:59:24

贪心学院—自然语言处理—评估词向量

使用上述方法替代目标函数后Negative Sampling:正样本(文本中出现的组合)是一定的,负样本(文本中为出现的组合)较多,该方法的思想在于:计算时不使用全部的负样本而是随机采样,采样个数可自己设置。下图为采样个数设为2的情况:在确定好样本后,进行梯度下降更新。Skip-Gram model with SGD (skip-gram模型使用梯度下降的大致过程)评估词向量:TSNE对训练得到的词向量降维到二维空间进行观察;与已有的数据进行相似度对比;类比(analogy):wom

2020-07-02 23:58:45

贪心学院—自然语言处理—分布式向量表示

分布式向量分布式Word2Vec分布式相当于不同分词对结果的贡献程度。Word2Vec[NLP] 秒懂词向量Word2vec的本质重点:当模型训练完后,最后得到的、是神经网络的权重,比如现在输入一个 x 的 one-hot encoder: [1,0,0,…,0],对应输入的某个分词,则在输入层到隐含层的权重里,只有对应 1 这个位置的权重被激活,这些权重的个数,跟隐含层节点数是一致的,从而这些权重组成一个向量 V 来表示x,而因为每个分词的 one-hot encoder 里面 1 的位置是不同

2020-07-02 23:56:22

贪心学院—自然语言处理—分词原理

分词原理前向最大匹配(forward-max matching)后向最大匹配(backward-max matching)维特比算法(viterbi algorithm)前向最大匹配(forward-max matching)根据自定义的max_length来对文本进行分词及判断。从前开始匹配。后向最大匹配(backward-max matching)从后开始匹配。缺点:未考虑语义信息效率基于max_length维特比算法(viterbi algorithm)百度百科解释。考虑语义,将

2020-07-02 22:29:29

贪心学院—自然语言处理—基础介绍

基础介绍自然语言处理(natural language processing)NLP的维度NLP项目的实验流程自然语言处理(natural language processing)NLP=NLU(nature language understanding)+NLG(nature language generate)即自然语言处理是先理解自然语言,然后根据理解生成回复目前领域面临的问题:一词多义(ambiguity)NLP的维度由底层到高层的过程:声音:最底层的形式单词(morphology)

2020-07-02 16:11:11

贪心学院—自然语言处理—总结

贪心学院—自然语言处理—基础介绍更新中…

2020-07-02 15:26:48

贪心学院—自然语言处理—向量表示

基础知识1. 文本向量的表示one-hot编码表示(向量长度=词典大小)Boolean Representation:未出现记为0,出现记为1.Count-based Representation:未出现记为0,出现记出现的次数.举例:TF-IDF表示TFIDF(w)=TF(d,w)∗IDF(w)TFIDF\left( w \right) =TF\left( d,w \right) *IDF\left( w \right) TFIDF(w)=TF(d,w)∗IDF(w)TF

2020-06-30 19:22:29

自然语言处理—向量表示

目录将分词进行向量化的表示独热表示(one-hot representation)词空间模型(word space model)1.基于矩阵的分布表示2.基于聚类的分布方法3.基于神经网络的分布方法语言模型常用模型:将分词进行向量化的表示独热表示(one-hot representation)仅符号化词,不包含任何语义信息。词空间模型(word space model)用于词义消歧。目前被直接成为分布表示(distributional representation)<二十世纪90年代&gt

2020-06-30 19:20:06

贪心学院—自然语言处理—n元元组

假设:一个文档的分词w1w_1w1​,w2w_2w2​,w3w_3w3​,…,wnw_nwn​.unigram(一元元组):句子中每个分词都是独立的.将每个分词的概率直接相乘即可.p(w)=p(w1)∗p(w2)∗p(w3)...∗p(wn)p\left( w \right) =p\left( w_1 \right) *p\left( w_2 \right) *p\left( w_3 \right) ...*p\left( w_n \right)p(w)=p(w1​)∗p(w2​)∗p(w3​).

2020-06-30 19:15:17

R绘制 UpSet图及参数设置

参考链接:R语言之可视化④韦恩图upsetR在链接代码中添加 order.by = "freq"可降序排列。比较符合个人审美 的参数设置参数解释:

2020-06-27 11:58:04

软件著作权流程及所需材料

登录 中国版权保护中心http://www.ccopyright.com.cn/ 先进行注册 IE浏览器 不是Microsoft Edge登录点击 我要登记-R11.计算机软件著作权登记申请 进行申请表的填写注意: 浏览器-设置-兼容性视图添加将该网站填完保存,将申请表直接打印或打印为pdf保存,在 我的登记可看到相关信息准备一下材料a. 上述的申请表,需要填写文档页数及签字b. 程序的源码,包括源码的前30页和后30页。若代码不足60页,要提供全部源..

2020-06-11 18:07:19

github突然访问不了的解决方法

github突然访问不了的解决方法附加:查网页的ip地址hosts文件是Windows系统中一个负责IP地址与域名快递解析的文件,以ASCLL格式保存。计算机在键入域名(比如www.baidu.com)的时候,首先会去看看hosts文件汇总有没有关于此域名IP地址的记录。如果有,就直接登陆该网站;如果没有再查询DNS服务器。...

2020-06-10 09:39:08

名词性的简单解释

帕累托最优(Pareto Optimality):固有资源下,不使任何人变坏的前提下,使至少一个人变好。

2020-06-10 07:55:00

数据挖掘与python实践测验与作业 mooc

数据挖掘与python实践李爱华 、孟凡 、宿洁 、贾传亮 、井帅视频链接第一单元 导言第二单元 认识数据第三单元 数据预处理第四单元 关联规则挖掘第五单元 分类第六单元 数值预测第七单元 聚类分析第八单元 复杂数据的挖掘...

2020-06-07 08:33:53

第八单元 复杂数据的挖掘

第八单元 复杂数据的挖掘下列属于异质网络的是( )A.合著者网络B.朋友网络C.在线医疗网络D.网页网络机动车辆管理者把GPS安装在汽车上,以便更好地监管和引导车辆,所记录的数据属于( )A.时空数据B.Web数据C.空间数据D.物联网系统数据典型的文本挖掘任务包括( )A.文本分类B.文本聚类C.以上都是D.观点分析( )是指大量流入系统、动态变化的、可能无限的,并且包含多维特征的数据。A.流数据B.符号数据C.序列数据D.文本数据

2020-06-07 08:29:58

第七单元 聚类分析

第七单元 聚类分析通过代码”from sklearn.cluster import KMeans”引入Kmenas模块,生成模型对象“kmeans = KMeans(n_clusters=2)”后,对于数据X训练时要调用的方法是()。A.kmeans.fit()B.kmaens.fit()C.kmaens.train()D.kmeans.train()通过代码”from sklearn.cluster import KMeans”引入Kmenas模块后,生成模型对象“kmeans = K

2020-06-07 08:16:51

第六单元 数值预测

第六单元 数值预测通过代码”from sklearn import linear_model”引入线性模型模块,并通过代码“reg = linear_model.LinearRegression()”构造回归器对象,在训练后做预测时要调用的方法是( )。A.reg.outlook()B.reg.predict()C.reg.forecast()D.reg.guess()利用“linear_model.LinearRegression()”训练模型时调用.fit()方法需要传递的第一个参数

2020-06-07 08:00:09

查看更多

勋章 我的勋章
  • 签到新秀
    签到新秀
    累计签到获取,不积跬步,无以至千里,继续坚持!
  • 阅读者勋章Lv2
    阅读者勋章Lv2
    授予在CSDN APP累计阅读博文达到7天的你,是你的坚持与努力,使你超越了昨天的自己。
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv4
    勤写标兵Lv4
    授予每个自然周发布9篇以上(包括9篇)原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。
  • 学习力
    学习力
    《原力计划【第二季】》第一期主题勋章 ,第一期活动已经结束啦,小伙伴们可以去参加第二期打卡挑战活动获取更多勋章哦。
  • 原力新人
    原力新人
    在《原力计划【第二季】》打卡挑战活动中,成功参与本活动并发布一篇原创文章的博主,即可获得此勋章。
  • 分享精英
    分享精英
    成功上传11个资源即可获取