5 精神抖擞王大鹏

尚未进行身份认证

我要认证

我与我周旋久,宁做我 已转战知乎——专栏:大鹏的nlp进化之路 https://www.zhihu.com/column/c_1221027352425451520

等级
TA的排名 1w+

NLP基础:HMM

参数与概率计算

2020-03-06 01:32:41

NLP面试题目总结

数据结构与算法相关1. 快速排序算法请实现快速排序算法,自行设计测试用例来说明算法的准确性,算法的时间和空间复杂度是多少?最坏的时间复杂度是多少?2. 归并排序算法请实现归并排序,自行设计测试用例来说明算法的准确性,算法的时间和空间复杂度是多少?最坏的时间复杂度是多少?3. 面对一个具体的问题,倾向于使用归并还是快排,为什么?数学基础机器学习基础自然语言处理...

2020-03-02 22:37:28

探索循环神经网络在构建语言模型中的演化历程

任务说明用周杰伦的歌词数据构建字符级循环神经网络,并用其生成新的歌词。数据集数据集说明数据集中的训练集合采用的是周杰伦十张专辑中的歌词,用此来训练一个语言模型,并用其来生成新的歌词。数据集读取通过with open读取数据集,并将换行符替换成空格。去除换行符时,需要同时去除’\n’和’\r’:with open ('jaychou_lyrics.txt')as f: # 将文件读取...

2020-03-02 00:27:11

NLP基础:枚举法和维特比搭建分词

一. 基于枚举方法搭建中文分词工具使用的数据:中文词库文件(当作词典来用);计算出部分词语的unigram概率;Step1:对于给定的字符串句子,找出所有可能的分割方式...

2020-02-28 23:56:58

Pytorch中torch.Tensor和torch.tensor()以及其他Tensor类型的区别

torch.Tensor()默认是torch.FloatTensor()的简称,创建的为float32位的数据类型;torch.tensor()是对张量数据的拷贝,根据传入data的类型来创建Tensor;其他数据类型,如LongTensor,FloatTensor等,都是创建相对应的数据类型;...

2020-02-13 16:40:10

百面机器学习笔记

第三章 经典算法–支持向量机SVM的第一个问题:对于任意线性可分的两组点,在SVM分类的超平面上的投影都是线性不可分的。证明大概是这样的:首先通过反证法证明,存在一个超平面,使得SVM让所有支持向量在该超平面上的投影依然可分,但是对于可分的这个情况,支持向量却存在更优的超平面,因此不满足于SVM的前提超平面是"最大化的间隔平面"的定义,故证明投影是线性不可分的。接着作者又补充了证明,即刚才...

2019-12-12 21:07:41

Kaggle入门--泰坦尼克号存活率预测(完整流程)

1. 通过热力图的方式来查看缺失的数据sns.heatmap(train.isnull(), yticklabels=False, cbar=False, cmap='viridis')tip:对于有些数据集中可能不是显式的存在缺失值,而是把缺失值替换成了特殊的字符,这种情况的话可以先将特殊字符替换为np.nan,再用isnull()函数。2. 查看离散变量和连续变量的属性# 统计离散变...

2019-12-06 23:41:07

数据分析常用处理方法总结

一. 查看每列的数据结构def print_col_info(dataset): '''print info of every column in dataset: detailed info includes: 1, values 2, value type num''' col_num=dataset.shape[1] for i in ran...

2019-12-04 17:21:47

LeetCode第一阶段(一)【数组篇】

LeetCode 283 Move Zeros给定一个数组nums,写一个函数,将数组中所有的0挪到数组的末尾,而维持其他所有非0元素的相对位置。举例:nums = [0,1,0,3,12],函数运行后的结果为[1,3,12,0,0]程序初始:传入的是原始数组numsclass Solution: def moveZeroes(self, nums: List[int]) -&gt...

2019-09-16 09:56:04

最优化方法问题总结

8月2日:解释梯度下降法和牛顿法原理:梯度下降法:泰勒展开到一次项,忽略二次以上的项,用一次函数来线性代替,最后通过移项来得到迭代式;牛顿法:把函数展开未二次,忽略二次以上的项,用二次函数来近似代替,最后通过对二次的函数求梯度,让梯度为0来得到迭代式;一句话解释下梯度下降及牛顿法:梯度下降法是沿初始点梯度向量的反方向进行迭代,进而得到函数的极值点,参数迭代公式为:xk+1=xk−γ∇f...

2019-08-02 17:32:16

个人Info

2019-08-01 09:35:41

掌握Git工作流(三)--git工作流

实际工作流掌握Git工作流(一)--git基本操作掌握Git工作流(二)--git分支管理掌握Git工作流(三)--git工作流一. 创建仓库gitingnore文件是干吗的,当我们在开发运行.py结尾的文件时,经常会产生一个文件为*.pyc,这个文件对工程没有用,同时我们也不想让git管理这些文件,这时就需要在创建仓库时添加gitinnore,让它对这些文...

2019-07-05 17:13:35

掌握Git工作流(二)--git分支管理

分支管理大纲:分支就相当于是工厂里的流水线,分支之间是互相不会影响的。掌握Git工作流(一)--git基本操作掌握Git工作流(二)--git分支管理掌握Git工作流(三)--git工作流一. git 分支基本操作也可以理解为两条流水线;HEAD是指向当前分支,分支才指向当前的版本。...

2019-07-05 17:09:33

掌握Git工作流(一)--git基本操作

基本操作大纲:掌握Git工作流(一)--git基本操作掌握Git工作流(二)--git分支管理掌握Git工作流(三)--git工作流一. git 简介git 采用分布式系统管理,可以方便的管理某一个目录下的代码二. 安装与配置三. 创建一个版本库新建一个目录 git test ,在git test目录下创...

2019-07-05 16:58:55

关键词提取

一般来说,TF-IDF算法和TextRank算法就可以满足大部分的关键词提取任务。但是在某些场景,基于文档本身的关键词提取还不是非常足够,有些关键词不一定会显式的出现在文档中,对于一些需要表现出文中没有的关键词提取,即叫主题模型。在自然语言理解任务中,我们可以通过一系列的层次来提取含义——从单词、句子、段落,再到文档。在文档层面,理解文本最有效的方式之一就是分析其主题。在文档集合中学习、...

2019-06-30 21:00:12

N-GRAM文本挖掘

N-GRAM介绍:N-Gram是基于一个假设:第n个词出现与前n-1个词相关,而与其他任何词不相关。(隐马尔科夫当中的假设。)整个句子出现的概率就等于各个词出现的概率乘积。各个词的概率可以通过语料中统计计算得到。假设句子T是有词序列w1,w2,w3,…wn组成,用公式表示N-Gram语言模型如下:P(T)=P(w1)∗P(w2∣w1)∗p(w3∣w1w2)∗p(wn∣w1w2w3...)P(...

2019-06-27 17:15:21

tensorflow遇到ImportError: Could not find 'cudart64_100.dll'错误解决

在安装tensorflow的时候,当用ipython使用importtensorflow出现的错误ImportError:Couldnotfind'cudart64_100.dll'简答:仔细分析错误的类型、原因搞清自己的tensorflow以及CUDA版本换用对应版本进行解决一.错误类型原因...

2019-06-21 21:37:55

NLP基础-命名实体识别(一)基于规则

命名实体识别命名实体识别(Named Entity Recognition,简称NER)与自动分词,词性标注一样,命名实体识别也是自然语言处理中的一个基础任务,其目的是识别语料中的人名、地名、组织机构名等命名实体。基于规则的通常有两种方法第一是基于正则表达式的匹配,第二可以通过StanfordCoreNLPStanfordCoreNLP方法:ner.py: 主调用文件,用来读取文本#...

2019-06-13 11:19:11

Stanford CoreNLP配置常见错误总结

参考链接How to setup and use NLTK

2019-06-13 08:29:07

NLP基础-词性标注应用去除停用词

词性标注词性标注的应用就是通过词性来进行过滤,从而得到更有效的文本。方法是首先自定义字典–确定不想要的词性,第二步是把文件读进来后,先进行分词,根据分词的词语的词性对照词典中的词进行排除并重新拼接组合。关键字提取...

2019-06-07 21:56:40

查看更多

勋章 我的勋章
  • 新人勋章
    新人勋章
    用户发布第一条blink获赞超过3个即可获得
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。