3 数说

尚未进行身份认证

我要认证

青春有梦/勇敢前行/永不言弃

等级
TA的排名 12w+

数据分析--MySQL优化

前言查询缓存1.可以使用如下的语句来判断MySQL是否开启了查询缓存功能:show variables like '%query_cache%';注:启用MySQL查询缓存能够极大地减低数据库server的CPU使用率,实际使用情况是:开启前CPU使用率120%左右,开启后降到了10%。2.如果想查看MySQL是否是读取的缓存,可以使用如下的语句:show status like...

2020-04-04 18:09:35

自然语言处理(NLP)语义分析--词义消歧(WSD)

语义分析–词义消歧(WSD)​ 对于不同的语言单位,语义分析的任务各不相同。在词的层次上,语义分析的基本任务是进行词义消歧(WSD),在句子层面上是语义角色标注(SRL),在篇章层面上是指代消歧,也称共指消解。一、词义消歧简介词义消岐,英文名称为Word Sense Disambiguation,英语缩写为WSD,是自然语言处理(NLP)中一个非常有趣的基本任务。  那么,什...

2019-07-18 20:05:02

自然语言处理(NLP)语义分析--文档主题

语义分析–文档主题一、概要​ 两篇文档是否相关往往不只决定于字面上的词语重复,还取决于文字背后的语义关联。对语义关联的挖掘,可以让搜索更加智能化。本文着重介绍了一个语义挖掘的利器:主题模型。主题模型是对文字隐含主题进行建模的方法。它克服了传统信息检索中文档相似度计算方法的缺点,并且能够在海量互联网数据中自动寻找出文字间的语义主题。技术领域:搜索技术、自然语言处理假设有两个句子...

2019-07-14 18:59:05

自然语言处理(NLP)语义分析--文本相似度

文本相似度及案例​ 在做自然语言处理的过程中,我们经常会遇到需要找出相似语句的场景,或者找出句子的近似表达,这时候就需要把类似的句子归到一起,这里面就涉及到句子相似度计算的问题。基本方法句子相似度计算一共归类了以下几种方法:编辑距离计算杰卡德系数计算TF 计算TF-IDF 计算Word2Vec 计算下面来一一了解一下这几种算法的原理和 Python 实现。编辑...

2019-06-30 16:48:25

自然语言处理(NLP)语义分析--文本分类、情感分析、意图识别

第一部分:文本分类训练文本分类器过程见下图:文本分类问题: 给定文档p(可能含有标题t),将文档分类为n个类别中的一个或多个文本分类应用: 常见的有垃圾邮件识别,情感分析文本分类方向: 主要有二分类,多分类,多标签分类文本分类方法: 传统机器学习方法(贝叶斯,svm等),深度学习方法(fastText,TextCNN等)文本分类的处理大致分为文本预处理、文本特征提取、分类模型构建等。...

2019-06-21 10:02:12

自然语言处理(NLP)词法分析--词性标注原理与工具

词法分析–词性标注原理与工具词性标注原理词性(part-of-speech)是词汇基本的语法属性,通常也称为词性。词性标注(part-of-speech tagging),又称为词类标注或者简称标注,是指为分词结果中的每个单词标注一个正确的词性的程序,也即确定每个词是名词、动词、形容词或者其他词性的过程。词性标注的原因,很多NLP任务的预处理步骤,如句法分析,经过词性标注后的文...

2019-06-18 20:11:06

自然语言处理(NLP)词法分析--文本关键词提取

一、什么是关键词提取​ 关键词提取就是从文本里面把跟内容意义最相关的一些词语抽取出来。这个可以追溯到文献检索初期,关键词是为了文献标引工作,从报告、论文中选取出来用以表示全文主题内容信息的单词或术语,在现在的报告和论文中,我们依然可以看到关键词这一项。​ 关键词在文献检索、自动文摘、文本聚类/分类等方面有着重要的应用,它不仅是进行这些工作不可或缺的基础和前提,也是互联网上信...

2019-06-16 17:26:57

自然语言处理(NLP)词法分析--中文命名实体识别(NER)与工具

一、什么事命名实体识别​ 命名实体识别(Named Entity Recognition,简称NER),又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。通常包括两部分:(1)实体边界识别;(2) 确定实体类别(人名、地名、机构名或其他)。如在“小明在夏威夷度假。”中,命名实体有:“小明——人名”、“夏威夷——地名”。​ 命名...

2019-06-15 21:42:31

自然语言处理(NLP)词法分析--中文分词原理与分词器详解

分词原理​ 中文分词,即 Chinese Word Segmentation,即将一个汉字序列进行切分,得到一个个单独的词。分词效果好不好对信息检索、实验结果还是有很大影响的,同时分词的背后其实是涉及各种各样的算法的。​ 中文分词与英文分词有很大的不同,对英文而言,一个单词就是一个词,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,需要人为切分。根据其特点,...

2019-06-14 12:38:06

NLP自然语言(NLP)-- 知识结构

​ 此处按照分析内容特征划分为词法分析、语义分析、语句分析,也可以根据分析对象粒度进行划分为词汇级、句子级、篇章级。词法分析1、中文分词2、词性标注3、命名实体识别4、关键词提取:TF-IDF、textRank、LDA语法分析1、句子结构分析2、依存关系分析3、文档结构分析语义分析1、词义消歧2、意图识别3、语句变换 (1)同义词变换(2)语义归一...

2019-06-13 19:37:28

人工智能领域顶级期刊

参考:CCF的推荐: https://baijiahao.baidu.com/s?id=1631954450548145944&wfr=spider&for=pc人工智能:1、Artificial Intelligence2、Machine Learning3、IEEE Trans on Pattern Analysis and Machine Intelligence4...

2019-06-13 13:54:14

深度学习(DL)-- BRNN双向循环神经网络算法详解

1、结构    RNN和LSTM都只能依据之前时刻的时序信息来预测下一时刻的输出,但在有些问题中,当前时刻的输出不仅和之前的状态有关,还可能和未来的状态有关系。比如预测一句话中缺失的单词不仅需要根据前文来判断,还需要考虑它后面的内容,真正做到基于上下文判断。BRNN有两个RNN上下叠加在一起组成的,输出由这两个RNN的状态共同决定。BRNN结构图如图所示:            可以由下列...

2019-06-12 22:43:25

深度学习(DL)-- LSTM长短时记忆网络算法详解

五、LSTM(Long Short-Term Memory,长短时记忆网络))1、长期依赖(Long-Term Dependencies)问题    RNN 的关键点之一就是他们可以用来连接先前的信息到当前的任务上,例如使用过去的视频段来推测对当前段的理解。如果 RNN 可以做到这个,他们就变得非常有用。但是真的可以么?答案是,还有很多依赖因素。    有时候,我们仅仅需要知道先前的信息来执...

2019-06-12 13:56:14

python读取CSV、EXCEL、TXT、MySQ数据文件的方式--解析为DataFrame

读取csv、excel、HTML中表格、文本中数据等数据可借助pandas;读取mysql的数据可借助pymysql。读取csv文件数据:import pandas as pd#---导入csv文件----data=pd.read_csv("...path.../data.csv")读取excel文件数据:import pandas as pd#---导入excel文件----d...

2019-06-11 20:42:13

深度学习(DL)-- RNN循环神经网络算法详解

1、什么是RNN    传统的神经网络是层与层之间是全连接的,但是每层之间的神经元是没有连接的(其实是假设各个数据之间是独立的)。这种结构不善于处理序列化的问题。比如要预测句子中的下一个单词是什么,这往往与前面的单词有很大的关联,因为句子里面的单词并不是独立的。    RNN之所以称为循环神经网路,即一个序列当前的输出与前面的输出也有关。具体的表现形式为网络会对前面的信息进行记忆并应用于当前输...

2019-06-10 21:45:55

深度学习(DL)-- CNN卷积神经网络算法详解

    卷积神经网络与普通神经网络的区别在于,卷积神经网络包含了一个由卷积层和**子采样层(池化层)**构成的特征抽取器。    在卷积神经网络的卷积层中,一个神经元只与部分邻层神经元连接。在CNN的一个卷积层中,通常包含若干个特征平面(featureMap),每个特征平面由一些矩形排列的的神经元组成,同一特征平面的神经元共享权值,这里共享的权值就是卷积核。卷积核一般以随机小数矩阵的形式初始化,...

2019-06-09 08:40:05

深度学习(DL)--DNN的正则化详解

DNN的正则化    和普通的机器学习算法一样,DNN也会遇到过拟合的问题,需要考虑泛化,这里我们就对DNN的正则化方法做一个总结。(1)DNN的L1&L2正则化    L1正则化和L2正则化原理类似,这里重点讲述DNN的L2正则化。而DNN的L2正则化通常的做法是只针对与线性系数矩阵W,而不针对偏倚系数b。利用机器学习的知识,很容易可以写出DNN的L2正则化的损失函数。    假...

2019-06-08 11:55:51

深度学习(DL)-- DNN损失函数和激活函数的选择详解

DNN损失函数和激活函数的选择现对DNN损失函数和激活函数的搭配与选择进行梳理:(1)均方差损失函数+Sigmoid激活函数     首先回顾下Sigmoid激活函数的表达式为:        σ(z)的函数图像如下:        从图上可以看出,对于Sigmoid,当z的取值越来越大后,函数曲线变得越来越平缓,意味着此时的导数σ′(z)也越来越小。同样的,当z的取值越来越小时,也...

2019-06-08 08:27:46

深度学习(DL)-- DNN、前向传播算法、BP算法--基本原理

1、神经网络    深度神经网络(Deep Neural Networks, 以下简称DNN)是深度学习的基础,而要理解DNN,首先我们要理解DNN模型。感知机的模型,它是一个有若干输入和一个输出的模型,如下图:        输出和输入之间学习到一个线性关系,得到中间输出结果:        接着是一个神经元激活函数:        从而得到我们想要的输出结果1或者-1。 ...

2019-06-07 19:54:51

深度学习(DL)-- 总括

    本博客机器学习算法、自然语言处理、神经网络、数据分析系列持续更新中~~~~~~~~~~可以关注博客多多交流哦~~~~~

2019-06-07 17:45:48

查看更多

勋章 我的勋章
  • GitHub
    GitHub
    绑定GitHub第三方账户获取
  • 签到新秀
    签到新秀
    累计签到获取,不积跬步,无以至千里,继续坚持!
  • 专栏达人
    专栏达人
    授予成功创建个人博客专栏的用户。专栏中添加五篇以上博文即可点亮!撰写博客专栏浓缩技术精华,专栏达人就是你!
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv2
    勤写标兵Lv2
    授予每个自然周发布4篇到6篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。