NeilGY-CSDN博客

原创 mac版idea快捷键

Compile and Run（编译和运行）按键说明Command + F9 编译ProjectCommand + Shift + F9 编译选择的文件、包或模块Control + Option + R 弹出 Run 的可选择菜单Control + Option + D 弹出 Debug 的可选择菜单Control + R 运行Control +...

2020-01-07 11:15:40 406 1

原创 git常用指令

git init //初始化本地git环境 git clone XXX//克隆一份代码到本地仓库 git configuser.name//查看git用户名 git config user.email //查看git邮箱 git config --globaluser.name“github’s Name” //配置了一个全局的用户名 git config --global us...

2020-01-07 11:04:15 274

原创 python实现基于最小堆的topk

class minHeap(object): def __init__(self, list,k): self.list = list self.k = k self.length = len(list) def swap(self,min_heap, child_index, parent_index): tem...

2019-12-04 19:50:27 769

原创 KMP算法python代码

问题：给定两个字符串a="sdfaabcddsdfssd",b="df"找出字串b在a中的下标位置。朴素模式匹配算法:def str_index(a,b,pos=0): i = pos j = 0 while i < len(a) and j < len(b): if a[i] == b[j]: j += 1 ...

2019-11-04 17:20:19 340

原创机器学习中数据清洗和特征选择总结

一.数据清洗1.预处理:理解数据及数据特征（很重要）2.异常样本数据：将时间、日期、数值等转为统一格式去除文本中不需要的特殊字符等去除内容与字段不对应的情况，如：字段为性别，描述为姓名数据去重替换不合理值核验多数据源数据关联时是否正确3.采样：数据不均衡问题：设置损失函数权重，少数类别增大损失系数下采样/欠采样：从多数类别数据中随机抽取样本数据，使...

2019-08-03 12:10:54 1173

转载机器学习中各种熵

本文的目录组织如下：【1】自信息【2】熵（香农熵）【3】联合熵【4】条件熵【5】互信息（信息增益）【6】熵、联合熵、条件熵、互信息的关系【7】交叉熵【8】相对熵（KL散度）【9】熵在机器学习中的应用（贝叶斯、决策树、分类）1. 自信息：对事件不确定性的度量。自信息公式事件的不确定性越大（概率 pi 越小），自信息 I(pi) 越大。比如买彩票，中彩票的...

2019-08-02 17:32:41 1012

转载 Mac下 Navicat Premium 12.1 版本破解

注：必须离线激活https://blog.csdn.net/wangyaodong915/article/details/82958372#commentsedit

2019-05-06 20:45:09 1306

原创模型优化总结

模型准确率提高：1.从数据上做优化:收集更多训练数据，对数据分词，字向量、词向量的嵌入,对抗损失和虚拟对抗损失的加入等2.从算法上做优化:1.神经元调节。2.数据训练批次调节.3.dropout的加入。模型训练加速：通过队列的方式读取数据，和多线程的方式异步训练模型。摒弃同步读取数据、训练数据的方法。...

2019-04-08 14:02:34 1137

原创基于互信息和左右熵的新词发现

互信息可以计算聚合度，左右熵可以计算自由度原文链接：https://www.jianshu.com/p/e9313fd692ef

2019-04-04 10:30:32 1845

转载字典树

Trie树（字典树）方法介绍1.1、什么是Trie树Trie树，即字典树，又称单词查找树或键树，是一种树形结构。典型应用是用于统计和排序大量的字符串（但不仅限于字符串），所以经常被搜索引擎系统用于文本词频统计。它的优点是最大限度地减少无谓的字符串比较，查询效率比较高。Trie的核心思想是空间换时间，利用字符串的公共前缀来降低查询时间的开销以达到提高效率的目的。它有3个基本性质：...

2019-04-03 18:05:04 192

转载推荐系统描述

一、常见的推荐算法原理（时间、位置影响）目前常见的一些推荐如下：基于内容推荐：分析用户看过的内容（历史内容等）再进行推荐。基于用户的协同过滤推荐（UserCF）：给用户推荐和他兴趣相似的其它用户喜欢的物品。基于物品的协同过滤推荐（ItemCF）：给用户推荐和他之前喜欢的物品相似的物品。基于标签的推荐：内容有标签，用户也会因为用户行为被打上标签，通过给用户打标签或是用户给产品打...

2019-03-26 14:32:08 701

原创模型准确率提高及优化加速

https://www.cnblogs.com/mrxsc/articles/6266584.html

2019-03-25 17:35:14 902

转载 transformer模型中的多头attention机制

转自：https://www.cnblogs.com/robert-dlut/p/8638283.html《Attention is all you need》中提出了多头attention机制，这篇论文主要亮点在于：1）不同于以往主流机器翻译使用基于RNN的seq2seq模型框架，该论文用attention机制代替了RNN搭建了整个模型框架。2）提出了多头注意力（Multi-head...

2019-03-21 17:57:27 9822 2

原创 gensim中word2vec的使用

https://www.cnblogs.com/pinard/p/7278324.html

2019-03-21 17:03:53 268

原创 word2vec原理总结

CBOW与Skip-Gram模型基础：https://www.cnblogs.com/pinard/p/7160330.htmlHierarchical Softmax的模型：https://www.cnblogs.com/pinard/p/7243513.htmlNegative Sampling的模型：https://www.cnblogs.com/pinard/p/7249903.h...

2019-03-21 16:40:18 418

原创 bert概述

bert原理：https://terrifyzhao.github.io/2019/02/18/BERT%E5%8E%9F%E7%90%86.htmlbert代码：https://terrifyzhao.github.io/2019/01/30/%E4%BD%BF%E7%94%A8BERT%E7%94%9F%E6%88%90%E5%8F%A5%E5%90%91%E9%87%8F.html...

2019-03-14 11:35:25 572

转载推荐算法概述

推荐算法具有非常多的应用场景和商业价值，因此对推荐算法值得好好研究。推荐算法种类很多，但是目前应用最广泛的应该是协同过滤类别的推荐算法，本文就对协同过滤类别的推荐算法做一个概括总结，后续也会对一些典型的协同过滤推荐算法做原理总结。1. 推荐算法概述　　　　推荐算法是非常古老的，在机器学习还没有兴起的时候就有需求和应用了。概括来说，可以分为以下5种：　　　　1）基于内容的推荐：这一类一般...

2019-03-13 15:20:50 659

原创 Transformer模型

模型讲解：https://terrifyzhao.github.io/2019/01/11/Transformer%E6%A8%A1%E5%9E%8B%E8%AF%A6%E8%A7%A3.html源码解读：https://terrifyzhao.github.io/2019/01/11/Transformer%E6%BA%90%E7%A0%81%E8%A7%A3%E8%AF%BB.html...

2019-03-12 16:37:41 479

转载 NLP-关键词提取

关键词提取算法一般也能分为有监督和无监督。1、有监督的关键词提取算法主要是通过分类的方式进行的，通过构建一个较为丰富和完善的词表，然后通过判断每个文档与词表中每个词的匹配程度，以类似打标签的方式，达到关键词提取的效果。有监督的方法能够获取到较高的精度，但缺点是需要大批量的标注数据，人工成本过高。另外，会有大量的信息出现，一个固定的词表有时很难将信息的内容表达出来。2、而无监督的方法对数据要...

2019-03-11 14:27:20 619

转载推荐算法详解

推荐算法具有非常多的应用场景和商业价值，因此对推荐算法值得好好研究。推荐算法种类很多，但是目前应用最广泛的应该是协同过滤类别的推荐算法，本文就对协同过滤类别的推荐算法做一个概括总结，后续也会对一些典型的协同过滤推荐算法做原理总结。1. 推荐算法概述　　　　推荐算法是非常古老的，在机器学习还没有兴起的时候就有需求和应用了。概括来说，可以分为以下5种：　　　　1）基于内容的推荐：这一类一般...

2019-03-11 09:54:09 1920

转载 NLP算法工程师的学习和成长

1.NLP解决什么问题；2.NLP算法发展简史；3.检索式问答系统的语义匹配模型；4.任务型对话系统背后的算法实例；5.创业公司NLP工程师的工作职责；6.NLP算法工程师面试注意事项；其中前两个小节主要大概讲述一下NLP这个学科它解决了什么问题，以及它算法发展的简要的历史，这样可以让大家对它先有一个整体上的认识；中间两节介绍一下在问答系统和对话系统中NLP的作用和典型的模型；最后两...

2019-03-08 15:59:29 2339

这里的分类是这样分的：首先将对话分为问答与会话，在问答中按照文档是否结构化分为无结构化文档与结构化文档。无结构化文档中包含一些如IR信息检索（如QA对，查找文档的问题），IE信息抽取（如阅读理解，查找文档中的精确片段），这一块的难点在于相似性的计算。结构化文档中包含数据库，知识图谱等，他们的输入为结构化的片段，数据库具有查询的功能，知识图谱具有查询与推理的能力，这一块的难点其实也是如何获取自然...

2019-03-06 22:10:24 730

原创深度学习中优化函数的比较

https://blog.csdn.net/qq_21460525/article/details/70146665

2019-03-01 15:36:11 2467

原创 NLP中模型的一些总结

1. 各种交叉熵损失函数的比较：sparse_softmax_cross_entropy_with_logits(logits=net, labels=y):labels可以是直接的数字标签，会将其做one-hot操作softmax_cross_entropy_with_logits中 labels接受one-hot标签。相当于sparse_softmax_cross_entropy_wi...

2019-02-27 22:29:50 2429

原创 CRF简单理解总结

条件随机场(Conditional Random Fields, 以下简称CRF)：是给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型，其特点是假设输出随机变量构成马尔科夫随机场。条件随机场是一种判别式模型CRF的作用：简单理解就是从可选的标注序列中，选择最靠谱的一个序列。比如一句话中有3个单词，可选的词性为【名词，动词】。当我们对这三个字标记为l1:(名词，动词，动词)显然不太...

2019-02-27 17:28:29 5175

原创半监督文本分类项目总结

半监督文本分类的优势：可以减少数据的标注，节省人力成本。项目流程：1.数据预处理:1).生成字的字典：加载所有训练数据，统计词频，统计每个字在各个文本中出现的文本数量n，取n大于1的字，再根据词频大小排序，取前6000个字，并保存。2）.生成训练数据：训练数据分为语言模型的训练数据和分类模型的训练数据。语言模型训练数据的封装：遍历有标签和无标签的训练数据，对每一...

2019-02-27 17:19:44 1598

原创实体识别和关系抽取的联合模型总结

实体识别和关系抽取的目标是从非结构化的文本中发现（实体1、关系、实体2）的三元组，它对知识库的构建和问答任务都很重要，是信息抽取的核心问题。现有的关系抽取方法主要有两种：1.使用流水线方法进行抽取：先对句子进行实体识别，然后对识别出的实体两两组合，再进行关系分类，最后把存在实体关系的三元组做为输入。缺点：1.错误传播，实体识别模块的错误会影响下面的关系分类性能。2.差生了没必要的冗余信...

2019-02-27 17:15:25 19393 18

原创意图识别项目笔记

意图识别分为两个模块：意图分类的识别和当前意图中slot(槽位)的识别。其中槽位的识别可以参考实体的识别，但又与之不同。槽位识别可以看做是对每个意图所需条件的识别，比实体的识别更加多元化。比如有一句话：显示从北京到上海的航班。意图：航班查询。槽位标记：北京（from-city），上海（to-city）实体标记：北京（city）,上海(city)。1.项目流程样本格式：采用BIO...

2019-02-26 17:53:37 1889

原创 seq2seq简单总结

1.什么是seq2seq:最基础的Seq2Seq模型包含了三个部分，即Encoder、Decoder以及连接两者的中间状态向量，Encoder通过学习输入，将其编码成一个固定大小的状态向量c，继而将c传给Decoder，Decoder再通过对状态向量c的学习来进行输出。EOS表示encoder阶段的结束，Decoder阶段解码的开始。2.seq2seq+attention:1) 为...

2019-02-26 14:02:27 827

转载 HMM详解

什么是熵(Entropy)简单来说，熵是表示物质系统状态的一种度量，用它老表征系统的无序程度。熵越大，系统越无序，意味着系统结构和运动的不确定和无规则；反之，，熵越小，系统越有序，意味着具有确定和有规则的运动状态。熵的中文意思是热量被温度除的商。负熵是物质系统有序化，组织化，复杂化状态的一种度量。熵最早来原于物理学. 德国物理学家鲁道夫·克劳修斯首次提出熵的概念，用来表示任何一种能量在空间...

2019-02-25 09:38:08 1223

转载贝叶斯算法总结

1. 朴素贝叶斯是什么依据《统计学方法》上介绍：朴素贝叶斯法（Naive Bayes）是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集，首先基于特征条件独立假设学习输入/输出的联合概率分布；然后基于此模型，对给定的输入 xx ，利用贝叶斯定理求出后验概率最大的输出 yy 。可能读完上面这段话仍旧没办法理解朴素贝叶斯法到底是什么，又是怎样进行分类的。下面我尽...

2019-02-25 00:40:59 2191

原创词性标注

https://blog.csdn.net/u013510838/article/details/81907121

2019-02-24 21:20:50 185

转载意图识别各种模型比较

语言理解模块主要包括意图与槽位的识别。意图的识别实际上是一个分类问题，如基于规则，传统机器学习算法 (SVM)，基于深度学习算法（CNN, LSTM, RCNN, C-LSTM, FastText）等。意图在对话中还涉及转换，这里不在说明。Slot识别实际上是一种序列标记的任务，如基于规则 (Phoenix Parser)，基于传统机器学习算法 (DBN; SVM)，基于深度学习算法（LSTM, ...

2019-02-23 00:12:00 26411

原创 python中矩阵加减规律

两个不同维度的矩阵相加规则：1.若两个矩阵对应维度不同，则应使其中一个矩阵的维度为1，则会自动广播。如：a = (3,4,5,6) ;b=(1,4,5,6);c=a+b=(3,4,5,6)a = (3,4,1,6) ;b=(1,4,5,6);c=a+b=(3,4,5,6)2.若两个矩阵维度不同，则从后往前数：对应维度相同的和多余出来的维度为最终维度。如：a = (3,4,5,6...

2019-01-15 10:35:07 3945

原创 python中列表、字典等常用操作

#附：python内置类型##1、list：列表（即动态数组，C++标准库的vector，但可含不同类型的元素于一个list中） a = ["I","you","he","she"] 元素可为任何类型。###下标：按下标读写，就当作数组处理,以0开始，有负下标的使用 0第一个元素，-1最后一个元素， -len第一个元素，len-1最后一个元素.###取li...

2018-12-21 11:07:46 291

转载 Python自然语言处理实战（1）：NLP基础

从建模的角度看，为了方便计算机处理，自然语言可以被定义为一组规则或符号的集合，我们组合集合中的符号来传递各种信息。自然语言处理研究表示语言能力、语言应用的模型，通过建立计算机框架来实现这样的语言模型，并且不断完善这样的语言模型，还需要根据语言模型来设计各种实用的系统，并且探讨这些实用技术的评测技术。从自然语言的角度出发，NLP基本可以分为两个部分：自然语言处理以及自然语言的生成，演化为理解和生成文...

2018-12-14 10:41:10 783

原创 python中文件读取和写入

1、w 写模式，它是不能读的，如果用w模式打开一个已经存在的文件，会清空以前的文件内容，重新写 w+ 是读写内容，只要沾上w，肯定会清空原来的文件2、r 读模式，只能读，不能写，而且文件必须存在 r+ 是读写模式，只要沾上r，文件必须存在3、a 追加模式，也能写,在文件的末尾添加内容4、rb+、wb+、ab+,这种是二进制模式打开或者读取，一些音乐文件...

2018-11-30 10:32:25 606

原创集成学习总结

集成算法总结:1.思想:将若干个弱学习器组合之后产生一个新学习器，弱学习器的准确率需在0.5以上。2.算法分类：1.Bagging.2.Boosting.3.Stacking3.算法简介:Bagging: 通过随机采样，从训练集中采集固定个数的样本，没采集一次都将样本放回，也就是说之前采集到的样本有可能被继续采集到。然后选择出T个数据集分别训练T个模型的集成技术。随机森林(RF)：（随机森林在构...

2018-09-21 16:44:39 699

原创 SVM算法总结

SVM1. 算法概念支持向量机（Support Vector Machine, SVM）从数据中找出一个数据的分割超平面，将两个类别的数据完全分割开，并且在模型构建的过程中，保证分割区间最大化。1.线性可分(Linearly Separable)：在数据集中，如果可以找出一个超平面，将两组数据分开，那么这个数据集叫做线性可分数据。2.线性不可分(Linear Inseparable)：...

2018-09-18 16:51:32 5244

spark-2.3.4-bin-hadoop2.7.tgz

项目在tomcat运行几天以后会ehcache错误，重启以后又可以正常运行