ortyi-CSDN博客

原创 NLP---论文生词

1. 专业词汇downstream：下游downstream task：下游任务converge：收敛monolingual：单语的，只用一种语言的2. 描述性词汇marginally：轻微地，很少地，微不足道地outweigh：重于，大于，胜于，超过far outweigh：远远超过trivially：平凡地，微不足道地，琐细地...

2020-10-23 11:08:20 162

原创 NLP---实践2-文本分类MLDL

项目2：新闻文本挖掘与分类MLDL一、文本分析与可视化读取数据，去除有缺失值的行，分词去除停用词统计词频做词云二、中文自然语言处理分析1. 关键词提取1.1 基于TF-IDF算法的关键词抽取import jieba.analysejieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPO...

2020-10-23 11:07:43 782

原创 C++语法

map的定义Map<int, int> arrMap; //map中的所有元素的初始化值为0.

2020-10-23 11:07:20 118

原创 NLP---实践1-语种识别器

项目1：语种识别器一个项目要向面试官陈述的完整内容包括：项目背景、数据介绍、数据分析与预处理、特征工程、建模模型与优化对比、项目最终结果。文本表示：BOW，N-gram，TF-IDF，word2vec，word embedding，ELMo，BERT。分类模型：NB，LR，SVM，CNN，RNN (LSTM)。语种识别器部署：Flask。项目2：新闻文本挖掘与分类MLDL一、文本...

2020-10-23 11:06:54 306

原创 ML与DL中的一些基础知识---激活函数与损失函数等

1. 常用激活函数(1) sigmoid函数公式：f(x)=11+e−xf(x)=\frac{1}{1+e^{-x}}f(x)=1+e−x1求导：∂f∂x=f(x)(1−f(x))=ex(1+ex)2\frac{\partial f}{\partial x}=f(x)(1-f(x))=\frac{e^x}{(1+e^x)^2}∂x∂f=f(x)(1−f(x))=(1+ex)2ex...

2020-10-23 11:06:18 429

原创 python 包管理

pip下载源的切换：推荐使用pqi工具，安装：pip install pqi，然后在控制台输入pqi就会有使用提示。conda

2020-02-12 17:34:46 106

原创 NLP---text-RCNN

1. 简介参考：(1) Recurrent Convolutional Neural Networks for Text Classification(2) https://zhuanlan.zhihu.com/p/55015587(3) https://zhuanlan.zhihu.com/p/42201550设计思想：简而言之就是，结合RNN处理序列数据的优势与CNN提取局部特征...

2019-08-08 15:49:47 922

原创 NLP---textCNN

1. 原始 CNN 原理简介参考：《Python 深度学习》CNN：Convolutional Neural Network, 卷积神经网络，也叫 convnet.卷积计算过程：第一个feature map中[0,0]位置元素的计算过程：(000001001)∗(11−1−101−1−10)=1\left( \begin{array}{ccc}0 & 0...

2019-08-04 17:27:10 241

原创 NLP---BERT

参考：https://zhuanlan.zhihu.com/p/474880951. 简介BERT：Bidirectional Encoder Representations from Transformers.论文地址：是一种预训练模型，充分的描述了字符级、词级、句子级甚至句间关系的特征，在不同的NLP任务中，只需要为任务定制一个非常轻量级的输出层 (比如一个单层MLP) 就可以了...

2019-07-31 11:48:48 288

原创 NLP---关于自然语言

参考：百度百科句法研究句子的各个组成部分和它们的排列顺序。语义 (semantic)语言所蕴含的意义，语义具有领域性特征。

2019-07-29 15:49:15 139

原创 NLP---Transformer

参考：https://blog.csdn.net/han_xiaoyang/article/details/86560459https://jalammar.github.io/illustrated-transformer/以下仅为个人学习笔记1. 简介Google于2017年在论文Attention is All You Need中提出。论文地址：https://arxiv.o...

2019-07-26 15:12:30 427

原创 NLP---seq2seq与注意力机制

1. seq2seq参考：https://jalammar.github.io/visualizing-neural-machine-translation-mechanics-of-seq2seq-models-with-attention/模型结构seq2seq是一个“编码解码器”结构，编码器处理输入序列中的每个元素，将捕获的信息编译成上下文内容向量 (context vector...

2019-07-26 13:58:52 1608 1

原创 NLP---FastText

参考：https://blog.csdn.net/sinat_26917383/article/details/54850933https://www.leiphone.com/news/201608/y8rhWEglraduqcOC.html1. 简介fastText是Facebook于2016年开源的一个文本分类器。显著特点：快而且准确率高。相对于其它文本分类模型，如SVM，Lo...

2019-07-23 14:00:42 220

原创 NLP---RNN & LSTM & GRU & BiRNN & BiLSTM

1. RNNs (Recurrent Neural Networks)参考：https://blog.csdn.net/Jerr__y/article/details/58598296https://www.yunaitong.cn/understanding-lstm-networks.html以上两篇均是翻译：http://colah.github.io/posts/2015-08-U...

2019-07-22 11:03:39 1275

原创 NLP--6--文本表示2

1. Word Embedding参考：https://www.jianshu.com/p/2a76b7d3126b1.1 基本概念Word Embedding可以理解为一种映射，其过程是：将文本空间中的某个word，通过一定的方法，映射或者说嵌入（embedding）到另一个数值向量空间。称之为embedding，是因为这种表示方法往往伴随着降维。输入：原始文本中不重复的词语的序列...

2019-07-20 18:46:37 200

原创 ML---逻辑回归

用途：是分类算法不是回归算法，用于二分类或多分类。回归模型的YYY是连续的，分类模型的YYY是离散的。模型形式：hθ(X)=11+e−Xθh_{\theta}(X)=\frac {1}{1+e^{-X\theta}}hθ(X)=1+e−Xθ1XXX：模型的特征输入，维度为m×nm\times nm×n，m个样本.hθ(x)h_{\theta}(x)hθ(x)：模型输出，可以理解为某...

2019-07-17 14:10:11 146

原创 NLP--5--文本表示1

1. 文本表示将字符表示的文本转变为计算机可以处理的向量表示。2. 文本表示分类（基于表示方法）(1) 离散表示：one-hot表示，multi-hot表示(2) 分布式表示：a. 基于矩阵（细节不清楚，需要补充，比如SVD）：基于降维的方法，基于聚类的方法b. 基于神经网络：CBOW，Skip-gram，NNLM，C&W，ELMo3. 文本离散表示(1) 词袋模型描述...

2019-07-16 15:16:16 228

原创 NLP--4--条件随机场CRF

说明：这部分是统计自然语言处理中比较重要的部分，目前作为了解，会其意，有时间再补充细节，知其行。条件随机场CRF，conditional random field。CRF中的特征函数CRF与逻辑回归的比较：条件随机场是逻辑回归的序列化版本。CRF与HMM比较：（1）每一个HMM模型都等价于某个CRF。对于HMM中的每一个转移概率，CRF都可以构造一个特征函数，并使其权重为HMM中log...

2019-07-12 16:02:28 157

原创 NLP--3--隐马尔可夫模型HMM

说明：这部分是统计自然语言处理中比较重要的部分，目前作为了解，了解其思想，有时间再补充细节。隐马尔可夫模型（Hidden Markov Model，HMM）可见状态链隐含状态链：隐含状态之间存在转换概率（transition probability），马尔科夫状态链指的是隐含状态链。输出概率（emission probability）：隐含状态和可见状态之间的一个概率。HMM模型主要...

2019-07-12 11:51:39 183

原创 NLP--2--语言模型

传统语言模型的两大缺点：稀疏性和泛化能力差。稀疏性问题： n-gram模型只能对文本中出现的单词或者单词组进行建模，当新的文本中出现意义相近但是没有在训练文本中出现的单词或者单词组的时候，传统离散模型无法正确计算这些训练样本中未出现的单词的应有概率，他们都会被赋予0概率预测值，虽然传统方法会引入平滑来解决0概率问题，但整体上，效果并没有预想的好。泛化能力问题： (1) 离散模型还依赖于固定...

2019-07-07 18:45:15 475

原创 NLP--1--朴素贝叶斯

贝叶斯公式：P(Y∣X)=P(X∣Y)P(Y)P(X)P(Y|X) = \frac{P(X|Y)P(Y)}{P(X)}P(Y∣X)=P(X)P(X∣Y)P(Y)联合概率公式：P(X,Y)=P(Y∣X)P(X)=P(X∣Y)P(Y)P(X,Y)=P(Y|X)P(X)=P(X|Y)P(Y)P(X,Y)=P(Y∣X)P(X)=P(X∣Y)P(Y)汉语常用字2500个，常用词语56000个。符号...

2019-07-04 10:42:42 113

原创利用python进行数据分析---学习笔记

内省在一个变量名或对象的前后使用？，可以显示关于该变量或对象的概要信息。

2019-05-07 13:18:10 178

原创 git 常用命令

在当前分支上建立新的分支在工程目录下输入命令：git checkout -b newBranch将修改在本地保存git commit -a -m’remark’将本地更新提交到线上git push查看状态git status查看分支git branch将线上的最新状态拉下来git pull将当前分支merger到master分支上将自己所在分支与master分支进行合并...

2019-04-27 17:03:31 106

原创 Python3基础语法--1--入门

1. 接收输入temp = input(“输入：”)2. 字符串初学者注意：python中两边可以使用单引号或双引号，前后一致即可。原始字符串string = r’C:\users’print(string)输出结果为：C:\users三重双引号字符串print(" " "今天明天后天" " ")输出结果为：今天明天后天3. 数值类型注意python3 的...

2019-04-26 16:39:51 182

原创 ML学习--随记

ML杂记损失函数变化剧烈的原因：(1) 学习率选的太大；(2)batch_size太小；尽量保证训练数据的分布与测试数据的分布一致。tensorflow重要库函数：(1) tf.layers，现在常用的；(2) tf.contrib.layers.fully_connected()，以后可能会被废弃；(3) slim，1.8版本之后被放弃；衡量两个分布之间的差异使用交叉熵。熵...

2019-04-26 16:39:29 208

原创不仅会讲段子还励志的程序员

如果你不给自己设限，世界上便没有限制你发挥的篱笆。

2017-10-12 13:54:09 5395

Description Farmer John has been informed of the location of a fugitive cow and wants to catch her immediately. He starts at a point N (0 ≤ N ≤ 100,000) on a number line and the cow is at a point K (0

2017-09-07 21:36:18 458

原创 String to Integer (atoi)---题解

Description： Implement atoi to convert a string to an integer.Hint: Carefully consider all possible input cases. If you want a challenge, please do not see below and ask yourself what are the possible

2017-09-06 09:53:06 294

原创 SPY NBUT - 1220---题解

Description： The National Intelligence Council of X Nation receives a piece of credible information that Nation Y will send spies to steal Nation X’s confidential paper. So the commander of The Nation

2017-09-05 18:04:06 402

原创 A - Dinner NBUT - 1217---题解

Description： Little A is one member of ACM team. He had just won the gold in World Final. To celebrate, he decided to invite all to have one meal. As bowl, knife and other tableware is not enough in t

2017-09-05 15:33:24 334

原创 Longest Substring Without Repeating Characters---题解

Given a string, find the length of the longest substring without repeating characters.Examples:Given “abcabcbb”, the answer is “abc”, which the length is 3.Given “bbbbb”, the answer is “b”, with the le

2017-09-04 22:06:01 289

原创统计学习绪论

1 、损失函数：度量模型一次预测的好坏。风险函数：度量平均意义下模型预测的好坏。期望风险函数（期望损失）：是模型关于联合分布的期望损失。 Rexp(f)=Ep[L(Y,f(X))]=⎰x×yL(y,f(x))P(x,y)dxdyR_{exp}(f)=E_p [L(Y,f(X))]= \lmoustache_{\mathcal {x}\times\mathcal {y}}L(y,f(x)

2017-09-03 16:34:19 167

原创朴素贝叶斯法--简单总结

1、三个重要公式：（1）条件概率： P(A|B)=P(AB)P(B)P(A|B)=\frac{P(AB)}{P(B)} （2）全概率公式： P(A)=∑iP(A|Bi)P(Bi)P(A)=\sum_i P(A|B_i)P(B_i) （3）贝叶斯（Bayes）公式： P(Bi|A)=P(ABi)P(A)=联合概率全概率=P(A|Bi)P(Bi)∑jP(A|Bj)P(Bj)\begin{a

2017-09-03 12:13:30 336

原创 k-NN 简单总结

k-NN（k-nearest neighbor）（k近邻法）： 1、适用场景：可用于分类（可用于多分类）和回归。以下讨论分类问题。 2、综述：不具有显式的学习过程。利用训练数据集对特征向量空间进行划分，并作为其分类的模型。 3、**K近邻法的三个基本要素：**k值的选择，距离度量，分类决策规则。 4、基本思想：给定一个训练数据集，对新的输入实例，在训练数据集中找到与该实例最近邻的

2017-09-03 11:28:11 2065

原创约德尔测试总结

题目描述兰博和提莫闲聊之后，回归到了他们的正题，约德尔人的未来。说起约德尔人的未来，黑默丁格曾经提出了一个约德尔测试，将约德尔人的历史的每个阶段都用一个字符表达出来。(包括可写字符,不包括空格。)。然后将这个字符串转化为一个01串。转化规则是如果这个字符如果是字母或者数字，这个字符变为1,其它变为0。然后将这个01串和黑默丁格观测星空得到的01串做比较，得到一个相似率。相似率越高,则约德尔的未来

2017-09-01 22:08:25 413

原创 Tempter of the Bone 题解

The doggie found a bone in an ancient maze, which fascinated him a lot. However, when he picked it up, the maze began to shake, and the doggie could feel the ground sinking. He realized that the bone w

2017-08-15 21:42:41 268

原创 Sticks题解

DescriptionGeorge took sticks of the same length and cut them randomly until all parts became at most 50 units long. Now he wants to return sticks to the original state, but he forgot how many sticks h

2017-08-15 21:38:40 871

原创个人小笔记-----c++打开一个txt文本

freopen(“in.txt”,”r”,stdin);

2017-08-02 18:00:08 614

原创统计学习入门

1、统计学习的三要素：模型，策略，算法 2、回归问题：输入变量与输出变量均为连续变量的预测问题。分类问题：输出变量为有限个离散变量的预测问题。标注问题：输入变量与输出变量均为变量序列的预测问题。 3、模型选择方法：正则化与交叉验证。 4、监督学习：指利用训练数据集学习一个模型，再用模型对测试样本集进行预测。即，从给定的有限的训练数据出发，假设数据是独立同分布的，而且假设模型属于某个假设

2017-08-01 09:57:19 315

原创归并排序

二路归并排序时间复杂度：O(nlogn)O(nlog n) 空间复杂度：O(n)O(n) 稳定性：稳定 Note: 实现时应注意空间复杂度的控制。代码：#include <iostream>#include <stdio.h>#define MAXSIZE 20using namespace std;int mSq[MAXSIZE],tempSq[MAXSIZE];void Merge

2017-07-31 09:59:43 261

空空如也

空空如也