ZSYGOOOD-CSDN博客

原创机器学习、数据挖掘相关资源链接（持续补充...）

kaggle社区。全球最大的人工智能比赛社区。比赛众多，且种类难度都有分类。社区中各个比赛下，参赛者会在讨论区积极交流，提供kernel（解决方法）。对初学者也十分友好。 Competitions | Kaggle天池大数据比赛，阿里巴巴主办。很多赛题都来源于企业实际工作中遇到的难题。比赛普遍分为两个阶段，在复赛中取到好成绩的队伍会受邀到杭州现场答辩，对以后求职十分有帮助。缺点是讨论区不活跃，难以

2017-12-04 15:31:16 397

原创论文列表——NAACL 2019

最近NAACL-2019接收列表出了，列出感兴趣的paper，供之后阅读：名称类型关键字阅读价值笔记Deep Adversarial Learning for NLPtutorialTransfer Learning in Natural Language ProcessingtutorialApplications of Natural L...

2019-03-06 12:36:36 3375 1

原创论文列表——杂

这篇博文主要是记录平常通过各类渠道（公众号推送、知乎浏览、博客阅读等等）获知的质量较高论文的笔记。可能有各个类别的，可能有几年的经典论文重读，或者是2018年好的科研成果，这里进行简要记录，之后基本都是要单开博文来详细写笔记的。名称来源类型时间阅读价值笔记An Introductory Survey on Attention Mechanisms in NLP Pro...

2019-01-25 19:24:23 540

原创论文列表——EMNLP 2018

EMNLP 2018去年十一月开完会了，又出了很多文章。根据自己的兴趣点选了一些，平常慢慢读，持续更新到这篇博文。这篇博文记录下这些文章的简要笔记，好的文章会标上“TO BE CONTINUED”，之后会再开单独的博文来做笔记。列表如下：名称类型时间阅读价值笔记Improving Neural Abstractive Document Summarization wit...

2019-01-25 18:36:47 2593 1

原创论文列表——sentiment analysis

情感分类属于文本分类的一个应用场景，一般都是人（用户）对某些具体事物（商品、事件）表达某些情感。落地场景是很多的。这学期最开始是做stance detection相关的工作，而其中target-specific stance detection和情感分类中的aspect-based sentiment analysis是很相关的，而AIC的比赛又正好是这个后者，所以顺便调研了下sentiment ...

2019-01-25 17:05:35 3155 1

原创论文列表——stance detection

这学期做了一些和stance detection相关的工作，列出自己阅读论文的列表，部分论文直接列出一些简单的笔记，这些论文可读性不强（方法过于简单，或者论文本身的贡献不在方法上，没有太多记录成笔记的价值…），部分论文会逐步完善，给出简单的阅读笔记。阅读价值评分纯粹是基于自己对于文章的理解，标准包括：动机、方法、数据集质量、实验安排、相关工作等，满分为5（相对评分，即分值高低仅反映论文在以下列表中...

2019-01-25 15:44:24 2597

原创论文列表——text classification

列出自己阅读的text classification论文的列表，以后有时间再整理相应的笔记。阅读价值评分纯粹是基于自己对于文章的理解，标准包括：动机、方法、数据集质量、实验安排、相关工作等，满分为5。列表如下：名称所属会议类型时间阅读价值Recurrent Convolutional Neural Networks for Text ClassificationAAA...

2018-10-04 15:57:01 2296 1

原创论文列表——fake news

列出自己阅读的fake news detection论文的列表，以后有时间再整理相应的笔记。阅读价值评分纯粹是基于自己对于文章的理解，标准包括：动机、方法、数据集质量、实验安排、相关工作等，满分为5。列表如下：名称所属会议类型时间阅读价值“Liar, Liar Pants on Fire”: A New Benchmark Dataset for Fake News D...

2018-10-04 15:28:27 2761 1

原创笔记(总结)-注意力机制(Attention)简述

本篇主要针对注意力（Attention）机制进行简要描述。Attention是为了解决Sequence-to-Sequence中的一些问题而提出的，本身的逻辑十分简洁。Attention的产生过程反映了解决问题的一种最直接的思路，正如Resnet中提出“残差”的概念一样，简单直接的就能解决问题，而且思路没有绕任何弯子。这在科研工作中是十分难得的。下面结合机器翻译问题来回顾下这整个过程。Se...

2018-07-20 09:33:52 3706 1

原创笔记(总结)-序列标注问题与求解

在讲述了大量的概率图模型后，本篇介绍下它发挥作用的主要场景——序列标注（Sequence Labaling）。序列包括时间序列以及general sequence，但两者无异。连续的序列在分析时也会先离散化处理。常见的序列有如：时序数据、本文句子、语音数据、等等。常见的序列问题有：拟合、预测未来节点（走势分析，如股票预测、销量预测等）判定序列所属类别，即分类问题（如语音识别，判断声音序列所...

2018-07-18 10:52:30 4817

原创笔记(总结)-从马尔可夫模型到条件随机场-3

本篇紧接上篇笔记(总结)-从马尔可夫模型到条件随机场-2，讲述条件随机场（Conditional Random Field）。条件随机场定义先给出几个相关概念的定义。随机场:可看成是一组随机变量的集合(这组随机变量对应同一个样本空间)。这些随机变量之间可能有依赖关系，当给每一个位置中随机变量按照某种分布随机赋予相空间（相空间是一个用以表示出一系统所有可能状态的空间，...

2018-07-14 16:28:30 626

原创笔记(总结)-从马尔可夫模型到条件随机场-2

本篇紧接上篇笔记(总结)-从马尔可夫模型到条件随机场-1，讲述最大熵模型（Maximum Entropy Model）。最大熵模型先来简单介绍下熵的概念，看看为什么要“最大熵”建模。熵用来度量随机变量的不确定性。即熵越大，不确定性越大。举个例子，给定一个骰子，问抛出去后最终每个面朝上的概率是多少？一般人都会回答“等概率”。为什么这么回答？因为对这个“一无所知的“骰子，假...

2018-07-13 21:13:30 449

原创笔记(总结)-从马尔可夫模型到条件随机场-1

本篇针对概率图模型做一个总结。顺序依次为：马尔可夫模型（Markov Model，下称MM）⟹⟹\Longrightarrow 隐马尔可夫模型（Hidden Markov Model，下称HMM）最大熵模型（Maximum Entropy Model，下称MEM）⟹⟹\Longrightarrow 最大熵隐马模型（Maximum Entropy Markov Model，下称MEMM）...

2018-07-12 10:36:23 1229

原创笔记(总结)-循环神经网络

起源全连接神经网络能够很好地拟合复杂的样本特征，卷积神经网络能很好地建模局部与全局特征的关系。但它们都只能处理定长的输入、输出，而自然语言的处理对象一般是变长的语句，句子中各元素出现的顺序先后暗含着时序关系，循环神经网络（Recurrent Neural Network，下称RNN）能够较好地处理这种关系。基本结构RNN的基本思想是：将处理对象在时序上分解为具有相同结构的单元，单元...

2018-07-11 22:25:49 628

原创笔记(总结)-卷积神经网络

神经网络是一棵根深叶茂的大树，有过许多果实，可是都略显青涩，无法摘食。直到2010年后，这棵大树才真正可谓硕果累累，其中最璀璨甘甜的就是卷积神经网络（Convolutional Neural Network，下称CNN）。在这之后，神经网络再次成为科研界的热点，在这个数据和算力初具规模的时代，神经网络终于展现出了应用的价值。闲话到此，只是想说明CNN对于神经网络的意义。本篇将主要讨论CNN的模型原...

2018-07-11 09:47:21 447

原创笔记(总结)-神经语言模型和词向量

之前笔记(总结)-统计语言模型主要介绍了统计语言模型。可以看到，最终对句子的建模为（以二元文法为例）： P(S)=p(w1)p(w2|w1)...p(wn|wn−1)P(S)=p(w1)p(w2|w1)...p(wn|wn−1)P(S)=p(w_1)p(w_2|w_1)...p(w_n|w_{n-1})核心问题在于如何计算参数p(wi|wi−1)p(wi|wi−1)p(w_i|w_{i-1}...

2018-07-09 16:15:36 2847

原创笔记(总结)-统计语言模型

在自然语言处理的相关问题中，如何表示句子是建模分析的关键。与传统的图像、音频等天然可转化为计算机编码的元素不同，自然语言需要经过复杂编码才能被计算机识别。并且，这种编码是机械式的简单排列，设计初衷是为了解决自然语言的存储问题，编码本身不带有任何语言层面的信息。因此，直接使用自然语言的编码对文字进行转换而后建模是不可靠的，过程中丢失了太多的信息。语言模型正是解决了这样的问题。语言模型有很多种...

2018-07-09 11:34:35 632

原创笔记-图嵌入（Graph Embedding）

图嵌入（Graph Embedding，也叫Network Embedding）是一种将图数据（通常为高维稠密的矩阵）映射为低微稠密向量的过程，能够很好地解决图数据难以高效输入机器学习算法的问题。知识图谱属于异构图数据，即节点与边不只一种类型。了解图嵌入能帮助理解图数据的处理过程，拓展思考问题的思路（传统ML基本都是table类型的数据），也能对未来可能的知识图谱研究做一些铺垫准备。学习参考链接如...

2018-06-29 14:26:37 13874

原创笔记-文本分类

文本分类是NLP领域最基本的应用场景，现实生活中很多问题都能划归为文本分类问题，诸如垃圾邮件分类、有害评论检测、新闻主题分类等。学术界里文本分类也是研究热点，从最初的模式识别方法到机器学习方法，再到近年来的深度学习方法，各类新型的算法都会尝试在文本分类上验证效果。而文本分类问题的普遍性也使得其成为了人工智能落地的一个重要案例。学习文本分类相关问题的解决方案，能在屏蔽NLP底层基础技术（诸如分词、词...

2018-06-29 14:14:21 400

原创笔记-变分自编码器（Variational Auto Encoder，VAE）

从大数据时代——>人工智能，生活中各场景下的大数据问题都能用大数据+人工智能算法的配方进行求解。诸如分类、回归等有监督学习问题都得到了很好的解决，但监督学习需要大量标注数据，这一限制使得很多场景无法依靠人工智能的红利。因此，无监督学习正慢慢成为研究热点。VAE便是其中的典型代表。VAE的设计结构具有严谨的数学理论指导，粗略看了一遍，没有太理解，在此mark住，以后有需要再回来学习。链接如下：...

2018-06-29 13:42:39 652

原创笔记-AutoML

深度学习发展至今，虽然取得了很多成果，但其使用门槛依旧很高。对神经网络进行调参从而达到解决问题的效果，需要使用者具有一定的机器学习背景和调参经验，现实情况往往是（不论工业界还是学术界）使用学术界经过沉淀后的经典模型与典型参数设置，并在之上做细微的调整。这极大地限制了人们的思维，网络结构仍然是基于人的经验。既然计算机算法到目前为止已经具有了相当的智能水平，能否让算法来设计神经网络架构并评判优劣呢？G...

2018-06-29 13:32:53 742

原创笔记-CRF

CRF在序列标注任务上有着广泛的应用，由于使用了全局的信息，能取得比HMM更好的效果。学习参考链接如下：如何用简单易懂的例子解释条件随机场（CRF）模型？它和HMM有什么区别？基于CRF序列标注的中文依存句法分析器的Java实现简明条件随机场CRF介绍 | 附带纯Keras实现DL4NLP —— 序列标注：BiLSTM-CRF模型做基于字的中文命名实体识别sequence-la...

2018-06-29 12:47:50 271

原创笔记-NLP相关调研

由于实验室目前研究方向偏重于NLP和知识图谱，在学习了一段时间机器学习相关内容后，也决定暂时侧重于NLP相关内容的研究。对NLP方面的相关调研工作做一个总结，顺序不分先后。这部分内容可能和笔记-深度学习场景调研有交集，在此就不重复写已有的东西。依存句法分析（Dependency Parsing，DP）、语义依存分析（Samantic Dependency Parsing，SDP）、语义角色标注...

2018-06-29 11:41:17 412 1

原创笔记-深度学习场景调研

深度学习的大潮如火如荼，但深度学习并非所有问题的最好答案。那么哪些方向已经较为成熟应用了深度学习并取得了较好效果呢，通过了解深度学习如何解决不同的问题，从而更深入理解深度学习算法的特点与适用性，做了相关调研，附上链接如下：深度学习在图像领域的应用，图像分类、图像识别、语义分割、视频检测…这是深度学习最初放光的领域，也是当前研究的最热点，不同类型的网络层出不穷，很少的一部分沉淀下来成为了经典。理...

2018-06-29 10:56:55 606

原创机器学习面试题-索引

做面试题是一个很好的回顾所学知识的方式。通常，面试官都有着非常扎实的基础和实践经验，提出的问题能更切中算法、模型的本质。通过面试题来检验自己的学习效果，是否对一个问题理解透彻，也能为将来可能的面试提前做一些准备。本文对知乎专栏BAT机器学习面试1000题下的内容进行了总结索引，方便之后的查阅使用。根据完成情况持续更新。以下给出专栏中每个链接下的问题，并打上标签。BAT机器学习面试1...

2018-02-27 11:00:55 637

原创笔记-Python库-matplotlib, numpy, scipy, pandas

用Python作数据分析时，常用的基础库有matplotlib, numpy, scipy, pandas，功能强大且繁杂。记下来所有的用法是不实际的，需要做的是记住每个库大概有哪些功能，在具体场景中能快速找到相关文档并使用。知乎上有个相关问题，下面高赞答案给出了很多学习资源和学习思路，可供参考和查阅：如何系统地学习Python 中 matplotlib, numpy, scipy, pand...

2018-02-11 16:54:09 406

原创笔记(总结)-利用GMM和EM算法解决聚类问题

对Gaussian Mixture Model和Expectation Maximization算法一直以来了解不多，一来直接使用这两个方法的场景少，二来初看这两个算法确实有些一头雾水，不太理解为什么要这么做。上学期的课又涉及到了这部分，还是咬牙把这块给啃了下来，结合“周志华西瓜书”，在聚类场景下对这两部分做下总结。高斯混合(Mixture of Gaussian)nnn维随机变量xx...

2018-02-09 17:10:01 1656

原创笔记-kagger都在用的python编辑器-Jupyter Notebook

经常逛kaggle社区的人常会在forum看到大家都是用notebook形式来进行代码组织和策略讲解。Jupyter就是这样一个工具，它允许你分块组织代码并分别执行，每个代码块都较为独立，而所有代码块又能共享中间结果，十分适用于做数据挖掘的实验。除此最基本的功能之外，Jupyter还有很多小trick。在知乎上看到一篇讲解Jupyter的文章，讲解清晰，几分钟就能入门。给出链接如下，相信Jupyt...

2018-02-09 09:28:17 919

原创 kaggle-Corporación Favorita Grocery Sales Forecasting

该项比赛1月15日就已经结赛了，但由于之后进入期末，备考花费了大量的时间，没来得及整理相关内容。现在终于有时间好好回顾比赛，并对这次比赛的过程进行记录。Corporación Favorita Grocery Sales Forecasting本次比赛是预测商品销量，给出的训练数据为<单位销量，日期，商店ID，商品ID，推销活动标签>，其中单位销量是待预测值，基本上属于回归...

2018-02-08 11:17:31 2650 4

原创笔记(总结)-PCA(主成分分析)

主成分分析是一种特征抽取手段，通过将样本从原始空间映射到低维空间实现特征数量的减少，而低维空间中某一维度实际上是原始空间的一种“杂糅”表示。在之前的博客中提到过参考链接，由于PCA涉及的数学手段包括矩阵、特征值和特征向量，参考笔记-矩阵与特征值这一篇，对其有一定理解后再来看PCA算法就比较清晰了。首先给出PCA算法：对所有样本进行中心化：xi←xi−1m∑mi=1xixi←xi−1m...

2018-02-07 10:50:09 655

原创笔记(总结)-SVM(支持向量机)的理解-4

前三篇主要是介绍SVM的原理。最初SVM的原问题是凸二次优化问题，有现成的算法可以求解，费尽周折转换到对偶问题，一是在对偶问题形势下可以使用核函数，二是对偶问题我们可以高效求解。本篇主要介绍如何求解SVM。SMO：Sequential Minimal OptimizationCoordinate Ascent（坐标上升法）回到我们的对偶问题： maxW(α)=∑iαi−12∑...

2018-02-03 13:35:00 381

原创笔记(总结)-SVM(支持向量机)的理解-3

上篇讲述的Soft Margin SVM是为了解决线性不可分的问题，它解决问题的逻辑是通过允许一部分样本分得不那么准确（进入“楚河汉界”）甚至错分，使得在绝大多数样本能够正确地线性可分。本篇引入核函数(kernel)，从另一个思维角度来解决线性不可分问题。问题引入当样本在某个特征空间不可分时，可以通过将样本映射到另一个特征空间，在该空间中样本分布满足线性可分条件，再使用SVM进行学习分...

2018-02-03 10:00:56 390

原创笔记(总结)-SVM(支持向量机)的理解-2

上一篇我们讨论了SVM的建模由来与推导过程，最终得出了SVM的对偶问题和解的形式，不过这都基于一个重要前提，即样本集是线性可分的。为了解决线性不可分情况下的分类问题，我们引入soft margin SVM，即软间隔SVM。为了处理上述情况，我们不再要求样本集全部位于“楚河汉界”外，放宽限制，允许数据点进入“楚河汉界”甚至错分，引入松弛变量ξξ\xi，如下所示：此时对应的约束条件为：...

2018-02-02 14:29:23 309

原创笔记(总结)-SVM(支持向量机)的理解-1

SVM即支持向量机作为神经网络复兴前的最强大模型，建模和推导有着严密的数学推导作为基础，在训练完成后计算速度也较快，得到了广泛的应用。本文先阐述SVM的基本问题和推导过程，再引入软间隔的SVM，最后引入核函数和求解方法。问题引入考虑简单的二分类问题，我们想找一个“最好”的超平面来分隔两类样本。可以看到，在样本点线性可分的情况下，能够找到多个超平面。但其中黑色超平面直观上来看是最合理的，...

2018-02-02 13:20:25 521

原创笔记(总结)-Logistic Regression

从线性回归讲起先说回归问题。对于回归问题，最常用的是用线性函数来拟合待预测值，即： f(x)=wTx+b,f(x)=w^Tx+b, 使得 f(x)≈yf(x)≈y上述情况中，待预测值是在线性尺度上变化，假若是在指数尺度上变化（yy取值类似于1、2、4、8、16…），则可将待预测值的对数作为线性函数逼近的目标，即： lny=wTx+blny=w^Tx+b这实际上是试图让ewTx+be

2018-01-16 22:06:56 321

原创笔记(总结)-从过拟合与欠拟合到偏差-方差分解

在用机器学习模型解决实际问题时，时刻离不开“拟合”（fitting）一词，拟合可以看做挖掘样本集与对应标签的规律。模型的预测值和样本的真实标签之间的差异称为“误差”（error），在实际问题中，我们通常在训练集上训练模型，由此产生“训练误差”（training error），然后将模型运用于测试集上，由此产生“泛化误差”（generalization error）。我们希望得到一个泛化误差小的模型

2018-01-16 16:36:28 1223

原创笔记-Capsule

前一篇讲述AlphaGo的博主还有一篇专栏，以Capsule为引子，从最初的BP->RBM->CNN->Capsule详细讲述了神经网络的发展进程以及当前CNN模型的缺陷，最终分析了Hinton提出的Capsule新概念。参考链接如下：浅析 Hinton 最近提出的 Capsule 计划

2018-01-13 14:39:02 348

原创笔记-AlphaGo解析

最近在知乎上看到一篇文章，从minimax入手讲AlphaGo。讲解通俗易懂，正好最近算法课BDB也讲了些minimax，学习之。链接如下：浅述：从 Minimax 到 AlphaZero，完全信息博弈之路（1）做的笔记如下：P1-left part P1-right part P2

2018-01-13 14:33:58 1109

原创笔记(总结)-XGBoost的前世今生

现今的各类数据挖掘比赛中，决策树模型占据了半壁江山（另外半壁基本就是神经网络模型）。决策树，本质上来说就是通过一系列的“规则”将样本集不断划分归类，最后归为同一类的样本被认为是相似的，赋予相同的预测值。决策树相对于其他机器学习模型来说：可解释较强（规则划分）能够有合理的调参依据（树深度、叶子节点个数等参数概念都很直观）适用于bagging和boosting方式的建模（Random F...

2018-01-13 14:17:31 1069

原创笔记-话题模型&LDA

列出学习LDA过程中参考的链接，其中第一条链接中的博主讲述得十分清晰详细：通俗理解LDA主题模型主题模型-LDA浅析 - CSDN博客

2017-12-21 20:50:01 310

空空如也

空空如也