3 Guo_Yaohua

尚未进行身份认证

我要认证

暂无相关简介

等级
TA的排名 134w+

将博客搬至CSDN

将博客搬至CSDN

2020-05-21 16:35:00

【异常检测】孤立森林(Isolation Forest)算法简介

简介    工作的过程中经常会遇到这样一个问题,在构建模型训练数据时,我们很难保证训练数据的纯净度,数据中往往会参杂很多被错误标记的脏数据,而数据的质量决定了最终模型性能的好坏。如果进行人工二次标记,成本会很高,我们希望能使用一种无监督算法帮我们做这件事,异常检测算法可以在一定程度上解决这个问题。  异常检测分为离群点检测(outlier detection)以及奇异值检测(nove...

2020-05-20 18:49:00

深入理解决策树算法

引言决策树(Decision Tree)是机器学习中一种经典的分类与回归算法。本文主要讨论用于分类的决策树。决策树模型呈树形结构,在分类问题中,决策树模型可以认为是if-then规则的集合,也可以认为是定义在特征空间与类空间上的条件概率分布。其主要优点是模型具有可读性,分类速度快。决策树学习通常包括3个步骤:特征选择、决策树的生成和决策树的剪枝。基本原理模型结构决策树由结点(No...

2019-11-07 17:19:00

【机器学习】一文读懂分类算法常用评价指标

评价指标是针对将相同的数据,输入不同的算法模型,或者输入不同参数的同一种算法模型,而给出这个算法或者参数好坏的定量指标。在模型评估过程中,往往需要使用多种不同的指标进行评估,在诸多的评价指标中,大部分指标只能片面的反应模型的一部分性能,如果不能合理的运用评估指标,不仅不能发现模型本身的问题,而且会得出错误的结论。最近恰好在做文本分类的工作,所以把机器学习分类任务的评价指标又过了一遍。...

2019-08-27 14:52:00

Git常用操作指南

目录前言Git简介安装之后第一步创建版本库本地仓库远程仓库创建SSH Key添加远程库关联新仓库关联已有仓库版本控制工作区和暂存区工作区(Working Directory)版本库(Repository)版本回退重置命令文件粒度操作Reset 常用示例撤销修改删除文件分支管理创建与合并分支解决冲突分支管理策略分支策略状态存储应用实例多人协作推送分支抓取分支Rebase解决冲突标签管理创建...

2019-07-21 17:24:00

深度学习工作站攒机指南

目录引言配置清单配件选购指南主板芯片组对比CPUPCIe 通道对比内存频率SSDM.2接口容量机械硬盘显卡性能对比性价比分析整体建议(转载)选购电源散热器机箱风扇组装性能测试引言接触深度学习已经快两年了,之前一直使用Google Colab和Kaggle Kernel提供的免费GPU(Tesla K80)训练模型(最近Google将Colab的GPU升级为Tesla T4,计算速度...

2019-05-11 15:06:00

一文看懂Transformer内部原理(含PyTorch实现)


Transformer注解及PyTorch实现



原文:http://nlp.seas.harvard.edu/2018/04/03/attention.html   作者:Alexander Rush  转载自机器之心:https://www.jiqizhixin.com/articles/2018-11-06-10?from=s...

2018-12-21 11:45:00

【中文版 | 论文原文】BERT:语言理解的深度双向变换器预训练

BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding





谷歌AI语言组论文《BERT:语言理解的深度双向变换器预训练》,介绍一种新的语言表征模型BERT——来自变换器的双向编码器表征量。异于最新语言表征模型,BERT...

2018-12-20 14:47:00

机器学习数学基础总结

目录线性代数一、基本知识概率论与随机过程一、概率与分布1.1 条件概率与独立事件二、期望三、方差3.1 方差3.2 协方差与相关系数4.3 中心极限定理五、不确定性来源六、常见概率分布6.1 均匀分布6.2 二项分布6.3.2 多维正态分布6.4 指数分布6.5 拉普拉斯分布6.6 狄拉克分布6.8 混合概率分布八、测度论数值计算一、数值稳定性1.1 近似误差1.2 softmax 函数...

2018-11-04 21:40:00

平均精度均值(mAP)——目标检测模型性能统计量

  在机器学习领域,对于大多数常见问题,通常会有多个模型可供选择。当然,每个模型会有自己的特性,并会受到不同因素的影响而表现不同。

  每个模型的好坏是通过评价它在某个数据集上的性能来判断的,这个数据集通常被叫做“验证/测试”数据集。这个性能由不同的统计量来度量,包括准确率( accuracy )、精确率( precision )、召回率( recall )等等。选...

2018-11-03 18:19:00

【Java面试宝典】深入理解JAVA虚拟机

一、运行时数据区域
  线程隔离:线程隔离的意思,就是给不同的线程多分配的资源用,以做到不争用。
  线程共享:线程共享就是资源只有一个没有办法分配更多,只能共享。
  Java虚拟机管理的内存包括几个运行时数据内存:方法区、虚拟机栈、本地方法栈、堆、程序计数器,其中方法区和堆是由线程共享的数据区,其他几个是线程隔离的数据区。程序计数器,虚拟机栈,本地方法栈...

2018-09-25 11:22:00

Faster R-CNN:详解目标检测的实现过程


本文详细解释了 Faster R-CNN 的网络架构和工作流,一步步带领读者理解目标检测的工作原理,作者本人也提供了 Luminoth 实现,供大家参考。




Luminoth 实现:https://github.com/tryolabs/luminoth/tree/master/luminoth/models/fast...

2018-08-16 17:49:00

TensorFlow 使用变量共享



参考: https://www.tensorflow.org/programmers_guide/variable_scope

举例说明
TensorFlow中的变量一般就是模型的参数。当模型复杂的时候共享变量会无比复杂。
官网给了一个case,当创建两层卷积的过滤器时,每输入一次图片就会创建一次过滤器对应的变量,但是我们...

2018-08-14 17:54:00

各种卷积结构原理及优劣总结

卷积神经网络作为深度学习的典型网络,在图像处理和计算机视觉等多个领域都取得了很好的效果。
Paul-Louis Pröve在Medium上通过这篇文章快速地介绍了不同类型的卷积结构(Convolution)及优势。为了简单起见,本文仅探讨二维卷积结构。
卷积
首先,定义下卷积层的结构参数。




&#13...

2018-08-08 16:23:00

SVM(支持向量机)之Hinge Loss解释



Hinge Loss解释

  SVM 求解使通过建立二次规划原始问题,引入拉格朗日乘子法,然后转换成对偶的形式去求解,这是一种理论非常充实的解法。这里换一种角度来思考,在机器学习领域,一般的做法是经验风险最小化 ERM ,即构建假设函数为输入输出间的映射,然后采用损失函数来衡量模型的优劣。求得使损失最小化的模型即为最优的假设函数,采用不同的...

2018-08-07 12:23:00

【NLP】Attention Model(注意力模型)学习总结


  最近一直在研究深度语义匹配算法,搭建了个模型,跑起来效果并不是很理想,在分析原因的过程中,发现注意力模型在解决这个问题上还是很有帮助的,所以花了两天研究了一下。
  此文大部分参考深度学习中的注意力机制(2017版)张俊林的博客,不过添加了一些个人的思考与理解过程。在github上找到一份基于keras框架实现的可运行的注意模型代码:Attention_Net...

2018-08-06 21:55:00

Win10 Anaconda下TensorFlow-GPU环境搭建详细教程(包含CUDA+cuDNN安装过程)

目录前言第一步:安装Anaconda1.下载和安装2.配置Anaconda环境变量第二步:安装TensorFlow-GPU1.创建conda环境2.激活环境3.安装tensorflow-gpu第三步:安装CUDA Toolkit + cuDNN1.查看需要安装的CUDA+cuDNN版本2.下载CUDA + cuDNN3.安装 CUDA Toolkit 9.0 和 cuDnn 7.0至关重...

2018-07-05 11:44:00

NLP之——Word2Vec详解

2013年,Google开源了一款用于词向量计算的工具——word2vec,引起了工业界和学术界的关注。首先,word2vec可以在百万数量级的词典和上亿的数据集上进行高效地训练;其次,该工具得到的训练结果——词向量(word embedding),可以很好地度量词与词之间的相似性。随着深度学习(Deep Learning)在自然语言处理中应用的普及,很多人误以为word2vec是一种深...

2018-06-28 19:29:00

NLP基础——词集模型(SOW)和词袋模型(BOW)

(1)词集模型(Set Of Words): 单词构成的集合,集合自然每个元素都只有一个,也即词集中的每个单词都只有一个。(2)词袋模型(Bag Of Words): 如果一个单词在文档中出现不止一次,并统计其出现的次数(频数)。为文档生成对应的词集模型和词袋模型考虑如下的文档:dataset = [['my', 'dog', 'has', 'flea', 'problems',...

2018-06-27 13:56:00

DSSM:深度语义匹配模型(及其变体CLSM、LSTM-DSSM)

导语在NLP领域,语义相似度的计算一直是个难题:搜索场景下Query和Doc的语义相似度、feeds场景下Doc和Doc的语义相似度、机器翻译场景下A句子和B句子的语义相似度等等。本文通过介绍DSSM、CNN-DSSM、LSTM-DSSM等深度学习模型在计算语义相似度上的应用,希望给读者带来帮助。1. 背景以搜索引擎和搜索广告为例,最重要的也最难解决的问题是语义相似度,这里主要体现...

2018-06-26 15:06:00

查看更多

勋章 我的勋章
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。