10 LegenDavid

尚未进行身份认证

我要认证

暂无相关简介

等级
TA的排名 1w+

机器学习缺失值处理方法汇总

1. 用平均值、中值、分位数、众数、随机值等替代。效果一般,因为等于人为增加了噪声。2. 用其他变量做预测模型来算出缺失变量。效果比方法1略好。有一个根本缺陷,如果其他变量和缺失变量无关,则预测的结果无意义。如果预测结果相当准确,则又说明这个变量是没必要加入建模的。一般情况下,介于两者之间。3. 最精确的做法,把变量映射到高维空间。比如性别,有男、女、缺失三种情况,则映射成3个变量:是否男...

2019-05-16 11:57:13

Timsort——自适应、稳定、高效排序算法

当在使用python中自带的排序算法、或者Java中的排序算法时,产生了一些好奇,他们本身运用的是什么高端的排序算法,深究、探索、查阅资料后得到了如下的认识。Timsort介绍Timsort是一种混合、稳定高效的排序算法,源自合并排序和插入排序,旨在很好地处理多种真实数据。它由Tim Peters于2002年实施使用在Python编程语言中。该算法查找已经排序的数据的子序列,并使用该知识更有...

2019-04-29 21:30:29

深度学习中Dropout原理解析

1. Dropout简介1.1 Dropout出现的原因在机器学习的模型中,如果模型的参数太多,而训练样本又太少,训练出来的模型很容易产生过拟合的现象。在训练神经网络的时候经常会遇到过拟合的问题,过拟合具体表现在:模型在训练数据上损失函数较小,预测准确率较高;但是在测试数据上损失函数比较大,预测准确率较低。过拟合是很多机器学习的通病。如果模型过拟合,那么得到的模型几乎不能用。为了解决过拟合...

2019-04-21 19:34:29

UCB中置信区间怎么推导出来的

Upper Confidence BoundsRandom exploration gives us an opportunity to try out options that we have not known much about. However, due to the randomness, it is possible we end up exploring a bad actio...

2019-04-17 15:07:20

深度学习解决NLP问题:语义相似度计算——DSSM

tongzhou转载请注明出处:http://blog.csdn.net/u013074302/article/details/76422551导语在NLP领域,语义相似度的计算一直是个难题:搜索场景下query和Doc的语义相似度、feeds场景下Doc和Doc的语义相似度、机器翻译场景下A句子和B句子的语义相似度等等。本文通过介绍DSSM、CNN-DSSM、LSTM-DSSM等深度学...

2019-04-10 20:10:10

TensorFlow分布式全套(原理,部署,实例)

TF的实现分为了单机实现和分布式实现,在分布式实现中,需要实现的是对client,master,worker process不在同一台机器上时的支持。数据量很大的情况下,单机跑深度学习程序,过于耗时,所以需要TensorFlow分布式并行。该实例是TF的经典入门实例手写字体识别MNIST基于分布式的实现,代码都加了中文注释,更加通俗易懂。GitHub实例地址:https://github....

2019-02-02 11:52:20

ParameterServer入门和理解

目录parameter server原理分布式系统中的同步与异步机制parameter server架构Push and PullTask:Synchronous and AsynchronousPS下的算法ps-lite实现ps-lite角色重要类运行脚本test_simple_app流程MXNet之ps-lite及parameter server原理ps-lite...

2018-09-25 19:59:10

markdown编辑器模板

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Ma...

2018-09-25 19:58:20

关于点击率模型,你知道这三点就够了

说到广告,或者运营,关注的最多的就是点击率了。我们经常能听说某某科学家通过建立更好的点击率预测模型,为公司带来上亿的增量收入。点击率这么简单直接的统计量,为什么要用复杂的数学模型来刻画呢?说到计算广告,或者个性化推荐,甚至一般的互联网产品,无论是运营、产品还是技术,最为关注的指标,就是点击率。业界也经常流传着一些故事,某某科学家通过建立更好的点击率预测模型,为公司带来了上亿的增量收入。点击...

2018-09-03 16:11:41

前向传播算法(Forward propagation)与反向传播算法(Back propagation)

虽然学深度学习有一段时间了,但是对于一些算法的具体实现还是模糊不清,用了很久也不是很了解。因此特意先对深度学习中的相关基础概念做一下总结。先看看前向传播算法(Forward propagation)与反向传播算法(Back propagation)。1.前向传播如图所示,这里讲得已经很清楚了,前向传播的思想比较简单。 举个例子,假设上一层结点i,j,k,…等一些结点与本层的结点w有连...

2018-09-03 15:44:23

局部最优 与 batch size

真的结束于最优点吗?我们知道,在局部最优点附近,各个维度的导数都接近0,而我们训练模型最常用的梯度下降法又是基于导数与步长的乘积去更新模型参数的,因此一旦陷入了局部最优点,就像掉进了一口井,你是无法直着跳出去的,你只有连续不间断的依托四周的井壁努力向上爬才有可能爬出去。更何况梯度下降法的每一步对梯度正确的估计都在试图让你坠入井底,因此势必要对梯度“估计错很多次”才可能侥幸逃出去。那么从数学上看...

2018-08-28 18:37:25

【深度学习】深入理解Batch Normalization批标准化

这几天面试经常被问到BN层的原理,虽然回答上来了,但还是感觉答得不是很好,今天仔细研究了一下Batch Normalization的原理,以下为参考网上几篇文章总结得出。  Batch Normalization作为最近一年来DL的重要成果,已经广泛被证明其有效性和重要性。虽然有些细节处理还解释不清其理论原因,但是实践证明好用才是真的好,别忘了DL从Hinton对深层网络做Pre-Trai...

2018-08-28 18:24:48

浅谈基于MDLP算法的数据分箱技术

浅谈基于MDLP算法的数据分箱技术导语在数学建模当中,有些算法(如Logistic Regression、Naive Bayes)需要将连续型变量进行分箱处理,这样做既可以消除奇异值带来的影响,同时也便于业务部门后期根据模型的结果进行客户细分。但是如果是使用传统的无监督数据分箱(例如等频、等距),效果往往不甚理想。今天小编就来介绍一种简单易操作的监督式分箱技术MDLP(最小描述长度准...

2018-08-08 20:00:59

vim 粘贴 取消缩进

Vim 复制粘贴探秘Vim 作为最好用的文本编辑器之一,使用vim来编文档,写代码实在是很惬意的事情。每当学会了vim的一个新功能,就会很大地提高工作效率。有人使用vim几 十年,还没有完全掌握vim的功能,这也说明了vim的强大。而这样何尝不是一件好事呢,只要有的学习,就有的提高。最近使用Vim来写博客,发现在Vim中粘贴Python代码后,缩进就全乱了。仔细研究了以下,原来是自动缩进的...

2018-08-08 15:36:45

机器学习解决问题的一般流程

确定损失函数L(θ,X)L(θ,X)L(\theta,X),其中θθ\theta是待求解的模型参数,XXX是样本参数,对θθ\theta求偏导数∂L(θ,X)∂θ∂L(θ,X)∂θ\dfrac{\partial L(\theta,X)}{\partial \theta}得到梯度ggg以sgd为例,取每一个样本,得到对应的梯度ggg,然后根据梯度对θθ\theta进行迭代θ:=θ−ηgθ:=θ...

2018-07-12 17:28:20

Spark性能优化指南——高级篇

前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的...

2018-07-05 15:51:56

Spark性能优化指南——基础篇

http://mp.weixin.qq.com/s?__biz=MjM5NDMwNjMzNA==&mid=2651805828&idx=1&sn=2f413828d1fdc6a64bdbb25c51508dfc&scene=2&srcid=0519iChOETxAx0OeGoHnm7Xk&from=timeline&isappinstalle...

2018-07-05 15:22:27

最大熵与逻辑回归的等价性

一:前言update:2015/11/9获得了一些新的理解,指数簇分布的最大熵等价于其指数形式的最大似然界。二项式的最大熵解等价于二项式指数形式(sigmoid)的最大似然,多项式分布的最大熵等价于多项式分布指数形式(softmax)的最大似然,因此为什么用sigmoid函数,那是因为指数簇分布最大熵的特性的必然性。假设分布求解最大熵,引入拉格朗日函数,求偏导数等于0,直接求出就是sigmoid函...

2018-06-28 19:29:30

常见编程命名缩写

命名缩写通用缩写翻译控件缩写翻译addressaddr地址calendarcdr日历applicationapp应用程序messageDialogmsgdlg消息框asynchronizationasyn异步drawerdrw抽屉averageavg平均数buttonGroupbtngrp按钮分组bitmapbmp位图checkBoxchk复选框bufferbuf缓冲区containercntr容...

2018-06-21 16:33:50

特征分析在广告点击率预估上为什么没那么重要

首先需要澄清一点,这里的特征分析主要是指的传统上数据挖掘里面讲的一些特征关系研究比如共线性问题。 另外,这里的经验特指用LR来做点击率预估。大家学完数据挖掘/机器学习的课程的时候,一定会有个体会, 特征不可以乱加,乱加特征很可能会导致更坏的效果。所以,在没有任何人的指导下,仅仅是凭借着前人的一些资料, 我根据之前看的书本,习惯性的陷入了特征选择这个坑中,我会想效果不好的原因会不会是因为加入了特征,...

2018-06-15 16:02:48

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!