LegenDavid-CSDN博客

原创 linux及shell常用命令及遇到的问题集合

在Linux中，我们不免要频繁的修改文件，下载修改后再上传，很难提高效率。使用cat命令就可以在脚本里进行多行修改了。当然cat的使用方法还有很多，这里只是其中的一种使用方法。cat >> /root/a.txt 123456789bbbbbbbbFFFFFFFFFFFFFFFFFFFFFFFEOF以上的脚本命令是，在a.txt文件后面加上三行代码。 Cat

2015-10-20 19:27:21 2252

转载机器学习缺失值处理方法汇总

1. 用平均值、中值、分位数、众数、随机值等替代。效果一般，因为等于人为增加了噪声。2. 用其他变量做预测模型来算出缺失变量。效果比方法1略好。有一个根本缺陷，如果其他变量和缺失变量无关，则预测的结果无意义。如果预测结果相当准确，则又说明这个变量是没必要加入建模的。一般情况下，介于两者之间。3. 最精确的做法，把变量映射到高维空间。比如性别，有男、女、缺失三种情况，则映射成3个变量：是否男...

2019-05-16 11:57:13 1997

当在使用python中自带的排序算法、或者Java中的排序算法时，产生了一些好奇，他们本身运用的是什么高端的排序算法，深究、探索、查阅资料后得到了如下的认识。Timsort介绍Timsort是一种混合、稳定高效的排序算法，源自合并排序和插入排序，旨在很好地处理多种真实数据。它由Tim Peters于2002年实施使用在Python编程语言中。该算法查找已经排序的数据的子序列，并使用该知识更有...

2019-04-29 21:30:29 1359

转载深度学习中Dropout原理解析

1. Dropout简介1.1 Dropout出现的原因在机器学习的模型中，如果模型的参数太多，而训练样本又太少，训练出来的模型很容易产生过拟合的现象。在训练神经网络的时候经常会遇到过拟合的问题，过拟合具体表现在：模型在训练数据上损失函数较小，预测准确率较高；但是在测试数据上损失函数比较大，预测准确率较低。过拟合是很多机器学习的通病。如果模型过拟合，那么得到的模型几乎不能用。为了解决过拟合...

2019-04-21 19:34:29 1162

转载 UCB中置信区间怎么推导出来的

Upper Confidence BoundsRandom exploration gives us an opportunity to try out options that we have not known much about. However, due to the randomness, it is possible we end up exploring a bad actio...

2019-04-17 15:07:20 2474

转载深度学习解决NLP问题：语义相似度计算——DSSM

tongzhou转载请注明出处：http://blog.csdn.net/u013074302/article/details/76422551导语在NLP领域，语义相似度的计算一直是个难题：搜索场景下query和Doc的语义相似度、feeds场景下Doc和Doc的语义相似度、机器翻译场景下A句子和B句子的语义相似度等等。本文通过介绍DSSM、CNN-DSSM、LSTM-DSSM等深度学...

2019-04-10 20:10:10 1173

转载 TensorFlow分布式全套（原理，部署，实例）

TF的实现分为了单机实现和分布式实现，在分布式实现中，需要实现的是对client，master，worker process不在同一台机器上时的支持。数据量很大的情况下，单机跑深度学习程序，过于耗时，所以需要TensorFlow分布式并行。该实例是TF的经典入门实例手写字体识别MNIST基于分布式的实现，代码都加了中文注释，更加通俗易懂。GitHub实例地址：https://github....

2019-02-02 11:52:20 1104

转载 ParameterServer入门和理解

目录parameter server原理分布式系统中的同步与异步机制parameter server架构Push and PullTask:Synchronous and AsynchronousPS下的算法ps-lite实现ps-lite角色重要类运行脚本test_simple_app流程MXNet之ps-lite及parameter server原理ps-lite...

2018-09-25 19:59:10 2497

转载 markdown编辑器模板

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Ma...

2018-09-25 19:58:20 1051

转载关于点击率模型，你知道这三点就够了

说到广告，或者运营，关注的最多的就是点击率了。我们经常能听说某某科学家通过建立更好的点击率预测模型，为公司带来上亿的增量收入。点击率这么简单直接的统计量，为什么要用复杂的数学模型来刻画呢？说到计算广告，或者个性化推荐，甚至一般的互联网产品，无论是运营、产品还是技术，最为关注的指标，就是点击率。业界也经常流传着一些故事，某某科学家通过建立更好的点击率预测模型，为公司带来了上亿的增量收入。点击...

2018-09-03 16:11:41 1316

转载前向传播算法(Forward propagation)与反向传播算法(Back propagation)

虽然学深度学习有一段时间了，但是对于一些算法的具体实现还是模糊不清，用了很久也不是很了解。因此特意先对深度学习中的相关基础概念做一下总结。先看看前向传播算法(Forward propagation)与反向传播算法(Back propagation)。1.前向传播如图所示，这里讲得已经很清楚了，前向传播的思想比较简单。举个例子，假设上一层结点i,j,k,…等一些结点与本层的结点w有连...

2018-09-03 15:44:23 1557

转载局部最优与 batch size

真的结束于最优点吗？我们知道，在局部最优点附近，各个维度的导数都接近0，而我们训练模型最常用的梯度下降法又是基于导数与步长的乘积去更新模型参数的，因此一旦陷入了局部最优点，就像掉进了一口井，你是无法直着跳出去的，你只有连续不间断的依托四周的井壁努力向上爬才有可能爬出去。更何况梯度下降法的每一步对梯度正确的估计都在试图让你坠入井底，因此势必要对梯度“估计错很多次”才可能侥幸逃出去。那么从数学上看...

2018-08-28 18:37:25 2461

转载【深度学习】深入理解Batch Normalization批标准化

这几天面试经常被问到BN层的原理，虽然回答上来了，但还是感觉答得不是很好，今天仔细研究了一下Batch Normalization的原理，以下为参考网上几篇文章总结得出。　　Batch Normalization作为最近一年来DL的重要成果，已经广泛被证明其有效性和重要性。虽然有些细节处理还解释不清其理论原因，但是实践证明好用才是真的好，别忘了DL从Hinton对深层网络做Pre-Trai...

2018-08-28 18:24:48 1072

转载浅谈基于MDLP算法的数据分箱技术

浅谈基于MDLP算法的数据分箱技术导语在数学建模当中，有些算法(如Logistic Regression、Naive Bayes)需要将连续型变量进行分箱处理，这样做既可以消除奇异值带来的影响，同时也便于业务部门后期根据模型的结果进行客户细分。但是如果是使用传统的无监督数据分箱（例如等频、等距），效果往往不甚理想。今天小编就来介绍一种简单易操作的监督式分箱技术MDLP（最小描述长度准...

2018-08-08 20:00:59 3300 1

转载 vim 粘贴取消缩进

Vim 复制粘贴探秘Vim 作为最好用的文本编辑器之一，使用vim来编文档，写代码实在是很惬意的事情。每当学会了vim的一个新功能，就会很大地提高工作效率。有人使用vim几十年，还没有完全掌握vim的功能，这也说明了vim的强大。而这样何尝不是一件好事呢，只要有的学习，就有的提高。最近使用Vim来写博客，发现在Vim中粘贴Python代码后，缩进就全乱了。仔细研究了以下，原来是自动缩进的...

2018-08-08 15:36:45 871

原创机器学习解决问题的一般流程

确定损失函数L(θ,X)L(θ,X)L(\theta,X)，其中θθ\theta是待求解的模型参数，XXX是样本参数，对θθ\theta求偏导数∂L(θ,X)∂θ∂L(θ,X)∂θ\dfrac{\partial L(\theta,X)}{\partial \theta}得到梯度ggg以sgd为例，取每一个样本，得到对应的梯度ggg，然后根据梯度对θθ\theta进行迭代θ:=θ−ηgθ:=θ...

2018-07-12 17:28:20 1270

转载 Spark性能优化指南——高级篇

前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后，本文作为《Spark性能优化指南》的高级篇，将深入分析数据倾斜调优与shuffle调优，以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性能会比期望差很多。数据倾斜调优，就是使用各种技术方案解决不同类型的数据倾斜问题，以保证Spark作业的...

2018-07-05 15:51:56 866

转载 Spark性能优化指南——基础篇

http://mp.weixin.qq.com/s?__biz=MjM5NDMwNjMzNA==&mid=2651805828&idx=1&sn=2f413828d1fdc6a64bdbb25c51508dfc&scene=2&srcid=0519iChOETxAx0OeGoHnm7Xk&from=timeline&isappinstalle...

2018-07-05 15:22:27 913

转载最大熵与逻辑回归的等价性

一：前言update:2015/11/9获得了一些新的理解，指数簇分布的最大熵等价于其指数形式的最大似然界。二项式的最大熵解等价于二项式指数形式(sigmoid)的最大似然，多项式分布的最大熵等价于多项式分布指数形式(softmax)的最大似然，因此为什么用sigmoid函数，那是因为指数簇分布最大熵的特性的必然性。假设分布求解最大熵，引入拉格朗日函数，求偏导数等于0，直接求出就是sigmoid函...

2018-06-28 19:29:30 1421

转载常见编程命名缩写

命名缩写通用缩写翻译控件缩写翻译addressaddr地址calendarcdr日历applicationapp应用程序messageDialogmsgdlg消息框asynchronizationasyn异步drawerdrw抽屉averageavg平均数buttonGroupbtngrp按钮分组bitmapbmp位图checkBoxchk复选框bufferbuf缓冲区containercntr容...

2018-06-21 16:33:50 2358

转载特征分析在广告点击率预估上为什么没那么重要

首先需要澄清一点，这里的特征分析主要是指的传统上数据挖掘里面讲的一些特征关系研究比如共线性问题。另外，这里的经验特指用LR来做点击率预估。大家学完数据挖掘/机器学习的课程的时候，一定会有个体会，特征不可以乱加，乱加特征很可能会导致更坏的效果。所以，在没有任何人的指导下，仅仅是凭借着前人的一些资料，我根据之前看的书本，习惯性的陷入了特征选择这个坑中，我会想效果不好的原因会不会是因为加入了特征，...

2018-06-15 16:02:48 1438 1

原创频率学派还是贝叶斯学派？聊一聊机器学习中的MLE和MAP

作者：夏飞Google | 软件工程师量子位已获授权编辑发布转载请联系原作者本文作者夏飞，清华大学计算机软件学士，卡内基梅隆大学人工智能硕士，现为谷歌软件工程师。在这篇文章中，他探讨了机器学习中的MLE和MAP两大学派的争论。频率学派 - Frequentist - Maximum Likelihood Estimation (MLE，最大似然估计)贝叶斯学派 - Bayesian - Maxi...

2018-06-13 11:22:01 1181

转载频率视角下的机器学习

在“人工智能基础课”中我曾提到，“概率”（probability）这个基本概念存在着两种解读方式，它们分别对应着概率的频率学派（Frequentist）和贝叶斯学派（Bayesian）。而解读方式上的差异也延伸到了以概率为基础的其他学科，尤其是机器学习之中。根据机器学习领域的元老汤姆·米切尔（Tom M. Mitchell）的定义，机器学习（machine learning）是一门研究通过计算的手...

2018-06-13 10:35:43 1251

转载 AUC计算方法总结

一、roc曲线1、roc曲线：接收者操作特征(receiveroperating characteristic),roc曲线上每个点反映着对同一信号刺激的感受性。横轴：负正类率(false postive rate FPR)特异度，划分实例中所有负例占所有负例的比例；(1-Specificity)纵轴：真正类率(true postive rate TPR)灵敏度，Sensitivity(正类覆盖率...

2018-06-13 10:32:11 1739

转载 AUC上升CTR一定上升么

记得几年前，百度从谷歌挖来了一个非常牛逼的工程师，这位工程师带来了很多机器学习的概念，实在是让自己这种土包子开了眼界，在一次会议上，这位工程师在解释auc和线上ctr的关系时，说 ”我做了这么多年机器学习，还从来没见过算法A在auc上胜过算法B，但是线上表现A比B差。” 必须备注一点，自己当时连auc都没搞清楚的小喽啰，也许记忆会有偏差，所以原话也许有偏差。事实上，在点击率预估这项工程的开展初期，...

2018-06-11 15:52:58 5796 2

转载基于大规模机器学习模型的推荐系统

推荐系统的本质是什么？比如说我们看到手机淘宝首页，往下一拉，就能看到各种各样推荐的商品；比如说百度，它会给我们推荐广告，在某种程度上他的工作方式也很像推荐系统；再比如说今日头条，今日头条从数十万的新闻中选出会被我们看到的数十个新闻，这也是推荐系统。尽管我们在生活中会已经见过非常多的推荐系统，但是在用机器学习搭建推荐系统之前，我们还是应当先思考一下，推荐系统要解决的到底是个什么样的问题？推荐系统在本...

2018-06-11 15:52:27 3418 2

转载 git merge 和 git rebase 小结

git merge是用来合并两个分支的。git merge b # 将b分支合并到当前分支同样 git rebase b，也是把 b分支合并到当前分支-----------------------------------他们的原理如下：假设你现在基于远程分支"origin"，创建一个叫"mywork"的分支。$ git checkout -b mywork origin假设远程分支"...

2018-06-06 17:13:08 798

转载 Spark面对OOM问题的解决方法及优化总结

转载请保持完整性并注明来源链接： http://blog.csdn.net/yhb315279058/article/details/51035631 Spark中的OOM问题不外乎以下两种情况map执行中内存溢出shuffle后内存溢出 map执行中内存溢出代表了所有map类型的操作，包括：flatMap，filter，mapPatitions等。shuffle后内存溢出的shuff...

2018-06-05 22:12:41 1081

转载 linux中给 alias 添加命令行参数

定义 alias 时，有用命令行参数的需求。但通过查证文档的结果是，alias 根本就不支持传递命令行参数。不过，我们可以变通的解决这个问题，即定义函数。代码如下复制代码alias test='test() { echo $1; };test'[hadoop@NN069186 dev]$ source ~/.bashrc [hadoop@NN069186 dev]$ test abc def g...

2018-06-01 17:45:35 10392

转载 Spark cache的用法及其误区分析

Spark cache的用法及其误区:一、Cache的用法注意点：（1）cache之后一定不能立即有其它算子，不能直接去接算子。因为在实际工作的时候，cache后有算子的话，它每次都会重新触发这个计算过程。（2）cache不是一个action，运行它的时候没有执行一个作业。（3）cache缓存如何让它失效：unpersist，它是立即执行的。persist是lazy级别的（没有计算），unpers...

2018-06-01 14:35:55 2245

转载不同数据库中查询前几条记录的用法(SQL Server/Oracle/Postgresql)

SQL在不同数据库中查询前几条记录的用法分类1. orACLE Select * FROM TABLE1 Where ROWNUM<=N2. INFORMIX Select FIRST N * FROM TABLE13. DB2 Select * ROW_NUMBER() OVER(ORDER BY COL1 DESC) AS ROWNUM Where ROWNUM<=N 或者Sele...

2018-05-30 20:47:10 1346

转载 spark reparation和coalesce

repartition(numPartitions:Int):RDD[T]和coalesce(numPartitions:Int，shuffle:Boolean=false):RDD[T] 他们两个都是RDD的分区进行重新划分，repartition只是coalesce接口中shuffle为true的简易实现，（假设RDD有N个分区，需要重新划分成M个分区） 1、N小于M 一般情况下N个分区有数据...

2018-05-29 17:58:45 989

转载 Hadoop开启关闭调试信息

修改$HADOOP_CONF_DIR/log4j.properties文件 hadoop.root.logger=ALL,consoleor:开启：export HADOOP_ROOT_LOGGER=DEBUG,console关闭：export HADOOP_ROOT_LOGGER=INFO,console实时查看和修改Hadoop日志级别Hadoop的日志界面可以通过Hadoop命令和Web界面...

2018-05-29 17:38:34 2072

转载【Spark系列2】reduceByKey和groupByKey区别与用法

在spark中，我们知道一切的操作都是基于RDD的。在使用中，RDD有一种非常特殊也是非常实用的format——pair RDD，即RDD的每一行是（key, value）的格式。这种格式很像Python的字典类型，便于针对key进行一些处理。针对pair RDD这样的特殊形式，spark中定义了许多方便的操作，今天主要介绍一下reduceByKey和groupByKey，因为在接下来讲解《在sp...

2018-05-22 18:02:30 1093

原创在深度学习中如何获取特征权重

对于浅层神经网络，例如只有一层或者只有一个隐层的情况，可以将每个特征对应的权重累加对比去掉某个特征，训练，看离线效果变化幅度（费时费力）用GBM等gbdt模型重新训练并计算特征权重来近似（简单易行）给定一个minibatch 计算每一个样本上该特征的梯度（用反向传播计算，并且特征要做归一化，否则绝对值大的特征梯度会小），累加就得到了该特征的权重（相对准确）另外其实对于复杂深度网络通常是不讲特征权重...

2018-05-18 16:59:43 5709

转载 CS231n课程笔记翻译：反向传播笔记

译者注：本文智能单元首发，译自斯坦福CS231n课程笔记Backprop Note，课程教师Andrej Karpathy授权翻译。本篇教程由杜客翻译完成，堃堃和巩子嘉进行校对修改。译文含公式和代码，建议PC端阅读。原文如下：内容列表：简介简单表达式和理解梯度复合表达式，链式法则，反向传播直观理解反向传播模块：Sigmoid例子反向传播实践：分段计算回传流中的模式用户向量化操作的梯度小结简介目标：...

2018-05-18 16:44:07 932

转载从贝叶斯方法谈到贝叶斯网络

转自：http://blog.csdn.net/v_july_v/article/details/409846990 引言事实上，介绍贝叶斯定理、贝叶斯方法、贝叶斯推断的资料、书籍不少，比如《数理统计学简史》，以及《统计决策论及贝叶斯分析 James O.Berger著》等等，然介绍贝叶斯网络的中文资料则非常少，中文书籍总共也没几本，有的多是英文资料，但初学者一上来就扔给他一堆英文论文，因...

2018-05-15 10:42:08 884

转载 Spark函数之join、leftOuterJoin、rightOuterJoin和fullOuterJoin

join用于内连接。后三个函数用于类似于SQL的左、右、全连接。针对key-value形式的RDD。12345val pairRDD1 = sc.parallelize(List( ("cat",2), ("cat", 5), ("book", 4),("cat", 12)))val pairRDD2 = sc.parallelize(List( ("cat",2), ("cup&quot

2018-05-08 14:33:14 2767

转载概率图模型之：贝叶斯网络

1、贝叶斯定理P(A∣B)=P(A)P(B∣A)P(B)P(A∣B)=P(A)P(B∣A)P(B)P(A|B)是已知B发生后A的条件概率，也由于得自B的取值而被称作A的后验概率。 P(B|A)是已知A发生后B的条件概率，也由于得自A的取值而被称作B的后验概率。 P(A)是A的先验概率或边缘概率。之所以称为”先验”是因为它不考虑任何B方面的因素。 P(B)是B的先验概率或边缘概率。贝叶斯定理可表述...

2018-05-07 21:28:14 3030

转载推荐给初学LSTM或者懂个大概却不完全懂的人

经常接触LSTM，GRU,RNN这些模型，对于LSTM的印象只是知道它用来解决梯度消失梯度爆炸问题，对于长距离的句子的学习效果不好的问题，而且大概知道里面是加了一些参数，加了门单元来选择忘记和记住一些信息。但是具体公式没有推过，所以理解的不够深。但是上面这篇长博文，作者真心花了很多心血来创作，写的详细，易懂，对于学习lstm有很大的帮助。读完后我觉得要理解几个门的作用，文中作者提到的三个例子恰到好...

2018-05-03 16:04:25 984

ML step by step

在线最优化求解(Online Optimization)-冯扬-2014.12.0

python 正则表达式 findall和search的问题