6 TccccD

尚未进行身份认证

暂无相关描述

等级
TA的排名 7w+

MXNet多机分布式配置

mxnet多机分布式配置将一台机器上的mxnet拷到另外两台机器上scp-r/home/hzz/mxnethzz@9.91.21.37:/home/hzz/mxnet如果已经在自己的环境安装好mxnet或者不想新建一个Python环境,可以忽略这几步。建立新的Python环境对每台机器,用anacodna的conda建立新的Python环境,在这个环境安装mxnet...

2018-06-27 14:24:26

MXNet下,随机生成图片Iter

为了测试有时需要随机生成图片文件,为了自己predict需要去掉了label。MXNet的module比较麻烦,一定需要使用DataIter,于是自己写了测试使用的DataIterclassRandomDataIter(mx.io.DataIter):def__init__(self,batch_size,max_iter=1000,dtype=np.float32,...

2018-06-22 15:41:23

Python查看GPU已使用的显存

pip安装pynvmlpipinstallnvidia-ml-py3如果是Python2,则pipnvidia-ml-py2之后可以在Python3下使用了importpynvmlpynvml.nvmlInit()#这里的0是GPUidhandle=pynvml.nvmlDeviceGetHandleByIndex(0)meminfo=pynvml...

2018-06-22 15:36:40

机器学习-数据挖掘-千千问------更新时间 2018.3.23

问项目谈谈你最熟的或者做的时间最长的项目描述项目解决的问题描述数据挖掘竞赛解决的问题描述对问题的分析描述解决方案的流程,数据挖掘的流程怎么做特征工程的数据预处理的方法有哪些归一化标准化方法有哪些对缺失值处理方法有哪些对项目的数据做了哪些处理怎么提取特征的,提取特征的方法提取了多少特征,特征的维度,哪些特征比较好对特征的评估方法是什么,怎么判断其好坏用了什么模型...

2018-03-23 19:21:40

为什么深度学习不采用牛顿法或拟牛顿法作为优化算法?

出处:http://blog.csdn.net/VictoriaW/article/details/71710280原因一:牛顿法需要用到梯度和Hessian矩阵,这两个都难以求解。因为很难写出深度神经网络拟合函数的表达式,遑论直接得到其梯度表达式,更不要说得到基于梯度的Hessian矩阵了。原因二:即使可以得到梯度和Hessian矩阵,当输入向量的维度N较大时,Hessian矩阵的大小

2018-02-05 00:43:39

mac下单机版 kafka + spark + python搭建与实例

kafka+zookeeper不提供spark安装,这里从kafka安装开始首先下载kafka和zookeeperbrewinstallzookeeper等它安装完毕,先进入zookeeper文件夹,往往在/usr/local/Cellar下,启动zookeeper:cd/usr/local/Cellar/zookeeper/3.4.6_1/binzkServ

2018-01-13 20:44:01

机器学习笔记:kMeans聚类

kMeans聚类优点:容易实现。缺点:可能收敛到局部最小值,在大规模数据集上收敛较慢。适用数据类型:数值型数据K-均值算法:先随机确定k个初始点作为质心,然后将数据集中的每个点分配到一个簇中,具体来讲为每个点找距其最近的质心,并将其分配给该质心所对应的簇。再每个簇更新质心为该簇所有点的平均值。Python3.6实现kMeans算法importnumpyasn

2018-01-11 23:31:12

机器学习笔记:回归树

回归树:优点:可以对复杂和非线性的数据建模缺点:结果不易理解适用数据类型:数值型和标称型

2018-01-11 19:16:35

Python中遇到的比较纠结的问题记录-----持续更新

1.set操作之后转换成list出现乱序问题。In[0]:list(set(['1','2','3','4']))Out[1]:['1','3','4','2']这时候只要按照之前的顺序重新排序即可:a=['1','2','3','4']sorted(list(set(a)),key=a.index)Out[1]:['1','2','3',

2018-01-09 22:23:16

Spark之深入理解RDD结构

RDDRDD(ResilientDistributedDatasets,弹性分布式数据集),是Spark最为核心的概念,自然也是理解ApacheSpark工作原理的最佳入口之一。RDD的特点:1.是一个分区的只读记录的集合;2.一个具有容错机制的特殊集;3.只能通过在稳定的存储器或其他RDD上的确定性操作(转换)来创建;4.可以分布在集群的节点上,以函数式操

2018-01-06 22:57:53

Spark技术内幕整理------持续更新

整理自博客专栏《Spark技术内幕》SparkContext---从SparkContext开始Executor---------Executor分配详解Master-----------Master的故障恢复RDD--------------究竟什么是RDDStage-------------Stage划分及提交,Task向Executor提交

2018-01-04 21:32:21

GBDT与XGBOOST的联系和区别

最近翻阅了一些介绍GBDT与XGBOOST的原理的博客和论文,网上以及有很多介绍它们的文章了,但博主还是想记录一下它们的原理以及自己的理解,即是方便自己翻阅复习也是希望大佬们提提建议。GBDTGBDT即是GradientBoostingTree(梯度提升树),很容易联想到的是这里的梯度提升与GradientDescend(梯度下降)之间的关系。不去理解这个“Boosting”,

2018-01-03 12:30:33

数据挖掘实践与我的想法之特征工程

从一个最近的天池数据挖掘比赛--商铺定位赛,记录部分特征工程实践内容。本博客采用二分类XGBOOST模型,同时涉及部分的多分类模型。

2017-11-29 14:58:54

通俗易懂解释负载均衡

转自菜鸟教你如何通俗理解——>集群、负载均衡、分布式 在“高并发,海量数据,分布式,NoSql,云计算......”概念满天飞的年代,相信不少朋友都听说过甚至常与人提起“集群,负载均衡”等,但不是所有人都有机会真正接触到这些技术,也不是所有人都真正理解了这些“听起来很牛的”技术名词。下面简单解释一下吧。(从一个网站上面看到的,例子很有趣,分享给大家)  集群(

2017-11-15 10:09:41

用Python进行数据挖掘(数据预处理)

用Python进行数据挖掘(数据预处理)本博客进行数据预处理的方法总结自kaggle的几道题目:1.HousePrices2.Titanic以及比较不错的几个kernels:1.https://www.kaggle.com/pmarcelino/house-prices-advanced-regression-techniques/comprehensive-data-explora

2017-08-27 19:42:23

机器学习笔记:线性回归

线性回归:优点:结果易于理解,计算上不复杂缺点:对非线性的数据拟合不好适用数据类型:数值型和标称型设X为数据集,xi为每一行所包含的特征的值,yi为每一行xi的结果,如图:其中xiT表示为xi的转置,abc。。。n表示xi所包含的特征值。设Yi表示用回归系数的向量wi预测出来的y值,如图:有大量的训练集X,也会出现大量的回归系数W,但我们只取一个

2017-08-15 10:46:07

机器学习笔记:SVM

SVM-SupportVectorMachines-支持向量机优点:泛化错误率低,计算开销不大,结果易解释。缺点:对参数调节和核函数的选择敏感,原始分类器不加修改仅适用于处理二类问题。适用数据类型:数值型和标称型数据支持向量机最主要的还是选出离分隔超平面最近的点,这些点叫支持向量,然后最大化支持向量到分隔面的距离。不能耐心的看完SVM的理论了,实在是太多。。等老师给我们讲的

2017-08-01 21:35:07

机器学习笔记:Logistic回归

Logistic回归优点:计算代价不高,易于理解和实现缺点:容易欠拟合,分类精度可能不高适用数据类型:数值型和标称型数据实现Logistic回归我们需要借助类似于阶跃函数的Sigmoid函数,在每个特征上都乘以一个回归系数,然后把所有的结果值相加,将这个结果代入Sigmoid函数中,进而得到一个范围在0-1之间的数值。任何大于0.5的数据被分入1类,小于0.5即被归入0

2017-07-30 10:03:35

机器学习笔记:朴素贝叶斯

朴素贝叶斯优点:在数据较少的情况下仍然有效,可以处理多类别问题;缺点:对于输入数据的准备方式较为敏感;适用数据类型:标称型数据。这里用到的贝叶斯准则:p(c|x,y)=p(x,y|c)*p(c)/p(x,y)而这个准则可以由我们熟悉的全概率公式推导出来:p(x,y|c)=p((x,y)·c)/p(c)当然这是站在仅限的大学高数知识所能想到的贝叶斯准则:·

2017-07-29 18:08:21

《机器学习实战》书中python2.7与3.6的区别-持续更新

《机器学习实战》书中使用的是python2.7,而对于现在新接触python的同学来说都是上手python3.6版本。由于本渣渣也正在学习此书,将陆续列出遇到的不同于现实编码的困难与解决方法(如果能解决的话.......)。1.在importnumpy时候,书中提倡fromnumpyimport*而我们在学习python3.6时常用importnumpyasnp,

2017-07-27 15:23:35

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!