5 MachineLP

尚未进行身份认证

成功收获成果,失败收获智慧,投入收获快乐!

等级
TA的排名 1k+

pyspark-ml学习笔记:模型评估

问题是这样的,如果我们想基于pyspark开发一个分布式机器训练平台,那么肯定需要对模型进行评估,而pyspark本身自带模型评估的api很少,想进行扩展的话有几种方案:(1)使用udf自行编写代码进行扩展。(2)使用现有的,像sklearn中的api。(不同框架的之间的切换往往需要转换数据结构)例子如下所示:'''模型评估模块:·pysparkapi·sklearn...

2019-08-21 16:33:09

pyspark-ml学习笔记:一些比较不错的资料

子雨大数据之Spark入门教程(Python版):http://dblab.xmu.edu.cn/blog/1709-2/子雨大数据之Spark入门教程(Scala版):http://dblab.xmu.edu.cn/blog/spark/https://blog.csdn.net/FlySky1991PySparkpandasudf:https://www.imooc...

2019-08-13 21:26:19

pyspark-ml学习笔记:逻辑回归、GBDT、xgboost参数介绍

逻辑回归、GBDT可以参考pyspark开发文档:http://spark.apache.org/docs/latest/api/python/pyspark.ml.html#pyspark.ml.classification.LogisticRegression。xgboost查看:https://xgboost.ai。下面只列出分类是的参数介绍:(对于回归时的自行查看)逻辑回归...

2019-08-13 21:18:21

pyspark-ml学习笔记:pyspark下使用xgboost进行分布式训练

问题是这样的,如果我们想基于pyspark开发一个分布式机器训练平台,而xgboost是不可或缺的模型,但是pysparkml中没有对应的API,这时候我们需要想办法解决它。测试代码:((pyspark使用可以参考这个:https://blog.csdn.net/u014365862/article/details/87825398))#!/usr/bin/envpython...

2019-08-13 20:49:01

pyspark-ml学习笔记:如何在pyspark ml管道中添加自己的函数作为custom stage?

问题是这样的,有时候sparkmlpipeline中的函数不够用,或者是我们自己定义的一些数据预处理的函数,这时候应该怎么扩展呢?扩展后保持和pipeline相同的节奏,可以保存加载然后transform。经过搜索有答案了,问题:HowtoaddmyownfunctionasacustomstageinaMLpysparkPipeline?可以参考:(...

2019-08-13 20:29:03

SQL必知必会

SQL必知必会学习总结:

2019-08-06 09:40:17

pyspark-ml学习笔记:LogisticRegression

具体查看下面代码及其注释:数据可以查看github:https://github.com/MachineLP/Spark-/tree/master/pyspark-mlimportosimportsys#下面这些目录都是你自己机器的Spark安装目录和Java安装目录os.environ['SPARK_HOME']="/Users/***/spark-2.4.3-b...

2019-07-19 17:13:43

数据分析实战清单

2019-05-15 09:50:46

spark杂记:movie recommendation using ALS

Spark学习笔记可以follow这里:https://github.com/MachineLP/Spark-数据下载:https://grouplens.org/datasets/movielens/latest/ALS(AlternatingLeastSquares)算法是基于矩阵分解的协同过滤算法中的一种,它已经集成到Spark的Mllib库中,使用起来比较方便。代码如下:...

2019-04-02 22:12:07

spark杂记:Operations on (key,val) RDDs

Spark学习笔记可以follow这里:https://github.com/MachineLP/Spark-TypesofsparkoperationsThereareThreetypesofoperationsonRDDs:Transformations,ActionsandShuffles.Themostexpensiveoperations...

2019-03-24 18:26:52

spark杂记:Word Count

Spark学习笔记可以follow这里:https://github.com/MachineLP/Spark-WordCountCountingthenumberofoccurancesofwordsinatextisapopularfirstexerciseusingmap-reduce.TheTaskInput:Atextfilec...

2019-03-21 23:05:29

spark杂记:Spark Basics 2:Chaining,counting,transformations

Spark学习笔记可以follow这里:https://github.com/MachineLP/Spark-ChainingWecanchaintransformationsandaactiontocreateacomputationpipelineSupposewewanttocomputethesumofthesquares:whe...

2019-03-21 22:39:37

spark杂记:Execution plans, Lazy Evaluation, and caching

Spark学习笔记可以follow这里:https://github.com/MachineLP/Spark-Task:calculatethesumofsquares:Thestandard(orbusy)waytodothisisCalculatethesquareofeachelement. Sumthesquares.This...

2019-03-19 22:13:50

spark杂记:Spark Basics

Spark学习笔记可以follow这里:https://github.com/MachineLP/Spark-下面来看几个问题,下面将关注几个问题进行阐述:Mac下安装pyspark spark相关基础知识1、Mac下安装pyspark可以参考:BigDataAnalyticsusingSpark这个课程:https://courses.edx.org/courses/c...

2019-02-20 22:03:07

DL杂记:word2vec之TF-IDF、共轭矩阵、cbow、skip-gram

下面来看几个问题,下面将关注几个问题进行阐述:为什么是word2vector 为什么语义的word2vec要好于无语义word2vec cbow的word2vec结果展示 TF实现TF-IDF、共轭矩阵、cbow、skip-gram 训练好的wordembedding通过倒排进行检索 1、为什么是word2vector? 可以看下面这个博文解释的不错:后面有时间会自己整...

2019-02-20 21:03:25

DL杂记:再议长短时记忆网络(Long Short Term Memory Network, LSTM)

对rnn的一些模型结构可以查看这篇文章:RNN:几张图搞懂RNN模型构建下面来着重看一些lstm:LSTM:是一种改进之后的循环网络,可以解决rnn无法处理长距离依赖的问题。首先看一下原始rnn:其实rnn可以看成是一个很深的network。如下图所示的形式。但是原始rnn存在梯度消失或者梯度爆炸的情况,梯度消失可以通过累积来体现(激活函数等)、梯度爆炸可以通过累加...

2019-01-20 16:19:22

Python数据可视化的10种技能

如果你想要用Python进行数据分析,就需要在项目初期开始进行探索性的数据分析,这样方便你对数据有一定的了解。其中最直观的就是采用数据可视化技术,这样,数据不仅一目了然,而且更容易被解读。同样在数据分析得到结果之后,我们还需要用到可视化技术,把最终的结果呈现出来。可视化视图都有哪些?按照数据之间的关系,我们可以把可视化视图划分为4类,它们分别是比较、联系、构成和分布。我来简单介绍下...

2019-01-17 09:23:18

DL杂记:YOLOV3之禅

MachineLP的Github(欢迎follow):https://github.com/MachineLP对于框架的就不多解释了,下面着重抠几个细节,分别是:(1)kmeans如何获取anchors(2)获取anchors,给anchor打标。(3)Anchor的预测(1)kmeans获取anchorskmeans,中心点个数是需要人为指定的,位置可以随机初始化,但是还...

2019-01-16 18:52:08

所见即所得

看到的只有认真总结积累沉淀,才能做到所见即所得!!!  一直提倡开源,闭源阻碍不了社会的进步,只会使自己退步,因为跟不上时代,不进则退。周末笔记,不严谨,只是对技术的执着!没有比较很难去发现自己的问题,短时间内提供算法到最优,‘需要对业务和算法深刻的洞察,问题肯定是有解决方法的,遇到问题请问一句自己:针对业务目前算法是最优的吗?优化问题的解决对应有ML/DL的优化算法、数据结构和算法...

2019-01-13 10:37:26

tf47:SeqGAN

MachineLP的Github(欢迎follow):https://github.com/MachineLPGAN为什么没有在NLP取得好成绩?虽然GAN在图像生成上取得了很好的成绩,GAN并没有在自然语言处理(NLP)任务中取得让人惊喜的成果。其原因大概可以总结为如下几点:(1)原始GAN主要应用实数空间(连续型数据)上,在生成离散数据(texts)这个问题上并...

2019-01-10 18:26:52

查看更多

勋章 我的勋章
  • 勤写标兵Lv2
    勤写标兵Lv2
    授予每个自然周发布4篇到6篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。