2 苝花向暖丨楠枝向寒

尚未进行身份认证

本着自己以后复习的目的,写微博。如有问题,望各位指出。

等级
TA的排名 2w+

Spark与Flink对比

Spark缺点无论是SparkStreaming还是StructuredStreaming,Spark流处理的实时性还不够,所以无法用在一些对实时性要求很高的流处理场景中。这是因为Spark的流处理是基于所谓微批处理(Micro-batchprocessing)的思想,即它把流处理看作是批处理的一种特殊形式,每次接收到一个时间间隔的数据才会去处理,所以天生很难在实时性上有所...

2019-07-23 16:18:50

Spark生态相关组件介绍

Spark为什么需要Spark?Spark大厦的地基(RDD)SparkSQLSparkStreamingStructuredStreaming为什么需要Spark?第一,MapReduce模型的抽象层次低,大量的底层逻辑都需要开发者手工完成第二,只提供Map和Reduce两个操作。第三,在Hadoop中,每一个Job的计算结果都会存储在HDFS中,所以每一步计算都...

2019-07-23 14:36:46

中文分词预处理之N最短路径法小结(转)

https://blog.csdn.net/TheAlgorithmArt/article/details/6876871

2019-06-18 22:53:57

一文带你入门图论和网络分析

https://yq.aliyun.com/articles/623203

2019-06-18 16:51:28

Django模板系统(非常详细)

Django模板系统

2019-04-14 01:45:14

centos7安装python3

https://blog.csdn.net/elija940818/article/details/79238813

2019-04-09 23:13:21

Centos7下载和安装教程

https://blog.csdn.net/qq_42570879/article/details/82853708

2019-04-09 23:00:29

centos7安装并配置PostgreSQL

https://blog.csdn.net/DaSo_CSDN/article/details/75330009

2019-04-09 22:59:45

centos7安装redis

https://www.cnblogs.com/zuidongfeng/p/8032505.html

2019-04-09 22:22:24

sklearn中的交叉验证(Cross-Validation)

​​​​​原文:点击进入

2019-04-07 20:58:23

特征工程-卡方检验

https://www.jianshu.com/p/807b2c2bfd9b

2019-03-06 11:02:14

EM算法文章推荐

添加链接描述

2019-02-24 20:20:57

因子分析文章推荐

https://www.cnblogs.com/jerrylead/archive/2011/05/11/2043317.html

2019-02-23 22:51:51

关于SMO算法文章推荐

SMO算法上面文章中KKT条件的推导过程

2019-02-14 10:57:17

关于核函数的文章推荐

通俗易懂的文章对上文的补充正定矩阵与二阶导数的关系

2019-02-12 21:09:19

多维高斯分布以及生成学习模型文章推荐

https://zhuanlan.zhihu.com/p/36522776

2019-02-06 16:33:21

奇异值分解(SVD)原理详解

转自:点击进入一、奇异值与特征值基础知识:特征值分解和奇异值分解在机器学习领域都是属于满地可见的方法。两者有着很紧密的关系,我在接下来会谈到,特征值分解和奇异值分解的目的都是一样,就是提取出一个矩阵最重要的特征。先谈谈特征值分解吧:1)特征值:如果说一个向量v是方阵A的特征向量,将一定可以表示成下面的形式:这时候λ就被称为特征向量v对应的特征值,一个矩阵的一组特征向量是一组正交向量。特...

2019-01-30 16:46:26

PCA降维求特征值的原因

我看了几篇文章,知道了PCA降维思路,但始终不能理解,为什么通过求其特征值,然后去掉较小的特征值,再根据特征值求出特征向量最终能达到降维的目的。如果你有相同的困惑,看下面的内容一定会有帮助。看之前你需要了解协方差矩阵。了解特征值的求解方式。PCA做的事情:去噪声和冗余噪声:样本中某个主要维度A,能够代表原始数据,但是由于维度A与其他维度有联系,而其他维度又给我们造成干扰,此时可以通过P...

2019-01-20 17:44:38

机器学习-lesson3(决策树和随机森林)

决策树熵:表示随机事件不确定性的度量比如我们想预测一个人今天是否会出去打篮球,我们现有一些天气信息,如下然后我们根据下面的熵值计算公式算出熵值信息增益:表示特征X使得类Y的不确定性减少程度。说白了就是通过一个决策节点以后熵值的减少量,减少量越大越好,通过对比每一种分类节点,选择信息增益值最大的作为决策树的根节点。如下可以看出当outlook为overcast时结果均...

2018-12-11 17:24:11

准确率(Accuracy), 精确率(Precision), 召回率(Recall)和F1-Measure

点击进入原文.现在我先假定一个具体场景作为例子。假如某个班级有男生80人,女生20人,共计100人.目标是找出所有女生.现在某人挑选出50个人,其中20人是女生,另外还错误的把30个男生也当作女生挑选出来了.作为评估者的你需要来评估(evaluation)下他的工作首先我们可以计算准确率(accuracy),其定义是:对于给定的测试数据集,分类器正确分类的样本数与总样本数之比。也就是损...

2018-12-05 21:16:47

查看更多

勋章 我的勋章
  • 领英
    领英
    绑定领英第三方账户获取
  • GitHub
    GitHub
    绑定GitHub第三方账户获取
  • 专栏达人
    专栏达人
    授予成功创建个人博客专栏的用户。专栏中添加五篇以上博文即可点亮!撰写博客专栏浓缩技术精华,专栏达人就是你!