自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(30)
  • 收藏
  • 关注

转载 Spark Client和Cluster两种运行模式的工作流程、基本概念

在Client模式下,Driver进程会在当前客户端启动,客户端进程一直存在直到应用程序运行结束 工作流程如下: 1.启动master和worker . worker负责整个集群的资源管理,worker负责监控自己的cpu,内存信息并定时向master汇报 2.在client中启动Driver进程,并向master注册 3....

2018-05-30 11:29:24 13927 2

转载 elasticsearch(三)

DSL查询(Domain Specific Language 领域特定语言) curl -XGET http://localhost:9200/bjsxt/employee/_search -d {“query”:{       “match”:{“last_name”:”Smith”}      ...

2018-05-27 11:29:44 143

转载 Elasticsearch(二)

CURL – 简单认为是可以在命令行下访问url的一个工具 – curl是利用URL语法在命令行方式下工作的开源文件传输工具,使用curl可以简单实现常见的get/post请求。 – curl – -x 指定http请求的方法 – HEAD GET POST PUT DELETE – -d 指定要传输的数据 建立索引库 curl ...

2018-05-12 08:16:09 170

转载 Elasticsearch(一)

一个基于Lucene的实时的分布式搜索和分析引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。基于RESTful接口。 ES VS SOLR – 接口 REST风格的访问接口 ...

2018-05-10 22:09:50 127

转载 PageRank

通过计算页面链接的数量和质量来确定网站重要性的粗略估计。算法创立之初的目的是应用在Google的搜索引擎中,对网站进行排名。 **核心思想** PageRank是基于从许多优质的网页链接过来的网页,必定还是优质网页的思想建立的。其包括:链入链接数(即受欢迎的指标)、链入链接是否来自推荐度高的页面、链入链接源页面的链接数。 => 即得到页面A的PR值的计算公式 推导出

2018-05-10 08:29:09 702

转载 聚类算法---Kmeans,K-mediods,bisecting K-means,DBSCAN,STING

Kmeans learn URL https://blog.csdn.net/loveliuzz/article/details/78783773

2018-05-10 07:51:34 2737

转载 马尔可夫模型(Markov Model)

https://www.cnblogs.com/fengfenggirl/p/HMM_1.html 超通熟易懂及推理!!!!!!!!!优点:该方法对过程的状态预测效果良好,可考虑用于生产现场危险状态的预测 缺点:不适宜用于系统中长期预测

2018-05-08 08:53:40 8621

转载 EM

learning URL 理论推导 和 优缺点 https://blog.csdn.net/zhihua_oba/article/details/73776553 http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006936.html 其基本思想是:首先根据己经给出的观测数据,估计出模型参数的值;然后再依据上一步估计出的参数

2018-05-08 08:42:53 167

转载 Docker

一个开源的应用容器引擎,基于 Go 语言 并遵从Apache2.0协议开源。 docker可以让开发者打包他们的应用以及依赖包到一个轻量级、可移植的容器中,然后发布到任何流行的 Linux 机器上,也可以实现虚拟化。 容器是完全使用沙箱机制,相互之间不会有任何接口(类似 iPhone 的 app),更重要的是容器性能开销极低。应用场景 1)Web 应用的自动化打包和发布

2018-05-08 08:16:43 115

转载 决策树

信息论(Information theory) 对于一个变量X~p(X服从p分布),该变量的熵是描述该变量的不确定性的一个值 eg:对于一个有k个状态的离散随机变量X,有 信息增益:(information gain) g(D,A) = H(D)-H(D|A) 表示了特征A使得数据集D的分类不确定性减少的程度 信息增...

2018-05-07 21:01:33 147

转载 AdaBoost

理论推导URL:http://www.cnblogs.com/pinard/p/6133937.html 集成方法(Ensemble Method) = Bagging + Boosting 1)Bagging思想 通过对训练数据集进行随机采样,以重新组合成不同的数据集,利用弱学习算法对不同的新数据集进行学习,得到一系列的预测结果,对这...

2018-05-07 20:24:01 111

转载 docker

一个开源的应用容器引擎,基于 Go 语言 并遵从Apache2.0协议开源。 一个集开发,打包,运行应用于一体的开放式平台,用来快速交付应用,将应用程序从你的基础设施中分离出来,并将基础设施当做一个管理平台,可以加快打包时间,加快测试,加快发布,缩短开发及运行代码之间的周期,通过结合内核容器化特点和工作流,并使之工具化来实现这一切,帮助管理和发布你的应用。 Docker 可以让...

2018-05-07 20:05:14 97

翻译 microServices微服务

微服务的概念源于2014年3月Martin Fowler所写的一篇文章“Microservices”(http://martinfowler.com/articles/microservices.html)。微服务一种架构风格,一个大型复杂软件应用由一个或多个微服务组成。系统中的各个微服务可被独立部署,各个微服务之间是松耦合的。每个微服务仅关注于完成一件任务并很好地完成该任务。在所有情...

2018-04-22 19:55:40 325

原创 朴素贝叶斯

拉普拉斯平滑 朴素:特征条件独立 贝叶斯:基于贝叶斯定理使用场景: 文档分类,垃圾邮件分类优点: 1.生成式模型,通过计算概率来进行分类,可以用来处理多分类问题, 2.对小规模的数据表现很好,适合多分类任务,适合增量式训练,算法也比较简单 3.对缺失数据不太敏感,算法也比较简单,常...

2018-04-17 08:23:01 156

翻译 过拟合,欠拟合,偏差,误差,正则化

欠拟合-过拟合与偏差-方差关系 过拟合 在训练数据上表现良好,在未知数据上表现差。高方差 模型把数据学习的太彻底,以至于把噪声数据的特征也学习到了,使得测试的时候不能够很好地识别数据,即不能正确的分类,模型泛化能力太差 解决方法: 1)重新清洗数据 2)增大数据的训练量 3)采用正则化方法,正则化方法包括L0正则、L1正...

2018-04-11 10:12:43 368

原创 回归算法,线性回归,logistics

回归,又称 多重回归分析 :指研究一组随机变量(Y1 ,Y2 ,…,Yi)和另一组(X1,X2,…,Xk)变量之间关系的统计分析方法 通常Y1,Y2,…,Yi是 因变量 ,X1、X2,…,Xk是 自变量 Regression ,一种数学模型 分类: 一元线性回归模型,由大体上有线性关系的一个自变量和一个 因变量组成;模型...

2018-04-11 09:19:15 726

转载 SVM

SVM – support vector machine 支持向量机 是一个有监督的学习模型,通常用来进行模式识别、分类以及回归分析。 核函数 的作用就是隐含着一个从低维空间到高维空间的映射,而这个映射可以把低维空间中线性不可分的两类点变成线性可分的。https://www.leiphone.com/news/201705/v10u2BOvGHEbzBpV.html ...

2018-04-11 09:04:56 154

转载 卷积神经网络CNN ----learning url

https://www.cnblogs.com/skyfsm/p/6790245.html CNN卷积神经网络基本概念和原理讲解 useful url

2018-04-11 07:52:56 254

转载 简单神经网络的搭建

# -*- coding: utf-8 -*-"""Created on Wed Mar 14 09:50:13 2018@author: 102121"""from tensorflow.examples.tutorials.mnist import input_dataimport tensorflow as tf#导入MNIST数据集,创建默认的Interactive Sessionmnis...

2018-03-14 14:50:43 266

翻译 tensorflow second

2018-03-14 09:58:23 124

转载 Tensorflow fisrt example ------------- 实现手写数字识别 无隐含层最浅的神经网络

# -*- coding: utf-8 -*-"""Created on Tue Mar 13 14:59:24 2018@author: 102121Tensorflow fisrt example -------------     实现手写数字识别     无隐含层最浅的神经网络"""import tensorflow as tffrom tensorflow.examples.tutori...

2018-03-13 15:41:50 157

原创 关联分析

关联分析    作用:提取出对数据中的变量之间的关系的最佳解释   基本概念:    1、事务:每一条交易称为一个事务,例如示例1中的数据集就包含四个事务。  2、项:交易的每一个物品称为一个项,例如Cola、Egg等。  3、项集:包含零个或多个项的集合叫做项集,例如{Cola, Egg, Ham}。  4、k−项集:包含k个项的项集叫做k-项集,例如{Cola}叫做1-项集,{Cola, Eg...

2018-02-06 20:56:52 1724

原创 随机森林

随机森林-----集成算法之一,分类,回归和特征选择算法步骤:    1.用有抽样放回的方法(bootstrap)从样本集中选取n个样本作为一个训练集    2.用抽样得到的样本集生成一棵决策树。在生成的每一个结点:        1.随机不重复地选择d个特征        2.利用这d个特征分别对样本集进行划分,找到最佳的划分特征(可用基尼系数、增益率或者信息增益判别)    3.重复步骤1到步...

2018-02-06 20:55:43 1690

原创 KNN

KNN---最近邻,k-NearestNeighbor使用场景:可回归,可分类,对于类域的交叉或重叠较多的待分样本集来说,KNN方法较其他方法更为适合。更有用的方法是将不同距离的邻居对该样本产生的影响给予不同的权值(weight),如权值与距离成反比。优点:     1.简单,易于理解,易于实现,无需估计参数,无需训练,精度高,理论成熟,既可以用来做分类也可以用来做回归;  2. 适合对稀有事件进...

2018-02-06 20:54:19 2504

原创 大数据开发工程师 面试题

一般是自我介绍,个人是介绍学校,毕业时间,专业,实习经历,项目经历,一般这时候会开始问你问题,否则接着介绍在校获奖,有哪些社会实践经验.1,什么是过拟合,欠拟合? 如何处理2,sparkRDD的算子操作有哪些?3,常用排序算法,内容时间复杂度(最好,最差,平均),稳定性?4,bagging对于基分类器的选择????????????5,kmeans的原理?还有哪些其他的

2018-01-31 09:05:42 340 1

原创 spark运行架构 storm 流数据处理

非正式

2017-12-17 13:59:56 229

原创 hadoop生态圈 基础知识点

java hadoophdfs MRhivehbasezookeeper

2017-12-17 13:54:57 485

原创 大数据基础知识点---hadoop生态圈

大数据基础知识点:javaList特点:元素有放入顺序,元素可重复 ,Set特点:元素无放入顺序,元素不可重复。数据库的三大范式:原子性、一致性、唯一性对象和引用对象:对象就是好没有初始化的对象,引用对象即使对这个对象进行了初始化ArrayList 和 Vector :采用数组方式存储数据的,是根据索引来访问元素的,都可以根据需要自动扩展内部数据长度,以便增加和插入元素,都

2017-12-17 13:45:38 490

原创 scala 基础知识点

数据类型 Byte 8位 short 16位 int 32位 Long 64位 Unit 无值(void) Null null 或空引用 Nothing 在Scala的类层级的最低端;任何其他类型的子类型 Any 所有其他类的超类 AnyRef Scala里所有引用类(reference class)的基类 for 循环过滤 for(v

2017-12-17 12:39:09 221

原创 验证西刺代理ip有效性

# -*- coding: utf-8 -*-"""Created on Wed Nov  8 14:50:04 2017@author: markcheung check ip validity"""import requestsimport pandas as pddef check(proxy):    try:

2017-11-10 13:39:46 5310

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除