自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 资源 (1)
  • 收藏
  • 关注

翻译 Spark ML 2.1 -- Extracting, transforming and selecting features (持续更新)

本章节覆盖特征相关的算法部分,可粗分为以下几组: 1> 抽取: 从原始数据中抽取特征2> 变换:缩放,转化,或修改特征3> 选择: 从特征集合中选择子集4>  Locality Sensitive Hashing (LSH) : 将特征变换和其它算法组合在一起的一类算法。目录: Feature ExtractorsTF-IDFWord2VecCo

2017-05-02 22:44:23 844

翻译 Spark ML 2.1 --Pipelines

首先要引入概念 机器学习管道(ML pipelines),ML pipelines 提供基于DataFrames的高级API , 此API可以帮忙开发者创建和实践ML 管道。Table of ContentsMain concepts in PipelinesDataFramePipeline componentsTransformersEstimato

2017-04-29 13:05:43 1317

原创 Spark2.X 原码分析 ---- Rpc初探

Spark 2.0 之后,master 和worker 之间完全不使用akka 通信,改用netty实现。先不说别的,单就netty的热门度就可以承担起这个重任,言归正题。本文以master代码为例,讲解RpcEnv , RpcEndpoint ,RpcEndpointRef , 及NettyRpcEnv, NettyRpcEndpointRef 之间关系。先呈上org.a

2017-04-16 14:17:33 1253

翻译 Spark 2.1 -- spark SQL , Dataframe 和DataSet 指南

OverviewSQLDatasets and DataFramesGetting StartedStarting Point: SparkSessionCreating DataFramesUntyped Dataset Operations (aka DataFrame Operations)Running SQL Queries ProgrammaticallyGloba

2017-03-29 23:56:50 10783

原创 CDH hbase 开启kerberos

1  CDH 开启kerberos 认证 ,详见: CDH官方文档注意需要更新  $JAVA_HOME/jre/lib/security/ 下 local_policy.jar , US_export_policy.jar2 注意到hbase 需要访问zookeeper ,因此依赖于zookeeper 的sasl认证, 下面需要配置zookeeper 2.1  生成ke

2017-03-29 20:40:47 4648

翻译 Spark 2.1.0 -- Spark Streaming Programming Guide

概述spark streaming 是核心spark api的扩展,提供可伸缩、高吞吐和容错的流处理接口,用来处理实时在线流数据。流数据的输入源可以是kafka, flume , kinesis 或tcp sockets,流数据处理可以用map ,reduce , join 和window表达的复杂算法。甚至,可以对流数据使用spark 机器学习或图处理算法。最终处理结果可以直接写到文件系统、

2017-03-11 00:52:35 829

原创 Scala 开发简单mapreduce 程序

看到这篇文章,肯定会有人问,“为什么要用scala来写MR, java写不是更自然?”  关于这个我问题,我个人的原因是: scala 写代码很简洁,而且我很享受这种体验。对于其它scala程序员来说,可能是因为所有项目都是用scala写,而且写scala更熟练些。对于这部分人非得用MR来解决的问题,那他一定有很充分的理由。      归正题吧, 下面讲讲用如何上手操作吧!! 鉴于大家使用的I

2016-09-25 01:26:03 5731

翻译 Spark MLlib 1.6 -- 频度模式挖掘

挖掘频繁关联物品,频繁关联物品集,频繁关联子序列,或其它子结构是分析海量数据的第一步,并且连续几年作为数据挖掘主要研究方向。此处引用维基中关联规则学习(http://en.wikipedia.org/wiki/Association_rule_learning)作为本章节基础。spark.mllib提供并行FP-growth算法,这个算法经常用于挖掘频度物品集。 8.1 FP-grow

2016-03-22 13:05:34 3738

翻译 Spark MLlib 1.6 -- 特征抽取和变换

·  TF-IDF·  Word2Vec·       Model·       Example·  StandardScaler·       Model Fitting·       Example·  Normalizer·       Example·  ChiSqSelector·       Model Fitting· 

2016-03-21 12:50:35 3730

原创 vim + scala 开发环境

vim 工具vim是一个很好用的工具,小巧精干的代码编辑器,怪不得很多人奉为"编辑器之神".IDE写代码,除了代码调试功能外,其它的功能vim都可以实现,并且vim不会占很多内存,所以,写代码使用vim完全“够用”。下面整理了一下网上关于用vim+scala开发代码环境的配置1 ctags 安装下载ctags-X.X.tar./configure && make

2016-03-13 00:26:41 3646

翻译 apache Nifi 概述

Apache NiFi [email protected] of ContentsWhatis Apache NiFi?Thecore concepts of NiFiNiFiArchitecturePerformanceExpectations and Characteristics of NiFi

2016-03-06 21:14:18 4742

翻译 Spark MLlib 1.6 -- 降维

·  Singular value decomposition (SVD)·       Performance·       SVD Example·  Principal component analysis (PCA)降维是在计算过程中减少计算量,降低计算复杂度的方法。把特征向量中可以乎略的部分或噪音部分剔除,也可以是保持特征向量主要特征的前提下对向量维度进行压缩。S

2016-02-29 12:10:14 2584

翻译 Spark MLlib 1.6 -- 聚类

聚类是根据某种相似度量,将‘相似’的样本划分到同一个子类中,所以聚类是一种无监督学习。聚类常用于探索分析,或(和)看作分层监督学习管道上一个环节(在这个管道上,对每个聚类结果再深入进行分类或回归)。Spark.mllib包支持以下模型:·  K-means·  Gaussian mixture·  Power iteration clustering (PIC)· 

2016-02-26 17:35:59 3658

翻译 Spark MLlib 1.6 -- 协同过滤

· Collaborative filtering·       Explicit vs. implicit feedback·       Scaling of the regularization parameter·  Examples·  Tutorial 4.1  协同过滤算法协同过滤算法主要用于推荐系统中,推荐系统用于给用户和物品之间建立实体关系。Spark

2016-02-24 13:11:32 1450

翻译 Spark MLlib 1.6 -- 分类和回归篇

·  Linear models· classification (SVMs, logistic regression)· linear regression (least squares, Lasso, ridge)·  Decision trees·  Ensembles of decision trees· random forests· gradient-boost

2016-02-19 21:42:19 4087

翻译 Spark MLlib 1.6 -- 统计基础篇

·  Summary statistics·  Correlations·  Stratified sampling·  Hypothesis testing· Streaming Significance Testing·  Random data generation·  Kernel density estimation2.1 统计概览在Statistic

2016-02-19 21:13:24 2474

翻译 Spark MLlib 1.6 -- 数据类型篇

译者续:      2016年过完年回来,把之前翻译spark mllib部分从新整理,继续未完成的工作。 MLlib 是spark 机器学习的库,它的目标是使机器学习算法能更容易上手。这个库包含通用学习算法和工具集,包括:分类,回归,聚类,协同过滤,降维,以及深层优化策略和上层管道API(pipeline). 分为两个包:1 spark.mllib 包含基于RDD的原始A

2016-02-19 21:10:29 1593

转载 Scala - Type parameterization

过年在家看 chapter 19 Type Parameterization , 一直就没有看明白,收假回来正好自己研究了一下这个type parameterization下面给出网上几篇文章,供同样有困惑的同学,更好理解这一章节内容.1 scala 官方文档generic class 和  Variances ,可以快速理解泛型类的特性,以及为什么引出vari

2016-02-15 17:16:33 623

原创 决策树

决策是机器学习中分类算法中一种,因为经实验样本训练出一个类似树形的决策规则而由此得名。这种分类算法虽然简单,但是在人类的模式识别中也经常用到,比如给出一个矩形,我们首先判断这是一个平面图形,进而判断这个图形每两条边平行,并且长和宽相等,最终得出矩形。这个算法有一个缺点,就是不能自学习,即只能识别已经学习到的模式,对于新的模式,此算法很可能无法正确做出判断。在讲到决策树之前,给出信息熵及相关的一

2016-01-21 00:35:11 481

翻译 spark 1.6 MLlib

MLlib 是spark 机器学习的库,它的目标是使机器学习算法能更容易上手。这个库包含通用学习算法和工具集,包括:分类,回归,聚类,协同过滤,降维,以及深层优化策略和上层管道API(pipeline). 分为两个包:1 spark.mllib 包含基于RDD的原始API 2 spark.ml 包含上层操作DataFrame 的API, 可以构造机器学习管道, 推荐使用sp

2016-01-19 21:26:52 2630

翻译 Spark SQL and DataFrames Version 1.6

总述  Spark SQL 是处理结构化数据的模块,而DataFrames是它提供上的一种数据抽象,这个抽象数据上可以进行分布式SQL查询。  Spark SQL也可以从已有hive中读取数据,关于详细配置请见Hive Tables章节。一 DataFrames  DataFrame是一种分布式的数据集,这个数据集按列组织在一起。基本上可以等价于关系数据库中表,或R/Python中

2015-12-19 21:23:07 2616

mysql performance live 2013

Mysql 性能优化方面的经验分享

2014-07-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除