hopeatme-CSDN博客

翻译 Spark ML 2.1 -- Extracting, transforming and selecting features (持续更新)

本章节覆盖特征相关的算法部分，可粗分为以下几组： 1> 抽取：从原始数据中抽取特征2> 变换：缩放，转化，或修改特征3> 选择：从特征集合中选择子集4> Locality Sensitive Hashing (LSH) ：将特征变换和其它算法组合在一起的一类算法。目录： Feature ExtractorsTF-IDFWord2VecCo

2017-05-02 22:44:23 844

翻译 Spark ML 2.1 --Pipelines

首先要引入概念机器学习管道（ML pipelines），ML pipelines 提供基于DataFrames的高级API ，此API可以帮忙开发者创建和实践ML 管道。Table of ContentsMain concepts in PipelinesDataFramePipeline componentsTransformersEstimato

2017-04-29 13:05:43 1317

原创 Spark2.X 原码分析 ---- Rpc初探

Spark 2.0 之后，master 和worker 之间完全不使用akka 通信，改用netty实现。先不说别的，单就netty的热门度就可以承担起这个重任，言归正题。本文以master代码为例，讲解RpcEnv , RpcEndpoint ,RpcEndpointRef , 及NettyRpcEnv, NettyRpcEndpointRef 之间关系。先呈上org.a

2017-04-16 14:17:33 1253

翻译 Spark 2.1 -- spark SQL , Dataframe 和DataSet 指南

OverviewSQLDatasets and DataFramesGetting StartedStarting Point: SparkSessionCreating DataFramesUntyped Dataset Operations (aka DataFrame Operations)Running SQL Queries ProgrammaticallyGloba

2017-03-29 23:56:50 10783

原创 CDH hbase 开启kerberos

1 CDH 开启kerberos 认证，详见： CDH官方文档注意需要更新 $JAVA_HOME/jre/lib/security/ 下 local_policy.jar ， US_export_policy.jar2 注意到hbase 需要访问zookeeper ，因此依赖于zookeeper 的sasl认证，下面需要配置zookeeper 2.1 生成ke

2017-03-29 20:40:47 4648

翻译 Spark 2.1.0 -- Spark Streaming Programming Guide

概述spark streaming 是核心spark api的扩展，提供可伸缩、高吞吐和容错的流处理接口，用来处理实时在线流数据。流数据的输入源可以是kafka, flume , kinesis 或tcp sockets，流数据处理可以用map ,reduce , join 和window表达的复杂算法。甚至，可以对流数据使用spark 机器学习或图处理算法。最终处理结果可以直接写到文件系统、

2017-03-11 00:52:35 829

原创 Scala 开发简单mapreduce 程序

看到这篇文章，肯定会有人问，“为什么要用scala来写MR， java写不是更自然？” 关于这个我问题，我个人的原因是： scala 写代码很简洁，而且我很享受这种体验。对于其它scala程序员来说，可能是因为所有项目都是用scala写，而且写scala更熟练些。对于这部分人非得用MR来解决的问题，那他一定有很充分的理由。归正题吧，下面讲讲用如何上手操作吧！！鉴于大家使用的I

2016-09-25 01:26:03 5731

翻译 Spark MLlib 1.6 -- 频度模式挖掘

挖掘频繁关联物品，频繁关联物品集，频繁关联子序列，或其它子结构是分析海量数据的第一步，并且连续几年作为数据挖掘主要研究方向。此处引用维基中关联规则学习（http://en.wikipedia.org/wiki/Association_rule_learning）作为本章节基础。spark.mllib提供并行FP-growth算法，这个算法经常用于挖掘频度物品集。 8.1 FP-grow

2016-03-22 13:05:34 3738

翻译 Spark MLlib 1.6 -- 特征抽取和变换

· TF-IDF· Word2Vec· Model· Example· StandardScaler· Model Fitting· Example· Normalizer· Example· ChiSqSelector· Model Fitting·

2016-03-21 12:50:35 3730

原创 vim + scala 开发环境

vim 工具vim是一个很好用的工具，小巧精干的代码编辑器，怪不得很多人奉为"编辑器之神".IDE写代码，除了代码调试功能外，其它的功能vim都可以实现，并且vim不会占很多内存，所以，写代码使用vim完全“够用”。下面整理了一下网上关于用vim＋scala开发代码环境的配置1 ctags 安装下载ctags-X.X.tar./configure && make

2016-03-13 00:26:41 3646

翻译 apache Nifi 概述

Apache NiFi [email protected] of ContentsWhatis Apache NiFi?Thecore concepts of NiFiNiFiArchitecturePerformanceExpectations and Characteristics of NiFi

2016-03-06 21:14:18 4742

翻译 Spark MLlib 1.6 -- 降维

· Singular value decomposition (SVD)· Performance· SVD Example· Principal component analysis (PCA)降维是在计算过程中减少计算量，降低计算复杂度的方法。把特征向量中可以乎略的部分或噪音部分剔除，也可以是保持特征向量主要特征的前提下对向量维度进行压缩。S

2016-02-29 12:10:14 2584

翻译 Spark MLlib 1.6 -- 聚类

聚类是根据某种相似度量，将‘相似’的样本划分到同一个子类中，所以聚类是一种无监督学习。聚类常用于探索分析，或（和）看作分层监督学习管道上一个环节（在这个管道上，对每个聚类结果再深入进行分类或回归）。Spark.mllib包支持以下模型：· K-means· Gaussian mixture· Power iteration clustering (PIC)·

2016-02-26 17:35:59 3658

翻译 Spark MLlib 1.6 -- 协同过滤

· Collaborative filtering· Explicit vs. implicit feedback· Scaling of the regularization parameter· Examples· Tutorial 4.1 协同过滤算法协同过滤算法主要用于推荐系统中，推荐系统用于给用户和物品之间建立实体关系。Spark

2016-02-24 13:11:32 1450

翻译 Spark MLlib 1.6 -- 分类和回归篇

· Linear models· classification (SVMs, logistic regression)· linear regression (least squares, Lasso, ridge)· Decision trees· Ensembles of decision trees· random forests· gradient-boost

2016-02-19 21:42:19 4087

翻译 Spark MLlib 1.6 -- 统计基础篇

· Summary statistics· Correlations· Stratified sampling· Hypothesis testing· Streaming Significance Testing· Random data generation· Kernel density estimation2.1 统计概览在Statistic

2016-02-19 21:13:24 2474

翻译 Spark MLlib 1.6 -- 数据类型篇

译者续： 2016年过完年回来，把之前翻译spark mllib部分从新整理，继续未完成的工作。 MLlib 是spark 机器学习的库，它的目标是使机器学习算法能更容易上手。这个库包含通用学习算法和工具集，包括：分类，回归，聚类，协同过滤，降维，以及深层优化策略和上层管道API（pipeline）. 分为两个包：1 spark.mllib 包含基于RDD的原始A

2016-02-19 21:10:29 1593

转载 Scala - Type parameterization

过年在家看 chapter 19 Type Parameterization ，一直就没有看明白，收假回来正好自己研究了一下这个type parameterization下面给出网上几篇文章，供同样有困惑的同学，更好理解这一章节内容.1 scala 官方文档generic class 和 Variances ,可以快速理解泛型类的特性，以及为什么引出vari

2016-02-15 17:16:33 623

原创决策树

决策是机器学习中分类算法中一种，因为经实验样本训练出一个类似树形的决策规则而由此得名。这种分类算法虽然简单，但是在人类的模式识别中也经常用到，比如给出一个矩形，我们首先判断这是一个平面图形，进而判断这个图形每两条边平行，并且长和宽相等，最终得出矩形。这个算法有一个缺点，就是不能自学习，即只能识别已经学习到的模式，对于新的模式，此算法很可能无法正确做出判断。在讲到决策树之前，给出信息熵及相关的一

2016-01-21 00:35:11 481

翻译 spark 1.6 MLlib

MLlib 是spark 机器学习的库，它的目标是使机器学习算法能更容易上手。这个库包含通用学习算法和工具集，包括：分类，回归，聚类，协同过滤，降维，以及深层优化策略和上层管道API（pipeline）. 分为两个包：1 spark.mllib 包含基于RDD的原始API 2 spark.ml 包含上层操作DataFrame 的API，可以构造机器学习管道，推荐使用sp

2016-01-19 21:26:52 2630

翻译 Spark SQL and DataFrames Version 1.6

总述 Spark SQL 是处理结构化数据的模块，而DataFrames是它提供上的一种数据抽象，这个抽象数据上可以进行分布式SQL查询。 Spark SQL也可以从已有hive中读取数据，关于详细配置请见Hive Tables章节。一 DataFrames DataFrame是一种分布式的数据集，这个数据集按列组织在一起。基本上可以等价于关系数据库中表，或R/Python中

2015-12-19 21:23:07 2616

浮世尘