自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

岸芷汀兰

每天进步一点点

  • 博客(170)
  • 资源 (2)
  • 收藏
  • 关注

翻译 SparkR

简介SparkR是一个提供从R中使用Spark的轻量级前端的R包。在Spark1.6以后,SparkR提供了分布式数据框,它支持selection,filtering,aggregation等操作。也支持使用MLlib分布式机器学习。SparkR数据框类似于R中的数据框,数据源有结构化数据文件,Hive表,外部数据库或者本地R数据框。Starting up:SparkContext,SQLConte

2016-01-17 16:11:25 1455

原创 Spark canopy算法

canopy算法 概念与传统的聚类算法(比如K-means)不同,Canopy聚类最大的特点是不需要事先指定k值(即clustering的个数),因此具有很大的实际应用价值。与其他聚类算法相比,Canopy聚类虽然精度较低,但其在速度上有很大优势,因此可以使用Canopy聚类先对数据进行“粗”聚类,得到k值后再使用K-means进行进一步“细”聚类。这种Canopy+K-means的混合聚类方式分为...

2016-01-16 16:27:44 2718

原创 SparkML实战之五:SVM

package MLlibimport org.apache.spark.{SparkContext, SparkConf}import org.apache.spark.mllib.classification.{SVMModel, SVMWithSGD}import org.apache.spark.mllib.evaluation.BinaryClassificationMetricsi

2016-01-14 10:11:37 2164

原创 SparkML实战之四:回归

package MLlibimport org.apache.spark.{SparkContext, SparkConf}import org.apache.spark.mllib.regression.LabeledPointimport org.apache.spark.mllib.regression.LinearRegressionModelimport org.apache.spa

2016-01-14 10:05:22 1438

原创 SparkML实战之三:Logistic回归

package MLlibimport org.apache.spark.SparkConfimport org.apache.spark.SparkContextimport org.apache.spark.mllib.classification.{LogisticRegressionWithLBFGS, LogisticRegressionModel}import org.apache

2016-01-14 10:01:12 2132

原创 SparkML实战之二:Kmeans

package class8import org.apache.log4j.{Level, Logger}import org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.mllib.clustering.KMeansimport org.apache.spark.mllib.linalg.Vectors/**

2016-01-14 09:59:16 1631

原创 SparkML实战之一:线性回归

package class8import org.apache.log4j.{Logger, Level}import org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.mllib.linalg.Vectorsimport org.apache.spark.mllib.regression.{LinearRegr

2016-01-14 09:56:47 2764

原创 sparkcookbook-GettingStarted with ML

创建向量$ spark-shellimport org.apache.spark.mllib.linalg.{Vectors,Vector}val dvPerson = Vectors.dense(160.0,69.0,24.0)val svPerson = Vectors.sparse(3,Array(0,1,2),Array(160.0,69.0,24.0)密集向量方法定义:def de

2015-09-06 14:11:35 796

原创 sparkCookbook4-SparkSQL

catalyst优化器由两个主要目标:方便的添加新的优化技术允许外部开发者扩展优化器 sparkSQL在四个阶段使用catalyst转换框架1, Analyzing a logical plan to resolve references 2,Logical plan optimization 3, Physical planning 4,Code generation to compi

2015-09-02 16:35:30 554

原创 sparkcookbook阅读笔记

sparkcookbook

2015-08-27 11:01:40 812

原创 Kubernetes部署与卸载

创建 Kubernetes cluster(单机版)最简单的方法是。国内网络环境下也可以考虑使用的 AllInOne 部署。

2024-03-14 15:54:38 915

原创 【Spark的五种Join策略解析】

Spark将参与Join的两张表抽象为流式遍历表(streamIter)和查找表(buildIter),通常streamIter为大表,buildIter为小表,我们不用担心哪个表为streamIter,哪个表为buildIter,这个spark会根据join语句自动帮我们完成。对于每条来自streamIter的记录,都要去buildIter中查找匹配的记录,所以buildIter一定要是查找性能较优的数据结构。

2023-09-12 09:56:16 1177

原创 【无标题】

mac安装rar

2022-10-18 16:59:47 495 2

原创 博客搬迁啦

[新博客地址:大数据那点事儿](https://luckywind.github.io/)

2022-06-26 22:10:29 241

原创 ubuntu install jdk

1 查看系统版本file /etc/init2 查看是否已经安装jdkjava -version3 卸载自带openjdksudo apt-get purge openjdk*4 下载相应版本jdk并解压到指定目录tar jdk* -C /usr/local/5 配置环境变量vi /etc/profileJAVA_HOME=/usr/local/java/jdk1.8.0_20 JRE_HOM

2017-04-21 23:36:04 556

原创 hostname

hostname配置在哪里? hostname是Linux系统下的一个内核参数,它保存在/proc/sys/kernel/hostname下,但是它的值是Linux启动时从rc.sysinit读取的。而/etc/rc.d/rc.sysinit中HOSTNAME的取值来自与/etc/sysconfig/network下的HOSTNAME.修改了hostname后,如何使其立即生效而不用重启操作系统

2017-02-23 10:43:04 823

转载 MapReduce中的Shuffle和Sort分析

MapReduce 是现今一个非常流行的分布式计算框架,它被设计用于并行计算海量数据。第一个提出该技术框架的是Google 公司,而Google 的灵感则来自于函数式编程语言,如LISP,Scheme,ML 等。MapReduce 框架的核心步骤主要分两部分:Map 和Reduce。当你向MapReduce 框架提交一个计算作业时,它会首先把计算作业拆分成若干个Map 任务,然后分配到不同的节点上去

2017-02-21 15:52:22 548

原创 ubuntu设置有线上网

原有文件xingfu@moon:~$ cat /etc/network/interfaces# interfaces(5) file used by ifup(8) and ifdown(8)auto loiface lo inet loopbackxingfu@moon:~$ xingfu@moon:~$ cat /etc/resolv.conf# Dynamic resolv.con

2017-01-01 18:05:05 9532

原创 欢迎使用CSDN-markdown编辑器

idea开发mapreduce实战我的intellij idea版本是14,Hadoop版本2.6,使用《hadoop权威指南》的天气统计源码作为示例。下面附上源码,数据集在http://hadoopbook.com/code.html可以下载1901和1902两年数据:代码package com.hadoop.maxtemperature; import java.io.IOException;

2016-12-19 23:21:41 740

原创 win7无法安装msi解决办法

解决方案如下: 新建一个文本文件,输入msiexec /i d:\Setup.msi(假设文件名为Setup.msi ,放在d盘根目录下,即是安装程序的绝对路径)保存改扩展名为.cmd格式 右键鼠标—-然后以管理员身份运行这个程序就可以。如果再报错a network error occurred while attempting to read from the file : 注意报错后的文件

2016-12-06 17:16:24 12115 2

原创 hbase权威指南-客户端API高级特性

1.过滤器层次结构过滤器层次结构的最底层是Filter接口和FilterBase抽象类,它们实现了过滤器的空壳和骨架 大部分过滤器直接继承自FilterBase,用户定义一个所需要的过滤器实例,同时把定义好的过滤器实例传递给Get或Scan实例:setFilter(filter)2比较运算符继承自CompareFilter的过滤器比基类FilterBase多了一个compare()方法,它需要传入

2016-07-01 17:11:03 680

原创 hadoop权威指南(一)

Chap1 初始hadoopMapReduce比较适合以批处理方式处理需要分析整个数据集的问题,尤其是动态分析。MapReduce对非结构化或半结构化数据非常有效,因为它是中处理数据时才对数据进行解释。即MapReduce输入的键和值并不是数据固有的属性,而是由分析数据的人来选的。MapReduce是一种线性可伸缩编程模型,我们需要写map函数和reduce函数,每个函数定义一个键值对集合到另

2016-06-26 00:36:37 6212

原创 3 hbase基础知识

创建Put实例时用户需要提供一个行键row 创建Put实例之后,就可以向该实例添加数据类了。 Put add() 每次调用add()都可以特定地添加一列数据。 获取Put实例内部添加的KeyValue实例需要调用get()方法或者getFamilyMap()方法。 若要频繁地重复修改某些行,用户有必要创建一个RowLock实例来防止其他客户端访问这些行。KeyValue类

2016-06-25 16:31:04 505

转载 mac压缩为zip

最通俗的用法zip -q -r -e -m -o [yourName].zip someThing-q 表示不显示压缩进度状态-r 表示子目录子文件全部压缩为zip //这部比较重要,不然的话只有something这个文件夹被压缩,里面的没有被压缩进去-e 表示你的压缩文件需要加密,终端会提示你输入密码的// 还有种加密方法,这种是直接在命令行里做的,比如zip -r -P Password01!

2016-04-25 17:22:42 857

原创 在pyspark上配置ipython notebook

1.为Spark创建一个iPython notebook配置xcheng@Admins-MacBook-Pro-24:~/Spark/pyspark $ipython profile create spark[ProfileCreate] Generating default config file: u'/Users/xcheng/.ipython/profile_spark/ipython_c

2016-04-23 11:56:39 1628

原创 对三个超市销量、品牌数、均价聚类

K的选择kmeans++ k=2Within Set Sum of Squared Errors=118.06743855554647kmeans++ k=3Within Set Sum of Squared Errors=73.04285624370425kmeans++ k=4Within Set Sum of Squared Errors=56.56478515239625kmeans+

2016-04-23 10:11:52 1014

原创 烟草零售聚类1、KM_classic

package tobaccoimport org.apache.spark.mllib.clustering.{KMeans, KMeansModel}import org.apache.spark.mllib.feature.StandardScalerimport org.apache.spark.mllib.linalg.Vectorsimport org.apache.spark.r

2016-04-19 15:43:38 1414 1

原创 零售户logistics回归分类

package tobaccoimport data.copy._import org.apache.spark.mllib.classification.{LogisticRegressionWithLBFGS, LogisticRegressionWithSGD}import org.apache.spark.mllib.clustering.KMeansimport org.apache

2016-04-14 15:34:51 908

原创 零售户决策树分类

package tobaccoimport data.copy._import org.apache.spark.mllib.clustering.KMeansimport org.apache.spark.mllib.evaluation.BinaryClassificationMetricsimport org.apache.spark.mllib.feature.StandardScal

2016-04-14 14:07:45 1428

原创 单机spark绑定端口

在IDE里配置SPARK_MASTER_IP=127.0.0.1SPARK_LOCAL_IP=127.0.0.1

2016-04-09 11:57:11 1132

原创 Integrating Apache Spark with PyCharm

参考 在/Applications/PyCharm CE.app/Contents/bin 下写了一个pycharm.shexport PYTHONPATH=/usr/local/share/spark1626/python/:/usr/local/share/spark1626/python/lib/py4j-0.9-src.zipexport SPARK_HOME=/usr/local/s

2016-04-01 13:41:39 616

原创 mac 上安装rsqldf

> install.packages("sqldf") % Total % Received % Xferd Average Speed Time Time Time Current Dload Upload Total Spent Left Speed 0 0 0

2016-03-31 12:57:25 1903

原创 插网线仍连不上网?

打开网络和共享中心–>更改适配器设置->选择一个本地连接属性->IPv4->自动获得IP地址-OK!

2016-03-20 15:26:39 7933

原创 pyspark初探(一)LearningSpark

启动pysparkIPYTHON=1 pysparkIPYTHON_OPTS="notebook" pyspark(set IPYTHON=1 pyspark for windows)执行python脚本spark-submit my_script.py初始化sparkcontextfrom pyspark import SparkConf,SparkContextconf = Spark

2016-03-15 17:01:51 4330

原创 mac安装Hadoop和hive

参考MACbrew install hadoop

2016-03-15 15:25:17 2312

原创 Spark读取csv数据

项目地址一、spark-shell方式$SPARK_HOME/bin/spark-shell --packages com.databricks:spark-csv_2.10:1.4.0IDE方式方式一逗号分隔法方式二参考

2016-03-14 12:02:38 6053

原创 mac下安装配置Spark

安装scala参考陋室 1. 解压scala到/usr/local/share/scala下 2. 配置scala环境变量 sudo su vi etc/profile 添加 export PATH=”$PATH:/usr/local/share/scala/bin”配置Spark参考

2016-03-08 17:54:48 3493

原创 scikit-learn入门到精通(五)Unsupervised learning: seeking representations of the data

#encoding=utf-8'''五监督学习:寻找数据的代表''''''KMeans聚类'''from sklearn import cluster ,datasetsiris = datasets.load_iris()X_iris = iris.datay_iris = iris.targetk_means = cluster.KMeans(n_clusters=3)k_

2016-01-30 12:41:18 749

原创 scikit-learn入门到精通(四):模型选择

k-折叠验证'''k折叠验证,用于测量预测精度'''import numpy as npX_folds = np.array_split(X_digits,3)y_folds = np.array_split(y_digits,3)scores = list()for k in range(3): X_train = list(X_folds) X_test =X_t

2016-01-29 22:07:16 1153

原创 scikit-learn入门到精通(三):监督学习

KNN#encoding=utf-8'''最近邻和维数灾难'''#分类 irisesimport numpy as npfrom sklearn import datasetsiris = datasets.load_iris()iris_X =iris.datairis_y = iris.targetnp.unique(iris_y)'''k近邻分类'''#分训练集和测

2016-01-29 20:05:33 1044

hadoop开发所需类

开发hadoop必须的类,用于操作hadoop的文件系统

2015-12-05

高清超级无敌python教程

高清pdf,包含Python 的方方面面,从安装开始,一步一步教你成为python高手

2015-06-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除