- 博客(170)
- 资源 (2)
- 收藏
- 关注
翻译 SparkR
简介SparkR是一个提供从R中使用Spark的轻量级前端的R包。在Spark1.6以后,SparkR提供了分布式数据框,它支持selection,filtering,aggregation等操作。也支持使用MLlib分布式机器学习。SparkR数据框类似于R中的数据框,数据源有结构化数据文件,Hive表,外部数据库或者本地R数据框。Starting up:SparkContext,SQLConte
2016-01-17 16:11:25 1455
原创 Spark canopy算法
canopy算法 概念与传统的聚类算法(比如K-means)不同,Canopy聚类最大的特点是不需要事先指定k值(即clustering的个数),因此具有很大的实际应用价值。与其他聚类算法相比,Canopy聚类虽然精度较低,但其在速度上有很大优势,因此可以使用Canopy聚类先对数据进行“粗”聚类,得到k值后再使用K-means进行进一步“细”聚类。这种Canopy+K-means的混合聚类方式分为...
2016-01-16 16:27:44 2718
原创 SparkML实战之五:SVM
package MLlibimport org.apache.spark.{SparkContext, SparkConf}import org.apache.spark.mllib.classification.{SVMModel, SVMWithSGD}import org.apache.spark.mllib.evaluation.BinaryClassificationMetricsi
2016-01-14 10:11:37 2164
原创 SparkML实战之四:回归
package MLlibimport org.apache.spark.{SparkContext, SparkConf}import org.apache.spark.mllib.regression.LabeledPointimport org.apache.spark.mllib.regression.LinearRegressionModelimport org.apache.spa
2016-01-14 10:05:22 1438
原创 SparkML实战之三:Logistic回归
package MLlibimport org.apache.spark.SparkConfimport org.apache.spark.SparkContextimport org.apache.spark.mllib.classification.{LogisticRegressionWithLBFGS, LogisticRegressionModel}import org.apache
2016-01-14 10:01:12 2132
原创 SparkML实战之二:Kmeans
package class8import org.apache.log4j.{Level, Logger}import org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.mllib.clustering.KMeansimport org.apache.spark.mllib.linalg.Vectors/**
2016-01-14 09:59:16 1631
原创 SparkML实战之一:线性回归
package class8import org.apache.log4j.{Logger, Level}import org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.mllib.linalg.Vectorsimport org.apache.spark.mllib.regression.{LinearRegr
2016-01-14 09:56:47 2764
原创 sparkcookbook-GettingStarted with ML
创建向量$ spark-shellimport org.apache.spark.mllib.linalg.{Vectors,Vector}val dvPerson = Vectors.dense(160.0,69.0,24.0)val svPerson = Vectors.sparse(3,Array(0,1,2),Array(160.0,69.0,24.0)密集向量方法定义:def de
2015-09-06 14:11:35 796
原创 sparkCookbook4-SparkSQL
catalyst优化器由两个主要目标:方便的添加新的优化技术允许外部开发者扩展优化器 sparkSQL在四个阶段使用catalyst转换框架1, Analyzing a logical plan to resolve references 2,Logical plan optimization 3, Physical planning 4,Code generation to compi
2015-09-02 16:35:30 554
原创 Kubernetes部署与卸载
创建 Kubernetes cluster(单机版)最简单的方法是。国内网络环境下也可以考虑使用的 AllInOne 部署。
2024-03-14 15:54:38 915
原创 【Spark的五种Join策略解析】
Spark将参与Join的两张表抽象为流式遍历表(streamIter)和查找表(buildIter),通常streamIter为大表,buildIter为小表,我们不用担心哪个表为streamIter,哪个表为buildIter,这个spark会根据join语句自动帮我们完成。对于每条来自streamIter的记录,都要去buildIter中查找匹配的记录,所以buildIter一定要是查找性能较优的数据结构。
2023-09-12 09:56:16 1177
原创 ubuntu install jdk
1 查看系统版本file /etc/init2 查看是否已经安装jdkjava -version3 卸载自带openjdksudo apt-get purge openjdk*4 下载相应版本jdk并解压到指定目录tar jdk* -C /usr/local/5 配置环境变量vi /etc/profileJAVA_HOME=/usr/local/java/jdk1.8.0_20 JRE_HOM
2017-04-21 23:36:04 556
原创 hostname
hostname配置在哪里? hostname是Linux系统下的一个内核参数,它保存在/proc/sys/kernel/hostname下,但是它的值是Linux启动时从rc.sysinit读取的。而/etc/rc.d/rc.sysinit中HOSTNAME的取值来自与/etc/sysconfig/network下的HOSTNAME.修改了hostname后,如何使其立即生效而不用重启操作系统
2017-02-23 10:43:04 823
转载 MapReduce中的Shuffle和Sort分析
MapReduce 是现今一个非常流行的分布式计算框架,它被设计用于并行计算海量数据。第一个提出该技术框架的是Google 公司,而Google 的灵感则来自于函数式编程语言,如LISP,Scheme,ML 等。MapReduce 框架的核心步骤主要分两部分:Map 和Reduce。当你向MapReduce 框架提交一个计算作业时,它会首先把计算作业拆分成若干个Map 任务,然后分配到不同的节点上去
2017-02-21 15:52:22 548
原创 ubuntu设置有线上网
原有文件xingfu@moon:~$ cat /etc/network/interfaces# interfaces(5) file used by ifup(8) and ifdown(8)auto loiface lo inet loopbackxingfu@moon:~$ xingfu@moon:~$ cat /etc/resolv.conf# Dynamic resolv.con
2017-01-01 18:05:05 9532
原创 欢迎使用CSDN-markdown编辑器
idea开发mapreduce实战我的intellij idea版本是14,Hadoop版本2.6,使用《hadoop权威指南》的天气统计源码作为示例。下面附上源码,数据集在http://hadoopbook.com/code.html可以下载1901和1902两年数据:代码package com.hadoop.maxtemperature; import java.io.IOException;
2016-12-19 23:21:41 740
原创 win7无法安装msi解决办法
解决方案如下: 新建一个文本文件,输入msiexec /i d:\Setup.msi(假设文件名为Setup.msi ,放在d盘根目录下,即是安装程序的绝对路径)保存改扩展名为.cmd格式 右键鼠标—-然后以管理员身份运行这个程序就可以。如果再报错a network error occurred while attempting to read from the file : 注意报错后的文件
2016-12-06 17:16:24 12115 2
原创 hbase权威指南-客户端API高级特性
1.过滤器层次结构过滤器层次结构的最底层是Filter接口和FilterBase抽象类,它们实现了过滤器的空壳和骨架 大部分过滤器直接继承自FilterBase,用户定义一个所需要的过滤器实例,同时把定义好的过滤器实例传递给Get或Scan实例:setFilter(filter)2比较运算符继承自CompareFilter的过滤器比基类FilterBase多了一个compare()方法,它需要传入
2016-07-01 17:11:03 680
原创 hadoop权威指南(一)
Chap1 初始hadoopMapReduce比较适合以批处理方式处理需要分析整个数据集的问题,尤其是动态分析。MapReduce对非结构化或半结构化数据非常有效,因为它是中处理数据时才对数据进行解释。即MapReduce输入的键和值并不是数据固有的属性,而是由分析数据的人来选的。MapReduce是一种线性可伸缩编程模型,我们需要写map函数和reduce函数,每个函数定义一个键值对集合到另
2016-06-26 00:36:37 6212
原创 3 hbase基础知识
创建Put实例时用户需要提供一个行键row 创建Put实例之后,就可以向该实例添加数据类了。 Put add() 每次调用add()都可以特定地添加一列数据。 获取Put实例内部添加的KeyValue实例需要调用get()方法或者getFamilyMap()方法。 若要频繁地重复修改某些行,用户有必要创建一个RowLock实例来防止其他客户端访问这些行。KeyValue类
2016-06-25 16:31:04 505
转载 mac压缩为zip
最通俗的用法zip -q -r -e -m -o [yourName].zip someThing-q 表示不显示压缩进度状态-r 表示子目录子文件全部压缩为zip //这部比较重要,不然的话只有something这个文件夹被压缩,里面的没有被压缩进去-e 表示你的压缩文件需要加密,终端会提示你输入密码的// 还有种加密方法,这种是直接在命令行里做的,比如zip -r -P Password01!
2016-04-25 17:22:42 857
原创 在pyspark上配置ipython notebook
1.为Spark创建一个iPython notebook配置xcheng@Admins-MacBook-Pro-24:~/Spark/pyspark $ipython profile create spark[ProfileCreate] Generating default config file: u'/Users/xcheng/.ipython/profile_spark/ipython_c
2016-04-23 11:56:39 1628
原创 对三个超市销量、品牌数、均价聚类
K的选择kmeans++ k=2Within Set Sum of Squared Errors=118.06743855554647kmeans++ k=3Within Set Sum of Squared Errors=73.04285624370425kmeans++ k=4Within Set Sum of Squared Errors=56.56478515239625kmeans+
2016-04-23 10:11:52 1014
原创 烟草零售聚类1、KM_classic
package tobaccoimport org.apache.spark.mllib.clustering.{KMeans, KMeansModel}import org.apache.spark.mllib.feature.StandardScalerimport org.apache.spark.mllib.linalg.Vectorsimport org.apache.spark.r
2016-04-19 15:43:38 1414 1
原创 零售户logistics回归分类
package tobaccoimport data.copy._import org.apache.spark.mllib.classification.{LogisticRegressionWithLBFGS, LogisticRegressionWithSGD}import org.apache.spark.mllib.clustering.KMeansimport org.apache
2016-04-14 15:34:51 908
原创 零售户决策树分类
package tobaccoimport data.copy._import org.apache.spark.mllib.clustering.KMeansimport org.apache.spark.mllib.evaluation.BinaryClassificationMetricsimport org.apache.spark.mllib.feature.StandardScal
2016-04-14 14:07:45 1428
原创 Integrating Apache Spark with PyCharm
参考 在/Applications/PyCharm CE.app/Contents/bin 下写了一个pycharm.shexport PYTHONPATH=/usr/local/share/spark1626/python/:/usr/local/share/spark1626/python/lib/py4j-0.9-src.zipexport SPARK_HOME=/usr/local/s
2016-04-01 13:41:39 616
原创 mac 上安装rsqldf
> install.packages("sqldf") % Total % Received % Xferd Average Speed Time Time Time Current Dload Upload Total Spent Left Speed 0 0 0
2016-03-31 12:57:25 1903
原创 pyspark初探(一)LearningSpark
启动pysparkIPYTHON=1 pysparkIPYTHON_OPTS="notebook" pyspark(set IPYTHON=1 pyspark for windows)执行python脚本spark-submit my_script.py初始化sparkcontextfrom pyspark import SparkConf,SparkContextconf = Spark
2016-03-15 17:01:51 4330
原创 Spark读取csv数据
项目地址一、spark-shell方式$SPARK_HOME/bin/spark-shell --packages com.databricks:spark-csv_2.10:1.4.0IDE方式方式一逗号分隔法方式二参考
2016-03-14 12:02:38 6053
原创 mac下安装配置Spark
安装scala参考陋室 1. 解压scala到/usr/local/share/scala下 2. 配置scala环境变量 sudo su vi etc/profile 添加 export PATH=”$PATH:/usr/local/share/scala/bin”配置Spark参考
2016-03-08 17:54:48 3493
原创 scikit-learn入门到精通(五)Unsupervised learning: seeking representations of the data
#encoding=utf-8'''五监督学习:寻找数据的代表''''''KMeans聚类'''from sklearn import cluster ,datasetsiris = datasets.load_iris()X_iris = iris.datay_iris = iris.targetk_means = cluster.KMeans(n_clusters=3)k_
2016-01-30 12:41:18 749
原创 scikit-learn入门到精通(四):模型选择
k-折叠验证'''k折叠验证,用于测量预测精度'''import numpy as npX_folds = np.array_split(X_digits,3)y_folds = np.array_split(y_digits,3)scores = list()for k in range(3): X_train = list(X_folds) X_test =X_t
2016-01-29 22:07:16 1153
原创 scikit-learn入门到精通(三):监督学习
KNN#encoding=utf-8'''最近邻和维数灾难'''#分类 irisesimport numpy as npfrom sklearn import datasetsiris = datasets.load_iris()iris_X =iris.datairis_y = iris.targetnp.unique(iris_y)'''k近邻分类'''#分训练集和测
2016-01-29 20:05:33 1044
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人