岸芷汀兰whu-CSDN博客

翻译 SparkR

简介SparkR是一个提供从R中使用Spark的轻量级前端的R包。在Spark1.6以后，SparkR提供了分布式数据框，它支持selection,filtering,aggregation等操作。也支持使用MLlib分布式机器学习。SparkR数据框类似于R中的数据框，数据源有结构化数据文件，Hive表，外部数据库或者本地R数据框。Starting up:SparkContext,SQLConte

2016-01-17 16:11:25 1455

原创 Spark canopy算法

canopy算法概念与传统的聚类算法(比如K-means)不同，Canopy聚类最大的特点是不需要事先指定k值(即clustering的个数)，因此具有很大的实际应用价值。与其他聚类算法相比，Canopy聚类虽然精度较低，但其在速度上有很大优势，因此可以使用Canopy聚类先对数据进行“粗”聚类，得到k值后再使用K-means进行进一步“细”聚类。这种Canopy+K-means的混合聚类方式分为...

2016-01-16 16:27:44 2718

原创 SparkML实战之五：SVM

package MLlibimport org.apache.spark.{SparkContext, SparkConf}import org.apache.spark.mllib.classification.{SVMModel, SVMWithSGD}import org.apache.spark.mllib.evaluation.BinaryClassificationMetricsi

2016-01-14 10:11:37 2164

原创 SparkML实战之四：回归

package MLlibimport org.apache.spark.{SparkContext, SparkConf}import org.apache.spark.mllib.regression.LabeledPointimport org.apache.spark.mllib.regression.LinearRegressionModelimport org.apache.spa

2016-01-14 10:05:22 1438

原创 SparkML实战之三：Logistic回归

package MLlibimport org.apache.spark.SparkConfimport org.apache.spark.SparkContextimport org.apache.spark.mllib.classification.{LogisticRegressionWithLBFGS, LogisticRegressionModel}import org.apache

2016-01-14 10:01:12 2132

原创 SparkML实战之二：Kmeans

package class8import org.apache.log4j.{Level, Logger}import org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.mllib.clustering.KMeansimport org.apache.spark.mllib.linalg.Vectors/**

2016-01-14 09:59:16 1631

原创 SparkML实战之一：线性回归

package class8import org.apache.log4j.{Logger, Level}import org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.mllib.linalg.Vectorsimport org.apache.spark.mllib.regression.{LinearRegr

2016-01-14 09:56:47 2764

原创 sparkcookbook-GettingStarted with ML

创建向量$ spark-shellimport org.apache.spark.mllib.linalg.{Vectors,Vector}val dvPerson = Vectors.dense(160.0,69.0,24.0)val svPerson = Vectors.sparse(3,Array(0,1,2),Array(160.0,69.0,24.0)密集向量方法定义：def de

2015-09-06 14:11:35 796

原创 sparkCookbook4-SparkSQL

catalyst优化器由两个主要目标：方便的添加新的优化技术允许外部开发者扩展优化器 sparkSQL在四个阶段使用catalyst转换框架1， Analyzing a logical plan to resolve references 2，Logical plan optimization 3， Physical planning 4，Code generation to compi

2015-09-02 16:35:30 554

原创 sparkcookbook阅读笔记

sparkcookbook

2015-08-27 11:01:40 812

原创 Kubernetes部署与卸载

创建 Kubernetes cluster（单机版）最简单的方法是。国内网络环境下也可以考虑使用的 AllInOne 部署。

2024-03-14 15:54:38 915

原创【Spark的五种Join策略解析】

Spark将参与Join的两张表抽象为流式遍历表(streamIter)和查找表(buildIter)，通常streamIter为大表，buildIter为小表，我们不用担心哪个表为streamIter，哪个表为buildIter，这个spark会根据join语句自动帮我们完成。对于每条来自streamIter的记录，都要去buildIter中查找匹配的记录，所以buildIter一定要是查找性能较优的数据结构。

2023-09-12 09:56:16 1177

原创【无标题】

mac安装rar

2022-10-18 16:59:47 495 2

原创博客搬迁啦

[新博客地址:大数据那点事儿](https://luckywind.github.io/)

2022-06-26 22:10:29 241

原创 ubuntu install jdk

1 查看系统版本file /etc/init2 查看是否已经安装jdkjava -version3 卸载自带openjdksudo apt-get purge openjdk*4 下载相应版本jdk并解压到指定目录tar jdk* -C /usr/local/5 配置环境变量vi /etc/profileJAVA_HOME=/usr/local/java/jdk1.8.0_20 JRE_HOM

2017-04-21 23:36:04 556

原创 hostname

hostname配置在哪里？ hostname是Linux系统下的一个内核参数，它保存在/proc/sys/kernel/hostname下，但是它的值是Linux启动时从rc.sysinit读取的。而/etc/rc.d/rc.sysinit中HOSTNAME的取值来自与/etc/sysconfig/network下的HOSTNAME.修改了hostname后，如何使其立即生效而不用重启操作系统

2017-02-23 10:43:04 823

转载 MapReduce中的Shuffle和Sort分析

MapReduce 是现今一个非常流行的分布式计算框架，它被设计用于并行计算海量数据。第一个提出该技术框架的是Google 公司，而Google 的灵感则来自于函数式编程语言，如LISP，Scheme，ML 等。MapReduce 框架的核心步骤主要分两部分：Map 和Reduce。当你向MapReduce 框架提交一个计算作业时，它会首先把计算作业拆分成若干个Map 任务，然后分配到不同的节点上去

2017-02-21 15:52:22 548

原创 ubuntu设置有线上网

原有文件xingfu@moon:~$ cat /etc/network/interfaces# interfaces(5) file used by ifup(8) and ifdown(8)auto loiface lo inet loopbackxingfu@moon:~$ xingfu@moon:~$ cat /etc/resolv.conf# Dynamic resolv.con

2017-01-01 18:05:05 9532

原创欢迎使用CSDN-markdown编辑器

idea开发mapreduce实战我的intellij idea版本是14，Hadoop版本2.6，使用《hadoop权威指南》的天气统计源码作为示例。下面附上源码，数据集在http://hadoopbook.com/code.html可以下载1901和1902两年数据：代码package com.hadoop.maxtemperature; import java.io.IOException;

2016-12-19 23:21:41 740

原创 win7无法安装msi解决办法

解决方案如下：新建一个文本文件，输入msiexec /i d:\Setup.msi（假设文件名为Setup.msi ，放在d盘根目录下，即是安装程序的绝对路径）保存改扩展名为.cmd格式右键鼠标—-然后以管理员身份运行这个程序就可以。如果再报错a network error occurred while attempting to read from the file ：注意报错后的文件

2016-12-06 17:16:24 12115 2

原创 hbase权威指南-客户端API高级特性

1.过滤器层次结构过滤器层次结构的最底层是Filter接口和FilterBase抽象类，它们实现了过滤器的空壳和骨架大部分过滤器直接继承自FilterBase，用户定义一个所需要的过滤器实例，同时把定义好的过滤器实例传递给Get或Scan实例：setFilter(filter)2比较运算符继承自CompareFilter的过滤器比基类FilterBase多了一个compare()方法，它需要传入

2016-07-01 17:11:03 680

原创 hadoop权威指南（一）

Chap1 初始hadoopMapReduce比较适合以批处理方式处理需要分析整个数据集的问题，尤其是动态分析。MapReduce对非结构化或半结构化数据非常有效，因为它是中处理数据时才对数据进行解释。即MapReduce输入的键和值并不是数据固有的属性，而是由分析数据的人来选的。MapReduce是一种线性可伸缩编程模型，我们需要写map函数和reduce函数，每个函数定义一个键值对集合到另

2016-06-26 00:36:37 6212

原创 3 hbase基础知识

创建Put实例时用户需要提供一个行键row 创建Put实例之后，就可以向该实例添加数据类了。 Put add() 每次调用add()都可以特定地添加一列数据。获取Put实例内部添加的KeyValue实例需要调用get()方法或者getFamilyMap()方法。若要频繁地重复修改某些行，用户有必要创建一个RowLock实例来防止其他客户端访问这些行。KeyValue类

2016-06-25 16:31:04 505

转载 mac压缩为zip

最通俗的用法zip -q -r -e -m -o [yourName].zip someThing-q 表示不显示压缩进度状态-r 表示子目录子文件全部压缩为zip //这部比较重要，不然的话只有something这个文件夹被压缩，里面的没有被压缩进去-e 表示你的压缩文件需要加密，终端会提示你输入密码的// 还有种加密方法，这种是直接在命令行里做的，比如zip -r -P Password01!

2016-04-25 17:22:42 857

原创在pyspark上配置ipython notebook

1.为Spark创建一个iPython notebook配置xcheng@Admins-MacBook-Pro-24:~/Spark/pyspark $ipython profile create spark[ProfileCreate] Generating default config file: u'/Users/xcheng/.ipython/profile_spark/ipython_c

2016-04-23 11:56:39 1628

原创对三个超市销量、品牌数、均价聚类

K的选择kmeans++ k=2Within Set Sum of Squared Errors=118.06743855554647kmeans++ k=3Within Set Sum of Squared Errors=73.04285624370425kmeans++ k=4Within Set Sum of Squared Errors=56.56478515239625kmeans+

2016-04-23 10:11:52 1014

原创烟草零售聚类1、KM_classic

package tobaccoimport org.apache.spark.mllib.clustering.{KMeans, KMeansModel}import org.apache.spark.mllib.feature.StandardScalerimport org.apache.spark.mllib.linalg.Vectorsimport org.apache.spark.r

2016-04-19 15:43:38 1414 1

原创零售户logistics回归分类

package tobaccoimport data.copy._import org.apache.spark.mllib.classification.{LogisticRegressionWithLBFGS, LogisticRegressionWithSGD}import org.apache.spark.mllib.clustering.KMeansimport org.apache

2016-04-14 15:34:51 908

原创零售户决策树分类

package tobaccoimport data.copy._import org.apache.spark.mllib.clustering.KMeansimport org.apache.spark.mllib.evaluation.BinaryClassificationMetricsimport org.apache.spark.mllib.feature.StandardScal

2016-04-14 14:07:45 1428

原创单机spark绑定端口

在IDE里配置SPARK_MASTER_IP=127.0.0.1SPARK_LOCAL_IP=127.0.0.1

2016-04-09 11:57:11 1132

原创 Integrating Apache Spark with PyCharm

参考在/Applications/PyCharm CE.app/Contents/bin 下写了一个pycharm.shexport PYTHONPATH=/usr/local/share/spark1626/python/:/usr/local/share/spark1626/python/lib/py4j-0.9-src.zipexport SPARK_HOME=/usr/local/s

2016-04-01 13:41:39 616

原创 mac 上安装rsqldf

> install.packages("sqldf") % Total % Received % Xferd Average Speed Time Time Time Current Dload Upload Total Spent Left Speed 0 0 0

2016-03-31 12:57:25 1903

原创插网线仍连不上网？

打开网络和共享中心–>更改适配器设置->选择一个本地连接属性->IPv4->自动获得IP地址-OK！

2016-03-20 15:26:39 7933

原创 pyspark初探(一)LearningSpark

启动pysparkIPYTHON=1 pysparkIPYTHON_OPTS="notebook" pyspark(set IPYTHON=1 pyspark for windows)执行python脚本spark-submit my_script.py初始化sparkcontextfrom pyspark import SparkConf,SparkContextconf = Spark

2016-03-15 17:01:51 4330

原创 mac安装Hadoop和hive

参考MACbrew install hadoop

2016-03-15 15:25:17 2312

原创 Spark读取csv数据

项目地址一、spark-shell方式$SPARK_HOME/bin/spark-shell --packages com.databricks:spark-csv_2.10:1.4.0IDE方式方式一逗号分隔法方式二参考

2016-03-14 12:02:38 6053

原创 mac下安装配置Spark

安装scala参考陋室 1. 解压scala到/usr/local/share/scala下 2. 配置scala环境变量 sudo su vi etc/profile 添加 export PATH=”$PATH:/usr/local/share/scala/bin”配置Spark参考

2016-03-08 17:54:48 3493

原创 scikit-learn入门到精通(五)Unsupervised learning: seeking representations of the data

#encoding=utf-8'''五监督学习：寻找数据的代表''''''KMeans聚类'''from sklearn import cluster ,datasetsiris = datasets.load_iris()X_iris = iris.datay_iris = iris.targetk_means = cluster.KMeans(n_clusters=3)k_

2016-01-30 12:41:18 749

原创 scikit-learn入门到精通(四)：模型选择

k-折叠验证'''k折叠验证，用于测量预测精度'''import numpy as npX_folds = np.array_split(X_digits,3)y_folds = np.array_split(y_digits,3)scores = list()for k in range(3): X_train = list(X_folds) X_test =X_t

2016-01-29 22:07:16 1153

原创 scikit-learn入门到精通(三)：监督学习

KNN#encoding=utf-8'''最近邻和维数灾难'''#分类 irisesimport numpy as npfrom sklearn import datasetsiris = datasets.load_iris()iris_X =iris.datairis_y = iris.targetnp.unique(iris_y)'''k近邻分类'''#分训练集和测

2016-01-29 20:05:33 1044

hadoop开发所需类

高清超级无敌python教程

空空如也