2 为了抽短袖

尚未进行身份认证

我要认证

学无止境,学无止境。

等级
TA的排名 6w+

使用MapReduce实现定图的最小生成树

使用MapReduce实现定图的最小生成树如何实现计算最小生成树什么是最小生成树最小生成树的性质使用`Kruskal`算法实现最小生成树Kruskal算法简述实现逻辑MapReduce实现`Kruskal`算法如何实现计算最小生成树什么是最小生成树在一给定的无向图G = (V, E) 中,(u, v) 代表连接顶点 u 与顶点 v 的边(即),而 w(u, v) 代表此边的权重,若存在 T 为 E 的子集(即)且为无循环图,使得w(T)=∑(u,v)∈tw(u,v)w(T) = \sum_{(u,

2020-08-20 20:10:42

Spark MLlib基于K-Means实现数据聚类

Spark MLlib基于K-Means实现数据聚类K-MeansK-Means简介算法实现原则Spark实现K-MeansSpark机器学习库算法步骤完整代码(基于spark.ml)K-MeansK-Means简介       k均值聚类算法(k-means clustering algorithm)是一种迭代求解的聚类分析算法,其步骤是,预将数据分为K组,则随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之

2020-08-21 17:34:10

Kettle数据抽取——创建转换的详细步骤(集群模式运行)

Kettle使用教程(集群模式提交)Kettle自己有三个主要组件:Spoon,Kitchen,Pan。其中Spoon是一个图形化的界面,用于windows的时候,先设置环境变量:pentaho_java_home,例如:C:\Program Files\jdk1.8,其实就是你的java安装目录,1.6以上即可。windows下双击Spoon.bat就可以了,界面如下:全量数据抽取示例(以Postgresql到Postgresql为例)文件->新建转换新建转换后在左边的主对象树中建立

2020-08-11 16:30:50

Spark超时重启、自动拉起脚本(Python版)

程序说明无自动拉起脚本Spark Streaming程序往往不稳定,遇到一些网络延迟或者部分节点挂掉会导致程序批次时间过长,从而影响程序的实时性。Spark Streaming 程序会因为一些不可控因素宕机,影响数据处理。该自动拉起脚本会根据Spark在Yarn中的任务ID去判断程序是否宕机,如果程序宕机,则启动Spark程序。会根据Yarn的Web页面获取当前批次的处理时长,如果批次执行时间过长的话就会重启Spark程序。代码(Python版)# -*- coding: utf-8

2020-07-24 19:47:16

Spark(Scala)连接带Kerberos认证的Hbase

参数zookeeperQuorum:zookeeper主机名/IPclientPort:zookeeper端口znodeParent:Hbase在zookeeper中的元数据节点(可在Hbase配置文件中或者ZkCli中查看该配置)kerberosConfPath:krb5.conf路径(可放在项目的resurces目录下)principal:具有访问权限的Kerberos票据keytabPath:Kerberos票据对应的keytab路径Java版代码连接代码import org.a

2020-07-22 16:53:54

Java连接Kerberos认证的Hbase

参数zookeeperQuorum:zookeeper主机名/IPclientPort:zookeeper端口znodeParent:Hbase在zookeeper中的元数据节点(可在Hbase配置文件中或者ZkCli中查看该配置)kerberosConfPath:krb5.conf路径(可放在项目的resurces目录下)principal:具有访问权限的Kerberos票据keytabPath:Kerberos票据对应的keytab路径连接代码package com.tky.conf

2020-07-22 16:38:07

40行代码换1000文章阅读量?

CSDN增加访问量

2020-07-14 17:09:36

Spark ML计算皮尔逊相似度案例

Spark ML 计算两用户间的皮尔逊相似度功能说明数据格式及说明设计思路Spark ML 计算皮尔逊相关系数代码(Scala)功能说明该程序根据不同用户对不同电影的评分情况,通过Spark ML中Correlation.corr函数计算用户之间的皮尔逊相关矩阵。数据格式及说明该数据为模拟数据。X A:5.0,B:1.0,C:2.0,D:0Y A:3.0,B:1.0,C:2.0,D:3.00其中X、Y分别代表两个用户A-D代表电影名称,电影名后面代表该用户的评分注意:实

2020-07-08 17:58:57

Spark修改几行源码,解决Kafka数据积压

Spark 增加几行源代码,解决棘手Kafka消息堆积问题导致Kafka数据积压的几种情况Spark Streaming消费Kafka的方式常规解决上述三种场景的方式针对第一种由于数据量较大分区较小的情况产生数据积压针对第二种程序宕机导致的消费滞后针对第三种Kafka数据分布不均匀的情况通过修改源码来解决数据积压Spark如何确定分区数导致Kafka数据积压的几种情况第一种情况,SparkStreaming 通过receivers(或者Direct方式)以生产者生产数据的速率接收数据。当Batch

2020-07-03 17:43:05

Spark MLlib机器学习 Pipelines

Spark ML PipelinesML管道管道的主要概念DataFramePipeline components(管道组件)Transformers(转换器)Estimators(估算器)Properties of pipeline components(管道组件属性)Pipeline(管道)工作流程详细参数ML持久性:Saving and Loading Pipelines持久性的向后兼容代码示例Estimator, Transformer, and ParamPipelineML管道管道的主要概念

2020-07-02 22:04:47

Hbase单节点伪分布式搭建

Hbase伪分布式搭建引言Hbase伪分布式搭建是指在一台机器上同时运行 Hmaster、 Hregionserver,该文章基于Hadoop伪分布式搭建Hadoop伪分布式搭建传送门搭建过程Zookeeper安装将Zookeeper压缩包上传至服务器解压缩Zookeeper二进制文件[root@CentOS ~]# tar -zxvf zookeeper-3.4.6.tar.gz -C /opt/install/c进入Zookeeper根目录[root@CentOS ~]#

2020-06-27 16:19:07

Hive安装(超详细)

Hive安装前提环境Hive安装解压文件修改配置文件HDFS创建Hive工作空间配置Hive环境变量Hive启动替换Hive原生MetaStore前提环境Linux基础设置以及Hadoop环境安装请看上一篇文章Hive安装解压文件[root@localhost ~]# tar -zxvf apache-hive-1.2.2-bin.tar.gz -C /opt/install/修改配置文件[root@localhost apache-hive-1.2.2-bin]# cd /opt/in

2020-06-24 18:03:00

Hadoop 伪分布式搭建(超详细)

Hadoop伪分布式搭建虚拟机准备阶段操作安全设置防火墙相关指令关闭关闭selinuxIP设置查看机器IP修改主机名修改IP及主机名映射SSH免密登陆Hadoop伪分布式搭建JDK配置解压配置环境变量Hadoop配置解压文件修改配置文件配置Hadoop环境变量验证环境变量是否配置成功格式化NameNodeHadoop起停命令查看WebUI界面虚拟机准备阶段操作本文是基于CentOS 7 系统搭建相关资源下载链接:https://pan.baidu.com/s/1FW228OfyURxEgnXW0qq

2020-06-24 17:44:34

Spark入门( 九)——机器学习 Spark MLlib

Spark MLlib机器学习是什么?机器学习Spark MLlibSpark MLlib案例快速入门基本统计Correlation(相关性)Hypothesis testing(假设检验)Summarizer(总结器)未完待续。。。机器学习是什么?机器学习数据挖掘有着50多年的发展历史。机器学习就是其子领域之一,特点是利用大型计算机集群来从海量数据中分析和提取知识机器学习与计算统计学密切相关。它与数学优化紧密关联,为其提供方法、理论和应用领域。机器学习在各种传统设计和编程不能胜任的计算机任务中有广

2020-06-24 13:13:59

Thread.sleep(0)到底是个什么骚操作?

今天看到一段有意思的代码:Thread.sleep(0),下面就来分析一下这串看似无用的代码到底有没有用。Thread.sleep(0)到底是个什么骚操作,这睡0毫秒和不睡有什么区别吗?操作系统资源的分配策略想要去了解多线程,就先要去了解操作系统中资源的不同分配策略在操作系统中,CPU资源的分配策略有多种,下面就拿两种最为典型的策略举例:时间片算法基于时间片算法分配资源的代表就是Unix系统。在时间片算法中,操作系统会维护一个队列,将所有的进程放入队列中。然后操作系统会按照队列中的进程顺序为

2020-06-17 23:20:29

Spark入门( 八)——Spark流计算新玩法-Structured Streaming

Structured Streaming介绍与使用

2020-06-15 22:27:02

Spark入门(七)——最全的Saprk SQL算子介绍与使用(下)

Spark SQL 查询SQL语法查询单行查询模糊查询排序查询limit查询分组查询having过滤case-when行转列pivotCube计算Join表连接子查询开窗函数开窗函数SQL解读ROW_NUMRANK()DENSE_RANK() /密集排名自定义函数单行函数聚合函数(untyped)Load/SavePaquetJSONORC(存储压缩格式,比较节省空间)CSVJDBCDataFrame转为RDDSQL语法查询单行查询// 单行查询var userDF = List((1, "张三",

2020-06-12 15:27:16

Spark入门(六)——最全的Saprk SQL算子介绍与使用(上)

Spark DataSet、DataFrame使用 Spark SQL使用方法

2020-06-01 17:08:03

Spark入门(五)——Spark Streaming

Spark Streaming学习 Spark流计算

2020-05-27 12:53:17

Spark入门(四)——Spark RDD算子使用方法

Spark RDD算子使用方法 spark算子语法

2020-05-26 09:58:15

查看更多

勋章 我的勋章
  • GitHub
    GitHub
    绑定GitHub第三方账户获取
  • 签到王者
    签到王者
    累计签到获取,不积跬步,无以至千里,继续坚持!
  • 新人勋章
    新人勋章
    用户发布第一条blink获赞超过3个即可获得
  • 阅读者勋章Lv3
    阅读者勋章Lv3
    授予在CSDN APP累计阅读博文达到30天的你,是你的坚持与努力,使你超越了昨天的自己。
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv2
    勤写标兵Lv2
    授予每个自然周发布4篇到6篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。
  • 学习力
    学习力
    《原力计划【第二季】》第一期主题勋章 ,第一期活动已经结束啦,小伙伴们可以去参加第二期打卡挑战活动获取更多勋章哦。
  • 原力新人
    原力新人
    在《原力计划【第二季】》打卡挑战活动中,成功参与本活动并发布一篇原创文章的博主,即可获得此勋章。