自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 阿里云DataWorks

一、概述DataWorks(数据工场,原大数据开发套件)是阿里云重要的PaaS(Platform-as-a-Service)平台产品,为您提供数据集成、数据开发、数据地图、数据质量和数据服务等全方位的产品服务,一站式开发管理的界面,帮助企业专注于数据价值的挖掘和探索。DataWorks支持多种计算和存储引擎服务,包括离线计算MaxCompute、开源大数据引擎E-MapReduce、实时计算(基于Flink)、机器学习PAI、图计算服务Graph Compute和交互式分析服务等,并且支持...

2020-10-16 00:05:28 470

原创 Spark概述及基础

第一章 spark框架概述及原理目录第一章 spark框架概述及原理前言一、框架组成1.1 框架组成1.2 应用情况二、框架运行流程1.简易通用流程2. 任务划分总结前言Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架,Spark提供了一个全面、统一的框架用于管理各种有着不同性质(文本数据、图表数据等)的数据集和数据源(批量数据或实时的流数据)的大数据处理的需求,与Hadoop和Storm等其他大数据和MapReduce技术相.

2020-10-09 16:26:59 130 1

原创 spark概述及基础

Spark第一章 开发环境及运行模式文章目录系列文章目录 前言 一、pandas是什么? 二、使用步骤 1.引入库 2.读入数据 总结前言Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架,提供了一个全面、统一的框架用于管理各种有着不同性质(文本数据、图表数据等)的数据集和数据源(批量数据或实时的流数据)的大数据处理的需求。一、运行模式1. local模式只运行在一台电脑,通常用于练手和测试。local:所有运行在一个线...

2020-10-09 00:08:24 82

原创 Kafka消费数据或读取本地文件追加到HDFS的java实现

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言 一、pandas是什么? 二、使用步骤 1.引入库 2.读入数据 总结前言kafka作为一个分布式的基于发布/订阅模式的消息队列,广泛用于数据采集,但是数据落地还是得自己写代码,以下追加到hdfs的一个简单例子。提示:以下是本篇文章正文内容,下面案例可供参考一、导入依赖?<dependencies> <dependency> ..

2020-09-11 17:24:40 958

原创 linux集群脚本之执行相同命令xcall.sh和xcalls.sh

在linux集群中,经常要对集群每个节点执行某一命令,若一个个切换输入,会很麻烦,此时可考虑执行脚本!对于集群haoop102,haoop103,haoop104(脚本在hadoop102上):xcall.sh#!/bin/shpcount=$#if((pcount==0));thenecho no args...;exit;fifor i in hadoop102 hadooop103 hadoop104doecho ================== $i.

2020-06-03 23:57:29 197

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除