huaying522-CSDN博客

原创阿里云DataWorks

一、概述DataWorks（数据工场，原大数据开发套件）是阿里云重要的PaaS（Platform-as-a-Service）平台产品，为您提供数据集成、数据开发、数据地图、数据质量和数据服务等全方位的产品服务，一站式开发管理的界面，帮助企业专注于数据价值的挖掘和探索。DataWorks支持多种计算和存储引擎服务，包括离线计算MaxCompute、开源大数据引擎E-MapReduce、实时计算（基于Flink）、机器学习PAI、图计算服务Graph Compute和交互式分析服务等，并且支持...

2020-10-16 00:05:28 470

原创 Spark概述及基础

第一章 spark框架概述及原理目录第一章 spark框架概述及原理前言一、框架组成1.1 框架组成1.2 应用情况二、框架运行流程1.简易通用流程2. 任务划分总结前言Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架，Spark提供了一个全面、统一的框架用于管理各种有着不同性质（文本数据、图表数据等）的数据集和数据源（批量数据或实时的流数据）的大数据处理的需求，与Hadoop和Storm等其他大数据和MapReduce技术相.

2020-10-09 16:26:59 130 1

原创 spark概述及基础

Spark第一章开发环境及运行模式文章目录系列文章目录前言一、pandas是什么？二、使用步骤 1.引入库 2.读入数据总结前言Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架，提供了一个全面、统一的框架用于管理各种有着不同性质（文本数据、图表数据等）的数据集和数据源（批量数据或实时的流数据）的大数据处理的需求。一、运行模式1. local模式只运行在一台电脑，通常用于练手和测试。local：所有运行在一个线...

2020-10-09 00:08:24 82

原创 Kafka消费数据或读取本地文件追加到HDFS的java实现

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、pandas是什么？二、使用步骤 1.引入库 2.读入数据总结前言kafka作为一个分布式的基于发布/订阅模式的消息队列，广泛用于数据采集，但是数据落地还是得自己写代码，以下追加到hdfs的一个简单例子。提示：以下是本篇文章正文内容，下面案例可供参考一、导入依赖？<dependencies> <dependency> ..

2020-09-11 17:24:40 958

原创 linux集群脚本之执行相同命令xcall.sh和xcalls.sh

在linux集群中，经常要对集群每个节点执行某一命令，若一个个切换输入，会很麻烦，此时可考虑执行脚本！对于集群haoop102,haoop103,haoop104（脚本在hadoop102上）:xcall.sh#!/bin/shpcount=$#if((pcount==0));thenecho no args...;exit;fifor i in hadoop102 hadooop103 hadoop104doecho ================== $i.

2020-06-03 23:57:29 197

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 阿里云DataWorks

原创 Spark概述及基础

原创 spark概述及基础

原创 Kafka消费数据或读取本地文件追加到HDFS的java实现

原创 linux集群脚本之执行相同命令xcall.sh和xcalls.sh

空空如也

空空如也

原创阿里云DataWorks