3 qq_40375298

尚未进行身份认证

我要认证

暂无相关简介

等级
TA的排名 24w+

地表最强系列之Spark基础

什么是SparkApache Spark是专为大规模数据处理而设计的快速通用的计算引擎 [1] 。现在形成一个高速发展应用广泛的生态系统。Spark优势速度快基于内存数据处理,比MR快100个数量级以上(逻辑回归算法测试)基于硬盘数据处理,比MR快10个数量级以上易用性支持Java、Scala、Python、R语言交互式shell方便开发测试通用性一栈式解决方案:批处理、交互式查询、实时流处理、图计算及机器学习多种运行模式YARN、Mesos、EC2、Kubernetes、Sta

2020-08-05 17:15:25

地表最强系列之Scala的扩展

模式匹配唱量模式常量模式仅匹配自身,任何字面量都可用做常量。def matchTest(x:Int):String=x match{ case 1=>"one" case 2=>"two" case _=>"many"}变量模式变量模式类似于通配模式,可以匹配任意对象,不过与通配符不同的是,Scala将变量绑定在匹配的对象上,随后可以使用该变量操作对象。val expr=10 expr match { case 0=>println("zero"

2020-08-01 19:10:43

地表最强系列之:Scala的oop

Traittrait相当于java中的接口package ooptrait SayHello{ def sayHello(name:String)}trait ListenMusic{ def playMusic(musicName:String): Unit ={ println(musicName+"正在播放!") }}trait Fly{ def plySky(): Unit ={ println("起飞!!!!") }}trait Sea{

2020-07-29 23:49:46

地表最强系列之Scala函数

函数定义//(a:Int,b:Int)表示输入参数的类型,:Int输出参数类型def fun(a:Int,b:Int):Int=if(a>b) a else b递归函数//在函数中使用函数def fun(a:Int):Int={if(a==1)1elsea+fun(a-1)}val result=fun(3)println(result)break的使用def fun(num:Int):Unit={import scala.util.control.BreaksBr

2020-07-27 20:15:58

地表最强系列之带你学Hbase

什么是HBaseHBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的

2020-07-26 18:26:30

地表最强系列之Scala下划线使用方法

导入通配符*在Scala中是合法的方法名,所以导入包时要使用_代替。//Javaimport java.util.*;//Scalaimport java.util._类成员默认值Java中类成员可以不赋初始值,编译器会自动帮你设置一个合适的初始值:class Foo{ //String类型的默认值为null String s;}而在Scala中必须要显式指定,如果你比较懒,可以用_让编译器自动帮你设置初始值:class Foo{ //String类型

2020-07-23 23:11:33

地表最强系列之Sqoop安装以及使用

什么是SqoopSqoop(发音:skup)是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。Sqoop的安装以及设置Sqoop安装包 提取码:m18x安装步骤 下载并解压1.上传安装包 sqoop-1.4.6-cdh5.14.2.tar.gz 到虚拟机

2020-07-23 00:27:34

地表最强系列之Hive的性能优化

Hive性能调优工具ANALYZE:分析表数据,用于执行计划选择的参考收集表的统计信息,如行数、最大值等使用时调用该信息加速查询语法:ANALYZE TABLE employee COMPUTE STATISTICS; ANALYZE TABLE employee_partitioned PARTITION(year=2014, month=12) COMPUTE STATISTICS;ANALYZE TABLE employee_id COMPUTE STATISTICS FOR C

2020-07-18 17:28:04

地表最强系列之:Hive的UDF函数

编写UDF的流程继承UDF类或GenericUDF类重写evaluate()方法并实现函数逻辑编译打包为jar文件复制到正确的HDFS路径使用jar创建临时/永久函数调用函数使用Java编写UDF函数//继承UDF类或GenericUDF类public class UDF extends org.apache.hadoop.hive.ql.exec.UDF { //重写evaluate()方法并实现函数逻辑. //注意这里的参数类型需要是可序列化的 public

2020-07-18 17:11:18

地表最强系列之窗口函数

什么是窗口函数扫描多个输入行来计算每个输出值,为每行数据生成一行结果可以通过窗口函数来实现复杂的计算和聚合语法 :`Function (arg1,…, arg n) OVER ([PARTITION BY <…>] [ORDER BY <…>] [<window_clause>])功能:排序,聚合,分析`窗口函数 - 排序ROW_NUMBER()对所有数值输出不同的序号,序号唯一连续select * ,row_number() over(part

2020-07-11 22:52:57

地表最强系列之Hive的高级查询语句

SELECT基础SELECT用于映射符合指定查询条件的行Hive SELECT是数据库标准SQL的子集1.使用方法类似于MySQL2.关键字和MySQL一样,不区分大小写3.limit子句4.where子句5.运算符、like、rlike6.group by子句7.having子句Hive的语句的书写顺序(1)select(2)from(3)join on(4) where(5)group by(6)having(7)distribute by/cluster by(

2020-07-09 23:14:50

地表最强系列之带你学Hive

什么是Hive?hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。Hive的优点是学习成本低,可以通过类似SQL语句实现快速MapReduce统计,使MapReduce变得更加简单,而不必开发专门的MapReduce应用程序。hive是十分适合数据仓库的统计分析和Windows注册表

2020-07-08 23:29:35

地表最强系列之带你学Zookeeper

什么是ZookeeperZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。Zookeeper=文件系统+通知机制.Zookeeper从设计模式上来看是一个基于观察者模式设计的分布式服务管理框架,它负责储存和管理大家都关心的数据,然后接受观察者的注册.一旦数据的状态发生变化,Zookeeper就将负责通知已

2020-07-06 22:43:25

地表最强系列之带你学YARN

什么是YARNApache Hadoop YARN (Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。Hadoop1的时候并没有专门的资源调度器(JobTracker负责资源管理和程序调度),所以资源问题是Hadoop1的最大问题.Hadoop2.x MapReduce将JobTracker中的资源管

2020-07-05 14:59:25

地表最强系列之带你学MapReduce

map task通过InputFormat接口中的TextInputFormat来读取文件package org.apache.hadoop.mapreduce;import java.io.IOException;import java.util.List;import org.apache.hadoop.classification.InterfaceAudience;import org.apache.hadoop.classification.InterfaceStability;imp

2020-07-03 23:51:42

地表最强系列之:带你学HDFS

HDFS是什么?认识HDFSHDFS是Hadoop项目的核心子项目,用于大数据领域的数据储存 。HDFS是被设计成适合运行在通用硬件上的分布式系统它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束,来实现流式读取文件系统数据的目的。HDFS在最开始是作为Apache Nutch搜索引擎项目的基础架构而开发的。

2020-06-30 23:17:33

地表最强系列之:HDFS的读写

安装并配置Mavenmaven教程编写Java程序public class TestHDFS { public static void writeToHDFS(String hdfsFile, String hdfsURL,String fileName) throws IOException { Configuration cfg=new Configuration();//配置对象 cfg.set("fs.defaultFS",hdfsURL);//获取

2020-06-29 23:40:58

地表最强系列之:Maven的安装与配置

下载Maven的安装包Maven的安装包提取密码zrgq配置Maven修改maven的conf目录下的Settings.xml文件<?xml version="1.0" encoding="UTF-8"?><!--Licensed to the Apache Software Foundation (ASF) under oneor more contributor license agreements. See the NOTICE filedistribut

2020-06-29 23:17:02

地表最强系列之:Hive的安装及配置

Hive的简介hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。Hive的优点是学习成本低,可以通过类似SQL语句实现快速MapReduce统计,使MapReduce变得更加简单,而不必开发专门的MapReduce应用程序。hive是十分适合数据仓库的统计分析和Windows注册表文

2020-06-28 21:22:41

地表最强系列之Hbase环境搭建

Hbase简介HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模

2020-06-28 20:40:51

查看更多

勋章 我的勋章
  • 签到新秀
    签到新秀
    累计签到获取,不积跬步,无以至千里,继续坚持!
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv2
    勤写标兵Lv2
    授予每个自然周发布4篇到6篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。