自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Swt_BigData的博客

实时更新大数据技术

  • 博客(33)
  • 收藏
  • 关注

原创 Scala基础入门教程(三)

Tuples(元组): 在Python中的元组是不受限制的,在Scala中元组最多支持22项 因为在Scala中实际上是定义了22个类,分别是Tuple1,Tuple2,Tuple3一直到22个,例子:object Demo1 extends App{ val x = Tuple1(1,2) println(x)}结果:((1,2))可以看见结...

2018-11-09 17:12:14 506

原创 Scala基础入门教程(二)

Scala中变量和函数: 在Java中定义语法为:Type varName = value ;//数据类型 变量名 值在Scala中变量定义必须要有修饰符:var、valVar代表一个变量,val代表一个常量def main(args: Array[String]): Unit = { var n =10 n=11 }//变量可以再次赋...

2018-11-08 20:47:55 769

原创 Scala基础入门教程(一)

Scala介绍:Scala是一门多范式的编程语言,一种类似java的编程语言 [1]  ,设计初衷是实现可伸缩的语言 [2]  、并集成面向对象编程和函数式编程的各种特性。scala是基于Jvm的,完美兼容Java,是脚本类语言,但为什么说是脚本类语言呢,因为它运行过程如下:源码 - scalac(编译) - *.class字节码 - scala - Jvm上 -running先...

2018-11-08 14:32:39 3895

原创 Spark基础入门教程(一):原理架构

Spark是什么?Spark是用来实现快速而通用的集群计算的平台。在此之前我们学过了Hadoop中的MapReduce,那么就以这两个为例比较一下:MapReduce:仅仅只支持Map和Reduce两种模式处理效率偏低,1)具体体现在Map的中间结果是写入到磁盘中,Reduce写HDFS中,多个MapReduce与HDFS交互数据频繁,认读调度较大。2)没有办法充分...

2018-11-06 18:28:18 303

原创 使用Zeppelin编写Spark读取CSV文件,统计结果并存放Mysql

在我们机器上编写一个CSV文件:[hadoop@Master spark]$ vi data.csv内容:大区,名称,充值金额c,u9,168c,u7,81b,u2,124c,u2,154a,u5,75b,u2,97a,u4,162c,u10,145b,u3,25d,u9,165b,u8,19d,u9,130b,u10,183d,u10,126a,u3,11...

2018-10-25 20:30:57 2341

原创 使用JavaApi操作Hbase

Hbase提供了JavaApi来进行操作,以下是笔者以JavaApi的集中方式对Hbase进行操作:条件查询:Scanpublic static void main(String[] args) { try(Connection conn = ConnectionFactory.createConnection()){ //通过Hbase中Connection ...

2018-09-21 14:36:46 453

原创 Hbase中 shell简单操作

由于Hbase是NoSql数据库,里面不仅仅是SQL,操作命令会有不同,经常使用Mysql数据库的同学请注意首先启动Hbase的进程服务:[hadoop@Master hbase-2.1.0]$ bin/start-hbase.sh然后启动使用shell操作的客户端:[hadoop@Master hbase-2.1.0]$ bin/hbase shell看见如下界面之后,我...

2018-09-20 10:09:49 1728

原创 Hbase中ERROR: org.apache.hadoop.hbase.ipc.ServerNotRunningYetException: Server is not running yet错误

错误如下:hbase(main):001:0> listTABLE ERROR: org.apache.hadoop.hbase.ipc.ServerNotRunningYetExcept...

2018-09-13 09:00:25 490

原创 Hive中的几种排序方式

Order By Order By 会对输入做全局的排序,所以只会有一个reduce,这样的话在大量数据面前查询效率较低,费时较长select * from salary order by salary desc;//desc 升序 asc降序结果:+--------------+----------------+----------------+| salary.nam...

2018-09-03 14:44:41 1431

原创 Hive中三种Join连接方式

数据源:a表1 zhangsan2 santi3 wangwu4 lisib表1 zhangsan2 Tian3 wanglu4 si 内连接等值连接,这意味着连接的谓语条件只能使用等号。HIve只允许在FROM子句中出现一张表,要进行连接操作,必须执...

2018-08-28 11:07:25 747

原创 Hive DDL DML SQL操作

概述:hive是什么呢?(1).由Facebook开源,最初用于解决海量结构化的日志数据统计问题 (2).是一个构建在Hadoop之上的数据仓库 (虽然是数据仓库,但是它并不存储任何数据)(3).Hive定义了一种类似于SQL查询语言:HQL(非常类似于MySQL中的SQL语句,同时做了扩展) (4).通常用于离线数据处理(与MapReduce原理一样,只不过它是将HQL语句转换成M...

2018-08-23 17:33:26 1213 1

原创 Hive入门的个人总结(hive中都有什么,都干了什么:理论)

hive数据分为哪两种类型:    hive的数据分为表数据和元数据,表数据存储在HDFS上的数据,元数据是用来存储表的名字,表的列和分区及其属性的,存储在关系型数据库中表:hive中的表和关系型数据库的表基本相同,每个表在HDFS上是以目录的方式来体现存储表数据的,这个路径可以在 hive-site.xml中   hive.metastore.warehouse.dir 属性来配置,...

2018-08-14 14:40:10 2309

原创 Hive提示警告SSL

我们启动hive之后 在写语句的时候时候报:WARN: Establishing SSL connection without server's identity verification is not recommended. According to MySQL 5.5.45+, 5.6.26+ and 5.7.6+ requirements SSL connection must be ...

2018-08-10 10:21:25 225

转载 详细解析MapReduce的原理和执行过程

说明:本文的宗旨是给一些接触了MapReduce,但是对MapReduce原理流程还不了解的人员,也包括笔者自己,那就一起来学习吧。 MapReduce的原理: MapReduce运行时,首先通过Map读取HDFS中的数据,然后经过拆分,将每个文件中的每行数据分拆成键值对,最后输出作为Reduce的输入 文本的数据记录:如文本的行就是以"键值对"的方式传入Map函数...

2018-08-08 11:37:41 12150

原创 Mapreduce实例---统计单词个数(wordcount)

实例:统计每个单词在数据集中出现的次数 数据流程: 代码:Mapper类的实现: Reducer类的实现: Job提交客户端实现:然后我们需要通过Maven的工具窗口打包  直接双击即可 点击这里 找到   完成后我们运行即可,然后可以操作xshell命令 Cat  查看这个output2,如下即统...

2018-08-08 10:12:37 3368

原创 MapReduce 测试自带实例 wordcount

Hadoop版本:2.7.6Jar程序所在目录:是你解压后hadoop解压目录:/usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.6.jar 1.本地创建测试文件:mkdir /home/hadoop/datatouch a.txt  这里笔者创建了三个txt文件 vim a.t...

2018-08-03 10:26:18 1917

原创 Hadoop启动Yarn

1,首先进入hadoop目录:cd /usr/local/hadoop2,修改配置文件 mapred-site.xml,这边需要先进行重命名:     mv ./etc/hadoop/mapred-site.xml.template ./etc/hadoop/mapred-site.xml     然后修改内容:gedit ./etc/hadoop/mapred-site.xml ...

2018-08-03 10:07:30 1357

原创 使用Java API操作ElasticSearch

Clientclient是一个类,我们可以通过Client类对ES集群进行各种操作:Index  Get Delete Serach,以及对ES集群的管理任务。Client需要基于 TransportClient TransportClientTransportClient可以远程链接ES集群,通过一个传输模块,但是它不真正的连接到集群中,只是获取一个或者多个传输地址,只有在每...

2018-08-02 14:35:02 3697

原创 Elasticsearch——kibana界面和Linux操作

  Elasticsearch是一个开源的搜索引擎,是一个建立在全文搜索库Apache Lucene库中上。Lucene可以说是当下不论是私有还是开源中,最先进,功能最全,高性能的搜索引擎库。  但是Lucene仅仅是一个库,你需要使用Java将Lucene集成到应用程序中。  Elasticsearch是用Java编写的,它的内部使用Lucene做搜索和索引,但是它的目的是为了让全文搜索...

2018-08-01 15:12:43 1163

原创 HDFS Java API的使用实例

  HDFS是Hadoop程序中主要使用的文件分布系统,HDFS集群主要由管理文件系统元数据的NameNode和实际存储数据的DataNode组成的  HDFS架构图描述了NameNode和DataNode客户端之间的基本交互,客户端联系NameNode对文件和元数据进行修改。并直接使用DataNode执行实际的文件 I /O Hadoop支持Xshell命令直接与HDFS进行操作,同...

2018-07-25 15:59:54 11004

原创 Hadoop-在HDFS创建文件报mkdir: Cannot create directory /aa. Name node is in safe mode.

我们在xshell中在HDFS中创建一个文件夹,但是报该节点处于安全模式mkdir: Cannot create directory /aa. Name node is in safe mode.1:什么是安全模式  安全模式是值HDFS处于一种特殊状态,在这种状态下HDFS文件只接受读取文件,不能进行创建修改等变更请求,在NameNode节点启动的时候,HDFS首先会进入安全...

2018-07-24 14:56:42 5909

原创 Linux中HDFS简单的shell操作

实现Linux中实现HDFS中的基本操作 首先我们需要输入命令启动Hadoopstart-dfs.sh 1. 创建文件夹或目录我们创建一个aa文件夹,并查看所有文件创建:hdfs dfs -mkdir /aa删除:hdfs dfs -rm -r /aa   备注:还有一种方法是 hdfs dfs -rmr /aa  这种方法也能删除但是会出来一个提示不推荐使用,...

2018-07-23 11:49:15 1278

原创 Hadoop中—— WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform...报错

hadoop中执行命令出现WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable错误解决办法如下:原来系统预装的glibc库是2.12版本,而hadoop期望是2.14版本,所以打印警告信息。...

2018-07-23 10:59:13 871

原创 使用IntelliJ IDEA 配置Maven(入门级)

下载maven官方网址:http://maven.apache.org/download.cgi我们进入官网之后往下找到如下图片:  解压后并新建一个本地仓库文件夹(解压此Maven的压缩包,注意不要解压到中文路径下,切记!!!) 配置本地仓库路径  配置Maven环境变量解压完后,Maven这个工具就算安装好了,但是我们还需要配置一下M...

2018-07-20 09:49:16 2060 1

原创 日志分析介绍和ELK的安装

本章笔者主要讲解日志分析的基本概念和EKL在Linux中的安装教程 ================概念介绍================    在日常工作中,我们对日志的操作极为重要,今天笔者在这里主要分享一下ELK的基本概念和安装(仅根据本人的实际操作为例,如有问题,敬请指出~)     日志主要分为:系统日志、应用日志和安全日志,系统的运维和开发人员可以通过日志来了解服...

2018-07-16 15:22:23 393

原创 几句话让你明白什么是爬虫-Scrapy

Python        Scrapy是Python中为了爬去网页数据而提供的框架,主要应用于:数据挖掘,信息处理或存储历史数据等一系列的程序中。     那么我们爬数据的的本质是什么呢?就是利用Http、Https协议将开放性的web内容下载到本地中。     当然既然有爬虫就会有所谓的反爬,反反爬,反反爬。。。 各种防范措施,但是程序员是不会放弃的。     一般...

2018-07-13 09:24:35 9829 1

原创 几句话让你读懂Hadoop都干了什么

    写这篇文章的原有是给那些看了很多干货,但是觉得说的太多,对于刚入门的同学看起来是比较麻烦的事情,那么笔者就对此总结了hadoop简洁版。希望能够帮助初学的小伙伴。  Hadoop可以说是大数据储存和计算的开山鼻祖了,现在大多数的开源框架都依赖于Hadoop,或者能与它更好的兼容。 Hadoop的由来:    Hadoop是一个由Apache基金会所开发的分布式系统基础架构。    Hado...

2018-07-06 11:21:17 5978

原创 Python——Numpy基础学习

NumPy    NumPy系统是Python的一种开源的数值计算扩展。这种工具可用来存储和处理大型矩阵,比Python自身的嵌套列表(nested list structure)结构要高效的多(该结构也可以用来表示矩阵(matrix))。    基本属性:类型类型代码说明int8、uint8i1、u1有符号和无符号8位整型(1字节)int16、uint16i2、u2有符号和无符号16位整型(2字...

2018-07-02 15:00:26 253

转载 一文读懂大数据开发—送给大数据开发初学者

导读:第一章:初识Hadoop第二章:更高效的WordCount第三章:把别处的数据搞到Hadoop上第四章:把Hadoop上的数据搞到别处去第五章:快一点吧,我的SQL第六章:一夫多妻制第七章:越来越多的分析任务第八章:我的数据要实时第九章:我的数据要对外第十章:牛逼高大上的机器学习经常有初学者会问,自己想往大数据方向发展,该学哪些技术,学习路线是什么样的,觉得大数据很火,就业很好,薪资很高……...

2018-06-29 14:19:36 912

转载 初学者如何正确看待大数据这件事

 先从Hadoop说起。  经常看到有大咖在语录中提及:有了Spark,就永远不要Hadoop了,真有大咖这么说的,不信百度能看见。  仔细想下,有点道理:如果只是作为业务层面的开发者,对于大数据技术而言,确实只学Spark就可以了,但是如果是系统架构师的话,hadoop还是要学的,因为作为大数据的系统架构师,没办法回避hadoop。Hadoop的三个概念组件,spark在这里主要替代的是MapR...

2018-06-22 10:55:18 384

转载 什么是Hadoop和大数据

Hadoop一、Hadoop 是什么?Hadoop 是 Apache 旗下的一套开源软件平台。 Hadoop 可以利用计算机集群,根据用户自定义的业务逻辑对海量数据进行分布式处理。 通常我们说的 Hadoop 是指一个更广泛的概念--Hadoop 生态圈。二、Hadoop 生态圈Hadoop 生态圈是指以 Hadoop 为基础发展出来的一系列技术。这些技术都是为了解决大数据处理过...

2018-06-22 09:28:46 1538

原创 Hadoop 集群搭建伪分布式、集群/分布式

阅读本章需把笔者的如下两章做好才可进行虚拟机VMware中安装linux系统CentOSCentOS7设置静态IP以及windows下ping不通虚拟机、虚拟机ping不通外网解决方案本教程适用于在 CentOS7 系统中安装 Hadoop2,详细介绍了从系统环境配置、Java环境配置到 Hadoop 安装及 Hadoop 集群配置,包括:单机、伪分布式以及分布式,步骤详细,辅以适当说...

2018-06-13 11:41:29 535

原创 虚拟机VMware中安装linux系统CentOS

 下载系统镜像文件网易开源镜像站:http://mirrors.163.com/依次选择:centos/ ---> 7/(选择版本) ---> isos ---> x86_64(64位) --->出现如下界面,点击下载  安装linux系统GenOS-7 64位点击编辑虚拟机设置2:开启虚拟机进行安装等待安装进行相关配置...

2018-06-12 10:07:57 1131

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除