自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

转载 Hive学习

hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用...

2019-05-21 16:23:18 165

转载 NoSQL(非关系型数据库)

一、关系型数据库简介关系模型就是指二维表格模型,因而一个关系型数据库就是由二维表及其之间的联系组成的一个数据组织。当前主流的关系型数据库有Oracle、DB2、PostgreSQL、Microsoft SQL Server、Microsoft Access、MySQL、浪潮K-DB等。实体关系模型(Entity-Relationship Model),简称E-R Model是陈品山(Pete...

2019-05-21 16:21:45 4479

转载 spark

一、简介1、什么是Spark官网地址:http://spark.apache.org/Apache Spark™是用于大规模数据处理的统一分析引擎。从右侧最后一条新闻看,Spark也用于AI人工智能spark是一个实现快速通用的集群计算平台。它是由加州大学伯克利分校AMP实验室 开发的通用内存并行计算框架,用来构建大型的、低延迟的数据分析应用程序。它扩展了广泛使用的MapReduce计算...

2019-05-21 16:17:02 218

转载 安装配置Hive、MySQL及其JDBC驱动

安装Hive1(1)下载安装包可从apache上下载hive安装包:http://mirror.bit.edu.cn/apache/hive/(2)压缩包解压:(2)移动至指定目录:(这里是移动至/usr/local/下)1.2. 为Hive建立相应的MySQL账户,并赋予足够的权限:(1)登录mysql:(2)建立hive用户:在这里插入图片描述(3)赋予足够权限:...

2019-05-21 16:11:39 3671 1

转载 HBase安装配置

一、环境准备文件准备(很尴尬没有链接)主机环境:win10虚拟机软件:VMware-workstation-full-14.0.0.24051JDK:jdk-8u161-linux-x64Hadoop:hadoop-2.7.4Hbase:hbase-1.2.6-binUbuntu-16.04.2-desktop-amd64.iso安装虚拟机在ubuntu安装一个vmw...

2019-05-21 16:03:54 367

转载 MapReduce分布式编辑

MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)“和"Reduce(归约)”,是它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。 当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(归...

2019-05-21 15:58:01 221

转载 JDK+Hadoop安装配置、集群模式搭建

JDK+Hadoop安装配置、集群模式搭建JDK+Hadoop安装配置、集群模式搭建1.关闭防火墙firewall-cmd --state 显示防火墙状态running/not runningsystemctl stop firewalld 临时关闭防火墙,每次开机重新开启防火墙systemctl disable firewalld 禁止防火墙服务。2.传输JDK和HADOOP压缩包...

2019-05-21 15:50:19 106

转载 网络爬虫

网络爬虫网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。(一)产生背景随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎(Search Engine),例如传统的通用搜索引擎AltaVi...

2019-04-22 19:32:54 188

转载 Hadoop生态圈

1.HBaseHBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBase...

2019-04-22 19:32:07 136

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除