0 Dreamy_zsy

尚未进行身份认证

暂无相关简介

等级
TA的排名 21w+

大数据离线项目案例

离线项目总共包括以下部分:1.数据的预处理阶段2.数据的入库操作阶段3.数据的分析阶段4.数据保存到数据库阶段5.数据的查询显示阶段给出数据格式表和数据示例,请先阅读数据说明,再做相应题目。原始数据:qR8WRLrO2aQ:mienge:406:People & Blogs:599:2788:5:1:0:4UUEKhr6vfA:zvDPXgPiiWI:TxP1eXHJQ2...

2020-01-06 16:44:21

Zookeeper安装部署

Zookeeper: Zookeeper是一个分布式协调服务的开源框架。主要用来解决分布式集群中应用系统的一致性问题。ZooKeeper本质上是一个分布式的小文件存储系统。提供基于类似于文件系统的目录树方式的数据存储,并且可以对树中的节点进行有效管理。从而用来维护和监控你存储的数据的状态变化。通过监控这些数据状态的变化,从而可以达到基于数据的集群管理。安装zookeeper的注意事项:安装前...

2019-12-16 21:47:39

Sqoop安装

1、安装sqoop的前提是已经具备java和hadoop的环境。2、上传并解压 最新稳定版:sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz3、配置文件修改:cd $SQOOP_HOME/confmv sqoop-env-template.sh sqoop-env.shvi sqoop-env.shexport HADOOP_COMMON_HOME...

2019-12-16 21:27:12

Flume安装部署

Flume介绍Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。Flume可以采集文件,socket数据包、文件、文件夹、kafka等各种形式源数据,又可以将采集到的数据(下沉sink)输出到HDFS、hbase、hive、kafka等众多外部存储系统中。安装部署1、 Flume的安装非常简单,只需要解压即可,当然,前提是已有hadoop环境2、上传安装文件并解压...

2019-12-16 21:17:29

HBase的集群环境搭建

注意事项:HBase强依赖zookeeper和hadoop,安装HBase之前一定要保证zookeeper和hadoop启动成功,且服务正常运行下载对应的HBase的安装包所有关于CDH版本的软件包下载地址如下http://archive.cloudera.com/cdh5/cdh/5/HBase对应的版本下载地址如下http://archive.cloudera.com/cdh5/...

2019-12-11 11:12:26

Impala安装部署

安装前提集群提前安装好hadoop,hive。hive安装包scp在所有需要安装impala的节点上,因为impala需要引用hive的依赖包。hadoop框架需要支持C程序访问接口,查看下图,如果有该路径下有这么文件,就证明支持C接口。软件包的上传解压说明 A:安装impala 至少需要保证制作impala 源的节点有11G的剩余使用空间tar.gz需要使用5G+,解压后需...

2019-12-09 16:40:47

Hue的安装部署

1.Hue是什么Hue是一个开源的Apache Hadoop UI系统通过使用Hue,可以在浏览器端的Web控制台上与Hadoop集群进行交互,来分析处理数据,例如操作HDFS上的数据,运行MapReduce Job,执行Hive的SQL语句,浏览HBase数据库等等。2.Hue能做什么访问HDFS和文件浏览通过web调试和开发hive以及数据结果展示查询solr和结果展示,报表生成...

2019-12-06 17:01:03

Azkaban安装部署

solo-server模式部署azkaban-solo-server-0.1.0-SNAPSHOT.tar.gz 包上传到HDFS 解压到指定目录tar -zxvf azkaban-solo-server-0.1.0-SNAPSHOT.tar.gz –C /export/servers/azkaban/修改时区进去此文件中vim conf/azkaban.properties修改时...

2019-12-06 15:02:27

关于hue安装后出现KeyError: "Couldn't get user id for user hue"的解决方法

首先说明出现此问题的原因是因为你使用的root用户安装了hue,然后在root用户下使用的build/env/bin/supervisor,如下图所示那样:知道了原因,就容易解决问题了。首先要创建个普通用户,并给添加密码。如果密码给的过于简单,会给出提示,忽略就行,如下图:然后,我们要给刚才解压的hue文件改变拥有者属性,通过 chown -R 用户名 文件地址。如下图:最后,我们使用...

2019-12-06 11:21:33

Error: Could not open client transport with JDBC Uri: jdbc:hive2://192.168.159.131:10000:

Error: Could not open client transport with JDBC Uri: jdbc:hive2://192.168.159.131:10000: java.net.ConnectException: Connection refused (state=08S01,code=0)这个是因为hive中的hiveServer2没有启动起来,启动的命令是: hive -...

2019-11-21 23:56:36

hive的基本操作

分桶表将数据按照指定的字段进行分成多个桶中去,说白了就是将数据按照字段进行划分,可以将数据按照字段划分到多个文件当中去开启hive的桶表功能set hive.enforce.bucketing=true;设置reduce的个数set mapreduce.job.reduces=3;创建桶表create table course (c_id string,c_name string,t...

2019-11-21 14:51:18

加载数据到HDFS上时,报错: Failed with exception MetaException(message:javax.jdo.JDODataStoreException

hive (db_emp)> load data local inpath ‘/opt/datas/emp.txt’ into table emp_part partition(date=‘2018120’);在加载数据到HDFS上时,报错:Failed with exception MetaException(message:javax.jdo.JDODataStoreExceptio...

2019-11-21 09:37:09

异常-java.io.EOFException

产生原因:UTF是双字节编码,而writeChars方法写入的是按照字符格式写入的,在文件中的占位要小于以Unicode编码的同样字符串,所以,使用readUTF方法读取时,会出现EOF错误EOFException:当输入过程中意外到达文件或流的末尾时,抛出此异常。此异常主要被数据输入流用来表明到达流的末尾。注意,其他许多输入操作返回一个特殊值表示到达流的末尾,而不是抛出异常。解决方法:w...

2019-11-14 18:09:18

expected org.apache.hadoop.io.IntWritable, recieved org.apache.hadoop.io.Text

hadoop类型错误1、参数错误2、需通过job进行set

2019-11-12 19:52:06

HDFS基本介绍

HDFS 是Hadoop分布式文件系统。是Hadoop核心组件之一,作为最底层的分布式存储服务而存在。HDFS使用Master和Slave结构对集群进行管理,一般一个HDFS集群只有一个Namenode和一定数目的Datanode组成,Namenode 是 HDFS 集群主节点,Datanode 是 HDFS 集群从节点,两种角色各司其职,共同协调完成分布式的文件存储服务。NameNode(M...

2019-11-11 20:08:17

大数据之Hadoop篇(8)--分布式与女朋友的神奇组合

你女朋友是高可用么?分布式系统的概念,技术来源于恋爱,又高于恋爱1.高可用:就算失恋了,可以迅速和另一个女生恋爱,永远不会是单身状态2.注册中心:你和你女朋友去民政局登记,民政局就是注册中心,掉线的代价就是离婚3.负载均衡:你和多个女朋友轮流约会。星期一,三,五跟A约会,二,四,六和B约会,叫RoundRibon算法4.熔断限流:跟多个女朋友约会,你身体吃得消么?你要保护自己,星期天就好好...

2019-11-11 20:05:08

Linux中ntp时间同步

联网状态下与互联网上提供的时钟服务器进行同步同步命令 : ntpdate ntp4.aliyun.com (阿里云提供的免费时间服务器)配置离线状态下的时钟同步1、设置时钟同步服务器的时间(node03 2012-12-12 12:12:12)将node01 node02时间与node03同步2、修改第一个配置文件 /etc/ntp.conf添加如下内容restrict 192.16...

2019-11-11 15:45:48

SecureCRT常用快捷键

SecureCRT的常用命令:tab键:命令或者路径提示及补全;ctrl+c:放弃当前输入,终止当前任务或程序;ctrl+d:删除光标后面一个字符,如果输入行没有内容,则出当前用户环境,相当于exit,logout;按enter重新进入;ctrl+l:清屏;ctrl+shift+c:复制;ctrl+shift+v:粘贴;shift+insert:粘贴光标选中内容ctrl+a:命令光...

2019-11-11 15:43:08

HDFS 安全模式

安全模式:是HDFS一种特殊状态,该状态下 只允许数据读取,不允许数据的修改与添加等变更操作。什么时候进入安全模式:集群重新启动的时候进入安全模式。安全模式下多了什么:DataNode在启动的时候会向namenode汇报可用的block等状态。如何查看集群当前的状态: hdfs dfsadmin -safemode get如何进入安全模式:hdfs dfsadmin -safemode e...

2019-11-10 16:31:20

机架感知什么时候会用到?

NameNode(管理者)分配节点的时。

2019-11-10 16:29:19

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。