0 HAOXUAN168

尚未进行身份认证

暂无相关简介

等级
TA的排名 6w+

Hive、MapReduce、Spark分布式生成唯一数值型ID

在实际业务场景下,经常会遇到在Hive、MapReduce、Spark中需要生成唯一的数值型ID。一般常用的做法有:MapReduce中使用1个Reduce来生成; Hive中使用row_number分析函数来生成,其实也是1个Reduce; 借助HBase或Redis或Zookeeper等其它框架的计数器来生成;数据量不大的情况下,可以直接使用1和2方法来生成,但如果数据量巨大,1...

2020-02-02 21:59:58

快速为CDH版本HADOOP安装配置Lzo和Snappy压缩

注:本文针对的是使用命令行安装和配置CDH Hadoop,如果你使用RPM或者ClouderaManager,基本可以忽略此文。Hadoop在计算和存储过程中,支持对文件进行压缩,可以使用hadoop checknative命令来查看:其中,像zlib、lz4、bzip2,会使用系统库,那么需要在Hadoop所在机器上先安装这些。Snappy和Lzo,需要单独安装配置,CDH版本的...

2020-02-02 21:59:39

主流开源SQL(on Hadoop)总结,不断改进的Hive始终遥遥领先

本文涵盖了6个开源领导者:Hive、Impala、Spark SQL、Drill、HAWQ 以及Presto,还加上Calcite、Kylin、Phoenix、Tajo 和Trafodion。以及2个商业化选择Oracle Big Data SQL 和IBM Big SQL,IBM 尚未将后者更名为“Watson SQL”。(有读者问:Druid 呢?我的回答是:检查后,我同意Druid 属于...

2020-02-02 21:59:36

HDFS-HA集群中客户端如何找到Active NameNode

Hadoop2.0中,HDFS实现了HA,具体实现及原理请网上搜索。其中HDFS的配置包含以下几个必须参数:<property><name>dfs.nameservices</name><value>cdh5</value><description>指定HDFS的命名服务,一般和fs.defaultFS中的autho...

2020-02-02 21:59:33

从零基础开始学Hadoop架构原理到精通汇总

一、概念Hadoop诞生于2006年,是一款支持数据密集型分布式应用并以Apache 2.0许可协议发布的开源软件框架。它支持在商品硬件构建的大型集群上运行的应用程序。Hadoop是根据Google公司发表的MapReduce和Google档案系统的论文自行实作而成。Hadoop与Google一样,都是小孩命名的,是一个虚构的名字,没有特别的含义。从计算机专业的角度看,Hadoop是一个分...

2020-02-01 21:59:54

十大顶级大数据可视化工具

要使数据分析真正有价值和有洞察力,就需要高质量的可视化工具。市场上有很多产品,特点和价格各不相同,本文列出了一些广泛认可的工具。其实企业如何选择一个合适的可视化工具,并不是一件容易的事情,需要仔细的考虑。Salesforce公司的一项调查显示:53%的员工要经常查看分析数据,却只是依靠手工操作。在大量的电子表格、图表和数据中滚动鼠标,就好比是大海捞针。数据可视化工具面向用户直观显示结果,帮助用...

2020-02-01 21:59:50

2020年预知的十大大数据技术整理汇集

数字时代最先进的技术之一就是。大数据不是一个流行的术语,而是用来描述规模庞大、随时间急剧变大的数据集合的术语。这意味着该数据很庞大,传统管理工具都无法分析、存储或处理它。大数据不仅仅是个术语。它与、区块链、物联网和增强现实等其他技术密切相关。因此,许多行业已经在大数据分析技术方面作了投入,比如银行、离散制造和流程制造等行业。为了进一步了解这项数据技术,下面列出了你在2020年不可不知的...

2020-02-01 21:59:40

大数据和人工智能,云计算三者关系和区别详解

今天跟大家讲讲云计算、大数据和人工智能。为什么讲这三个东西呢?因为这三个东西现在非常火,并且它们之间好像互相有关系:一般谈云计算的时候会提到大数据、谈人工智能的时候会提大数据、谈人工智能的时候会提云计算……感觉三者之间相辅相成又不可分割。但如果是非技术的人员,就可能比较难理解这三者之间的相互关系,所以有必要解释一下。大数据是指在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要...

2020-02-01 21:59:35

Hadoop是做什么的,hadoop集群搭建作用

目的本文描述了如何安装、配置和管理有实际意义的Hadoop集群,其规模可从几个节点的小集群到几千个节点的超大集群。如果你希望在单机上安装Hadoop玩玩,从这里能找到相关细节。更多精彩内容 精彩内容点我学先决条件确保在你集群中的每个节点上都安装了所有必需软件。 获取Hadoop软件包。安装安装Hadoop集群通常要将安装软件解压到集群内的所有机器上。通常...

2020-01-30 08:48:48

大数据学习菜鸟的Hadoop快速入门基础教程汇总详细解答

大数据学习菜鸟的Hadoop快速入门基础教程汇总详细解答1、大数据大数据是一门概念,也是一门技术,是以Hadoop为代表的大数据平台框架上进行各种数据分析的技术。大数据包括了以Hadoop和Spark为代表的基础大数据框架,还包括实时数据处理,离线数据处理,数据分析,数据挖掘和用机器算法进行预测分析等技术。更多精彩内容 点击我学2、HadoopHadoop是一个开源的大数据...

2020-01-30 08:48:41

大数据Hadoop教程:Hadoop核心架构详细解析

通过这一阶段的调研总结,从内部机理的角度详细分析,HDFS、MapReduce、Hbase、Hive是如何运行,以及基于Hadoop数据仓库的构建和分布式数据库内部具体实现。如有不足,后续及时修改。更多精彩内容 请点我学HDFS的体系架构整个Hadoop的体系结构主要是通过HDFS来实现对分布式存储的底层支持,并通过MR来实现对分布式并行任务处理的程序支持。HDFS采用主从(Mas...

2020-01-30 08:48:17

大数据开发项目之微博如何向五亿人推荐东西

大数据开发项目之微博如何向五微博(Weibo)是一种通过关注机制分享简短实时信息的广播式社交网络平台。微博用户通过关注来订阅内容,在这种场景下,推荐系统可以很好地和订阅分发体系进行融合,相互促进。微博两个核心基础点:一是用户关系构建,二是内容传播,微博推荐一直致力于优化这两点,促进微博发展。如图 1 所示:更多精彩内容 请点我学图 1 微博推荐的使命在微博推荐发展的过程中遇到...

2020-01-28 19:51:49

大数据开发流程图全集汇总,方便程序员熟悉学习流程关系特撒·

1、大数据流程图2、大数据各个环节主要技术2.1、数据处理主要技术Sqoop:(发音:skup)作为一款开源的离线数据传输工具,主要用于Hadoop(Hive) 与传统数据库(MySql,PostgreSQL)间的数据传递。它可以将一个关系数据库中数据导入Hadoop的HDFS中,更多精彩内容 请点我也可以将HDFS中的数据导入关系型数据库中。如果你对大数据开发感兴趣,想系...

2020-01-28 19:50:40

大数据技术所涉及的的数学基础有哪些?

由于工作关系,在我的周围存在这两类人,一是正在学校学习的大学生,二是在IT公司从事研发设计的工程师。他们在数学学习和应用方面出现了两个极端。在校大学生,特别是大一、大二的学生每学期都有一些诸如数学分析、线性代数、数论之类数学课程,尽管在课堂上可以听到莱布尼茨和牛顿的纠葛故事、笛卡尔的爱情故事,但是他们往往感到很迷茫,因为不知道所学的数学知识到底有什么用。对于IT公司的研发人员来说,他们在进入大数据...

2020-01-28 19:48:12

转岗前景分析:人工智能、大数据开发是未来高薪的趋势?

相信有不少人在从事某个行业一定时间之后都有过想要转岗的想法,或许是薪资达不到心理预期,或者是技术上遇到瓶颈等等等等。下面我们来梳理一下一个人工作一段时间后,为什么想要转岗的可能原因吧,从转岗前工作和想转去的岗位两个角度我们来简单总结一下:转岗前工作情况行业发展前景不佳,要么过于冷门,要么趋于饱和工作内容重复,枯燥,技能提升不明显薪水涨幅小目前工作与个人性格相悖,比如性格内向的人...

2020-01-28 19:46:30

如何选择大数据的编程语言?R,Python还是Java?

大家介绍一下关于如何选择大数据的编程语言呢?首先比如有一个大数据项目,你知道问题领域(problemdomain),也知道使用什么基础设施,甚至可能已决定使用哪种框架来处理所有这些数据,但是有一个决定迟迟未能做出:我该选择哪种语言?(或者可能更有针对性的问题是,我该迫使我的所有开发人员和数据科学家非要用哪种语言?)这个问题不会推迟太久,迟早要定夺。如何选择大数据的编程语言当然,没有什么阻止...

2020-01-28 19:43:55

mysql 的Escape转义字符串

一、转义的意义用户输入如果没有任何限制的话,则必须对特殊字符进行变换。如果对单引号不进行变换,轻者不能正常执行功能,重则会发生数据库错误,甚至可能导致系统崩溃。二、需要转义的字符类型在字符串中,某些序列具有特殊含义。这些序列均用反斜线(‘’)开始,即所谓的转义字符。MySQL识别下面的转义序列:ASCII 0(NUL)字符。‘单引号(‘’’)。”双引号(‘”’)...

2020-01-27 16:47:38

大数据工程师整理Hadoop大数据处理框架简介

Hadoop 是一个处理、存储和分析海量的分布式、非结构化数据的开源框架。最初由 Yahoo 的工程师 Doug Cutting 和 Mike Cafarella 在 2005 年合作开发。后来,Hadoop 被贡献给了 Apache 基金会,成为 Apache 基金会的开源项目。Hadoop 系统简介Hadoop 是一种分析和处理大数据的软件平台,是一个用 Java 语言实现的 Apac...

2020-01-27 16:47:16

0基础入门大数据开发需要学习什么内容?Hadoop体系

0基础入门大数据开发需要学习什么内容?Hadoop体系大数据开发学习需要的基础知识,接下来继续介绍大数据技术学习的重点之一:Hadoop。Hadoop技术体系(1)简介:Hadoop是Apache开源组织的一个分布式基础框架,提供了一个分布式文件系统 (HDFS)、分布式计算(MapReduce)及统一资源管理框架(YARN)的软件架构。用户可以在不了解分布式底层细节的情况下,开发...

2020-01-27 16:46:03

编程和大数据,哪个前景好?大数据常用技术有哪些?

想转IT方向,选择编程前景好还是大数据?s咋VCX今天我们就来看一位专业人士对于编程和大数据的解读。从就业而言,大数据和编程并不是什么冲突的岗位,而事实上大数据岗位也对编程能力也有不低的要求。通常我们所说的大数据工程师, 普遍指的是Hadoop生态系的开发者。随着时间推移,大数据行业也经过了很多的变化,现在的热点也已经由大数据转向了AI,而大数据行业进入了一个相对平稳的发展期。其实也很...

2020-01-27 16:45:03

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv4
    勤写标兵Lv4
    授予每个自然周发布9篇以上(包括9篇)原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。