6 twscust

尚未进行身份认证

暂无相关描述

等级
TA的排名 9w+

MapReduce Hello World

import....../**单词计数Mapper类:**/publicclassTokenizerMapperextendsMapper<LongWritable,Text,Text,IntWritable>{//Mapper类的四个泛型分别表示map函数输入键值对的键的类、值的类、输出键值对的键的类、值的类privatefinalstat...

2018-07-31 09:34:54

Hadoop学习系列笔记(七):关于HBase

HBase是一个在HDFS上开发的面向列的分布式数据库,适合实时地随机访问超大规模数据集。HBase自底向上进行构建,能够简单地通过增加节点来达到线性扩展。HBase不是关系型数据库,不支持SQL。概念:应用把数据存放在带标签的表中,表由行和列组合成能单元格数据的插入时间戳为数据的版本。行的键和单元格内容是字节数组(字符串)。表中的行根据行的键值进行排序,所有对表的访问都要通过表的主键。行中的列被...

2018-07-07 21:22:23

Hadoop学习系列笔记(六):关于Hive

Hive是构建在Hadoop上的数据仓库框架。Hive设计的目的是让精通SQL技能(但Java编程技能相对较弱)的分析师能够对Facebook存放在HDFS中的大规模数据集执行查询,是一个通用的、可伸缩的数据处理平台。Hive一般在工作站上运行,它把SQL查询转换为一系列在Hadoop集群上运行的MapReduce作业。Hive把数据组织为表,元数据(如表模式)存储在metastore数据库中。H...

2018-07-07 14:07:28

Hadoop学习系列笔记(五):关于Pig

Pig为大型数据集的处理提供了更好层次的抽象。Pig为MapReduce提供了更丰富的数据结构,这些数据结构往往都是多值和嵌套的,Pig还提供了一套更强大的数据变换操作。Pig包括两部分:(1)用于描述数据流的语言,PigLatin。(2)用于运行PigLatin程序的执行环境。当前有两个环境:单JVM中的本地执行环境和Hadoop集群上的分布式执行环境。PigLatin程序由一系列“操作”...

2018-07-06 15:09:43

Hadoop学习系列笔记(四):MapReduce应用开发与MapReduce的工作机制

MapReduce应用开发MapReduce编程流程:首先写map函数和reduce函数,使用单元测试确保函数的运行符合预期,然后写一个驱动程序来运行作业(可在本地IDE中用一个小数据集进行测试),最后将通过测试的程序放到集群上运行。资源文件:configuration.xml、core-default.xml、core-site.xmlMapReduce的工作流:JobControl的实例表示一...

2018-07-05 22:12:11

Hadoop学习系列笔记(三):Hadoop的I/O操作

1、HDFS的数据完整性:Hadoop会对写入的所有数据计算校验和,并在读取数据时验证校验和。datanode负责在收到数据后存储该数据及其验证校验和。客户端从datanode读取数据时,也会验证校验和,将它们与datanode中存储的校验和进行比较。Datanode也会在后台线程中运行一个DataBlockScanner定期验证存储在这个datanode上的所有数据块。HDFS存储这每个数据块的...

2018-07-05 09:42:14

Hadoop学习系列笔记(二):Hadoop分布式文件系统

1、HDFS的设计:当数据集大小超过一台独立的物理计算机存储能力时,就要对它进行分区并存储到若干台单独的计算机上。管理网络中跨多台计算机存储的文件系统成为分布式文件系统,该系统架构于网络之上。Hadoop有一个称为HDFS的分布式系统。实际上Hadoop是一个综合性的文件系统抽象,也可以集成其他文件系统(如本地文件系统)。HDFS以流式数据访问模式来存储超大文件(具有几百MB、GB甚至TB、PB大...

2018-07-04 21:49:07

Hadoop学习系列笔记(一):Hadoop概述及MapReduce程序工作原理

Hadoop系列学习笔记基于《Hadoop权威指南》点击下载Hadoop提供了用于构建分布式系统工具(数据存储、数据分析、协调处理),是一个大数据存储和分析平台。面对大数据,人们所要做的就是数据的存储与分析工作。Hadoop提供了一个具有可靠的共享存储(HDFS)和分析系统(MapReduce)平台。HDFS实现数据的存储,MapReduce实现数据的分析和处理。HDFS和MapReduce是Ha...

2018-07-04 10:16:50

Python-Matplotlib画图常用参数设置

作图需要,对于新手来说,网络信息多而不精,现将本人这一段作图需要的参数设置记录一下,作为注释说明。结合实现两幅子图共享x轴分析说明:font=FontProperties(fname=r"/usr/share/fonts/truetype/arphic/ukai.ttc",size=15) #设置图中字体    fig=plt.figure(facecolor='white')...

2018-06-05 22:25:43

ML神器:sklearn的快速使用

学习,转自:https://www.cnblogs.com/lianyingteng/p/7811126.html传统的机器学习任务从开始到建模的一般流程是:获取数据->数据预处理->训练建模->模型评估->预测,分类。本文我们将依据传统机器学习的流程,看看在每一步流程中都有哪些常用的函数以及它们的用法是怎么样的。希望你看完这篇文章可以最为快速的开始你的学习...

2018-05-25 21:19:16

windows10上使用Eclipse配置Hadoop开发环境详细步骤+WordCount示例

说明:Hadoop集群已经搭建完毕,集群上使用的Hadoop-2.5.0。目的:在window10系统上利用Eclipse配置Hadoop开发环境,编写MapReduce关联Hadoop集群。准备:JDK环境变量配置、Eclipse、hadoop-2.7.5.tar、hadoop-eclipse-plugin-2.7.3.jar、hadoop-common-2.7.3-bin-master

2018-01-18 16:00:44

利用Sqoop把Oracle数据迁移到HDFS、Hive

提示:以下操作是在Xshell终端进行的,导入数据后若在Xshell终端上查看导入的数据,数据中的中文会出现乱码。要在Linux系统(最好是在可视化的Linux系统端)中去查看数据不会出现乱码。本人刚开始一直都是在Xshell上进行数据的导入、查看测试,花了一天时间解决“乱码”情况都没解决,最后才知是Xshell终端的问题,这里提示一下。一、利用Sqoop,从Oracle到HDFS第一步:把Ora

2018-01-17 15:33:07

Sqoop将Oracle数据导入HDFS时出现权限问题: Permission denied: user=root, access=WRITE,

利用Sqoop将Oracle数据导入HDFS时出现权限问题。执行列表操作能正常列出数据库中的表:sqooplist-tables --connect jdbc:oracle:thin:@IP地址:端口号:数据库--username 用户名--password 密码 但是执行import操作则提示权限问题:sqoop import --connect jdbc:oracle

2018-01-13 17:15:01

KNN算法 代码详细解释

K-近邻算法采用测量不同特征值之间的距离方法进行分类。适用数据范围:数值型和标称型。工作原理:存在一个样本数据集(训练样本集),且样本集中每个数据都存在标签,即知道样本集中每一个数据与所属分类的对应关系。输入没有标签的新数据后,将新数据每个特征与样本集中数据对应的特征进行比较,然后提取样本集中特征最相似(最近邻)的分类标签。一般,只选择样本数据集中前K个最相似的数据,这就是K-近邻算法中的

2017-07-28 16:40:47

Python的模块引用和查找路径

模块间相互独立相互引用是任何一种编程语言的基础能力,运行Python应用或引用Python模块,Python解释器要有一个查找的过程。

2017-07-17 15:16:05

oracle 利用数据泵导入导出数据

目的:使用利用数据泵,将一台电脑上的数据库导出,导入到另一台电脑上的数据库。A电脑上的操作。expdp数据导出1、运行cmd;2、登录数据库,输入命令:sqlplussystem/密码;3、创建目录路径:createdirectorybackup_pathas"E:\app\tws\oradata\orcldv"; (backup_path为路径名称,可自命名,

2016-11-30 09:26:49

OWB创建工作区时ORA-00904:无效标识符 ORA-01919角色不存在等错误解决办法

之前一直用的是服务器上的OWB工作区,想在自己电脑上创建一个工作区,创建自己的用户,以免修改内容对服务器上的数据造成影响。捣鼓了两天,各种问题,各种查,解决了一个问题又来了一个,虐心。昨天晚上解决了一个问题,今天早上来继续捣鼓,又出现了一个问题ORA-00904:OWBSYS.WB_WORKSPACE_MANAGEMENT无效标识符,上网继续查,和OWBSYS的创建有关。于是清除owbsys,重建

2016-11-20 10:47:11

使用Oracle创建数据库,SQL developer连接数据库简要步骤

SQLDeveloper不能用于创建Oracle数据库,只能用来连接已经创建的数据库,数据库的建立要通过DatabaseConfigurationAssistant(DBCA)来完成。  找到开始菜单中Oracle-OraDb11g_home1下的DBCA,打开,可依次点击“下一步”,直到第3步数据库标识,创建数据库名称和SID。(最好在创建过程中形成文档,截图自己的创建过程,包括

2016-11-09 22:05:48

深度好文丨读完此文,就知道Hadoop了!

“昔我十年前,与君始相识。”  一瞬间Hadoop也到了要初中择校的年龄了。  十年前还没有Hadoop,几年前国内IT圈里还不知道什么是Hadoop,而现在几乎所有大型企业的IT系统中有已经有了Hadoop的集群在运行了各式各样的任务。  2006年项目成立的一开始,“Hadoop”这个单词只代表了两个组件——HDFS和MapReduce。到现在的10个年头,这个单词代表

2016-10-25 20:57:21

Java—隐藏封装、继承

封装是面向对象三大特征之一(另外两个是继承和多态),指的是将对象的状态信息隐藏在对象内部,不允许外部程序直接访问对象内部信息,而是通过类所提供的方法实现对内部信息的操作和访问。封装,两个方面的含义:把该隐藏(属性)的隐藏起来,把该暴漏(方法)的暴漏出来。这两个方面是通过Java提供的访问控制符来实现的。Java提供了三个访问控制符:private、protect和public,分别代表三个

2015-01-12 11:43:56

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!