3 Manfestain

尚未进行身份认证

我要认证

暂无相关简介

等级
TA的排名 18w+

MapReduce序列化

序列化就是把内存中的对象转换成字节序列以便于存储到磁盘(持久化)和网络传输。反序列化就是将字节序列或者是持久化的数据转换成内存中的对象。内存中的对象只能本地进程使用,断掉后就消失了,也不能被发送到网络上的另一台机器,序列化可以将内存中的对象发送到远程机器。由于Java本身的序列化框架(Serializable)太重,序列化的对象包含了很多额外信息,不便于在网络中高效传输,Hadoop开发了自...

2020-05-22 18:21:13

2020-05-21 今日体会

在今年初的时候,我给自己订了一个目标,建立自己的行为准则,今天偶然看到了一个故事,有一点反思,希望记录下来,在日后的生活中运用实践。故事大概是这样,一个历史老师问一个学生是否知道姜维,对他怎么看。学生说姜维我再熟悉不过了,姜维是诸葛亮的爱徒,九出祁山,即使被邓艾所拜,最后关头仍然想翻盘,可惜刘禅不给力。老师说:你错了,姜维是一个军事冒险家,胆大却不够心细,能力确实强于世人,严于律己,也苛以待人,...

2020-05-21 14:34:31

MapReduce —— WordCount案例

WordCount:统计一个或多个文件内每个单词的出现次数。一般情况下,一个MapReduce程序主要包含三个部分:Map、Reduce和Drive。Map阶段主要负责将任务拆分到不同的节点上,各个MapTask是相互独立的,Reduce负责将Map阶段各个节点上的结果进行整合,Drive主要负责环境的配置信息以及连接Map和Reduce。Map阶段import org.apache....

2020-05-20 15:41:56

MapReduce

MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。主要用于分析数据。优缺点优点易于编程,接口简单;良好的扩展性,可以通过简单的增加机器扩展计算性能;高容错性,当一个节点挂了,它可以将上面的计算任务转移到另外一个节点上运行而不需要人工参与;适合PB级以上海量数据的离线处理。缺点不擅长实时计算,无法在毫秒活着妙级返回结果;不擅...

2020-05-20 13:27:31

使用IO流操作HDFS

除了可以使用系统API进行HDFS操作,还可以通过Java的IO流进行文件的上传和下载。适用于HDFS的自定义操作,其实API的底层也是使用IO流进行操作的。1. 把本地的文件上传到HDFS@Testpublic void putFileToHDFS() throws IOException, URISyntaxException, InterruptedException...

2020-04-03 16:16:35

HDFS 配置本地客户端

之前,一直通过Linux命令操作HDFS。接下来,在本地配置HDFS客户端,通过编写代码操作HDFS。环境:mbp2018hadoop-2.7.7配置步骤1. 在本地解压hadoop-2.7.7.tar.gz,并配置环境变量。在终端输入$ hadoop测试是否安装成功。2. 在IDEA中建立一个空的mavean工程。File new Projects...

2020-04-03 16:07:24

HDFS

HDFS(Hadoop Distributed File System),是一个文件系统,用于存储文件,通过目录树来定位文件,其实,它是分布式的,联合多台服务器实现功能。HDFS容错性高,适合处理大数据。使用场景:适合一次写入,多次读出的场景;不支持文件的修改;适合于用来做数据分析,不适合用过来做网盘。缺点:不适合低延时数据访问无法高效的对大量小文件进行存储;...

2020-04-03 14:33:06

集群时间同步

步骤1. 检查ntp(网络时间协议)是否安装。ps -e | grep ntp如果出现一下内容表明一斤安装:如果什么都没有,可以使用sudo apt-get install ntp进行安装。2. 修改ntp配置文件打开配置文件:sudo vim /etc/ntp.conf2.1 授权集群中的机器可以访问这台机器的时间2.2 集群在局域网中...

2020-04-02 13:45:42

VMware搭建完全分布式Hadoop集群

实际开发中,使用的就是完全分布式环境。所谓完全分布式就是在整个集群中有真实的主机(3台以上),用于完成各种任务。但是个人在学习时,购买多个机器显然是不划算的。这里,我们采用VMWare克隆出多个虚拟机来模仿完全分布式环境。环境:VMware Fusion 11 proLinux系统为Ubuntu 16.04每个虚拟机的配置为1G内存和20G磁盘空间PC:mbp201...

2020-04-01 14:29:09

配置日志聚集

所谓日志聚集,就是指应用运行完以后,将程序的运行日志信息上传到HDFS系统上。日志聚集可以方便的查看程序的运行详情,方便开发调试。开启日志聚集,需要重启NodeManager、ResourceManager和HistoryManager。开启步骤1. 配置yarn-site.xml文件<!-- 开启日志聚集功能 --><property> ...

2020-04-01 11:05:16

Ubuntu使用apt-get update速度慢

今天尝试在我的电脑上安装了VMWare Fusion,并且在虚拟机上安装Unbutu 16.04。电脑环境:macbookpro 18年 8G 256G固态mac上的VMWare来自xclient,可以直接下载并使用Ubuntu的具体安装步骤参参考自这里直接装好的Ubuntu是没有SSH服务的,我们可以使用命令$ sudo ps -e | grep ssh查看,如...

2020-03-30 19:47:13

启动YARN并运行MapReduce程序

YARN是主要负责资源调度。之前已经搭建好了Hadoop集群,接下来在集群上启动YARN。1. 配置YARN并启动1. 配置集群1.1 配置yarn-env.sh文件export JAVA_HOME=你的jkd安装路径1.2 配置yarn-site.xml文件<!-- 指定Reduce获取数据的方式--><property> &...

2020-03-29 19:49:34

腾讯云搭建伪分布式Hadoop集群

所谓伪分布式模式,就是一种单机模式。实际情况中只有一个节点(主机),适合于学习,但不适用于实际的开发环境。这也是官方提供的模式之一。具体的配置过程也可以参照https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html环境:腾讯云服务器一台(单核2G内存,...

2020-03-29 16:18:25

大数据入门

大数据主要解决海量数据(TB、PB或EB)的存储和海量数据的分析计算问题大数据的特点:Volume(大量)Velocity(高速)Variety(多样)Value(低价值密度)大数据部门组织结构HadoopApache基金会开发的分部式系统基础架构GFS ---> HDFSMap-Reduce ---> MRBigTab...

2020-03-27 18:25:55

Toward Understanding the Size Dependence of Shape Features for Predicting Spiculation in Lung Nod...

通过理解形状特征的尺寸依赖性预测肺结节中的毛刺摘要我们分析了形状特征对于放射科医生在计算机断层扫描中对肺结中指定的毛刺进行评级的重要性。利用LIDC的数据和基于决策数的分类器模型,我们证明了随着结节尺寸的增加,几种形状特征的重要性相对于其它图像特征不成比例地增加。我们基于形状的分类结果显示,小结节的针刺分类的ROC下面积为0.65,大结节的ROC下面积为0.91,利用形状特...

2020-03-26 22:42:05

Linux Shell编程

Shell是一个命令解释器,它可以为用户提供一个向Linux内核发送请求以便运行程序的界面系统程序,用户可以通过Shell来启动、挂起、停止甚至是编写一些程序。1. Shell编程快速入门要求:脚本以#!/bin/bash开头脚本需要可执行权限执行方式:赋予xxx.sh脚本+x权限,执行脚本chmod 755 xxx.sh./xxx.sh不用赋予+x权限...

2020-03-26 20:33:24

Linux 进程管理

在Linux中,每个执行程序(代码)都称为一个进程,每个进程都分配一个ID号。每一个进程都有一个父进程,而这个父进程可以复制多个子进程(例如www服务器)。每个进程都可能以两种方式存在:前台和后台。前台进程就是用户目前屏幕上可以进行操作的;后台进程则是实际在操作的,但由于屏幕上无法看到的进程,通常使用后台方式执行。一般系统的服务都是以后台进程的方式存在,而且都会常驻在系统...

2020-03-26 19:42:56

Linux 网络配置

ifconfig:查看网络配置和ip地址Linux指定固定IP地址vim /etc/sysconfig/network-scripts/infg-eth0:修改配置文件将IP地址配置成静态的,IP地址为192.168.184.130service network restart:重启网络服务(修改后一定要重启) ...

2020-03-26 12:28:29

如何练习声音

1. 跑步,保持呼吸平稳2. 口部操:锻炼口咬肌每个动作练习四个八拍打开牙关:张大嘴巴,就像吃苹果上下左右活动嘴:嘴嘟起来绕圈圈练习几个发音:播报、澎湃、埋没、蚌埠锻炼舌头力度:用舌头贴着口腔四壁绕圈圈练习几个发音:改革、巩固、空旷、刻苦提颧肌:似笑非笑,颧肌位于眼睑斜下方提软腭:3. 练习气息深吸一口气,发一个延长音:稳定均匀的发s...

2020-03-26 11:38:37

Linux 磁盘分区和挂载

分区基础知识MBR分区:最多支持四个分区;系统智能安装在主分区;扩展分区要占一个主分区;MBR最大只能支持2TB,但拥有最好的兼容性。GPT分区支持无限多主分区(但操作系统可能限制,比如windows下最多128个分区)最大支持18EB的大容量(1EB=1024PB,1PB=1024TB)windows7 64位以后支持GPT1. Linu...

2020-03-25 18:11:00

查看更多

勋章 我的勋章
  • 勤写标兵Lv3
    勤写标兵Lv3
    授予每个自然周发布7篇到8篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。
  • 分享学徒
    分享学徒
    成功上传1个资源即可获取