自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(108)
  • 资源 (2)
  • 收藏
  • 关注

原创 MapReduce序列化

序列化就是把内存中的对象转换成字节序列以便于存储到磁盘(持久化)和网络传输。反序列化就是将字节序列或者是持久化的数据转换成内存中的对象。内存中的对象只能本地进程使用,断掉后就消失了,也不能被发送到网络上的另一台机器,序列化可以将内存中的对象发送到远程机器。由于Java本身的序列化框架(Serializable)太重,序列化的对象包含了很多额外信息,不便于在网络中高效传输,Hadoop开发了自...

2020-05-22 18:21:13 431

原创 2020-05-21 今日体会

在今年初的时候,我给自己订了一个目标,建立自己的行为准则,今天偶然看到了一个故事,有一点反思,希望记录下来,在日后的生活中运用实践。故事大概是这样,一个历史老师问一个学生是否知道姜维,对他怎么看。学生说姜维我再熟悉不过了,姜维是诸葛亮的爱徒,九出祁山,即使被邓艾所拜,最后关头仍然想翻盘,可惜刘禅不给力。老师说:你错了,姜维是一个军事冒险家,胆大却不够心细,能力确实强于世人,严于律己,也苛以待人,...

2020-05-21 14:34:31 311

原创 MapReduce —— WordCount案例

WordCount:统计一个或多个文件内每个单词的出现次数。一般情况下,一个MapReduce程序主要包含三个部分:Map、Reduce和Drive。Map阶段主要负责将任务拆分到不同的节点上,各个MapTask是相互独立的,Reduce负责将Map阶段各个节点上的结果进行整合,Drive主要负责环境的配置信息以及连接Map和Reduce。Map阶段import org.apache....

2020-05-20 15:41:56 362

原创 MapReduce

MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。主要用于分析数据。优缺点优点易于编程,接口简单;良好的扩展性,可以通过简单的增加机器扩展计算性能;高容错性,当一个节点挂了,它可以将上面的计算任务转移到另外一个节点上运行而不需要人工参与;适合PB级以上海量数据的离线处理。缺点不擅长实时计算,无法在毫秒活着妙级返回结果;不擅...

2020-05-20 13:27:31 238

原创 使用IO流操作HDFS

除了可以使用系统API进行HDFS操作,还可以通过Java的IO流进行文件的上传和下载。适用于HDFS的自定义操作,其实API的底层也是使用IO流进行操作的。1. 把本地的文件上传到HDFS@Testpublic void putFileToHDFS() throws IOException, URISyntaxException, InterruptedException...

2020-04-03 16:16:35 470

原创 HDFS 配置本地客户端

之前,一直通过Linux命令操作HDFS。接下来,在本地配置HDFS客户端,通过编写代码操作HDFS。环境:mbp2018hadoop-2.7.7配置步骤1. 在本地解压hadoop-2.7.7.tar.gz,并配置环境变量。在终端输入$ hadoop测试是否安装成功。2. 在IDEA中建立一个空的mavean工程。File new Projects...

2020-04-03 16:07:24 575

原创 HDFS

HDFS(Hadoop Distributed File System),是一个文件系统,用于存储文件,通过目录树来定位文件,其实,它是分布式的,联合多台服务器实现功能。HDFS容错性高,适合处理大数据。使用场景:适合一次写入,多次读出的场景;不支持文件的修改;适合于用来做数据分析,不适合用过来做网盘。缺点:不适合低延时数据访问无法高效的对大量小文件进行存储;...

2020-04-03 14:33:06 150

原创 集群时间同步

步骤1. 检查ntp(网络时间协议)是否安装。ps -e | grep ntp如果出现一下内容表明一斤安装:如果什么都没有,可以使用sudo apt-get install ntp进行安装。2. 修改ntp配置文件打开配置文件:sudo vim /etc/ntp.conf2.1 授权集群中的机器可以访问这台机器的时间2.2 集群在局域网中...

2020-04-02 13:45:42 285

原创 VMware搭建完全分布式Hadoop集群

实际开发中,使用的就是完全分布式环境。所谓完全分布式就是在整个集群中有真实的主机(3台以上),用于完成各种任务。但是个人在学习时,购买多个机器显然是不划算的。这里,我们采用VMWare克隆出多个虚拟机来模仿完全分布式环境。环境:VMware Fusion 11 proLinux系统为Ubuntu 16.04每个虚拟机的配置为1G内存和20G磁盘空间PC:mbp201...

2020-04-01 14:29:09 1316

原创 配置日志聚集

所谓日志聚集,就是指应用运行完以后,将程序的运行日志信息上传到HDFS系统上。日志聚集可以方便的查看程序的运行详情,方便开发调试。开启日志聚集,需要重启NodeManager、ResourceManager和HistoryManager。开启步骤1. 配置yarn-site.xml文件<!-- 开启日志聚集功能 --><property> ...

2020-04-01 11:05:16 220

原创 Ubuntu使用apt-get update速度慢

今天尝试在我的电脑上安装了VMWare Fusion,并且在虚拟机上安装Unbutu 16.04。电脑环境:macbookpro 18年 8G 256G固态mac上的VMWare来自xclient,可以直接下载并使用Ubuntu的具体安装步骤参参考自这里直接装好的Ubuntu是没有SSH服务的,我们可以使用命令$ sudo ps -e | grep ssh查看,如...

2020-03-30 19:47:13 1581

原创 启动YARN并运行MapReduce程序

YARN是主要负责资源调度。之前已经搭建好了Hadoop集群,接下来在集群上启动YARN。1. 配置YARN并启动1. 配置集群1.1 配置yarn-env.sh文件export JAVA_HOME=你的jkd安装路径1.2 配置yarn-site.xml文件<!-- 指定Reduce获取数据的方式--><property> &...

2020-03-29 19:49:34 1076

原创 腾讯云搭建伪分布式Hadoop集群

所谓伪分布式模式,就是一种单机模式。实际情况中只有一个节点(主机),适合于学习,但不适用于实际的开发环境。这也是官方提供的模式之一。具体的配置过程也可以参照https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html环境:腾讯云服务器一台(单核2G内存,...

2020-03-29 16:18:25 574 1

原创 大数据入门

大数据主要解决海量数据(TB、PB或EB)的存储和海量数据的分析计算问题大数据的特点:Volume(大量)Velocity(高速)Variety(多样)Value(低价值密度)大数据部门组织结构HadoopApache基金会开发的分部式系统基础架构GFS ---> HDFSMap-Reduce ---> MRBigTab...

2020-03-27 18:25:55 148

原创 Toward Understanding the Size Dependence of Shape Features for Predicting Spiculation in Lung Nod...

通过理解形状特征的尺寸依赖性预测肺结节中的毛刺摘要我们分析了形状特征对于放射科医生在计算机断层扫描中对肺结中指定的毛刺进行评级的重要性。利用LIDC的数据和基于决策数的分类器模型,我们证明了随着结节尺寸的增加,几种形状特征的重要性相对于其它图像特征不成比例地增加。我们基于形状的分类结果显示,小结节的针刺分类的ROC下面积为0.65,大结节的ROC下面积为0.91,利用形状特...

2020-03-26 22:42:05 194

原创 Linux Shell编程

Shell是一个命令解释器,它可以为用户提供一个向Linux内核发送请求以便运行程序的界面系统程序,用户可以通过Shell来启动、挂起、停止甚至是编写一些程序。1. Shell编程快速入门要求:脚本以#!/bin/bash开头脚本需要可执行权限执行方式:赋予xxx.sh脚本+x权限,执行脚本chmod 755 xxx.sh./xxx.sh不用赋予+x权限...

2020-03-26 20:33:24 118

原创 Linux 进程管理

在Linux中,每个执行程序(代码)都称为一个进程,每个进程都分配一个ID号。每一个进程都有一个父进程,而这个父进程可以复制多个子进程(例如www服务器)。每个进程都可能以两种方式存在:前台和后台。前台进程就是用户目前屏幕上可以进行操作的;后台进程则是实际在操作的,但由于屏幕上无法看到的进程,通常使用后台方式执行。一般系统的服务都是以后台进程的方式存在,而且都会常驻在系统...

2020-03-26 19:42:56 94

原创 Linux 网络配置

ifconfig:查看网络配置和ip地址Linux指定固定IP地址vim /etc/sysconfig/network-scripts/infg-eth0:修改配置文件将IP地址配置成静态的,IP地址为192.168.184.130service network restart:重启网络服务(修改后一定要重启) ...

2020-03-26 12:28:29 99

原创 如何练习声音

1. 跑步,保持呼吸平稳2. 口部操:锻炼口咬肌每个动作练习四个八拍打开牙关:张大嘴巴,就像吃苹果上下左右活动嘴:嘴嘟起来绕圈圈练习几个发音:播报、澎湃、埋没、蚌埠锻炼舌头力度:用舌头贴着口腔四壁绕圈圈练习几个发音:改革、巩固、空旷、刻苦提颧肌:似笑非笑,颧肌位于眼睑斜下方提软腭:3. 练习气息深吸一口气,发一个延长音:稳定均匀的发s...

2020-03-26 11:38:37 307

原创 Linux 磁盘分区和挂载

分区基础知识MBR分区:最多支持四个分区;系统智能安装在主分区;扩展分区要占一个主分区;MBR最大只能支持2TB,但拥有最好的兼容性。GPT分区支持无限多主分区(但操作系统可能限制,比如windows下最多128个分区)最大支持18EB的大容量(1EB=1024PB,1PB=1024TB)windows7 64位以后支持GPT1. Linu...

2020-03-25 18:11:00 157

原创 Linux 定时任务调度

任务调度:系统在某个特定时间执行的特定命令和程序分类:系统工作:有些重要的工作必须周而复始的执行(病毒扫描)。用户工作:个别用户希望可以执行某些程序(定期对mysql数据库备份)。crond任务调度crontab [选项]:任务调度选项:-e:编辑crontab定时任务-l:查询crontab任务-r:删除当前用户所有的crontab任务...

2020-03-22 19:13:11 135

原创 Linux 组管理和权限管理

Linux中每个用户必须属于一个组。Linux中每个文件有所有者、所有组和其它组的概念。1. 组管理文件/目录所有者默认为文件的创建者指令:ls -ahl:查看文件所有者(all human list)chown 用户名 文件名:修改文件所有者(change owner),但是文件的所在组不发生变化文件/目录所在组当某个用户创建了一个文件,默认该文件的...

2020-03-21 19:13:34 123

原创 Linux常用指令

1. Linux的指定运行级别0:关机1:单用户(找回丢失密码),单用户root登录时不需要密码2:多用户状态无网络服务3:多用户状态有网络服务4:系统未使用,保留给用户5:图形界面6:系统重启常用的运行级别是3和5;有如下两种修改方式:可通过修改/etc/inittab的id:5:initdefault:这一行中的数字通过命令的方式...

2020-03-20 14:49:31 125

原创 Linux的用户管理

Linux是一个多用户多任务的操作系统,每个用户需要至少属于一个组添加用户useradd xxx:添加xxx用户,并且将xxx放在xxx组内(xxx组是系统自动创建的),同时在/home下创建用户同名的家目录useradd -d /aaa/bbb xxx:添加xxx用户,并指定家目录为/aaa/bbbpasswd xxx:设置或修改用户xxx的密码删除...

2020-03-19 20:35:31 75

原创 Linux的开机、重启和注销

关机&重启shutdown:shutdown -h now:表示立即关机shutdown -h 1:表示1分钟后关机shutdown -r now:表示立即重启halt:直接使用,效果等价于关机reboot:重启系统syn (sync):把内存的数据同步到磁盘当关机或重启时,都应当先执行sync指令,防止数据丢失登陆和注销logout:表示注销...

2020-03-19 20:07:53 118

原创 Linux上的编辑器(Vi和Vim)

所有Linux系统都会内建Vi编辑器;Vim具有程序编辑能力,支持字体颜色、编译和错误跳转等,可以看作是Vi的增强版。Vi和Vim的三种模式正常模式:可以使用快捷键移动光标,完成复制和粘贴等操作。插入模式:输入i、o、a和r可以计入编辑模式。命令行模式:提供相关的指令,完成读取、存盘、替换和离开等操作。模式的相互切换:q!做了修改,不想保存,直接...

2020-03-19 19:55:17 98

原创 Linux的目录结构

目录结构/bin用来存放常用的指令/sbin用来存放系统管理员使用的系统管理程序/home每个用户都会有一个自己的目录,一般以用户名命名/root是系统管理员/dev用来进行设备管理,把硬件映射成一个文件进行管理/etc用来存放系统管理所需的配置文件/lib包含了系统开机所需要的基本动态链接库,几乎所有应用程序都要共享/media用来管...

2020-03-19 18:43:48 82

原创 2020新年初谈

2020年1月2日,开工第一天,不负韶华,只争朝夕!现在的我,还是一名学生,准确的来说,是一名研究生,是一名即将毕业步入社会的研究生。曾几何时,抱着苦学三年的决心,准备大干一场,已经想好了一切,毕业BAT。然而,事与愿违,在这样一个互联网寒冬,能找到工作已经实属万幸。写这篇文章的目的有二:一是给自己的19年工作有一个总结,二是给2020年立几个flag,以用来吹嘘一下。在20...

2020-01-02 17:42:58 172

原创 TF2.0 - Data Pipelines性能优化

在学习TF2.0官方文档时的总结,跳转https://www.tensorflow.org/guide/data_performance#top_of_pageimport tensorflow as tf import matplotlib.pyplot as plt import numpy as np import pandas as pdimport time...

2019-12-30 21:23:07 445

原创 TF2.0 - Data Pipelines

学习TF2.0时的一些总结,参考资官方文档https://www.tensorflow.org/guide/data#top_of_page首先加载相关库import tensorflow as tfimport matplotlib.pyplot as pltimport numpy as npimport pandas as pdtf.data.Datase...

2019-12-26 17:08:02 197

原创 Docker学习(1)

Docker是一个工具,可以帮助解决安装、拆卸、升级、分发和管理软件等常见问题。而这一切都是通过容器所实现的。使用Docker运行一个软件其实是在一个容器内运行,容器可以隔离所有的资源,做到更可靠的安全性。Docker与传统的虚拟机不同,虚拟机也可以提供需要的资源隔离,但是虚拟机需要维持一个操作系统的副本,带来了显著的资源开销。而Docker不使用硬件虚拟化,运行在Docke...

2019-12-16 11:32:04 141

原创 SQL-索引

当向表中插入一行数据时,数据库服务器不会试图将数据放到表中的特定位置。因此当查询时,服务器需要通过检查表中的每一行来完成查询。当表中的数据过大时,服务器不能在合适的时间内完成查询,但是可以通过建立一个或多个索引来完成。> ALTER TABLE department ADD INDEX dept_name_idx (name);这个语句为department.name...

2019-12-01 12:14:42 115

原创 事务

多用户数据库:数据库系统可以允许多个用户查询或者修改数据。如果每个人都只执行查询操作,则数据库服务器可以正常工作。如果有多个用户同时添加或者修改数据,那么服务器就需要多更多的记录。锁锁是数据库服务器用来控制数据资源被并行使用的一种机制。当数据库的一些内容被锁定时,任何打算修改这个数据的用户必须等到锁被释放。数据库的写操作必须向服务器申请并获得写锁才能修改数据,而读操...

2019-11-26 17:11:03 95

原创 数据生成、转换和操作

主要使用数据库的内建函数完成。使用字符串数据SQL中默认使用单引号(或撇号)分割,所以对本身包含单引号的字符串会产生警告(比如'This string doesn't work.')。可以通过在单引号前再添加一个单引号作为转义符。内建函数quote()可用单引号将字符串包含起来,并为字符串本身的单引号增加转义符。可以使用concat()函数来连接若干字符串。orca ...

2019-11-25 21:36:26 169

原创 SQL-查询(二、多表查询)

使用外键作为桥梁连接连个表进行查询。笛卡尔积SELECT e.fname, e.lname, d.name FROM employee e JOIN department d;在FROM子句中包含了两个表,并使用JOIN关键字隔开。当查询中没有指定两个表如何连接时会产生笛卡尔积,即两张表的所有置换(18条employee x 3个department = 54个置换)...

2019-11-25 20:49:43 204

原创 SQL-查询(一)

查询机制打开mysql命令行工具,使用用户名和密码登陆一旦服务器通过用户名和密码的验证,则为用户成立一个数据库链接该连接从应用程序发出请求后一直保持,直到应用程序释放连接数据库服务器会为每个连接赋予一个标识符(ID),当发生异常情况时,ID可以提供帮助(手动结束有问题的查询)。执行查询语句,每个查询会进行以下检查:用户是否有权限执行该语句?用户是否有...

2019-11-12 08:42:14 107

原创 SQL-数据表

表的创建在定义表时,需要向数据库指明那个列或那些列作为表的主键(为表建立一个约束constraint)。> CONSTRAINT pk_person PRIMARY KEY (person_id)将person_id作为约束为主键,并命名为pk_person。为某列增加一个检查约束,以限制该列只存放被允许的值。> gender CHAR(1) ...

2019-11-11 18:58:36 142

原创 SQL-数据类型

字符型数据字符型数据可以使用定长和变长来实现。定长(char):使用空格向右填充,以保证占用同样的字节数。最大长度为225个字节。变长(varchar):不需要向右填充,字节数可变。最大长度为65535个字节。存储文本类型是可以使用mediumtext或longtext字符集> show character set;可以为数据库中每个字符列选择不同...

2019-11-11 17:06:43 112

原创 超参数调整

什么是超参数模型参数通常是有数据来驱动调整。超参数不需要数据来驱动,而是在训练前或者训练中人为的进行调整的参数。CNN中包含哪些超参数网络参数:网络层与层之间的交互方式(相加、相乘或者串接等)、卷积核数量和卷积核尺寸、网络层数(也称深度)和激活函数等。优化参数:一般指学习率(learning rate)、批样本数量(batch size)、不同优化器的参数以及部分损失...

2019-11-04 11:23:42 646

原创 集成学习(1)

随机森林1. 原理随机森林属于Bagging的扩展变体Bagging:有放回抽样,多数表决(分类)或简单平均(回归),同时Bagging的基学习器之间属于并列生成,不存在强依赖关系。RF以决策树为基学习器构建Bagging集成的基础上,进一步在决策树的训练过程中引入了随机特征选择,因此可以概括RF包括四个部分:​ 1、随机选择样本(放回抽样);​ 2、随机...

2019-11-04 11:22:30 240

WordCountMapReduce.zip

内容为MapReduce的一些代码实践,包括: 1 自定义的FileInputFormat的实现代码; 2 自定义的Partition分区示例代码; 3 自定义的排序代码实例。

2020-05-24

python机器学习实战

机器学习实战》主要介绍机器学习基础,以及如何利用算法进行分类,并逐步介绍了多种经典的监督学习算法,如k近邻算法、朴素贝叶斯算法、Logistic回归算法、支持向量机、AdaBoost集成方法、基于树的回归算法和分类回归树(CART)算法等。第三部分则重点介绍无监督学习及其一些主要算法:k均值聚类算法、Apriori算法、FP-Growth算法。第四部分介绍了机器学习算法的一些附属工具。

2017-09-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除