自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(31)
  • 收藏
  • 关注

原创 大数据人工智能时代你跟上步伐了吗?(号称第四次技术革命)

大数据人工智能时代1.世界四次工业革命讲到大数据人工智能不得不提起世界著名改变时代的工业革命。大数据人工智能是继蒸汽机,电力,信息互联网后的第四次技术革命。著名的工业革命详情如下:第一次革命:18世纪60年代英国发起的蒸汽技术革命,以蒸汽机为代表。第二次革命:19世纪中期,以欧洲国家,美国,日本发起的电力技术革命,以1866年德国西门子发明的发电机为代表。第三次革命:20世纪四五十年代,世界各个国...

2018-05-08 19:53:45 5300 1

原创 使用git上传本地文件到github(超级详细)

要想使用github第一步当然是注册github账号。注册成功之后,在页面上方用户菜单上选择 “+”->New repository 。创建一个新的仓库之后就可以创建仓库了(免费用户只能建公共仓库)。第二部是安装使用git。推荐自行学习浏览廖雪峰的官网(我成长的网站):https://www.liaoxuefeng.com/wiki/0013739516305929606dd18361248...

2018-04-10 12:06:46 9520 1

原创 HBASE三种模式环境搭建

解压HBASE的tar包并配置HBASE的环境变量tar -zxvf hbase-1.3.1-bin.tar.gz -C /training/    设置环境变量  vi /etc/profile             HBASE_HOME=/root/training/hbase-1.3.1            export HBASE_HOME            PATH...

2018-09-19 21:03:33 540

原创 Linux网卡配置详解

Linux网卡配置文件详解:DEVICE=eth0 #指出设备名称NM_CONTROLLED=yes #network mamager的参数,实时生效,不需要重启ONBOOT=yes #设置为yes,开机自动启用网络连接IPADDR=192.168.21.129 #IP地址BOOTPROTO=none #设置为none禁止DHCP,设置为static启用静态IP地址,设置为dhcp开启...

2018-09-11 21:23:53 348

原创 Hadoop基础认识之WordCount

 大数据的核心是分布式存储HDFS和分布式计算MapReduce! 其中分布式计算MapReduce最基础实例Wordcount如下所示: 依赖jar包      $HADOOP_HOME/share/hadoop/common      $HADOOP_HOME/share/hadoop/common/lib      $HADOOP_HOME/share/hadoop/mapre...

2018-09-04 15:13:33 284

原创 HDFS操作命令

操作HDFS    1、通过Web Console: 50070、50090    2、命令行        (1)操作命令  hdfs dfs *****            -mkdir  创建目录                举例:hdfs dfs -mkdir /aaa                      hdfs dfs -mkdir -p /bbb/ccc   ...

2018-08-30 19:20:49 670

原创 HDFS高级功能

HDFS的高级功能    1、回收站        补充:Oracle的回收站              恢复:闪回(flashback)                    (1) 闪回表  flashback table                    (2) 闪回删除  flashback drop                    (3) 闪回查询 flashba...

2018-08-30 19:15:30 267

原创 Linux常见操作命令

Linux命令分类:1.内部命令    help 命令2.外部命令    命令 --helptype 命令   查看命令是内部还是外部命令mkdir -p  创建父目录mkdir -m 创建目录的同时设置权限  mkdir -m 744 test 文件系统补充:1. ll  或者   ls-ldrwxr-xr-x. 2 root root 4096 3月  26 2015 rhdrwxr-xr-x...

2018-06-28 01:17:12 254

原创 Hive基础命令使用详解

为了方便hdfs可视化网页查看,需要提前关闭防火墙:firewalld的基本使用启动: systemctl start firewalld.service查看状态: systemctl status firewalld.service禁止开机启动: systemctl disable firewalld.serive停止: systemctl stop firewalld.service1.基本数...

2018-06-24 21:29:22 570

原创 eclipse连接hadoop集群

1.首先需要启动hadoop集群,如下:2.hadoop集群的启动后的进程:3.关闭防火墙和查看防火墙状态。4.配置本机用户名:   环境变量下面添加如下所示。配置后需要重启电脑用户名才可以生效。5.添加链接需要的jar包:D:\LearningTool\eclipse\plugins  到该路径下...

2018-06-15 01:20:45 1260

原创 hive的安装

hive的安装需要依附在hadoop的环境中,hadoop伪分布式搭建参考:https://blog.csdn.net/cjdashuju_java/article/details/803022671.hive安装包下载https://hive.apache.org/downloads.html  Download a release now!(最新版本下载)2.Apache产品所有版本安装包ht...

2018-06-13 00:16:01 405

原创 hadoop伪分布式搭建详细步骤

伪分布式搭建(看了这个还搭建不出来伪分布式?根本不可能!)1.修改映射文件vi /etc/hosts在最末尾添加192.168.182.66(你自己的IP)master(自己主机名)2.上传jdk和hadoop的压缩包并解压tar -xvzf hadoop-2.7.1.tar.gztar -xvzf jdk-8u121-linux-x64.tar.gz解压后删如下图所示:(压缩包我已经删除)3.配...

2018-05-13 21:31:17 872

原创 centos7升级Python3版本后的yum问题

     现在Python这么火爆的年代,大家都在研究,我也就顺势看了一番。我用的Python3.5,但是对于centos7的系统自带Python2.7,所以需要建系统内部的Python2.7替换为Python3.5。替换网址可以为:https://blog.csdn.net/cjdashuju_java/article/details/79652279但是替换后会有yum会有一些错误,不能正常使...

2018-05-13 19:22:42 2120

原创 hive和hbase的通俗易懂的区别

1.区别(1)hive是构建在hadoop基础设施上的数据仓库,通过HQL(类似SQL语言)最终转化为MapReduce。        hbase是一种key/value系统,他运行在hdfs上,和hive不一样,hbase能够在数据库上实时运行,而不是运行MapReduce任务。(2)hive查询花费时间很长,他默认遍历表中的所有数据。但可以通过hive的分区机制提高效率。        hb...

2018-05-03 09:45:06 6390 1

原创 git常用命令总结git分支问题(三)

当Git无法自动合并分支时,就必须首先解决冲突。解决冲突后,再提交,合并完成。详细学习可浏览网站:廖雪峰哥Git官网1.用git log --graph命令可以看到分支合并图。git log --graph --pretty=oneline --abbrev-commitgit log --graph --pretty=oneline 2.分支管理策略通常,合并分支时,如果可能,Git会用Fast...

2018-04-25 20:41:39 240

原创 git常用命令总结详解git分支(二)

git分支1.创建dev分支,然后切换到dev分支:git checkout -b devgit checkout命令加上-b参数表示创建并切换,相当于以下两条命令:git branch dev (创建分支)git checkout dev (切换分支)2.查看当前分支git branchgit branch命令会列出所有分支,当前分支前面会标一个*号。3.把dev分支的工作成果合并到master...

2018-04-24 19:52:51 203

原创 Hadoop生态系统完整组件及其在架构中的作用

(1)Hadoop生态系统(2)、HDFS(Hadoop分布式文件系统)HDFS是Hadoop体系中数据存储管理的基础。它是一个高度容错的系统,能检测和应对硬件故障,用于在低成本的通用硬件上运行。HDFS简化了文件的一致性模型,通过流式数据访问,提供高吞吐量应用程序数据访问功能,适合带有大型数据集的应用程序。(3)、Mapreduce(分布式计算框架)MapReduce是一种计算模型,用以进行大数...

2018-04-23 15:25:28 6359

原创 Hadoop,Spark和Storm三大分布式计算系统简介及比较

Hadoop,Spark和Storm由于Google没有开源Google分布式计算模型的技术实现,所以其他互联网公司只能根据Google三篇技术论文中的相关原理,搭建自己的分布式计算系统。Yahoo的工程师Doug Cutting和Mike Cafarella在2005年合作开发了分布式计算系统Hadoop。后来,Hadoop被贡献给了Apache基金会,成为了Apache基金会的开源项目。Dou...

2018-04-20 16:30:38 1092 1

原创 使用xshell连接阿里云服务器登陆时密码框为灰色,无法输入密码解决办法

1.使用xshell登陆时,password灰色不能输入密码登录。2.解决办法如下:vi/etc/ssh/sshd_config修改最后一项为yes:PasswordAuthentication yes接着保存退出,然后重启sshd服务systemctl restart sshd.service然后重新登陆此时,已经可以输入密码了!!!...

2018-04-13 17:39:02 8088

原创 git常用命令总结详解(一)

基础命令:创建demo文件夹,下面创建one.txt文件进入demo文件夹使用git init命令把这个目录变成Git可以管理的仓库:用命令git add one.txt告诉Git,把文件添加到仓库(暂存区)用命令git commit -m “first write”告诉Git,把文件提交到仓库(本地仓库)之后提交到远程仓库,详情可以参考博文:https://blog.csdn.net/cjdas...

2018-04-12 12:20:50 230

原创 cookie和session的区别,联系

一、cookie和session关系图:二、Session的概念Session 是存放在服务器端的,类似于Session结构来存放用户数据,当浏览器 第一次发送请求时,服务器自动生成了一个Session和一个Session ID用来唯一标识这个Session,并将其通过响应发送到浏览器。当浏览器第二次发送请求,会将前一次服务器响应中的Session ID放在请求中一并发送到服务器上,服务器从请求中...

2018-04-11 23:07:19 235

原创 精讲redis和MySQL的区别

redis简介Redis 是完全开源免费的,是一个高性能的key-value数据库。Redis 与其他 key - value 缓存产品有以下三个特点:Redis支持数据的持久化,可以将内存中的数据保存在磁盘中,重启的时候可以再次加载进行使用。  Redis不仅仅支持简单的key-value类型的数据,同时还提供list,set,zset,hash等数据结构的存储。Redis支持数据的备份,即ma...

2018-04-11 17:50:17 2226 2

转载 数据科学领域常用的五个Python包

Numpy Numpy提供了两种基本的对象:ndarray和ufunc。ndarray是存储单一数据类型的多维数组,而ufunc是能够对数组进行处理的函数。Numpy的功能:N维数组,一种快速、高效使用内存的多维数组,他提供矢量化数学运算。可以不需要使用循环,就能对整个数组内的数据进行标准数学运算。非常便于传送数据到用低级语言编写(C\C++)的外部库,也便于外部库以Numpy数组形式返回数据。N...

2018-04-10 17:14:24 492

原创 参观高级豪华昌平机房

第一次参观机房,机房的外部环境相当nice,犹如五星级酒店。机房内部温度适宜,干净,没有一点灰尘,布局合理。还参观了柴油发电机,那么大的柴油发电机还是第一次见,长见识了。做互联网行业的就要多见识见识市面,很有价值的一次参观。1.机房走廊。2.机房柴油发电机3.机房环境有想了解机房相关情况,服务器托管。或者探讨互联网技术:Python开发,大数据开发,数据分析,人工智能的伙伴们可以加微信:p1026...

2018-04-09 12:17:20 407

原创 HTTP中get和post方法的区别

Http定义了与服务器交互的不同方法,最基本的方法有4种,分别是GET,POST,PUT,DELETEURL全称是资源描述符,我们可以这样认 为:一个URL地址,它用于描述一个网络上的资源,而HTTP中的GET,POST,PUT,DELETE就对应着对这个资源的查 ,改 ,增 ,删 4个操作。到这里,大家应该有个大概的了解了,GET一般用于获取/查询 资源信息,而POST一般用于更新 资源信息。根...

2018-04-09 10:35:34 268 1

原创 IP/TCP和HTTP(1.0 1.1 2.0),HTTPS的区别及联系

TCP/IP协议是传输层协议,主要解决数据如何在网络中传输,而HTTP是应用层协议,主要解决如何包装数据。我们在传输数据时,可以只使用(传输层)TCP/IP协议,但是那样的话,如果没有应用层,便无法识别数据内容,如果想要使传输的数据有意义,则必须使用到应用层协议,应用层协议有很多,比如HTTP、FTP、TELNET等,也可以自己定义应用层协议。WEB使用HTTP协议作应用层协议,以封装HTTP 文...

2018-04-08 12:31:01 948

原创 Hadoop读写机制

读数据原理1. 先去请求namenode读数据2. 查询元数据信息并返回查询的文件的块个数,块的存储位置3. 根据第二步返回的信息进行块的信息读取,先就近读取再随机读取,根据块的id从小到大依次读取,读取的时候会启动一个输入流FSDATAINPUTSTREAM4. 会把先读取到的块的信息写入到缓存中,后续读取的块信息依次追加写数据原理写入数据的时候会产生一个校验和文件(checksum   512...

2018-03-28 22:19:16 706

原创 Hadoop中shuffle详细过程

①map的执行结果会被Outercollector组件收集,outercollector会将数据写入环形缓冲区内,进行数据写入的时候根据map输出的key生成一个分区号,默认的是key.hashCode()&Integer_MAX_VALUE%reducetask获取分区号。如果用户自定义分区算法,则按照用户自定义的分区进行返回。②环形缓冲区默认大小为100M,阈值为80%,当达到阈值的时...

2018-03-28 22:13:37 978 1

原创 Hadoop中job提交详细过程

1)客户端运行hadoop jar命令的时候,通过程序中的waitForCompletion(true),进行job的提交,jobPI等等,其中主要的一个工作就是和集群建立连接,会创建一个yarnRunner(实际上是创建resMgrDelegate)代理对象,这个对提交的时候会调用job.submit(),方法进行提交,此方法中会进行一系列的工作,比如确定job的状态,设置新的A象实际上是一个通...

2018-03-28 22:10:07 3919 2

原创 centos7中MySQL数据库的安装

CentOS 7 使用了 MariaDB 替代了默认的 MySQL。基于MySQL关系型数据库的应用广泛及本人习惯,所以需要将centos7中数据库安装为MySQL数据库,方便数据提取以及保存。 (1)刷新服务器确保服务器系统处于最新状态,更新yum源:yum -y update(2)检查数据库首先检查是否已经安装mysql数据库,如果存在删除旧版本,防止依赖导致安装失败。命令:rpm -qa |...

2018-03-22 12:45:12 312

原创 centos7中Python2.7改Python3.5

(1)安装vim首先用yum安装下vim,因为CentOS 7可能根本没自带完整vim,经常出现输入乱码:yum install vim(2)安装开发工具:    yum groupinstall "Development tools"(3)安装过程需要工具:yum install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-...

2018-03-22 12:30:01 800

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除