super-yong-CSDN博客

转载 Redis数据持久化

Redis数据持久化总的来说有两种持久化方案：RDB和AOFRDB方式按照一定的时间间隔对数据集创建基于时间点的快照。AOF方式记录Server收到的写操作到日志文件，在Server重启时通过回放这些写操作来重建数据集。该方式类似于MySQL中基于语句格式的binlog。当日志变大时Redis可在后台重写日志。若仅期望数据在Server...

2019-03-20 21:24:27 262

转载 Java中的新生代、老年代、永久代和各种GC

Java中的新生代、老年代、永久代和各种GC 转载自：《JVM的新生代、老年代、MinorGC、MajorGC》 JVM中的堆，一般分为三大部分：新生代、老年代、永久代： 1 新生代主要是用来存放新生的对象。一般占据堆的1/3空间。由于频繁创建对象，所以新生代会频繁触发MinorGC进行垃圾回收。新生代又分为 Eden区、S...

2019-03-20 21:19:45 1419

转载如何转载别人的csdn博客

前言对于喜欢逛CSDN的人来说，看别人的博客确实能够对自己有不小的提高，有时候看到特别好的博客想转载下载，但是不能一个字一个字的敲了，这时候我们就想快速转载别人的博客，把别人的博客移到自己的空间里面，当然有人会说我们可以收藏博客啊，就不需要转载，(⊙o⊙)… 也对。。实现因为我自己当初想转载的时候却不知道...

2019-03-20 20:55:52 162 1

转载去掉桌面鼠标右键英特尔R显卡设置的方法

1、windows键+R打开“运行”，然后出入“regedit”打开注册表；2.按目录找到[HKEY_CLASSES_ROOT\Directory\background\shellex\ContextMenuHandlers\igfxDTCM]，然后右键单击“igfxDTCM”删除即可获得清爽界面，这是Intel核显的。3.如果要删除NVIDIA显卡的右键菜单选项，就删除“NvCplD...

2019-03-20 19:34:54 5815 1

原创网站日志分析———网站的基本指标

网站基本常见的指标：PV：即 page view，浏览量页面的浏览此处，衡量网站用户访问的网页数量；用户没打开一个页面就记录1次，多次打开统一页面则浏览量累计。UV：即Unique Visitor，独立访客数1天内访问某站点的人数（以cookie为依据）;1天内同一访客的多次访问只计为1个访客。VV：即Visit View，访客的访问次数记录所有访客1天内访问了多少...

2019-03-19 21:34:32 986

转载电子商务里的P2P、O2O、P2C、B2C、B2B、C2C是什么？

这几个概念超级模糊，被问到晕@_@,下面来解释下：1、P2P（peer-to-peer）点对点P2P借贷指个人通过第三方平台（P2P公司），在收取一定费用的前提下，把钱借贷给有资金需求的一部分人的一种金融模式。可分为两种：①纯线上模式：优点是纯粹的进行信息匹配，帮助资金借贷双方更好的进行资金匹配；缺点是这种线上模式并不参与担保。②债权转账模式：平台本身先放贷，在将债权放到平台上进行转...

2019-03-19 09:43:10 978

原创 MapReduce模板的编写

我们根据wordcount的mapreduce程序来编写一个MapReduce的通用模板，方便之后的使用：首先说明一下之前的博客中有提到过有三种编写MapReduce的模板：---------------------------------------------------------------------三种编写MapReduce模板：Driver：-...

2019-03-04 15:18:26 261

原创 wordcount的MapReduce程序编写

在之前我已经介绍过MapReduce程序运行时的过程，接下来我们自己编写一个wordcount程序，我会在代码中做详细的标注：不多说直接上代码：（不继承也不实现）package com.superyong.mapreduce;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.io.IntWrit...

2019-03-04 11:06:14 705

原创 MapReduce处理数据过程介绍

MapReduce处理数据的过程 input ->map ->shuffle ->reduce ->output -a 针对input和output来讲正常情况下，你不需要编写代码，只需要指定需要处理的文件路径即可 -b map和reduce中间有一个shuffle阶段属于MapReduce框架自己的事情，当然我们...

2019-02-26 21:05:24 2064

原创 MapReduce程序编写环境配置

我们的程序都是jar包直接运行在yarn上的，那么程序是在哪里编写的呢？hadoop肯定会开放一个接口出来供你使用连接让你的程序可以直接访问到hadoop的各个模块，进行调试运行，那么如何配置这个环境：毋庸置疑肯定是java程序，为了方便，我使用maven进行管理，因为需要使用到的包很多，所以我提前下载更新了我maven库，方便使用，如果没有，那就一个个去官网下载。。。这里我是用的开发工具...

2019-01-28 23:04:46 1164

原创 MapReduce样例程序运行测试

MapReduce程序需要运行，可以选择运行方式：第一种：本地模式：需要下载hadoop环境包，步骤如下：pc环境： 1.将Hadoop安装本地解压 2.配置Hadoop的环境变量添加 %HADOOP_HOME% 修改 %PATH% 添加 %HADOOP_HOME%/bin;%HADOOP_HOME%/sb...

2019-01-24 23:28:28 352

原创 Hadoop各个模块的架构（分布式）功能

分布式相对于集中式：集中式：一台计算机：将所有东西（软件）放在此计算上（安装）分布式：多台机器：将东西进行划分，每台机器存储一部分主从架构：主节点：master 管理者，调度者从节点：slaves ...

2019-01-24 22:21:05 800

原创 HDFS的使用操作

前面系统的介绍过HDFS文件系统，接下来介绍的是如何使用HDFS文件系统:HDFS文件系统也是建立在linux上的一种文件系统，所以它和linux的文件系统使用方法大致相同下面是HDFS文件系统的基本使用命令：查看文档：bin/hdfs dfs 创建目录： bin/hdfs dfs -mkdir -p /datas/map...

2019-01-24 22:05:50 438

转载 U盘插到电脑上显示设备和打印机

问题描述：在电脑上插入U盘和移动硬盘后，右下角提示有硬件插入，但是在“此电脑（计算机）”中或者是“磁盘管理”里都看不到盘符，打开右下角提示打开设备和打印机。解决方法的前提条件：U盘或移动硬盘在其他电脑上可以正常使用。 ①通过“开始菜单”或“控制面板”打开“设备和打印机”，还有一个方法，点右下角的“安全删除硬件并弹出媒体”，然后选“打开设备和打印机”②选择“设备和打印机”下“设备”...

2019-01-18 17:28:59 19705 1

Linux 的软件安装目录是也是有讲究的，理解这一点，在对系统管理是有益的/usr：系统级的目录，可以理解为C:/Windows/，/usr/lib理解为C:/Windows/System32。/usr/local：用户级的程序目录，可以理解为C:/Progrem Files/。用户自己编译的软件默认会安装到这个目录下。/opt：用户级的程序目录，可以理解为D:/Software，opt有可选...

2019-01-18 17:20:03 9154 3

转载 HDFS文件系统

前面Hadoop的分布式环境已经搭建完成了，接下来说说如何使用Hadoop的HDFS文件系统：HDFS（Hadoop Distributed File System）Hadoop 分布式文件系统:基于流数据模式访问就是可以字节序列化的数据，java.io.Serializable接口分布式文件系统处理的数据必须是流数据，可以写IO操作的数据它是以128MB的数据块 ...

2019-01-18 16:31:59 3908

原创 Hadoop分布式环境搭建遇到的问题： Problem binding to [bigdata-03.superyong.com:8031] java.net.BindException

首先介绍的我的集群分布情况：bigdata-01.superyong.com NodeManager DataNode NameNode（active）bigdata-02.superyong.com NodeManager DataNode NameNode（standby）bigdata-03.superyong.com ...

2019-01-18 15:35:12 1768 1

原创漫谈hadoop启动脚本

首先说一下之前开启服务的脚本，因为习惯，，，所以之前测试是否配置成功的时候直接就把脚本贴上去了，但是好多人问那个脚本之间的区别，所以就有这篇博客了，现在详细说说这些脚本的作用和区别联系：大家每次启动的时候都是sbin/+脚本名；实际上所有启动和关闭的脚本都在这个文件中，所以打开这个文件：[super-yong@bigdata-01 sbin]$ lltotal 92-rwxr-xr-...

2019-01-18 15:07:05 543

原创 Hadoop中出现错误如何查看错误信息

前面在配置hadoop的过程中，发现最开始安装解压之后，首先配置的就是hadoop的环境变量，而且配置的就是jdk的环境变量，后面配置完成之后查看进程也是使用的jps（java进程）查看服务是否运行的，所以hadoop实际上就是建立在java基础上的，他的所有服务都是一个java进程，所以首要的配置就是java环境变量，那么当某个服务或者运行在hadoop的某个应用出错时，如何查看输出的日志信息呢...

2019-01-18 10:22:05 6843

原创 Hadoop中的各个端口

之前已经将hadoop分布式部署完成了，但是当中配置了许多的端口：端口号：HDFS内部通讯端口：8020；Hadoop1.x：9000WEB UI 端口：50070YARN内部通讯端口：8032WEB UI 端口：8088历史服务器内部通讯端口：10020WEB UI 端口：19888 ...

2019-01-18 09:30:07 3803 1

原创历史服务器的配置

配置历史服务器：大家知道当MapReduce程序运行完成之后，这个任务就看不到了，为了在运行完成后还可以看到运行完成的任务情况，所以历史服务器就为了解决这个问题而提出。内部实现的大概原理：先收集日志信息-》开启某个服务（端口）；mapred-site.xml <property> <name>mapreduce.jobhistory....

2019-01-17 20:31:42 850

原创 Hadoop分布式集群的搭建（Apache 版本）下

部署Hadoop：在配置之前首先要确定我们的集群节点的分布：节点分布：hdfs的节点：主节点：NameNode；从节点：DataNode；yarn的节点：主节点：ResourceManager；从节点：NodeManager ；bigdata-01.superyong.com NodeManager DataNode Name...

2019-01-17 15:06:18 192

原创 Hadoop分布式集群的搭建（Apache 版本）上

前面说过，大数据框架最常使用的有两种一种是Apache发布的开源版本，还有一种是Cloudera公司基于Apache发布的开源版本进行优化修改升级的CDH版本。这两个版本大公司偏向于第一种，他们技术成熟，有能力自己处理开源版本中的bug，但中小型企业一般都会选择Cloudera公司发布的cdh版本，因为该公司会一直对这些版本进行优化升级，方便中小公司的使用。这几...

2019-01-17 14:53:39 200

原创 SSH免秘钥配置和NTP时间同步

当虚拟机配置好之后，为了方便后续各个框架服务的启动和用户之间的切换不需要输入密码，所以有必要配置一下ssh免秘钥登录，在后续服务是非常多的，一个个手动输入命令可能要输入十几个，还要不停的切换主机，很麻烦，每次开启服务或者切换主机都需要输入密码，为了方便，所以配置ssh免秘钥登录。 ssh免密钥登录：第一步：为每台机器生产自己公私钥（一路回车就行） ssh-keygen -t rs...

2019-01-16 10:36:35 1196

原创虚拟机克隆和分布式部署

安装方式：前面linux的搭建说了那么多，就是为了方便分布式集群的部署安装的，接下来就进入正题开始安装部署分布式集群：分布式部署安装的方式有两种：第一种：手动安装部署：手动部署说白了就是手动复制到指定的机器上，大家都知道配置一台机器之后，其他机器也需要安装配置，但基本都相同，只需要变更几个变量就可以了，所以手动部署就是通过走网路的方式将配置好的机...

2019-01-15 19:54:41 612

原创 linux的一些常用工具及需要安装的软件

昨天发布博客的时候有人评论问到为什么不用ububtu图形化界面不是更加方便么，下面是我给出的一些理由：1、资源数量。centos上的资源数量很多，ubuntu上相对少些。2、服务器稳定性。centos不经常更新（不知道这算不算优点），ubuntu动不动就让你更新，呵呵，没有哪家公司敢这样把？3、技术支持团队。centos是rh团队维护的，rh团队的技术实力毋庸置疑，而且有什么安全漏洞都...

2019-01-08 20:20:36 12082

原创 linux的一些前期配置准备（网络设置等）

在安装好CentOS6.4之后先配置一些基本的环境1.网络环境：如果你买的是阿里的服务器，那么这些你都不需要配置，阿里会自动帮你配置好一切，我太穷、、、首先打开虚拟机的虚拟网络编辑器：编辑 -》虚拟网络编辑器 -》更改设置选择VMnet8 NAT模式，点击NAT设置配置网关：192.168.59.2 （根据自己的使用要求配，当然也可以和我一致）子网：192.168.59...

2019-01-06 22:11:57 181

原创 linux安装使用及版本介绍

Redhat系列目前许多高手都使用它，长相一般但却很强悍，一般是Linux高手的首选系统，相比之下就是桌面系统有点不大一样，拥有强大的rpm软件包管理系统，界面更加简洁，如果你不喜欢太多花哨的桌面系统可以考虑用它！ Redhat系列，包括RHEL(Redhat Enterprise Linux，也就是所谓的RedhatAdvance Server，收费版本)、FedoraCore(...

2019-01-06 18:06:52 1231 2

原创写在前面

系统的学习了大数据开发所要了解掌握的必备知识，现在分为两部分整理出来，理论+实践，帮助自己梳理之前的知识，也为大家分享所学的知识。

2019-01-06 17:33:57 112 2

转载 MapReduce编程模型

计算采用一组输入键/值对，并产生一组输出键/值对。MapReduce库的用户将计算表达为两个函数：Map和Reduce。 Input1 -> Map -> a,1 b,1 c,1 Input2 -> Map -> b,1 Input3 -> Map -> a,1 c,1 | | |...

2018-12-26 09:22:27 175

转载 Hive、Hbase、mysql区别

原文：https://blog.csdn.net/vipyeshuai/article/details/50847281 Hive和HBase的区别Hive是为了简化编写MapReduce程序而生的，使用MapReduce做过数据分析的人都知道，很多分析程序除业务逻辑不同外，程序流程基本一样。在这种情况下，就需要Hive这样的用戶编程接口。Hive本身不存储和计算数据，它完全依赖于HDFS...

2018-12-19 09:03:13 192

转载 SQL LEFT JOIN 与 SQL RIGHT JOIN 比较

SQL LEFT JOIN 关键字LEFT JOIN 关键字会从左表 (table_name1) 那里返回所有的行，即使在右表 (table_name2) 中没有匹配的行。LEFT JOIN 关键字语法SELECT column_name(s)FROM table_name1LEFT JOIN table_name2 ON table_name1.column_name=tab...

2018-12-19 08:53:01 205

转载 SQL INNER JOIN 关键字

SQL INNER JOIN 关键字在表中存在至少一个匹配时，INNER JOIN 关键字返回行。INNER JOIN 关键字语法SELECT column_name(s)FROM table_name1INNER JOIN table_name2 ON table_name1.column_name=table_name2.column_name注释：INNER JOIN...

2018-12-19 08:45:51 117

转载 SQL JOIN的用法

Join 和 Key有时为了得到完整的结果，我们需要从两个或更多的表中获取结果。我们就需要执行 join。数据库中的表可通过键将彼此联系起来。主键（Primary Key）是一个列，在这个列中的每一行的值都是唯一的。在表中，每个主键的值都是唯一的。这样做的目的是在不重复每个表中的所有数据的情况下，把表间的数据交叉捆绑在一起。请看 "Persons" 表：请注意，"Id_P" 列...

2018-12-19 08:36:47 152

原创 Linux--自动安装jdk的shell脚本编写

#!/bin/shecho -e "First"tar -zxf /opt/softwares/jdk-8u91-linux-x64.tar.gz -C /opt/modules/echo -e "Second"echo "#JAVA_HOME">>/etc/profileecho "export JAVA_HOME=/opt/modules/jdk1.8.0_91"&gt...

2018-12-06 18:17:21 1982 1

原创 Linux-如何创建完整的定时任务脚本

Linux定时任务 at命令设置时间 at 10：00 进入at命令后，输入你需要在10：00执行的命令 mkdir -p /home/super/yc/abc 退出保存：注意：当你Linux环境，按回车键无法删除内容时使用ctrl+回车键删除 crontab ...

2018-12-06 18:11:35 6756

原创 Linux-软件的管理及压缩管理

linux压缩管理常见的压缩 zip gzip 后缀名：.gz 压缩：gizp file_path 解压：gunzip file_path 特点：压缩后源文件消失不能对目录进行压缩 ...

2018-12-06 18:09:20 154

原创 Linux-用户分类、文件的权限

用户分类：管理员 uid=0的用是管理员 root :x:0:0:root:/root:/bin/bash 用户名 :密码：Uid:Gid:家目录：所有的shell 普通用户 huadian:x:500:500:huadian:/home/huadian:/bin/...

2018-12-06 18:08:05 380

原创 Linux-文本编辑器的使用、工具的使用、系统服务的使用及端口管理

文本编辑器 vi file_path 编辑一个不存在的文件，保存之后，默认会被船舰三种模式命令行模式：第一次进入vi，默认进入命令模式快捷键命令： yy：复制当前行前...

2018-12-06 18:06:57 145 1

空空如也

空空如也