自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(67)
  • 收藏
  • 关注

原创 oracle 11g RAC 清理磁盘空间,crfclust.bdb过大的处理

记录一下,查看磁盘空间,发现有个文件目录一直在变大,查看后发现 crfclust.bdb 有 9个G ,网上搜索后得到解决方案,测试通过并记录操作如下:1、checkcrsctl stat res ora.crf -init -t2、stopcrsctl stop res ora.crf -init3、deleterm crfclust.bdb4、 startcrsctl start res or...

2018-03-19 10:42:02 2577

原创 大数据学习40:Flume metric 注解

启动flume监控的一种方式:flume-ng agent \--name a1 \--conf $FLUME_HOME/conf \--conf-file $FLUME_HOME/conf/exec-memory-hdfs-partition.conf \-Dflume.root.logger=INFO,console \-Dflume.monitoring.type=http \-D

2018-03-06 20:10:41 1164

原创 zabbix 安装记录

zabbix 安装一、目标:1.搭建server和agent二、环境server和agent:192.168.137.11 Centos6.5三、步骤1、通过yum安装php和相关的软件。(用的阿里源)要安装php5.4以上版本,所以需要这样处理。①检查当前安装的phpyum list installed | grep php②如果有安装的PHP包,先删除他们yum remove php.x86_...

2018-03-06 20:02:49 911

原创 大数据学习39:ElasticSearch 常用查询2

ES常用查询2 1、子条件查询:特定字段查询所指特定值 Query context 在查询中,除了判断文档是否满足查询条件外,ES还会计算一个_score来标识匹配程度。 旨在判断目标文档和查询条件匹配的有多好。常用查询: (1)、全文本查询:针对文本类型数据#模糊匹配1POST 127.0.0.1:9200/book/_search{ "query":{ "m

2017-12-29 17:01:22 475

原创 大数据学习38:ElasticSearch 基础和常用命令-增删改查

基础概念 集群和节点 索引:含有相同属性的文档集合,索引通过名字识别,小写英文字母命名,不能中划线数字等 类似 database 分片:每个索引都有多个分片,每个分片是一个Lucene索引 好处:提高io读写效率 分片只能在创建索引的时候指定,后期不能修改备份:拷贝一份分片就完成了分片的备份 好处:当主分片不可用,备份即可顶替 备份可以查询,可以分摊压力 备份可以动态修改类型:索引

2017-12-29 15:07:04 1455 1

原创 python:BeautifulSoup select()/select_one() 用法总结

BeautifulSoup select()/select_one() 用法总结:html_doc = """<html><head><title>The Dormouse's story</title></head><body><p class="title"><b>The Dormouse's story</b></p><p class="story">Once upon a time t

2017-12-29 10:10:41 15289

原创 大数据学习37:DataFrame集合减操作例子

对df1 和 df2 连个文件进程处理,将在df1 里编号并且不在 df2 里编号的数据取出。df1.txt:1 wxk 442 panda 553 monkey 664 tiger 33df2.txt:2 china3 usapackage zuoye11_22import org.apache.spark.sql.SparkSession/**

2017-12-05 20:59:48 1367

原创 大数据学习36:spark-core 和 spark-sql 学习

一、spark-core:使用spark core 需要定义一个sparkConf ,再将 sparkConf 传入 SparkContext 获得一个 sc 实例。val sparkConf = new SparkConf().setAppName( "Broadcast" ).setMaster( "local[3]" )val sc = new SparkContext( spa

2017-12-05 20:23:22 506

原创 大数据学习35:一个scala 操控 HDFS 文件目录的小例子

一个scala 操控 HDFS 文件目录的小例子: 包含了对文件路径的查看是否存在、删除、创建、重命名、移动。 仅作记录。工具类:HDFSUtilpackage Sparktestimport java.io.IOExceptionimport java.net.URIimport org.apache.hadoop.conf.Configurationimport org.apache

2017-12-05 00:07:50 3246

原创 修改redo log 大小的记录:

修改redo log 大小的记录:Redo log的四种状态(CURRENT、ACTIVE、INACTIVE、UNUSED)1. CURRENT指当前的日志文件,在进行实例恢复时是必须的;2. ACTIVE是指活动的非当前日志,在进行实例恢复时会被用到。Active状态意味着,Checkpoint尚未完成,因此该日志文件不能被覆盖。3. INACTIVE是非活动日志,在实例恢复时不

2017-12-04 18:04:01 812

原创 大数据学习34:grafana 安装 和 Nginx 、EL 联调

1、grafana 安装wget https://s3-us-west-2.amazonaws.com/grafana-releases/release/grafana-4.6.2-1.x86_64.rpm为了使用yum方便,直接下载阿里的yum源[root@hadoop001 yum.repos.d]# wget -O /etc/yum.repos.d/CentOS-Base.rep

2017-12-03 17:20:00 2144

原创 大数据学习33:logstash 和 kibanba 安装以及ELK的联调记录

logstash 和 kibanba 安装以及ELK的联调记录1.Logstash安装[root@hadoop001 elk]# tar -xzvf logstash-6.0.0.tar.gz [root@hadoop001 elk]# cd logstash-6.0.0/[root@hadoop001 logstash-6.0.0]# lltotal 100drwxr

2017-12-03 16:12:25 578

原创 大数据学习32:Nginx 的 安装

Nginx 的 安装 1.安装PCRE库[root@hadoop001 ~]#  cd /usr/local/[root@hadoop001 local]#  tar -zxvf pcre-8.36.tar.gz[root@hadoop001 local]# chown -R root.root pcre-8.36[root@hadoop001 local]#  cd pc

2017-12-02 23:07:06 280

原创 大数据学习31:Elasticsearch 6.0 和 Elasticsearch header 安装记录

Elasticsearch 6.0 和 Elasticsearch header 安装记录------------------------------hosts文件151.101.0.133 raw.githubusercontent.com192.30.255.112 github.com54.231.40.211 github-production-release-asset-2e

2017-12-02 21:53:09 4075

原创 大数据学习30:Azkaban3.x 的 two server mode 部署

Azkaban two server mode 部署接着上次说到的编译,在编译好的目录中找到web 和 executor 。安装 azkaban-web-server解压:/opt/software/azkaban/azkaban/azkaban-web-server/build/distributionstar -xzvf azkaban-web-server-3.39.

2017-11-29 19:41:28 816

原创 大数据学习29:Azkaban3.x的简单理解 和 单机安装

Azkaban 是一个任务调度框架简单易用易维护,存在任务间依赖关系处理的框架可以记录用户操作,做审计1、特性:Compatible with any version of HadoopEasy to use web UISimple web and http workflow uploads  // key-valueProject workspacesS

2017-11-29 19:17:43 1165

原创 大数据学习28:JAVA 连HBase的API小工具类

JAVA 连HBase的一个小工具类,主要为了记录和理解,实际使用的时候最好将main和其他类分开:package HBase_java_train;import java.io.IOException;import java.io.ObjectInputStream;import java.util.HashMap;import java.util.List;import java.uti

2017-10-31 15:44:13 358

原创 Linux 配置邮件:

Linux 配置邮件:qq邮件配置后会告警。。。。不建议用。。。。[root@hadoop002 ~]# echo 'hello!' | mail -s "hello test" [email protected][root@hadoop002 ~]# smtp-server: 535 Error: 请使用授权码登录。详情请看: http://service.mail.qq.com/cgi-bin/

2017-10-30 23:06:01 4162

原创 大数据学习27:Hive元数据清理,从mysql层面删除hive元数据

由于之前配置了hive,hdfs 被格式化了,导致现在hive上原来的元数据没有清理掉。 由于hive 上所有元数据均保存在mysql中,所以,可以从mysql上删除表相关信息即可删除hive表,而且不会影响hdfs上数据。 分析: hive在mysql上的相关元数据表关系图: Hive在mysql的元数据表的关系和含义这篇博文中有详细字段说明: http://blog.csdn.ne

2017-10-30 22:05:37 1239

原创 ORA-00257: archiver error. Connect internal only, until freed 解决办法,原因 redo log 无法切换

故障现象: plsql登陆发生报错 ORA-00257: archiver error. Connect internal only, until freed [oracle@dg1 ~]$ oerr ora 0025700257, 00000, "archiver error. Connect internal only, until freed."// *Cause: The arc

2017-10-29 23:41:01 1962

原创 大数据学习26:关于HBase zookeeper 启动过程的一次剖析:

关于hbase zookeeper 启动过程的一次剖析: 在做完一些配置后[root@hadoop002 conf]# vi hbase-site.xml <configuration> <property> <name>hbase.rootdir</name> <value>hdfs://hadoop002:8020/hbase</value> </property>

2017-10-29 14:44:33 1073

原创 大数据学习25:Hive 中 distribute by 的测试

目标:测试 distribute by 的作用,希望针对user列,将不同的用户分配在不同的reduce中,方便后期计算。======================测试1:reduce 4个,按 length(user) 分配测试2:reduce 4个,按 substr(user,0,2) 分配测试3:reduce 4个,按 user 分配测试4:reduce 5个,按 user 分配测

2017-10-25 10:48:32 2858 1

原创 mysql 主从复制和主主复制配置

mysql 主从复制和主主复制配置按照单机模式去部署。在安装时,可能会遇到报错: 启动mysql 报错[mysqladmin@dg2 ~]$ mysqlmysql: error while loading shared libraries: libmysqlclient.so.16: cannot open shared object file: No such file or director

2017-10-24 17:09:52 509

原创 大数据学习24:hive_sql_累计求和小案例

环境: hive需求: 输入数据,每天用户的流量 分隔符 \t user date accesspanda 2017-1-01 5tgifshow 2017-1-01 3tyy 2017-1-01 2tlaifeng 2017-1-01 2tpanda 2017-1-02 5tgifshow 2017-1-02 3tyy 2017-1

2017-10-23 11:50:24 6858

原创 大数据学习23:hadoop-2.6.0-cdh5.7.0 编译,支持 native 和 snappy

目标: hadoop-2.6.0-cdh5.7.0 支持 native 和 snappy,对于压缩需要对hadoop进行编译。 检查部署耳朵cdh hadoop是否支持压缩[root@hadoop002 bin]# hadoop checknative -a步骤: 之前安装需要的软件和调试,步骤省略: 安装findbugs 并 配置环境变量 安装protobuf-2

2017-10-22 23:05:58 608

原创 大数据学习22:Apache-Hadoop 2.8.1 集群部署

Apache-Hadoop 集群部署1、准备[root@hadoop001 software]# cat /etc/hosts192.168.137.11 hadoop001192.168.137.12 hadoop002192.168.137.13 hadoop003$HADOOP_HOME /opt/software/hadoopData $HADOOP_HOM

2017-10-22 22:42:18 307

原创 大数据学习21:sqoop 语法和常用命令和小案例

1.1.0 sqoop 语法和常用命令 2.1.0 sqoop 典型用法 3.1.0 sqoop 的一个小案例 4.1.0 sqoop 的分区表导入导出======================================= 1.1.0 sqoop 语法和常用命令 hive导入参数   --hive-home 重写$HIVE_HOME   --hive-import

2017-10-11 17:18:58 1016

转载 大数据学习20:Maven 理解 和 spark、hadoop、hive编译

一、Maven的一些含义:groupId定义了项目属于哪个组,这个组往往和项目所在的组织或公司存在关联。譬如你在googlecode上建立了一个名为myapp的项目,那么groupId就应该是com.googlecode.myapp,如果你的公司是mycom,有一个项目为myapp,那么groupId就应该是com.mycom.myappartifactId定义了当前Mav

2017-10-10 09:57:27 397

转载 大数据学习19:hive元数据库一些查询和分区

有时根据需求,需要对hive中的表批量处理,这时可以到元数据库中进行一些查询操作,操作请慎重!! 【mysql】1、查询某表的分区 在Spark-sql查询hive表时,会由于元数据中文件与hdfs文件不一致而出现TreeNodeException的异常。 比如说,在hive中show partitions时有分区pt=20160601,但是对应HDFS路径下并没有这个子文件夹时,在Spark-

2017-10-05 20:13:57 1162

原创 大数据学习18:Hive在mysql的元数据表的关系和含义

在大数据中,很多情况下是将hive的元数据存放在mysql数据库中,通过hive配置的连接字符串:                      javax.jdo.option.ConnectionURL               jdbc:mysql://localhost:3306/hive3?createDatabaseIfNotExist=true       能确认连

2017-10-05 19:39:33 1587

原创 将自定义函数 helloUDF2 注册到hive 源码中,并且重新编译hive

环境: hive-1.1.0-cdh5.7.0 包 放在了 /root 下面 cdh 采用 cdh5.7.0 目标: 将自定义函数 helloUDF2 注册到hive 源码中,并且重新编译hive1、编写UDF (1)使用idea+maven,在maven中添加相关参数。 重要的是 hadoop-common 、hive-exec 、hive-jdbc 以下为我的maven,文件头修改

2017-09-29 14:52:59 330

原创 备份恢复- 完全恢复和不完全恢复

备份恢复 恢复分为完全恢复和不完全恢复 不完全恢复可以基于时间,也可以基于scn在测试的时候发现,恢复的节点必须在list backup中最大节点以后。【还要继续测试】0级 --> 操作(建表1) --> 想恢复的时间节点1 --> 0级 --> 想恢复的时间节点2 --> 操作(建表2) -->想恢复的时间节点3 --> 停库恢复会发现,无法恢复时间节点1,只能恢复0级以后的时

2017-09-28 22:56:39 1224

原创 11.2.0.4 oracle_rac 升级PSU 11.2.0.4.17

一、准备工作1,数据库环境操作系统版本 : CentOS 6.5 x64 数据库版本 : Oracle 11.2.0.4 x64 RAC Grid : 11.2.0.4 Oracle database: 11.2.0.42,准备内容GI PSU : p25476126_112040_Linux-x86-64.zip OPatch : p688

2017-09-27 22:48:32 1596

原创 大数据学习15:报错 FAILED: SemanticException Unable to determine if

大数据学习15:FAILED: SemanticException Unable to determine if报错:由于修改了hdfs 的端口,导致报错,这里是因为使用UDF自定义函数,hive要将hfds上的jar传入分布式缓存中,并且mysql中元数据未修改导致。 hive (default)> select ename ,hello(ename) from emp; converting

2017-09-22 23:10:43 7661 1

原创 NFS挂载的安装部署和一些记录

NFS的基本概念:块大小mount命令的  risize和wsize指定了server端和client端的传输的块大小。如果没有指定,那么,系统根据nfs的版本来设置缺省的risize和wsize大小。大多数情况是4K(4096bytes),对于nfs v2,最大是8K,对于nfs v3,在server端设置risize和wsize的限制,  最大块大小在kernel的

2017-09-21 18:50:22 640

转载 ORA-17503 ksfdopn2 Failed to open file .....

今天查看rac的目录发现,/oracle 用户和组不太对,然后用安装时的权限变更chown 和chmod 再刷了一遍,然后就悲剧了。发现集群crs 正常启动,has 正常,asm 正常,但是数据库打不开,报错如下ORA-01078: failure in processing system parametersORA-01565: error in identifying file '

2017-09-20 21:02:53 6078

转载 大数据学习14:Hive中Join的原理和机制

Hive中Join的原理和机制转自:http://lxw1234.com/archives/2015/06/313.htm笼统的说,Hive中的Join可分为Common Join(Reduce阶段完成join)和Map Join(Map阶段完成join)。本文简单介绍一下两种join的原理和机制。Hive Common Join如果不指定MapJo

2017-09-19 15:52:55 479

原创 大数据学习13:Hive的DML整理,查询走MapReduce还是走Fetch

Hive的DML整理:小问题:如何不通过访问meta data数据来获取我们指定表的字段hive> desc formatted emp; DML 加载数据:load关键字local 有:本地文件系统  ;没有:HDFS关键字filepath  文件路径关键字overwrite 有:覆盖;没有:追加关键字tablename:表名多次load overwr

2017-09-15 16:34:49 427

原创 大数据学习12:Hive的整体框架和DDL整理

一、hive的框架hadoop是一个海量分布式存储和计算的框架,hdfs负责存储,yarn调度,MapReduce计算。相对于MapReduce编程的不足,产生了hive的框架:1)MapReduce繁琐:要写mapper,reducer,driver,package2)海量数据存放在hdfs,如何快速对hdfs上的文件进行统计分析操作。①学java,学mapr②DBA:s

2017-09-14 18:12:23 419

原创 大数据学习12:Hive环境搭建

Hive环境搭建Hadoop生态圈软件下载地址:http://archive.cloudera.com/cdh5/cdh/5/==================================Hadoop部署 hadoop-2.6.0-cdh5.7.0.tar.gzHive部署 hive-1.1.0-cdh5.7.0.tar.gz需要有java需要已经部署好mysql

2017-09-14 08:59:45 238

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除