CaramelCapucchino-CSDN博客

原创 kafka+flume+sparkStreaming+HDFS实时日志分析系统

flumme + kafka + sparkStreaming 构建实时文件处理系统搭建前提：Hadoop2.6、spark1.6-hadoop-2.6集群都是正确搭建并可运行一、需求描述日志文件预处理：运营商数据 kafka做队列缓冲 flume分发 streaming计算 HDFS存储二、系统搭建No.1 flume-ng 1.

2023-02-07 14:07:09 493 1

原创 chunjun-1.12 在两个CDH（kerberos认证）之间同步数配置

chunjun是以前flinkx项目，现在改名chunjun，具体见 chunjun官网最近在项目中遇到同步两个CDH数据文件的需求，调研了一圈，发现datax不支持两个cdh同时进行kerberos认证，因此切换到chunjun，chunjun在kerberos认证的配置这块，官网也没有详细的介绍案例，在查看源代码后，确定了配置项及各配置项的值，供大家参考...

2022-07-05 11:55:52 490

原创 hive 2.1.0 安装及利用MySQL做元数据管理

一、环境准备jdk 1.8+hadoop 2.xmysql 5.x安装之前请确保以上环境已准备完毕二、安装1. 下载并解压2. 进入安装目录下conf目录vim hive-site.xml加入以下配置javax.jdo.option.ConnectionURLjdbc:mysql://192.168.11.132:3306/hive?...

2022-07-05 11:37:20 120

原创 centos6.5 搭建FTP服务器

# 安装vsftpdyum -y install vsftpd# 启动service vsftpd start# 开启启动chkconfig vsftpd on# 启动ftp服务service vsftpd start# 查看ftp服务状态service vsftpd status# 重启ftp服务service vsftpd restart

2022-07-05 11:37:03 336

原创 hadoop2.7高可用安装配置过程以及常见问题解决

一、集群规划二、基本配置修改静态IP、修改主机名、配置主机名与-P映射，关闭防火墙，安装JDK并配置环境变量，这些操作相对不易出错且已有很多成熟安装笔记，不再赘述三、ssh免密登录配置参考我另一篇博客《ssh免密配置》四、安装zookeeper 安装相对简单，有很多成熟资料可供参考，不再赘述五、安装Hadoop 1. 解压并配置HADOOP_HOME环境变量 2. 修改h

2017-01-16 18:19:22 726

原创 hive web界面安装详细安装步骤

一、概述 hiveweb界面说实话长得有点保守，而且配置起来有点烦人，动不动就缺各种jar包，好在问题已经解决，这里分享下。我的版本如下： hadoop-2.7.0、hive-1.2.1、jdk8、ant-1.9.8，其中hive使用MySQL存储元数据。 8278

2017-01-16 17:22:41 570

原创 centos6.5 搭建FTP服务器

一、FTP服务器安装以及基本操作安装 yum -y install vsftpd启动 service vsftpd star设置开机启动 chkconfig vsftpd on启动ftp服务 service vsftpd start查看ftp服务状态 service vsftpd status 重启ftp服务 service vsftpd restart关闭ftp服务 service

2017-01-05 10:49:24 1314

原创 java 实现kafka消息生产者和消费者

一、概述 kafka原理这东西就不再赘述了，除了官网网上也是能找到一大堆，直接上代码，这里实现的基本需求是 producer类利用for循环来产生消息，然后consumer类来消费这些消息，我的正确运行环境是：centos-6.5 kafka-2.10_0.10 scala-2.10.4二、代码生产者：package com.unisk.bigdata.kafka;import ja

2016-12-14 16:56:57 2628

原创 Spark 读取Hbase表数据并实现类似groupByKey操作

一、概述程序运行环境很重要，本次测试基于： hadoop-2.6.5 spark-1.6.2 hbase-1.2.4 zookeeper-3.4.6 jdk-1.8 废话不多说了，直接上需求Andy column=baseINFO:age, value=21Andy column=baseINFO:gender, value=0 Andy column=baseINFO:t

2016-12-13 17:04:39 2116

原创 Hbase shell操作总结

进入hbase命令行 ./hbase shell显示hbase中的表 list创建user表，包含info、data两个列族 create ‘users’, ‘info’, ‘data’ //you can also use this command: // create ‘users’, {NAME => ‘info’, VERSIONS => ‘3’}向表中插入信息，row key为r

2016-12-13 15:29:34 450

原创 Hbase-1.2.4 javaAPI操作总结

一、概述关于Hbase的工作原理网上已经有很多详细介绍，就不在这里赘述了，我们直接研究代码作为Hbase最新stable版，Hbase内部引入的部分hadoop2.5系列的jar包，这里且暂不去理会它，但是Java环境必须要8以上，我的正确运行环境为： Centos-6.5 hadoop-2.6.5 Hbase-1.2.4 jdk1.8 二、代码设计package com.unisk

2016-12-06 17:51:47 528

原创基于spark2.0整合spark-sql + mysql + parquet + HDFS

一、概述 spark 2.0做出的改变大家可以参考官网以及其他资料，这里不再赘述由于spark1.x的sqlContext在spark2.0中被整合到sparkSession，故而利用spark-shell客户端操作会有些许不同，具体如下文所述二、spark额外配置 1. 正常配置不再赘述，这里如果需要读取MySQL数据，则需要在当前用户下的环境变量里额外加上JDBC的驱动j

2016-11-22 12:39:11 1290

原创 centos6.5下apache-kylin1.6.0 安装配置

一、安装条件 Hadoop、 hive 、hbase 、zookeeper、必须已安装完毕并可正确运行二、开始配置 1. 下载解压（注意与hbase的版本适配） 2. 配置KYLIN_HOME 3. 进入KYLIN_HOMEvim bin/kylin.sh export KYLIN_HOME=/wxm/sorftware/kylin/ apache

2016-11-21 18:16:07 913

原创 centos 6.5安装MySQL

yum -y install mysql-server启动mysql数据库service mysqld start初始化mysql数据库（默认root的密码为空，按提示一步步完成）/usr/bin/mysql_secure_installation将mysql加入开机启动chkconfig mysqld on允许远程登录mysql 首先登录mysql数据，然后执行下面两行语句：GRANT ALL

2016-11-21 16:46:24 676

原创 hive 2.1.0 安装及MySQL元数据管理配置

一、环境准备 jdk 1.8+ hadoop 2.x mysql 5.x 安装之前请确保以上环境已准备完毕二、安装 1. 下载并解压进入解压之后的目录，使用当前路径配置HIVE_HOME 2. 进入安装目录下conf目录 vim hive-site.xml 加入以下配置<?xml

2016-11-21 16:41:17 1659

原创 Hbase集群搭建

Hbase作为典型的nosql数据库，依托于HDFS可实现海量数据秒级查询，这里在Hadoop集群搭建完善的情况下搭建完全分布式的Hbase集群1. 修改conf/hbase-env.sh修改JAVA_HOMEexport JAVA_HOME=xxxx2. 修改hbase-site.xml，配置开启完全分布式模式配置hbase.cluster.distributed

2016-11-17 14:51:24 405

原创 flume实时接收kafka消息并保存至HDFS

#-------agent------# 定义sourcesagent.sources = kafkaSource# 定义channelsagent.channels = memoryChannel# 定义sinksagent.sinks = hdfsSinkagent.sources.kafkaSource.channels = memoryC

2016-11-10 13:48:24 5858 1

原创 flume整合kafka之kafka接收flume数据

1.创建配置文件基本配置如下：#sourcea1.sources = sysSrca1.sources.sysSrc.type=avroa1.sources.sysSrc.bind=0.0.0.0a1.sources.sysSrc.port=33333a1.sources.sysSrc.channels=fileChannel#channela1.

2016-11-10 13:46:01 3745

原创 kafka集群搭建

1. kafka2.11下载并解压2. 修改配置文件 · config/server.propertiesbroker.id=4（集群里的id不能重复，我是取每台机器IP最后一位）listeners=PLAINTEXT://192.168.248.134:9092（格式不变，绑定本机IP）log.dirs=/home/hadoop/kafka/logs

2016-11-10 13:45:06 688

原创 flume-ng三大组件介绍与应用

一、概述 flume是分布式的，可靠的，用于从不同的来源有效收集聚集和移动大量的日志数据用以集中式的数据存储的系统，最初由Cloudra公司开发，现为Apache基金会的顶级项目之一。二、概念、模型 1. Flume Event Flume事件 - 被定义为一个具有有效荷载的字节数据流和可选的字符串属性集。 2. Flume Agent： F

2016-10-29 17:57:46 2514

小明

原创 kafka+flume+sparkStreaming+HDFS实时日志分析系统

原创 chunjun-1.12 在两个CDH（kerberos认证）之间同步数配置

原创 hive 2.1.0 安装及利用MySQL做元数据管理

原创 centos6.5 搭建FTP服务器

原创 hadoop2.7高可用安装配置过程以及常见问题解决

原创 hive web界面安装详细安装步骤

原创 centos6.5 搭建FTP服务器

原创 java 实现kafka消息生产者和消费者

原创 Spark 读取Hbase表数据并实现类似groupByKey操作

原创 Hbase shell操作总结

原创 Hbase-1.2.4 javaAPI操作总结

原创基于spark2.0整合spark-sql + mysql + parquet + HDFS

原创 centos6.5下apache-kylin1.6.0 安装配置

原创 centos 6.5安装MySQL

原创 hive 2.1.0 安装及MySQL元数据管理配置

原创 Hbase集群搭建

原创 flume实时接收kafka消息并保存至HDFS

原创 flume整合kafka之kafka接收flume数据

原创 kafka集群搭建

原创 flume-ng三大组件介绍与应用

空空如也

空空如也