温文尔雅的流氓-CSDN博客

原创 Pulsar集群搭建和基本命令使用

目录1. Pulsar集群搭建2. Pulsar基本命令使用3. 使用pulsar-mamager对Pulsar进行可视化管理4. 参考资料1. Pulsar集群搭建为了方便快捷，此处使用Docker安装。（1）拉取最新Pulsar Docker镜像sudo docker pull apachepulsar/pulsar-all（2）进入Docker容器Pulsar容器内部的8080端口和6650端口分别映射到主机的8080端口和6650端口，其中8080端口是web端口，6650用于在程序中

2022-01-24 15:27:08 4383

原创 Presto UDF开发

版本说明Presto 0.227详细步骤创建Maven工程，在pom文件中引入presto-spi和guava依赖，指定打包插件创建类并编写UDF函数Presto 中函数分为三种：scalar，aggregation 和 window 。此处以Nginx日志中时间字段进行标准格式化为例，使用的是scalar即标量函数，它类似于Hive中的UDF。@ScalarFunction(“format_nginx_time”) 该注解用于指定函数名称，即在Presto客户端查询时使用的函

2021-03-15 17:23:13 494

原创 Flink SQL Clien读取Kafka数据写入Hive

版本说明：Flink 1.11.1Kafka 2.4.0Hive 2.3.6Hadoop 2.7.3详细步骤：准备相关jar包hive-exec-2.3.6.jarhive-metastore-2.3.6.libfb303-0.9.3.jarjarkafka-clients-2.4.0.jarflink-sql-connector-hive-2.3.6_2.11-1.11.1.jarflink-sql-connector-kafka_2.11-1.11.1.jarflink

2020-10-27 13:39:54 2485 3

原创 Presto 0.227版本源码编译

1. 环境准备（1）Win10（2）JDK（要求1.8.151及以上）（3）Maven（要求3.3.9及以上）2. 问题出现的原因及解决方法（1）Error: java: RegexpMultiline: Line contains carriage return原因：Presto会对代码规范进行严格的检查，maven-checkstyle-plugin检查失败就会报错解决方法：在presto-root模块的pom.xml中properties部分添加以下内容：<air.check.s

2020-09-21 18:23:50 1688 1

原创 Presto整合MySQL和Hive，实现跨引擎查询

Presto配置MySQL Connector（1）在Presto的/etc/catalog目录下创建mysql.properties，加入以下内容：connector.name=mysqlconnection-url=jdbc:mysql://hadoop000:3306connection-user=rootconnection-password=root（2）将presto-c...

2019-12-14 17:48:48 2017

原创 Presto安装和部署

（1）官网下载安装包presto-server-0.229.tar.gz presto-cli-0.229-executable.jar（2）解压（3）创建Presto的日志目录mkdir -p /home/hadoop/presto_data（4）在Presto安装目录下创建etc目录mkdir -p /home/hadoop/app/presto-server-0...

2019-12-14 17:34:06 768

原创 Spark写入Kudu报错：cannot import authentication data from a different user: old='', new='Administrator'

初步分析是用户权限问题，网上有人提供的解决方案如下：在/etc/kudu/conf/master.gflagfile加入以下内容：# 添加信任的子集，0.0.0.0/0表示信任所有远程连接--trusted_subnets=0.0.0.0/0我照做了，并且重启master和tserver，然并卵。于是尝试把以下内容全加进去：# 添加信任的子集，0.0.0.0/0表示信任所有远程连接-...

2019-12-13 23:01:16 887 3

原创 Spark SQL读取MySQL数据写入Kudu

（1）pom文件中加入Spark Kudu相关依赖<dependency> <groupId>org.apache.kudu</groupId> <artifactId>kudu-spark2_2.11</artifactId> <version>1.7.0</version></...

2019-12-12 20:50:43 1276 4

原创 Kudu安装和部署

（1）下载Kudu相关安装包Kudu版本是1.7.0-cdh5.15.1，使用rpm包安装，网址如下：http://archive.cloudera.com/cdh5/redhat/7/x86_64/cdh/5.15.1/RPMS/x86_64/打开后直接Ctrl + F 搜索Kudu，出现的rpm安装包总共6个，全部下载kudu-1.7.0+cdh5.15.1+0-1.cdh5.15....

2019-12-12 20:38:58 1116 1

原创修改core-site.xml中的fs.defaultFS对应端口，导致无法访问Hive数据的问题

手残把core-site.xm中的fs.defaultFS对应端口由8020改成了9000由于之前在Hive中创建的表元数据保存在MySQL中，通过desc formatted emp可以看到它保存的位置还是修改端口之前的元数据信息这样在Hive中查询该表数据会报无法连接报错解决方案：找到MySQL中保存Hive元数据信息的数据库，其中有一个DBS表，修改其DB_LOCATION_...

2019-12-11 23:12:30 2631 1

原创 Python 2.7.5操作Hive最全解析

前提：Hive默认用户名和密码为空，并没有做修改，可以在hive-site.xml中进行配置（1）安装相关Python库pip install saslpip install thriftpip install thrift-saslpip install PyHive安装sasl的过程中，可能会报以下错误：error: command 'gcc' failed with e...

2019-11-25 11:51:00 608

原创 Spark SQL访问Hive表数据

Hive的元数据保存在MySQL中Hive配置文件hive-site.xml内容如下：<?xml version="1.0"?><?xml-stylesheet type="text/xsl" href="configuration.xsl"?><configuration><property> <name>javax...

2019-11-24 20:36:46 468

原创使用Java的HttpURLConnection给Nginx上报数据报错：FileNotFoundException

使用HttpURLConnection发送GET请求，请求的格式如下：http://hadoop000/log?idsite=3&server_time=1573288345000&country=Spain&os=Win8&city=Spain&ip=214.6.55.89&channel=others&idvisitor=486f06a...

2019-11-23 19:01:06 667

原创 Alluxio整合MapReduce报错 Caused by: java.io.IOException: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-out

查看Yarn NodeManager日志，发现以下信息：Caused by: org.apache.hadoop.util.DiskChecker$DiskErrorException: Could not find user/cache/hadoop/appcache/application_15... in any of the configured local directories解...

2019-11-22 11:59:17 718

原创本地操作HDFS报错：java.net.ConnectException: Call From KevinWong/192.168.16.1 to hadoop000:9000

原因：hosts文件配置不正确，多加了一个 127.0.0.1 hadoop000的映射导致9000端口只能在本地访问，而不能远程访问。解决方案：可以通过netstat -tpnl查看的端口开放情况，如果显示127.0.0.1:9000，则表示9000端口不能远程访问。可以检查hosts文件，保留一个映射即可或者配置成：0.0.0.0 hadoop000...

2019-09-30 23:08:03 6598

原创 Flink整合ElasticSearch报错：java.lang.NoClassDefFoundError: org/apache/http/client/config/RequestConfig

Flink版本1.6.0，ElasticSearch版本6.3.1ElasticSearch Connector引入的依赖如下：<dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-connector-elasticse...

2019-07-09 20:59:44 2906

原创启动ZooKeeper报错：Starting zookeeper ... already running as process 1949

报错如题，并未重复启动ZooKeeper，而是首次启动就报错。原因可能是没有正常关闭ZooKeeper集群，例如异常关机、断电等。ZooKeeper将上一次启动的进程号保存在了zookeeper_server.pid这个文件中，这个文件在ZOOKEEPER_HOME/conf/zoo.cfg中dataDir配置项指定的目录中，直接删掉该文件，再重启ZooKeeper即可。友情提示：不要直接关闭...

2019-07-09 19:29:30 1061 1

原创 Flink整合Kafka报错：Marking the coordinator hadoop000:9092(id: 2147483647 rack: null) dead

代码很简单，如下：package com.imooc.flink.course08import java.util.Propertiesimport org.apache.flink.api.common.serialization.SimpleStringSchemaimport org.apache.flink.streaming.api.scala.{DataStream, Str...

2019-07-09 18:43:16 4679

原创 Kibana安装后web页面打不开

代码很简单，如下：package com.imooc.flink.course08import java.util.Propertiesimport org.apache.flink.api.common.serialization.SimpleStringSchemaimport org.apache.flink.streaming.api.scala.{DataStream, Stre...

2019-07-07 18:11:49 5646 3

原创还原系统导致使用pip安装wxpy库时显示“'pip' 不是内部或外部命令，也不是可运行的程序”的解决方案

由于还原了系统，导致pip无法识别，把Python安装目录下的Scripts目录放到环境变量中也依然无法解决最后在CMD命令行进入到D:\Software\Python36\Scripts目录下，执行 easy_install pip ![在这里插入图片描述](https://img-blog.csdnimg.cn/20190314134849101.png?x-oss-proce...

2019-03-14 14:01:00 1337

转载 Eclipse快捷键大全

Ctrl+1 快速修复(最经典的快捷键,就不用多说了) Ctrl+D: 删除当前行 Ctrl+Alt+↓ 复制当前行到下一行(复制增加) Ctrl+Alt+↑ 复制当前行到上一行(复制增加) Alt+↓ 当前行和下面一行交互位置(特别实用,可以省去先剪切,再粘贴了) Alt+↑ 当前行和上面一行交互位置(同上) Alt+← 前一个编辑的页面 Alt+→ 下一个编辑的页面(当然是针对...

2018-08-21 23:10:59 142

转载 IDEA常用快捷键

1 执行(run) alt+r 2 提示补全 (Class Name Completion) alt+/ 3 单行注释 ctrl + / 4 多行注释 ctrl + shift + / 5 向下复制一行 (Duplicate Lines) ct...

2018-08-14 00:16:01 1055

原创 flume简介及安装步骤

Flume架构图Flume架构图Flume架构图其中Source是数据来源，Sink是数据去向，Channel相当于缓冲区 Source可以广义的分为两种：主动Source和被动Source，被动Source是一种服务，主动Source则不是服务。...

2018-08-10 23:56:19 532

原创 LNMP环境配置SSL踩坑实录（502 bad gateway）

之前一直使用的是LAMP套装，对nginx配置不是很熟悉，配置SSL过程中踩的坑记录一下第一步：在nginx的conf目录下新建一个cert文件夹将域名证书的两个文件上传到该文件夹下第二步：修改nginx的虚拟主机配置如下server {listen 80; server_name www.domain.com;rewrite ^(.*) https://$ser...

2018-05-31 16:00:54 9687 2

原创 elasticsearch安装和配置

第一步：上传安装包到master上第二步：解压到指定目录 tar -zxvf ./elasticsearch-2.2.0.tar.gz -C /usr/local第三步：修改elasticsearch的config目录下的配置文件elasticsearch.yml在配置文件最后加入防止脑裂的配置 discovery.zen.ping.multicast.en...

2018-05-11 00:43:22 690

原创使用命令行操作zookeeper

1. 启动zookeeper：zkServer.sh start（前提是要配置zookeeper的环境变量）2. 查看zookeeper进程：jps3. 查看zookeeper运行状态：zkServer.sh status4. 启动zookeeper客户端：zkCli.sh5. 查看帮助：-h6. 查看根目录下的文件：ls /7. 创建子节点（子目录）：create 目录名数据 8. 查看某个目...

2018-05-08 16:13:35 12654 1

转载 CDH、Cloudera Manager简介及离线安装步骤

CDH是Hadoop众多分支中的一种，由Cloudera维护，基于稳定版本的Apache Hadoop构建，提供了Hadoop的核心，可扩展存储，分布式计算，基于Web的用户界面Cloudera Manager是一个管理CDH的端到端的应用。它的作用是对CDH进行管理、监控、诊断和集成安装前的准备：①网络配置②SSH免密钥登录③防火墙关闭④SELINUX关闭（setenforce 0 vi /...

2018-05-04 23:32:31 3058

原创 hbase开源SQL引擎Phoenix安装步骤和基本使用

第一步：上传Phoenix第二步：解压Phoenix并将解压后的包里的phoenix-core-4.5.2-HBase-1.1.jar拷贝到集群各个节点HBase的lib目录下：cp /usr/local/phoenix/phoenix-core-4.5.2-HBase-1.1.jar /usr/local/hbase/libscp /usr/local/phoenix/phoenix-core-...

2018-04-23 16:56:42 412

原创 hadoop+zookeeper高可用性集群出现两个namenode均为standby状态原因及解决方法

使用hadoop fs -ls / 命令查看hdfs中的文件报错如下：检查发现master和slave3两个NameNode的状态均为standby原因：先启动了hdfs再启动zookeeper 导致zookeeper的选举机制zkfc（DFSZKFailoverController）没有格式化 NameNode节点的自动切换机制没有开启两个NameNode都处于standby状态解决方法：正...

2018-04-21 19:30:21 7203

原创使用Java API 操作hbase

第一步：创建项目导入需要的jar包第二步：代码如下：package com.xjtuse.hbase;import java.io.IOException;import java.util.*;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.*;import org.apache.hadoop....

2018-04-20 19:11:34 912

原创在hbase shell中使用list命令报错：ERROR: Can't get master address from ZooKeeper; znode data == null原因及解决方法

电脑意外关机启动后打开hbase shell 输入list命令查看所有表报错如下：ERROR: Can't get master address from ZooKeeper; znode data == null原因：运行hbase(zookeeper)的用户无法写入zookeeper文件，导致znode data为空。解决方法：方法一：重启hbase（可能是zookeeper或hbase不...

2018-04-20 19:11:14 19085 3

原创 hbase shell基础命令

1. 进入hbase shell命令界面：hbase shell2. 查看表格:list3. 查看所有命令：help4. 创建表格（如果不记得命令格式可以直接输入create 系统会给出提示和示例）：create 'test','f1','f2','f3'创建了一个表名为test 有f1 f2 f3三个列族的表5. 查看表格结构信息：desc 'test'如果某个命令输错了直接按退格键是无法回...

2018-04-15 23:22:11 1031

原创 hbase完全分布式配置

第一步：修改hbase的配置文件hbase-site.xml 加入以下内容：<property> <name>hbase.rootdir</name> <value>hdfs://master:8020/hbase</value></property><property> <name&gt...

2018-04-15 22:11:40 3074 1

原创 hbase单机版（standalone）安装和配置

第一步：上传安装包第二步：修改hbase配置文件hbase-env.sh 加入以下内容：第三步：修改hbase配置文件hbase-site.xml 加入以下内容：第三步：启动hbase单机模式下hbase有自带的zookeeper 生产环境下一般搭建完全分布式的zookeeper集群注意：如果自己已经安装并启动了zookeeper 一定要先关闭因为hbase自带有zookeeper 如果自己安装...

2018-04-15 01:00:16 3761

原创 hive正则匹配

第一步：创建apachelog表（用于存放apache的访问日志：access_log）CREATE TABLE apachelog ( host STRING, identity STRING, user_d STRING, time STRING, request STRING, status STRING, size STRING )ROW FORMAT SERDE 'org....

2018-04-14 22:17:44 2033

原创使用JDBC连接和操作hive（hiveserver2）

第一步：创建项目并导入hive相关jar包第二步：编写代码如下：import java.sql.Statement;import java.sql.DriverManager;import org.apache.tools.ant.taskdefs.Echo;public class TestHive2 { private static String driverName = "org.apa...

2018-04-14 00:12:08 5099 2

原创 hive基本操作

1. 创建表格简单案例CREATE TABLE page_view ( page_url string, ip string)ROW FORMAT DELIMITEDFIELDS TERMINATED BY '\t'STORED AS TEXTFILE;行之间默认以换行符隔开不需要指定关系型数据库数据以二进制文件形式存储而hive中的数据以文本文件形式存储复杂案例CREATE TABLE ...

2018-04-13 21:55:58 7706 1

原创 hive本地mysql方式（local方式）配置及踩坑实录

第一步：安装mysql第二步：上传mysql jdbc驱动程序到hive的lib目录下并解压第三步：在hive-site.xml文件中加入以下内容：<configuration><property> <name>hive.metastore.warehouse.dir</name> <value>/user/hive_rem...

2018-04-12 01:45:19 2872

原创 hive单用户模式（Derby方式）配置及踩坑实录

第一步：将hive上传到master上并解压第二步：将hive的conf目录下的hive-default.xml.template文件拷贝一份并将名称改为hive-site.xml第三步：在hive-site.xml文件中加入以下内容：<configuration> <property> <name>javax.jdo.option.Connect...

2018-04-12 00:22:36 1600

转载 MapReduce的执行环境

MR执行环境有两种：本地测试环境，服务器环境服务器环境的缺点在于不适合做调试而本地测试环境非常适合做调试可以在开发时选择本地测试环境在正式运行时选择服务器环境1. 本地测试环境(windows)：在windows下hadoop的安装目录的bin目录下放置winutils.exe文件（windows下的调试工具兼容hadoop）（1）在windows下配置hadoop的环境变量配置完环境变量...

2018-04-10 13:11:02 1043

深度数据恢复v6.4.6破解版

空空如也