shesarainbow-CSDN博客

原创 xshell个人免费版

官网地址：https://www.xshell.com/en/free-for-home-school/

2022-03-22 09:46:24 974

1.sudo pip install pyhive[hive] 一定要后面的中括号报错command ‘gcc’ failed with exit status 12.解决：sudo yum -y install libffi-devel;sudo yum install libgsasl-devel;sudo yum -y install libmemcached-devel;3.from pyhive import hivehive.Connection(ip,10000,database

2021-05-21 16:32:13 546

原创 kettle卡死清除mysql锁

show PROCESSLIST;select * from information_schema.INNODB_TRXkill $trx_mysql_thread_id

2021-03-16 10:00:19 526

转载 Failed to read artifact descriptor for

2021-03-04 17:01:42 112

原创数据导入apache druid报错时间戳为null的旁门左道解决方法

报错如下：Caused by: io.druid.java.util.common.parsers.ParseException: Unparseable timestamp found!at io.druid.data.input.impl.MapInputRowParser.parseBatch(MapInputRowParser.java:75)at io.druid.data.input.impl.StringInputRowParser.parseMap(StringInputRowPars

2021-03-04 16:30:37 442 1

原创新建maven项目中的文件夹不能新建scala class解决

1.确认ide中有scala插件(File–settings–‘ctrl+f搜索plugins’–安装scala插件)2.确认project structure中的global library中有scala sdk3.同样上图的modules中右键module–加号添加scala完成

2020-11-27 11:55:39 124

原创 sqoop从mysql拉取数据，字段中含有\t的解决方法

replace(replace(replace(doctorname,char(9),char(32)),char(10),char(32)),char(13),char(32))字段前加replace(replace(replace(字段后加,char(9),char(32)),char(10),char(32)),char(13),char(32))

2020-09-28 16:21:18 906

原创创建csv格式的hive表

CREATE EXTERNAL TABLE dmd.tablename()PARTITIONED BY (dt string)row format serde‘org.apache.hadoop.hive.serde2.OpenCSVSerde’withSERDEPROPERTIES(“separatorChar”=",",“quotechar”=""")STORED AS TEXTFILE;

2020-09-03 09:41:51 2515

原创 Invalid signature file digest for Manifest main attributes

jar包签名不规范，删除包中的sf文件等zip -d 你的jar名字.jar META-INF/.RSA META-INF/.DSA META-INF/*.SF

2020-08-13 17:13:51 366

原创 spark保存kafka偏移量

//查询mysql中是否有偏移量val sqlProxy = new SqlProxy()val offsetMap = new mutable.HashMapTopicPartition, Longval client = DataSourceUtil.getConnectiontry {sqlProxy.executeQuery(client, “select * from offset_manager where groupid=?”, Array(groupid), new QueryCa

2020-08-06 08:36:56 272

原创 hbase API

HBase API4.1 环境准备新建项目后在pom.xml中添加依赖：org.apache.hbasehbase-server1.3.1 org.apache.hbase hbase-client 1.3.14.2 HBaseAPI4.2.1 获取Configuration对象public static Configuration conf;static{ //使用HBaseConfiguration的单例方法实例化 conf = HBaseConfi

2020-08-02 23:43:19 86

原创 idea安装scala

Scala环境搭建1）安装步骤（1）首先确保JDK1.8安装成功（2）下载对应的Scala安装文件scala-2.11.8.zip（3）解压scala-2.11.8.zip，我这里解压到E:\02_software（4）配置Scala的环境变量注意1：解压路径不能有任何中文路径，最好不要有空格。注意2：环境变量要大写SCALA_HOME2）测试需求：定义两个变量n和n2，并计算n和n2两个变量的和。步骤（1）在键盘上同时按win+r键，并在运行窗口输入cmd命令（2）输入Scala并

2020-07-19 23:21:12 288

原创 hive中Could not get block locations.

hive计算时找不到文件Diagnostic Messages for this Task:Error: java.lang.RuntimeException: Hive Runtime Error while closing operators: java.io.IOException: Could not get block locations. Source file “/user/hive/warehouse/dwd.db/dwd_mpi_patient_info/.hive-staging_h

2020-07-15 13:45:53 4975

原创 datax从hive导出到mysql通用方法及json

def hive2mysql(hivedatabase,hiveTableName,mysqldatabase,mysqlTableName,updateDaysSql):logDir = “%s/%s”%(logPath, hiveTableName)if not os.path.isdir(logDir):os.mkdir(logDir)logFile = “%s/%s”%(logDir, hiveTableName)log = PythonMode.getTimeRotatingLogger

2020-07-03 09:24:28 3476

原创 spark安装

[atguigu@hadoop102 software]$ tar -zxvf spark-2.1.1-bin-hadoop2.7.tgz -C /opt/module/2）进入到/opt/module目录，修改spark-2.1.1-bin-hadoop2.7名称为spark[atguigu@hadoop102 module]$ mv spark-2.1.1-bin-hadoop2.7/ spark3）修改hadoop配置文件/opt/module/hadoop-2.7.2/etc/hadoop/y

2020-06-11 23:01:18 178

原创 kafka安装

jar包下载http://kafka.apache.org/downloads.html2.1.3 集群部署1）解压安装包[atguigu@hadoop102 software]$ tar -zxvf kafka_2.11-0.11.0.0.tgz -C /opt/module/2）修改解压后的文件名称[atguigu@hadoop102 module]$ mv kafka_2.11-0.11.0.0/ kafka3）在/opt/module/kafka目录下创建logs文件夹[atguig

2020-06-11 22:59:16 90

原创 flume安装

Flume安装部署2.1.1 安装地址1） Flume官网地址http://flume.apache.org/2）文档查看地址http://flume.apache.org/FlumeUserGuide.html3）下载地址http://archive.apache.org/dist/flume/2.1.2 安装部署1）将apache-flume-1.7.0-bin.tar.gz上传到linux的/opt/software目录下2）解压apache-flume-1.7.0-bin.tar

2020-06-11 22:57:04 103

原创 zookeeper安装

分布式安装部署1．集群规划在hadoop102、hadoop103和hadoop104三个节点上部署Zookeeper。2．解压安装（1）解压Zookeeper安装包到/opt/module/目录下[atguigu@hadoop102 software]$ tar -zxvf zookeeper-3.4.10.tar.gz -C /opt/module/（2）同步/opt/module/zookeeper-3.4.10目录内容到hadoop103、hadoop104[atguigu@hadoo

2020-06-11 22:44:03 110

原创 hive安装

一、Hive安装1 Hive安装地址1．Hive官网地址http://hive.apache.org/2．文档查看地址https://cwiki.apache.org/confluence/display/Hive/GettingStarted3．下载地址http://archive.apache.org/dist/hive/4．github地址https://github.com/apache/hive2 Hive安装部署1．Hive安装及配置（1）把apache-hive-1.2

2020-06-10 23:34:09 154

原创 hdfs及yarn的ha和failover

配置HDFS-HA集群官方地址：http://hadoop.apache.org/在opt目录下创建一个ha文件夹mkdir ha将/opt/app/下的 hadoop-2.7.2拷贝到/opt/ha目录下cp -r hadoop-2.7.2/ /opt/ha/配置hadoop-env.shexport JAVA_HOME=/opt/module/jdk1.8.0_144配置core-site.xml <property> <name>fs.defaul

2020-06-10 23:32:23 263

原创 Datanode多目录配置，可以加快写入写出速度

Datanode多目录配置DataNode也可以配置成多个目录，每个目录存储的数据不一样。即：数据不是副本2．具体配置如下hdfs-site.xmldfs.datanode.data.dirfile:///hadoop.tmp.dir/dfs/data1,file:///{hadoop.tmp.dir}/dfs/data1,file:///hadoop.tmp.dir/dfs/data1,file:///{hadoop.tmp.dir}/dfs/data2...

2020-06-10 23:29:40 294

原创 hadoop服役新节点

服役新数据节点0. 需求随着公司业务的增长，数据量越来越大，原有的数据节点的容量已经不能满足存储数据的需求，需要在原有集群基础上动态添加新的数据节点。环境准备（1）在hadoop104主机上再克隆一台hadoop105主机（2）修改IP地址和主机名称（3）删除原来HDFS文件系统留存的文件（/opt/module/hadoop-2.7.2/data和log）（4）source一下配置文件[xxx@hadoop105 hadoop-2.7.2]$ source /etc/profile服

2020-06-10 23:28:50 139

原创 hadoop安装及配置

4.2.3 配置历史服务器为了查看程序的历史运行情况，需要配置一下历史服务器。具体配置步骤如下：配置mapred-site.xml[atguigu@hadoop101 hadoop]$ vi mapred-site.xml在该文件里面增加如下配置。mapreduce.jobhistory.addresshadoop101:10020 mapreduce.jobhistory.webapp.address hadoop101:198882. 启动历史服务器[at

2020-06-10 23:26:19 161

转载向parquet存储的使用了动态分区的hive表插入数据时oom

1.异常描述当运行“INSERT … SELECT”语句向Parquet或者ORC格式的表中插入数据时，如果启用了动态分区，你可能会碰到以下错误，而导致作业无法正常执行。Hive客户端：Task with the most failures(4):Diagnostic Messages for this Task:Error: GC overhead limit exceeded…FAILED: Execution Error, return code 2 from org.apache.ha

2020-05-28 16:31:02 438

原创 java.lang.AbstractMethodError报错侥幸解决

修改框架版本号尝试，可解决

2020-04-15 21:38:58 923

原创 scala中无法遍历java中的集合

import collection.JavaConversions._之后即可foreach了

2020-03-22 11:30:14 311

原创 scala中无法用JSON将case class解析为JSON字符串

// fastjson无法转换 case class 为json// val orderInfoJson: String = JSON.toJSONString(orderInfo)// json4simplicit val formats = org.json4s.DefaultFormatsval orderInfoJson: String = Serialization.write...

2020-03-21 16:56:36 1106

转载 phoenix关联Hbase报错

[phoenix]通过HBase命令行单独启动异步填充索引MR(run on yarn)时报如下错误，需升级hbase/lib下的disruptor-3.3.0.jar到disruptor-3.3.11.jarException in thread "main" com.google.common.util.concurrent.ExecutionError: java.lang.NoSuchM...

2020-01-05 10:49:47 290

原创 Exception in thread "main" java.lang.UnsatisfiedLinkError: org.apache.hadoop.io解决方法

本地执行MapReduce数据出现下面的错误：抛异常：Exception in thread “main” java.lang.UnsatisfiedLinkError:org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Ljava/lang/String;I)Z原因：报NativeIO错误解决：将hadoop.dll放置到{C:\...

2019-12-11 19:35:54 500

原创 Linux中单引号、双引号与反引号的关系和区别

1、单引号、双引号用于用户把带有空格的字符串赋值给变量的分界符。[root@localhost sh]# str=“Today is Monday”　　[root@localhost sh]# echo $str　　Today is Monday　　如果没有单引号或双引号，shell会把空格后的字符串解释为命令。　　[root@localhost sh]# str=Today is Mo...

2019-12-04 19:37:46 384

原创 mysql: [ERROR] unknown variable 'datadir=/var/lib/mysql'

环境： Centos6,mysql 5.7问题：在使用命令“mysql -u root -p”连接mysql时，报：“mysql: [ERROR] unknown variable ‘datadir=/var/lib/mysql’”。分析：网上出现这个问题很少，通过类似问题，发现这个问题跟“my.cnf”配置有关，该配置文件在“/etc/my.cnf”。在使用mysql命令连接时...

2019-12-02 17:00:46 3516

转载解决Failed to instantiate SLF4J LoggerFactory和ch/qos/logback/core/spi/LifeCycle

使用spring boot 建立好项目时总会报点奇奇怪怪的错比如以下报错的原因可能是spring boot自带的logback日志工具版本太低或是mavan没有将将其导入第一种解决方法：ctl+alt+shift+s 打开控制面板，找到如图所示的位置将红线内的两个文件移除，这会导致你的日志失效，所以需要你找好其他代替的日志工具如log4j第二种方法：既然日志文件版本太低或缺失那么补充上就...

2019-11-27 21:03:25 607 1

sheisarainbow的博客