weixin_39182877-CSDN博客

原创 hive 创建表报错，truncate ，drop 都报错

hive 创建表报错，truncate ，drop 都报错：FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. org.apache.thrift.transport.TTransportException: java.net.SocketTimeoutException: Rea...

2019-02-18 20:36:50 1538

原创如何重装agent

yum install -y cloudera-manager-agent-5.10.0-1.cm5100.p0.85.el6.x86_64vi /etc/cloudera-scm-agent/config.ini# 修改cm的ip。server_host=hadoop001

2019-02-15 20:29:21 525

原创 spark读取oracle

import org.apache.spark.sql.SparkSessionobject SparkToOracle { def main(args: Array[String]): Unit = { val spark = SparkSession .builder() .master("local[2]") .appName("Ora...

2018-12-29 13:42:21 1577

原创本地开发spark读写Oracle，Caused by: java.lang.ClassNotFoundException: oracle.jdbc.driver.OracleDriver

一、pom.xml 中配置<dependency> <groupId>com.oracle</groupId> <artifactId>ojdbc6</artifactId> <version>11.2.0.3</version></dependency>二、id

2018-12-29 10:49:31 4595

原创本地开发spark连接hbase报错Caused by: java.net.UnknownHostException:

Caused by: java.net.UnknownHostException: XXX（hostname）检查网络是通的情况下，检查本地hosts文件C:\Windows\System32\drivers\etc\hosts配上ip：hostname

2018-12-25 14:48:22 970 1

原创 hbase 调优

一、JVM调优-Xms 初始堆大小-Xmx 最大堆大小-XX:ParallelGCThreads 并行收集器的线程数: 8+(logical processors-8)(5/8)-XX:Max...

2018-12-05 10:17:49 676

转载 Oracle数据库中clob字段转成MD5码，并能在where条件或者group中使用

转载自：https://blog.csdn.net/siyouzi/article/details/29589613 1.创建java source------------Java source------------------------create or replace and compile java source named md5 asimport java.secur...

2018-12-03 10:53:15 1106

原创 CentOS镜像下载地址

http://vault.centos.org/6.5/isos/x86_64/

2018-11-14 10:45:14 225

原创 hadoop集群间数据迁移

1、两个集群版本不同的hadoop distcp hftp://192.168.X.X:50070/tmp/test.txt /tmp2、两个集群版本相同的hadoop distcp hdfs://192.168.X.X:8020/tmp/test.txt /tmp

2018-11-06 15:37:56 800

原创 phoenix启动报错ZooKeeper exists failed after 4 attempts

登录zkCli.sh rmr /hbase重启zookeeper，重登phoenix就可以了

2018-11-05 10:21:41 2009

转载大数据之数仓平台设计思路01

转载自：https://blog.csdn.net/hxiao1317098/article/details/73623690对于大数据来说，数仓的作用不言而喻，承载着整个公司全业务线的数据，现阶段，在hadoop上的数仓主要是用来解决企业内部数据的分析，尤其是各种各样的统计分析报表。本文主要结合自己公司目前数仓的结构设计和现阶段解决的问题而叙述和分享，如有不明，错误之处，各位看官可指出，非常...

2018-09-28 16:44:22 3124

转载近期看的一些好文章汇总

https://mp.weixin.qq.com/s/QrQN6F54P7dUeWIJqS9QSQ这个是文章汇总入口，下面是我挑选的一些文章如何在Spark Streaming应用中使用Kudu管理Kafka的Offsethttps://mp.weixin.qq.com/s/s2Q3Ht5HbMDvoFqgvEJVYA如何查看Kafka的Topic消费情况https://mp.we...

2018-09-28 14:15:19 284

原创 spark程序报错：java.lang.IndexOutOfBoundsException

读入的text文档，x.split("\\|").toDF。如果最后一列（或最后几列）有空数据，map(x => x(lastone))，就会报数组越界的错，java.lang.IndexOutOfBoundsException。所以只要用x.split("\\|",-1)这个就能解决。如果hive里面多个表指向同一个路径，也会出现同样的报错。可以参考我朋友的解决方案。https...

2018-09-05 17:30:46 1710 2

转载 MapReduce任务参数调优

转自：http://blog.javachen.com/2014/06/24/tuning-in-mapreduce.html本文主要记录Hadoop 2.x版本中MapReduce参数调优，不涉及Yarn的调优。Hadoop的默认配置文件（以cdh5.0.1为例）：core-default.xmlhdfs-default.xmlmapred-default.xml说明：在hadoop2中有些参数...

2018-07-12 10:05:38 227

转载 Hive PPD

https://hortonworks.com/blog/orcfile-in-hdp-2-better-compression-better-performance/

2018-05-09 10:43:05 287

原创本地开发spark streaming无法消费云主机kafka消息

1、Kafka集群在一个192.168.0.x网段的，而我们的生产者在集群外，无法将消息发送过去错误：11:21:13,936 ERROR KafkaProducer - Batch containing 11 record(s) expired due to timeout while requesting metadata from brokers for onlinelogs-1

2018-04-28 18:30:46 576

原创 flume+zookeeper+kafka+spark streaming

1.flume安装部署1.1、下载安装介质，并解压：cd /usr/local/wget http://archive.cloudera.com/cdh5/cdh/5/flume-ng-1.6.0-cdh5.7.0.tar.gztar -zxvf flume-ng-1.6.0-cdh5.7.0.tar.gzln -s apache-flume-1.6.0-cdh5.7.0-bin/ flume1....

2018-04-27 20:09:58 364

原创 Spark 术语表

Application：应用程序基于 Spark 构建的用户程序，包含了一个driver 程序和集群上的 executors；（起了一个作业，就是一个Application）Application jar：应用程序jar包包含了用户的 Spark 程序的一个 jar 包. 在某些情况下用户可能想要创建一个囊括了应用及其依赖的 “胖” jar 包. 但实际上, 用户的 jar 不应该包

2018-04-26 12:06:45 504

原创 kafka（zk）介绍及使用

1、分布式、高效、高容错的流式平台。2、作为消息中间件，一般部署在流式组件前一个，业务高峰期，缓冲的作用。3、消息是存储在zk上4、zkCli.sh -server host:port 常用命令：（ls，rmr）5、配置文件/kafka，创建一个文件夹6、常用命令./kafka-topics.sh --creat --zookeeper --replication-

2018-04-25 16:58:56 1609

原创 flume介绍及使用

1、flume是一个分布式的海量日志的高效收集、聚合、移动/传输的框架。它既可以收集为离线数据，也可以收集到流处理系统。2、Agent 3、flume三大核心组件a.Source:负责从源端采集数据，常用的Source有exec/Spooling Directory/Taildir Source/NetCatb.Channel:负责缓存从Source端来的数

2018-04-24 22:10:27 239

原创 spark RDD和RDD算子

什么是RDD？RDD全称resilient distributed dataset（弹性分布式数据集）。他是一个弹性分布式数据集，是spark里面抽象的概念。代表的是一个不可变的，集合里面的元素可以分区的支持并行化的操作。RDD产生的意义在于降低开发分布式应用程序的门槛和提高执行效率。它是一个可以容错的不可变集合，集合中的元素可以进行并行化地处理，Spark是围绕RDDs的概念展开的。RDD可以通...

2018-04-17 15:30:51 1081

转载 JVM汇总

Java虚拟机详解：http://www.importnew.com/17770.htmljvm系列(一):java类的加载机制https://www.cnblogs.com/ityouknow/p/5603287.htmljvm系列(二):JVM内存结构https://www.cnblogs.com/ityouknow/p/5610232.htmljv

2018-04-17 14:43:36 1311

原创 spark SQL读取MySQL中的dept和hive中的emp表，做join和分组查询，然后写到json文件

val jdbcDF = spark.read.format("jdbc").option("url", "jdbc:mysql://hadoop000:3306").option("dbtable", "hive.dept").option("user", "root").option("password", "123456").load()jdbcDF.createOrReplaceTem

2018-04-02 16:35:47 306

原创 spark，history-server配置

一、配置vi spark-defaults.conf 添加spark.eventLog.enabled truespark.eventLog.dir hdfs://hadoop:9000/spark-logs#spark.eventLog.dir这个是保存路径#要先在hdfs上创建这个“/spark-logs”目录vi spark-env.sh,添加SPARK_

2018-03-19 16:42:22 480

原创 spark on yarn配置

vi /usr/local/spark/conf/spark-env.shexport JAVA_HOME=/usr/java/jdk1.8.0_162日志需要更详细cp log4j.properties.template log4j.propertieslog4j.rootCategory=INFO, console => log4j.rootCategory=DEBUG, console...

2018-03-14 15:45:06 1117

原创 hadoop多次格式化namenode造成datanode无法启动

/usr/local/hadoop/tmp/dfs/data/current/把这个文件干掉，再重新格式化就行【来自@若泽大数据】

2018-03-13 17:55:05 857

原创 Hive压缩和spark算子，RDD总结

1.压缩格式有哪几种?lzo bzip2 snappy lz4 gz2.哪种压缩格式是支持分割的bzip2 lzo snappy支持分割，中lzo要做index3.能够支持分割，有什么好处?支持分割可将文件切分，文件与块大小一致，有利于降低IO使用率4.哪种压缩比最大bzip25.哪种压缩速率和解压速率最高snappy6.mr job，分为三个阶段，输入，shuffle，输出，请问这三个阶段分别用...

2018-03-12 11:49:21 886

原创 hive中使用parquet+lzo+index

准备工作：yum -y install lzo-devel zlib-devel gcc autoconf automake libtool（1）安装LZOwget http://www.oberhumer.com/opensource/lzo/download/lzo-2.06.tar.gztar -zxvf lzo-2.06.tar.gzcd /root/lzo-2.06./config...

2018-03-09 16:14:40 2238

原创 hadoop HA总结

1.SNN checkpoint 多久？什么参数配置？参数在哪？60分钟，dfs.namenode.checkpoint.period ， hdfs-default.xml 2.ZooKeeper是做什么的？协调服务、统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等3.ZooKeeper的作用？Zookeeper 作为一个分布式的服务框架，主要用来解决分布式集群中应用系统的一致性问...

2018-03-06 17:05:56 367

原创 Spark使用mysql做metastore

cp /usr/local/hive/conf/hive-site.xml /usr/local/spark/conf/./spark-shell --master local[2] --jars /usr/local/hive/lib/mysql-connector-java-5.1.45-bin.jar cp /usr/local/hive/lib/mysql-connec

2018-03-05 19:11:12 511

原创 scala总结

1.Scala怎样声明变量与常量？var val2.Scala数据类型有哪些？Byte，Short，Int，Long，Float，Double，Char，String，Boolean，Unit，Null，Nothing，Any，AnyRef3.String 对象是可变还是不可变？假如要创建一个可以修改的字符串，应该使用哪个类？ String 对象

2018-03-05 18:01:45 201

原创行式存储和列式存储的比较

行式存储的优点：同一行数据存放在同一个block块里面，select * from table_name;数据能直接获取出来； INSERT/UPDATE比较方便行式存储的缺点：不同类型数据存放在同一个block块里面，压缩性能不好；select id,name from table_name;这种类型的列查询，所有数据都要读取，而不能跳过。列式存储的优

2018-03-04 21:15:37 6887 1

原创压缩

core-site.xml codecsio.compression.codecsorg.apache.hadoop.io.compress.GzipCodec,org.apache.hadoop.io.compress.DefaultCodec,org.apache.hadoop.io.compress.BZip2Codec,org.apache.hadoop.i

2018-03-04 17:32:29 159

原创 SQL truncate 、delete与drop区别，以及一个实际案例

drop table xx –xx是数据表的名字作用：删除内容和定义，释放空间。就是把整个表移除.里面的数据都消失。truncate table xx作用：删除内容、释放空间但不删除定义。与drop不同的是,他只是清空表数据而已,不删除表结构。delete table xx作用：也是删除整个表的数据,但是逐行删除，或delete table tb where

2018-02-16 10:32:26 382

原创定时任务，打包每天的日志

先把日志内容复制到其它文件夹，改名为当天日期，再把日志内容清空#!/bin/sh cp -f /home/weblogic/bea/../bin/nohup.out /home/weblogic/bea/../bin/nohup/`date +%Y%m%d%H`.log ture > /home/weblogic/bea/../bin/nohup.out写一个定时任务

2018-02-16 10:03:13 1566

原创 Spark安装编译

安装maven，java，hadoop，scalavi /etc/profileexport MAVEN_HOME=/usr/local/apache-maven-3.3.9export MAVEN_OPTS="-Xmx2g -XX:ReservedCodeCacheSize=512m"export PATH=$MAVEN_HOME/bin:$JAVA_HOME/bin:$PATH

2018-02-16 10:02:10 195

原创常用的Linux命令

路径pwd：显示完整路径名 cd : 1. 绝对路径：以/开头的 2. 相对路径：不以/开头的 cd :进入当前用户的家目录 cd ../ （cd ..）: #退回上一级目录 cd - :#返回上一次操作 cd ~ :#家目录 cd /tmp : 切换到指定目录（按1次 tab键自动补全 2次打印所有相关的） clear: #清屏查看文件或文件夹

2018-02-15 22:04:25 185

原创脚本无法挂载软链接的问题

b.sh脚本里面有ln -s /../../xxx /../../xxx，还有调用a.sh脚本的操作。a.sh脚本是用来杀进程和重启服务的。后来测试才知道，在于a.sh里面有个tail -200f xxx.out的操作。这个操作一直在后台打印，没有中断，导致ln一直在等待，没有操作。【来自@若泽大数据】

2018-02-15 22:03:25 405

原创配置多台机器SSH相互通信信任，以及一个自动备份脚本例子

配置互信1.多台机器执行 ssh-keygen[weblogic@localhost nohup]$ ssh-keygen Generating public/private rsa key pair. Enter file in which to save the key (/home/weblogic/.ssh/id_rsa): Enter passphrase (

2018-02-15 15:20:49 603

原创个人环境变量文件没有了，那么怎么搞一份个人环境变量文件

cp /etc/skel/.* /usr/local/xxxx【来自@若泽大数据】

2018-02-15 15:19:11 375

空空如也

空空如也