- 博客(8)
- 收藏
- 关注
原创 记录sqoop导入过程中出现的问题
java.io.IOException: No columns to generate for ClassWriter可以通过添加这个–driver com.mysql.jdbc.Driver 来修改还遇到另一个错误,但是尚未处理,报错是找不到导入过来的temporary文件,查询得知可能是因为map作业的推测机制,因为另开作业之后删除了另一个作业的临时文件,所以报错,可以关闭这个推测机制,但...
2019-08-22 13:45:29 322
原创 idea标签和project问题
project打开后左侧没有树状结构,在view 中连续选择两个第一个选项可以调出来idea打开的标签不是在代码的正上面,参考 https://my.oschina.net/sprouting/blog/710429。...
2019-08-02 10:25:47 196
原创 动态挂在分区脚本
#/usr/bin/env python2.7-- coding: utf-8 --import osimport stringimport datetimefrom pyspark.sql.types import *from pyspark.sql import SparkSessionos.environ[‘PYSPARK_PYTHON’]=’/appcom/service/p...
2019-07-19 10:10:42 97
原创 hive中导入文件小文件问题
问题描述:参考https://www.iteblog.com/archives/1533.html一个表里面每个分区又300个小文件,小文件数量太多,就想把文件导入一个新表每个分区一个文件,这样就是只有map的任务第一种方式:SET hive.exec.dynamic.partition=true;SET hive.exec.dynamic.partition.mode=nonstric...
2019-07-17 18:10:11 282
原创 mysql中判断某一条数据是否存在
SELECT IFNULL((SELECT ‘Y’ from yimei.boy where grade = 54 limit 1),‘N’),mysql中用ifnull,hive中可以用isnull,这个用来替代case when count(*) > 0 then ‘Y’ else ‘N’ end ,这种会采用聚合索引查询,浪费内存,但是上面那个不会,同时limit1限制了只要查询到一...
2019-04-25 10:44:20 26727
原创 hive优化
压缩之后的文件可以直接load到hive中去查看系统压缩方式的命令 Hadoop checknative 为false的说明没有安装实操过程中发现,当系统的某一资源繁忙时,之前的处理速度和实际处理速度会相差很大,而且调整一些参数也并没有特别明显的效果。系统整体运行很吃资源的时候,采取以下几个方案:表格修改为orc格式,不但减少空间同时增加查询速度在orc格式的基础上可以开启矢量化...
2019-03-14 09:35:16 80
原创 spark还有hive调优
提交的种类有很多种,spark sql 、submit等等,不过都是分配资源方面的,可以再去了解一下提交这个任务的话默认并行度是200,就是说reduce会产生200个文件,这会产生大量的小文件问题,–设置spark并行度为1,解决小文件过多问题set spark.sql.shuffle.partitions=1,但是大多数情况下如果数据量过大的话,还要提高并行度的,所以这里是个奇葩。当初...
2019-03-07 11:02:01 151
转载 Sqoop
Sqoop优化参考这个https://blog.csdn.net/u010185220/article/details/79085119出现的问题,map数设置默认128M一个为宜,n个map就会产生n+1个数据块,所以设置过多好像也不太好哦,不过这也不算小文件,没有影响(我猜的嘻嘻)如何判断读取的数据是否完整?可以采用也可以使用count * 计算是否行数一样为什么多个map之后会有...
2019-02-28 17:04:10 449
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人