5 沙琪玛丫

尚未进行身份认证

道生一,一生二,二生万物。

等级
TA的排名 16w+

批量导出hive表结构 生成建表语句

说明最近在做集群数据迁移,需要把hive所有的表同步至新的集群。脚本#! /bin/bashmkdir -p /opt/hive/tables/tablesDDLhive -e "show databases;" > /opt/hive/databases.txtecho "cat database"cat /opt/hive/databases.txtcat /opt/h...

2020-03-28 11:33:49

java 线程 线程状态

线程

2020-03-25 19:47:45

问题 Spark Yarn集群模式 exitCode = 13

背景今天一同事在提交任务时遇到一个很奇葩的问题,使用的是集群模式提交的spark任务下面是运行的日志:Log Length: 1906020/03/25 14:43:03 INFO util.SignalUtils: Registered signal handler for TERM20/03/25 14:43:03 INFO util.SignalUtils: Registered...

2020-03-25 17:29:02

spark Rest Api 使用

Rest APIspark可以通过UI查看指标。这样可以让开发者很容易的创建一些可视化的工具。这些命令同时也只支持正在运行的应用。对于history server,访问的地址是http://:18080/api/v1,对于正在运行的任务,可以访问http://localhost:4040/api/v1在这些api中,应用的标识为ID[app-id]。当通过YARN启动时,每个应用可能会有多次尝...

2020-03-24 14:40:13

spark 调试篇

调试命令调试所有spark-submit --master yarn --deploy-mode client --verbose --conf spark.rpc.askTimeout=600s --conf spark.rpc.lookupTimeout=600s --conf spark.rpc.retry.wait=60s --conf spark.network.timeout=6...

2020-03-23 20:16:09

HBase中的TTL与MinVersion的关系

如果HBase中的表设置了TTL的时候,MinVersion才会起作用。a)MIN_VERSION > 0时:Cell至少有MIN_VERSION个最新版本会保留下来。这样确保在你的查询以及数据早于TTL时有结果返回。b)MIN_VERSION = 0时:Cell中的数据超过TTL时间时,全部清空,不保留最低版本。...

2020-03-23 15:59:30

Elasticsearch-spark 源码解析 ---savetoEs

...

2020-03-18 13:42:19

sparksql 2.4 PIVOT 使用

1.背景在设计用户标签时,需要将1个维度多个值的情况生成多个标签,例如,用户视频的设备的类型,由于用户含有多个设备,所以需要将每个设备类型设置成一个标签,业务方在使用时,需要过滤同时含有多个某些设备时,就可以方便的过滤。例如下面数据:+------------+--------------------+-----+-----+| proxyId| ...

2020-03-10 15:25:13

SparkStreaming 过滤日志

由于sparkStreaming日志太多不便于查找关键的日志,而且在spark1.6版本,日志默认是打印在根目录所在磁盘,实时任务日志会随着时间越来越大,可能会给服务造成影响,此时需要过滤掉某些类的日志。// 屏蔽不必要的日志 ,在终端上显示需要的日志import org.apache.log4j.{Level, Logger}Logger.getLogger("org.apache.spa...

2020-01-14 11:44:34

hive.server2.enable.doAs

hive.server2.enable.doAs设置成false则,yarn作业获取到的hiveserver2用户都为hive用户。设置成true则为实际的用户名

2020-01-13 19:12:59

问题 executor.Executor: Managed memory leak detected;

spark 内存泄漏错误日志在cdh5.9.1集群跑spark任务时,Executor端出现如下日志,查看网上相关资料,这是spark1.6版本的bug SPARK-14560,目前已经在spark2.0 修复。20/01/06 17:06:18 WARN memory.TaskMemoryManager: leak 64.3 MB memory from org.apache.spark....

2020-01-07 11:54:05

sparkSql 随机打散分配

UDF 函数val randomNew = (str :String, n: Int) => { val buffer = ArrayBuffer[Int](-1) var length:Int = 1 var index:Int = -1 for(a <- str){ index = index +...

2020-01-03 14:02:07

centos7.2环境,CDH6.3.1安装CM启动不了

现象在进行cdh6.3.1安装过程中,使用 systemctl start cloudera-scm-server 启动CM 无任何日志,启动失败。问题定位很慌,使用 linux自带的系统日志工具:journalctl -xe,发现如下错误:-- The start-up result is done.Dec 19 19:28:06 hdh02.c.p.xyidc cm-server[...

2019-12-19 21:43:39

mysql 安装 主从配置

软件下载下载地址:mysql5.7下载如下yum包:mysql-community-client-5.7.20-1.el7.x86_64.rpmmysql-community-common-5.7.20-1.el7.x86_64.rpmmysql-community-devel-5.7.20-1.el7.x86_64.rpmmysql-community-libs-5.7.20-1.e...

2019-12-19 16:02:04

阿里maven仓库地址

阿里maven仓库地址<repositories> <repository> <id>maven-ali</id> <url>http://maven.aliyun.com/nexus/content/groups/public//</url> ...

2019-12-17 22:01:03

问题 spark udf函数不能序列化

如下在实现spark的udf函数时:val randomNew = (arra:Seq[String], n:Int)=>{ if(arra.size < n){ return arra.toSeq } var arr = ArrayBuffer[String]() arr ++= arra var outL...

2019-12-16 20:30:18

向量范数的理解

范数的公式机器学习中经常会看到这个词,按照自己的理解做一下总结,范数大可理解为距离的计算。范数是来衡量向量与原点的远近。下面是几个范数的计算公式,我们先看公式,不要惧怕公式,然后再解释公式的内在含义:1-范数2-范数p-范数+无穷-范数-无穷-范数由上面的数学表达式,我们可以归纳一下:除了两个无穷范数以外,剩下的范数都是一个规律,即n范数就是一堆数字的绝对值n次方之和再开个...

2019-12-03 13:38:56

StringIndexer 的使用

StringIndexer对String按频次进行编号idcategorycategoryIndex0a0.01b2.02c1.03a0.04a0.05c1.0如果转换模型(关系)是基于上面数据得到的 (a,b,c)->(0.0,2.0,1.0),如果用此模型转换category多于(a,b,c)的数据,比如...

2019-12-02 21:03:08

python 基本语法

a

2019-11-28 18:32:26

python console 启动'PyDevTerminalInteractiveShell' object has no attribute 'has_readline'

问题原因大于2016.1版本 pycharm 与ipython version 5冲突。解决办法新建文件名: pydev_ipython_console_011.py,内容如下:# TODO that would make IPython integration better# - show output other times then when enter was pressed#...

2019-11-27 14:32:30

查看更多

勋章 我的勋章
  • GitHub
    GitHub
    绑定GitHub第三方账户获取
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv4
    勤写标兵Lv4
    授予每个自然周发布9篇以上(包括9篇)原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。
  • 分享小兵
    分享小兵
    成功上传3个资源即可获取