自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(137)
  • 收藏
  • 关注

原创 子查询作为数据源时需要表别名

问题描述insert overwrite table tmp partition(dt='${DT}',hour='{HOUR}')select * from (select a,b,c,dfrom t1where dt='${DT}' and hour='{HOUR}'union allselect a,b,'NULL' c,dfrom t2where dt='${DT}' and hour='{HOUR}'union all select a,b,c,dfrom t3where

2021-04-21 15:32:07 1041

原创 hadoop 解har归档文件

hive 解har归档文件1.问题描述同步数据的时候,发现有一天的数据查不到,也查不到分区信息,重新同步这一天的数据发现一直执行失败,后面查看hdfs上的实际存储文件发现该天的数据被归档了,归档文件同步过来了,但是msck repair table 命令没法将归档文件中的分区数据信息更新到metastore2.解决办法分区数据存在于归档文件中,那么直接将归档文件中的分区数据拷到当前分区路径下就OK了hadoop fs -cp har://scheme-hostname:port/hive/ware

2021-04-16 17:18:04 974

原创 hive msck repair table 报错

hive msck repair table 报错1.问题描述msck repair table 库名.表名;报错:FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask2.解决办法set hive.msck.path.validation=ignore;先使用上述命令后,再执行:msck repair table 库名.表名;...

2021-04-16 16:58:36 3278

转载 Scala伴生对象

https://www.cnblogs.com/chorm590/p/scala_201904221054.html

2020-07-09 10:02:34 132

转载 sql where 1=1

https://blog.csdn.net/zc474235918/article/details/50544484

2020-07-05 17:21:54 106

原创 HDFS小文件优化方法

1.HDFS小文件弊端HDFS上每个文件都要在NameNode上建立一个索引,这个索引的大小约为150byte,这样当小文件比较多的时候,就会产生很多的索引文件,一方面会大量占用NameNode的内存空间,另一方面就是索引文件过大使得索引速度变慢。2.HDFS小文件解决方案小文件的优化无非以下几种方式:(1)在数据采集的时候,就将小文件或小批数据合成大文件再上传HDFS。(2)在业务处理之前,在HDFS上使用MapReduce程序对小文件进行合并。(3)在MapReduce处理时,可采用Comb

2020-06-20 15:21:33 662

原创 Shuffle机制及优化

1. Shuffle机制Map方法之后,Reduce方法之前的数据处理过程称之为Shuffle。Shuffle阶段主要做的事情:map方法处理后得到的一系列新的key/value会先经过Partioner的分区方法,标记分区,然后进入环形缓冲区在环形缓冲区中进行分区和排序,环形缓冲区左侧写数据,右侧写索引环形缓冲区默认100m,默认到达80%时溢写,溢写前对数据的key的索引按照字典序,进行快速排序对溢写的文件进行归并排序,然后将结果放到相应的分区再进行排序,最后等待Reduce端拉取数据

2020-06-20 11:26:26 421

原创 Hadoop集群搭建过程及配置文件总结

1. 配置文件总结总共8个配置文件,4个site的xml文件,3个环境脚本,1个slaves4个site文件:hdfs-site.xml,yarn-site.xml,mapred-site.xml,core-site.xml3个环境脚本:hadoop-env.sh,yarn-env.sh,mapred-env.sh1个slaves:slaves2. 完全分布式运行模式的集群搭建过程虚拟机配置硬盘50G 内存4G cpu 62 22/boot 200M/swap 2G/ 全部

2020-06-20 10:39:00 901

原创 Hadoop的常用端口号

Hadoop的常用端口号50070:namenode的web浏览器访问端口号50090:secondary namenode的web浏览器访问端口号50010:datanode的web浏览器访问端口号,用于数据传输8088:resource manager的web浏览器访问端口号19888:jobhistory server的web浏览器访问端口号8020 或者9000:fs.defaultFS接收Client连接的RPC端口,用于获取文件系统metadata信息8

2020-06-20 10:22:10 2285

原创 awk命令

awk '{[pattern] action}' {filenames} # 行匹配语句 awk '' 只能用单引号# 每行按空格或TAB分割,输出文本中的1、4项 $ awk '{print $1,$4}' log.txt

2020-06-17 19:55:15 291

原创 grep -v grep

grep -v xxx-v 选项用来实现反选匹配的( invert match)。如,可匹配得到除下指定xxx外的行grep -v grep除去 grep本身进程的信息

2020-06-17 19:47:17 152

原创 flume自定义拦截器

flume自定义拦截器的步骤定义一个类实现Interceptor接口实现四个方法:initialize、close、Event intercept、List intercept创建一个静态内部类创建静态内部类的意义:我们自定义的拦截器这个类,没有办法直接new,而是在flume的配置文件中进行配置,通过配置文件调用静态内部类,来间接地调用自定义的拦截器对象。示例:public class LogETLInterceptor implements Interceptor{ @O

2020-06-17 15:10:51 290

原创 Kafka Channel的parseAsFlumeEvent

Kafka Channel的parseAsFlumeEvent的默认值为true,即会为对source来的数据进行解析,解析完会对数据前加前缀,前缀为topic名,因此这种情况,下游会需要做额外的截取工作,所以,当不需要前缀名时,将该属性设置为false...

2020-06-17 11:24:41 1264

原创 面试题——数仓项目技术如何选型?

技术选型:要提供两套方案,红色的一套,黑色的一套,提供对比选择的依据:优先选择红色的那一套,因为比较通用,而且熟悉Flume解决日志的采集,Kafka解决消息的分发和消峰,Sqoop用于HDFS和关系型数据库进行数据的传递MySql主要用于查询,它用于存储与前端进程交互比较频繁的数据,因为查询要速度比较块,HDFS主要用于存储,用于存储计算和分析的数据量大的数据Hive是底层是基于MR,速度慢,Tez基于内存,数据在计算过程中不落盘,都存储在内存中,速度快,Spark同理Presto和Imp.

2020-06-16 18:03:39 401

原创 面试题——数据仓库的输入输出是什么

你们的数仓的数仓的数据来源是哪些?数据的目的地又有哪些?数据来源: 日志采集系统、业务系统数据库、爬虫系统、财务系统、OA系统等日志采集系统:采集用户在网站的停留时间,搜索的关键字以及喜好,数据存在file日志文件中,数据量可以很大业务系统数据库:比如电商网站的一些主要的业务数据,支付数据,订单数据等,存在mysql等数据库中,数据量有限爬虫系统:爬取的其他企业的一些商品信息数据数据目的地:报表系统(最基本的数据输出),用户画像,推荐系统,机器学习,风控系统等...

2020-06-16 16:56:52 781

原创 机器学习知识点复习

机器学习知识点复习1. 线性回归1.1 什么是线性回归?回归算法是一种有监督学习算法,用于构建一个算法模型(函数)来表示特征(自变量X)与标签(因变量Y)之间的映射关系,当X与Y之间为线性相关时,称其为线性回归模型,其表达式如下:y^=wx+b\hat y=wx+by^​=wx+b线性回归通过不断从数据集中学习参数w和b,最终得到一个最优的模型,使得预测值 y^\hat yy^​ 与真实值 yyy 尽可能的接近。1.2 线性回归的求解方法1.2.1 最小二乘法求解参数w和b使得损失函数最小化

2020-06-03 15:38:01 2144 1

原创 HiveJDBC访问——hiveserver2和beeline启动和关闭

HiveJDBC访问——hiveserver2和beeline启动和关闭一、步骤:1.先在一个会话中启动hiveserver2服务[LORENZO@hadoop102 hive]$ bin/hiveserver22.再在另一个会话中启动beeline[LORENZO@hadoop1 hive]$ bin/beelineBeeline version 1.2.1 by Apache H...

2020-04-12 17:18:34 3448

原创 解决SpringBoot自动创建项目后,项目名有红叉

在项目名上右键,点击Maven中的Update Project即可

2020-03-20 20:45:07 1374

转载 subplot

https://blog.csdn.net/sinat_34328764/article/details/81780370?utm_source=distribute.pc_relevant.none-task

2020-02-18 18:24:09 91

转载 字典get()方法

https://blog.csdn.net/wcy23580/article/details/84325962?utm_source=distribute.pc_relevant.none-task

2020-02-17 21:53:55 185

转载 np.argsort

https://blog.csdn.net/u011475210/article/details/77770751

2020-02-17 21:33:16 89

转载 np.tile

https://www.baidu.com/link?url=p8pTwTVenk6J0vRGD1FpnrplHnW4eF_kx4r_C605EWbJzeq0fB2nPy79pWsTJ2UM&wd=&eqid=c8a833d7002b913e000000065e4a940f

2020-02-17 21:26:53 114

原创 Mask R-CNN

一、前言本文提出了一个概念上简单且灵活通用的目标分割框架——Mask R-CNNMask R-CNN能有效地检测图像中的目标,同时能为每个实例生成高质量的分割掩码Mask R-CNN训练简单,相对于Faster R-CNN,只需增加一个较小的开销,运行速度可达5 FPS,且很容易推广到其他任务中二、模型与方法2.1 设计思路由于Fast/Faster R-CNN和FCN的出现,使...

2020-02-17 15:38:21 331

原创 RetinaNet:Focal Loss for Dense Object Detection

一、前言目前的深度学习目标检测器中,One-stage的精度始终落后于two-stage本文发现其中心原因为训练过程中前景与背景类别极端的不平衡为解决该问题,本文重塑了标准交叉熵损失函数,即减少易分类样本的权重来进行平衡,提出了Focal Loss为评估所提出的损失函数的有效性,本文设计并训练了一个简单的目标检测器——RetinaNet1.1 One-stage VS Two-sta...

2020-02-16 15:19:04 207

原创 FPN:Feature Pyramid Networks for Object Detection

一、前言特征金字塔可用于检测不同尺度目标,但最近的深度学习目标检测器避免使用它,部分原因是它带来了极大的计算量和内存需求本文利用深度卷积网络内在的多尺度、金字塔分级来构造具有很少额外成本的特征金字塔本文开发了一种具有横向连接的自顶向下架构,称为特征金字塔网络(FPN),用于在所有尺度上构建高级语义特征映射将FPN应用于一些目标检测器(如Faster R-CNN),结果得到了...

2020-02-15 17:19:28 470

原创 YOLO9000: Better, Faster, Stronger

一、前言大多数目标检测方法的检测种类有限,仅能检测一小部分目标本文使用了目标分类的分层视图的方法,允许我们将不同的数据集组合在一起本文提出了一种联合训练算法,能够在检测和分类数据上训练目标检测器。利用带标签的检测图像数据集来训练网络学习能精确定位物体的能力,同时使用分类图像数据集来训练以增加鲁棒性。二、模型和方法2.1 设计思路:简化网络,以提高网络的检测速度...

2020-02-14 16:28:55 458

原创 R-FCN: Object Detection via Region-based Fully Convolutional Networks

一、论文内容1.1 摘要先前的基于区域的检测器(如Fast/Faster R-CNN)需要对每个区域单独应用全连接子网络,计算代价太高本文所提出的基于区域的检测器应用了全卷积,几乎在整张图上共享计算为解决图像分类中的平移不变性与目标检测中的平移变化之间的困境,本文提出了提出了位置敏感分数图本文提出的模型在PASCAL VOC数据集上展示了具有竞争力的结果,比Faster R-CNN对应...

2020-02-11 21:36:01 202

原创 06文件和目录常用命令

一、查看目录内容1.1 终端实用技巧1> 自动补全在敲出 文件/目录/命令 的前几个字母之后,按下 tab 键如果输入的没有歧义,系统会自动补全如果还存在其他 文件/目录/命令,再按一下 tab 键,系统会提示可能存在的命令2> 曾经使用过的命令按 上/下 光标键可以在曾经使用过的命令之间来回切换如果想要退出选择,并且不想执行当前选中的命令,可以按 ctrl...

2020-02-11 13:49:24 204

原创 05Linux终端命令格式

一、 终端命令格式command [-options] [parameter]说明:[] 代表可选command:命令名,相应功能的英文单词或单词的缩写[-options]:选项,可用来对命令进行控制,也可以省略parameter:传给命令的参数,可以是 零个、一个 或者 多个二、查阅命令帮助信息2.1 --helpcommand --help说明:显示 comman...

2020-02-11 13:23:54 142

原创 04常用 Linux 命令的基本使用

一、学习 Linux 终端命令的原因Linux 刚面世时并没有图形界面,所有的操作全靠命令完成,如 磁盘操作、文件存取、目录操作、进程管理、文件权限 设定等在职场中,大量的 服务器维护工作 都是在 远程 通过 SSH 客户端 来完成的,并没有图形界面,所有的维护工作都需要通过命令来完成在职场中,作为后端程序员,必须要或多或少的掌握一些 Linux 常用的终端命令Linux 发行版本的命令...

2020-02-11 12:20:44 128

原创 03Ubuntu 图形界面入门

Ubuntu 的任务栏窗口操作按钮窗口菜单条

2020-02-11 11:53:09 123

原创 02Linux文件目录结构

一、 单用户操作系统和多用户操作系统(科普)单用户操作系统:指一台计算机在同一时间 只能由一个用户 使用,一个用户独自享用系统的全部硬件和软件资源Windows XP 之前的版本都是单用户操作系统多用户操作系统:指一台计算机在同一时间可以由 多个用户 使用,多个用户共同享用系统的全部硬件和软件资源Unix 和 Linux 的设计初衷就是多用户操作系统二、 Windows ...

2020-02-10 21:54:08 100

原创 01linux操作系统简介

一、操作系统(Operation System,OS)操作系统作为接口的示意图没有安装操作系统的计算机,通常被称为 裸机如果想在 裸机 上运行自己所编写的程序,就必须用机器语言书写程序如果计算机上安装了操作系统,就可以在操作系统上安装支持的高级语言环境,用高级语言开发程序1.1 操作系统的作用是现代计算机系统中 最基本和最重要 的系统软件是配置在计算机硬件上的第一层软件,是对...

2020-02-10 21:25:15 278

原创 FCN:Fully convolutional networks for semantic segmentation

一、语义分割简介1.1 什么是语义分割?语义分割:让机器实现对图像进行自动分割并识别图像中的内容如上图中,给出一张图片,机器能识别图片中的物体并分割出结果图,即把不同的物体从图像中分割出来1.2 研究意义当前应用:地理信息系统无人车驾驶医疗影像分析机器人等领域与图像分类或目标检测相比,语义分剖使我们对图像有更加细致的了解。这种了解在诸如自动驾驶、机器人以及图像搜索引擎等...

2020-02-10 14:01:58 371

原创 28目标检测

一、目标检测1.1 目标检测是什么?目标检测:判断图像中目标的类别和位置目标检测两要素分类:分类向量[p0, …, pn]回归:回归边界框[x1, y1, x2, y2]1.2 代码示例# -*- coding: utf-8 -*-import osimport timeimport torch.nn as nnimport torchimport numpy as...

2020-02-09 18:28:21 259 1

原创 27图像分割

一、图像分割1.1 图像分割是什么?图像分割:将图像每一个像素进行分类1.2 图像分割分类图像分割分类:超像素分割:少量超像素代替大量像素,常用于图像预处理超像素:一个超像素由很多由相同性质的像素构成,如左上图中的每个白色块语义分割:逐像素分类,无法区分个体实例分割:对个体目标进行分割,像素级目标检测只会将感兴趣的目标进行分割,比如说图中的人全景分割:语义分割...

2020-02-09 16:17:04 1163

原创 26图像分类

一、图像分类1.1 模型是如何将图像分类的?对于蜜蜂蚂蚁二分类模型:从人的角度来看,是从输入一张RGB图像到输出一种动物的过程从计算机角度看,是从输入3-d张量到输出字符串的过程类别名是通过标签进行转换得到的,在这里也就是0和1,而输出的0,1则是通过模型输出的向量取最大值的index而得到的,而模型输出向量则是通过构造复杂的模型而得到的实际的运行顺序:输入3d张量到模型中,模型...

2020-02-08 17:47:00 215

原创 25GPU的使用

一、CPU与GPU二、数据迁移数据在GPU和CPU之间迁移:数据迁移使用的方法:to()函数进行迁移的数据:Tensor和Module2.1 to函数to函数:转换数据类型/设备tensor.to(*args, **kwargs)module.to(*args, **kwargs)区别:张量不执行inplace,模型执行inplace张量执行to函数之后,会重新构建一个...

2020-02-08 15:48:29 143

原创 24模型微调(finetune)

一、Transfer Learning & Model Finetune1.1 Transfer LearningTransfer Learning:机器学习分支,研究源域(source domain)的知识如何应用到目标域(targetdomain)传统的机器学习:对不同的任务分别训练学习得到不同的learning system,即模型,如上图有三个不同任务,就得到三个不同的模...

2020-02-07 18:37:58 2517 1

原创 23模型保存与加载

一、序列化与反序列化序列化与反序列化:数据在内存与硬盘之间的转换关系序列化:模型在内存中是以对象的形式存储的,但是在内存中的对象不能长久保存,所以需要将其保存在硬盘中,而在硬盘中,数据是以二进制数保存的,即二进制数列,所以,序列化是指将内存中的某一个对象存到硬盘当中,以二进制序列的形式存储下来反序列化:将存储的二进制序列转换到内存中的对象形式,从而对该对象进行使用主要目的:对模型...

2020-02-07 15:22:22 188

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除