自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

StoneWords的博客

分享一些日常学习工作时候的心得于体会

  • 博客(36)
  • 收藏
  • 关注

原创 日常使用过程中易出错的 Hive Sql 合集

结果是错误的,把所有的电器类型都查询出来了,原因就是 and 优先级高于 or,上面的sql语句实际执行的是,先找出 classify = '家具' and price>100 的,然后在找出 classify = '电器' 的。在进行数仓搭建和数据分析时最常用的就是 sql,其语法简洁明了,易于理解,目前大数据领域的几大主流框架全部都支持sql语法,包括 hive,spark,flink等,所以sql在大数据领域有着不可替代的作用,需要我们重点掌握。

2022-09-27 13:03:06 181 1

原创 Hive企业级优化

当然,有时候空值的数据又不一定是异常数据,还是需要保留的,但是空key过多都分配到一个reducer去了,这样执行起来就算不内存溢出也会发生数据倾斜情况,数据倾斜的话对集群资源的利用率来看的话是极其不利的,我们可以通过把空key虚拟成随机数,但要保证不是同一个空key,从而降低数据倾斜概率,虽然这样在对关联键做处理反而会总体增长执行时间,但却减轻了reducer负担。做hive优化的时候,涉及到参数调优时要慎重,比如把内存都申请抢占满了,避免因为你自己的任务调优了但影响到整个集群其他任务的资源分配,

2022-09-14 10:41:26 309

原创 Hive 高频考点讲解

1 HiveHive 是 FaceBook 开源的一款基于 Hadoop 数据仓库工具,它可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。The Apache Hive ™ data warehouse software facilitates reading, writing, and managing large datasets residing in distributed storage using SQL 。1.1 Hive 优缺点1.1.1 优点 操作接口

2021-05-19 18:41:00 298 5

原创 sqoop job 实现自动增量导入

目录一、测试环境 1、MySQL表结构 2、hive表结构 二、普通增量导入 三、sqoop job增量导入 1、sqoop job 参数 2、查看已经存在的job 5、运行job并验证 回到顶部一、测试环境1、MySQL表结构mysql> show create table autoextend\GCREATE TABLE `autoextend` ( `id` bigint(20) NOT NULL AUTO_INCREMENT, ...

2021-02-02 21:05:24 441 1

原创 Hive性能调优指南

在企业中使用Hive构建离线数仓是一种十分普遍的方案。尽管Hive的使用场景是通过批处理的方式处理大数据,通常对处理时间不敏感。但是在资源有限的情况下,我们需要关注Hive的性能调优,从而方便数据的快速产出。同时,关于Hive的性能调优,也是面试中比较常见的问题,因此掌握Hive性能调优的一些方法,不仅能够在工作中提升效率而且还可以在面试中脱颖而出。本文会通过四个方面介绍Hive性能调优,主要包括:√性能调优的工具√设计优化√数据存储优化√作业优化性能调优的工具HQL提供了两个查看查

2020-10-19 19:36:47 886 1

转载 ROW_NUMBER() OVER函数的基本用法

语法:ROW_NUMBER() OVER(PARTITION BY COLUMN ORDER BY COLUMN)步骤1:简单的说row_number()从1开始,为每一条分组记录返回一个数字,这里的ROW_NUMBER() OVER (ORDER BY xlh DESC) 是先把xlh列降序,再为降序以后的没条xlh记录返回一个序号。步骤2:row_number() OVER (PART...

2019-06-13 19:32:34 246

转载 MySQL的binlog日志详解

binlog 基本认识 MySQL的二进制日志可以说是MySQL最重要的日志了,它记录了所有的DDL和DML(除了数据查询语句)语句,以事件形式记录,还包含语句所执行的消耗的时间,MySQL的二进制日志是事务安全型的。 一般来说开启二进制日志大概会有1%的性能损耗(参见MySQL官方中文手册 5.1.24版)。二进制有两个最重要的使用场景: 其一:MySQL Rep...

2019-02-26 20:00:12 282

转载 hive常用函数之字符串处理函数

1. 字符串长度函数:length语法: length(string A)返回值: int说明:返回字符串A的长度举例:hive> select length('abcedfg') from lxw_dual;          72. 字符串反转函数:reverse语法: reverse(string A)返回值: string说明:返回字符串A的反转结果举例:hi...

2019-02-22 18:46:59 1456

转载 百亿级全网舆情分析系统存储设计

前言在时下互联网信息的浪潮下,信息的传播速度远超我们的想象。微博里一条大V的帖子,朋友圈的一个状态更新,热门论坛的一条新闻,购物平台的购物评价,可能会产生数以万计的转发,关注,点赞。如果是一些非理性负面的评论会激发人们的负面感,甚至影响到消费者对企业品牌的认同,如果不能及时的采取正确的应对措施,会造成难以估计的损失。所以我们需要一个高效的全网舆情分析系统,帮助我们实时的观测舆情。这个全网舆...

2019-02-21 17:16:50 523

转载 基于TableStore的数据采集分析系统介绍

摘要在互联网高度发达的今天,ipad、手机等智能终端设备随处可见,运行在其中的APP、网站也非常多,如何采集终端数据进行分析,提升软件的品质非常重要,例如PV/UV统计、用户行为数据统计与分析等。虽然场景简单,但是数据量大,对系统的吞吐量、实时性、分析能力、查询能力都有较高的要求,搭建起来并不容易。今天我们来介绍一下基于阿里云表格存储,以及相关的大数据产品来采集与分析数据的方案。Table...

2019-02-21 17:11:38 329

转载 使用Hive处理服务器导入到OSS的日志数据

假设这样一个场景,用户有许多的机器(ECS或者自有机房的都可以),每天产生非常多的日志,记录了用户的访问的一些信息,比如userId,访问的页面地址,访问的时间,访问Ip等等。我们对这些数据进行一个离线分析,每天分析一次,计算网站的各个页面的UV、PV,并观察一下是否有作弊的情况:如多个不同的账号来自于同一个IP。并能将最终的这个结果同步到数据库中,在管理后台查看。那么使用E-MapReduc...

2019-01-11 14:21:54 1193

原创 sql50道题及答案详解

创建表语句 create table Student(sid varchar(10),sname varchar(10),sage datetime,ssex nvarchar(10));insert into Student values('01' , '赵雷' , '1990-01-01' , '男');insert into Student values('02' , '钱电' ...

2018-11-17 20:36:02 1257

原创 教你如何使用强大的adb工具,解决你最头疼的问题!

先介绍一下什么是ADB:adb的全称为Android Debug Bridge,就是起到调试桥的作用。借助adb工具,我们可以管理设备或手机模拟器的状态。还可以进行很多手机操作,如安装软件、系统升级、运行shell命令等等。其实简而言说,adb就是连接Android手机与PC端的桥梁,可以让用户在电脑上对手机进行全面的操作。实际上adb工具确实很有用,很多Root方法等等的都需要用到adb,只...

2018-11-05 21:27:07 26370

原创 Auto.js 脚本自动收取自己和好友的蚂蚁森林能量

用autoJS写的能量收取脚本软件.说一下达到的效果,把蚂蚁森林按钮要设置在常用应用中.先收取自己主页的能量,然后进入排行榜收集好友的能量.中途可以按下音量下键提前结束脚本运行.改改测测基本上现在运行完美的了,充分衡量了网络延迟和程序运行正常的平衡性.并且支持支持运动能量生成时间段执行,等待自己的运动能量生成收集.我是配合tasker设置的定时执行脚本,由Tasker唤醒设备教程链接,调用auto...

2018-08-20 16:33:41 4612 5

原创 sql常用语句整理(包括增删改查),适合小白使用

一、插入(复制)表数据1、INSERT INTO 语句(1)插入新的一行数据[sql] view plain copyINSERT INTO Persons VALUES ('Gates', 'Bill', 'Xuanwumen 10', 'Beijing');  (2)在指定的列中插入数据[sql] view plain copyINSERT INTO Persons (LastName, ...

2018-05-29 15:59:44 41452 2

原创 用阿里云轻松搞定日志实时分析及监控大屏

 通过最佳实践帮助您实现上述案例效果Step1:数据准备数据格式如下:$remote_addr - $remote_user [$time_local] "$request" $status $body_bytes_sent"$http_referer" "$http_user_agent" [unknown_content];主要字段说明如下:字段名称字段说明$remote_add...

2018-05-11 09:12:38 9795 2

原创 关系型和非关系型数据库的区别?

当前主流的关系型数据库有Oracle、DB2、Microsoft SQL Server、Microsoft Access、MySQL等。非关系型数据库有 NoSql、Cloudant。nosql和关系型数据库比较?优点:1)成本:nosql数据库简单易部署,基本都是开源软件,不需要像使用oracle那样花费大量成本购买使用,相比关系型数据库价格便宜。2)查询速度:nosql数据库将数据存储于缓...

2018-05-10 15:01:57 1862

原创 大数据项目的一般测试方法

一.功能性测试       大数据功能主要涉及系统实现面向大数据分析应用的POSIX API,包括文件读取与访问控制,元数据操作,锁操作等功能;大数据分析系统的POSIX语义不同,实现的文件系统API也不同,功能测试要覆盖到大数据系统涉及实现的API和功能点;功能测试工作量大,应该重点考虑应用自动化测试方法进行,同时结合手动测试补充,自动化工具推荐ltp,fstest和locktests。  ...

2018-05-08 09:14:02 15684 5

原创 常见的几种RuntimeException及其详解

一般面试中java Exception(runtimeException )是必会被问到的问题常见的异常列出四五种,是基本要求。更多的。。。。需要注意积累了 常见的几种如下: NullPointerException - 空指针引用异常ClassCastException - 类型强制转换异常。IllegalArgumentException - 传递非法参数异常。ArithmeticExce...

2018-04-24 09:36:26 38000

原创 Windows下使用DOS命令进入MySQL数据库

工具/原料MySQL数据库5.5.25(已完成安装并配置环境变量)Windows7操作系统方法/步骤桌面左下角windows图标--搜索框内输入cmd,结果如图所示,点击cmd.exe,或者使用快捷键Windows键(在键盘上有个Windows标志的按键)+R输入cmd后回车。启动mysql数据库:在出来的DOS命令窗口中输入 net start mysql,或者使用快捷键Windows键(在键盘...

2018-04-21 15:28:54 425

原创 Hadoop Shell命令(基于linux操作系统上传下载文件到hdfs文件系统基本命令学习)

Apache-->hadoop的官网文档命令学习:http://hadoop.apache.org/docs/r1.0.4/cn/hdfs_shell.htmlFS Shell调用文件系统(FS)Shell命令应使用 bin/hadoop fs <args>的形式。 所有的的FS shell命令使用URI路径作为参数。URI格式是scheme://authority/path...

2018-04-20 13:03:36 930

原创 linux中ifconfig后不显示eth0网卡的解决方法

【环境参数】VMware:10.0.1 build-1379776Host OS:Win7 32bitHost IP:192.168.0.101Client IP:无网卡Client OS:CentOS 6.5 x86_64,i686,最小化安装(Minimal)。在安装自定义组件包时,(1)Base System只安装了Base,Compatibility Libraries和Debuggi...

2018-04-18 22:11:06 16772 1

原创 Sqoop-1.4.6安装部署及详细使用介绍

之所以选择Sqoop1是因为Sqoop2目前问题太多。无法正常使用,综合比较后选择Sqoop1。Sqoop1安装配置比较简单一、安装部署(1)、下载地址:http://archive.cloudera.com/cdh5/cdh/5/sqoop-1.4.6-cdh5.5.2.tar.gz解压到/opt/cdh5/sqoop(2)、拷贝mysql的jdbc驱动包mysql-connector-ja...

2018-04-18 12:37:10 246

原创 Kettle Spoon入门教程

Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,数据抽取高效稳定。其中,Spoon是Kettle中的一个组件,其他组件有PAN,CHEF,Encr和KITCHEN等。Spoon通过图形化的页面,方便直观的让你完成数据转换的操作。1、安装配置点我下载最新版本是7.1,小编这里使用的是6.1。下载完毕后,解压即可。因为是Java编写的,需要j...

2018-04-16 21:22:52 1279

原创 Spark基础知识点儿汇总

*spark的理解spark是一个快速的、统一的大规模数据处理引擎它是基于内存计算的它的特点是:快速、易用、适用于各种数据处理场景(批处理、流处理、交互式处理)、它可以运行在多种分布式计算框架中,如yarn和mesos等*spark的架构Master  spark计算集群的主节点,负责接收客户端提交来的spark job,并且负责work节点的资源申请和资源调配,在程序运行时,对各个子节点的状...

2018-04-13 19:26:05 1974

原创 Spark常用算子详解

Spark的算子的分类   从大方向来说,Spark 算子大致可以分为以下两类:     1)Transformation 变换/转换算子:这种变换并不触发提交作业,完成作业中间过程处理。     Transformation 操作是延迟计算的,也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行,需要等到有 Action 操作的时候才会真正触发运算。     2)Action...

2018-04-12 19:22:11 38056 6

原创 Intellij IDEA 快捷键整理

【常规】Ctrl+Shift + Enter,语句完成“!”,否定完成,输入表达式时按 “!”键Ctrl+E,最近的文件Ctrl+Shift+E,最近更改的文件Shift+Click,可以关闭文件Ctrl+[ OR ],可以跑到大括号的开头与结尾Ctrl+F12,可以显示当前文件的结构Ctrl+F7,可以查询当前元素在当前文件中的引用,然后按 F3 可以选择Ctrl+N,可以快速打开类Ctrl...

2018-03-24 11:06:49 269

原创 使用 Flume 收集数据

一、实验介绍1.1 实验内容Flume 是分布式的日志收集系统,可以处理各种类型各种格式的日志数据,包括avro、thrift、exec、jms、spooling directory、netcat、sequence generator、syslog、http、legacy、自定义等,本节课主要讲解 Flume 的应用案例。1.2 课程来源本课程源自 图灵教育 的 《Hadoop基础教程》 第1...

2018-03-23 16:50:59 550

原创 mysql 远程连接数据库的方法汇总

一、连接远程数据库:1、显示密码如:MySQL 连接远程数据库(192.168.5.116),端口“3306”,用户名为“root”,密码“123456”C:/>mysql -h 192.168.5.116 -P 3306 -u root -p1234562、隐藏密码如:MySQL 连接本地数据库,用户名为“root”,C:/>mysql -h localhost -u root ...

2018-03-20 10:56:40 604

转载 Flume-og和Flume-ng的变化详解

Cloudera 开发的分布式日志收集系统 Flume,可以实时的将分布在不同节点、机器上的日志收集到 存储系统中。Flume 初始的发行版本统称为 Flume OG(original generation),属于 cloudera。但随着 Flume 功能的扩展,Flume OG 代码工程臃肿、核心组件设计不合理、核心配置不标准等缺点暴露出来,尤其 Flume OG 的最后一个发行版本 0....

2018-03-16 21:44:33 853

原创 flume基本知识要点儿须知

运行flume:flume-ng agent -c conf -f netcat to_logger.conf --name atelnet centosl 8888yum install telnet.x86 61特点:    1.采集大量的log数据    2.高可靠性,高效性和高可用性    3.分布式    4.不仅可以采集转移数据,还可以对数据进行处的处理操作(对数据的简单清洗可以由...

2018-03-16 08:55:42 373

原创 Phoenix4.7.0安装

1. phoenix安装拷贝phoenix-4.7.0-HBase-1.1-bin.tar.gz文件到linux的/usr/tools目录下面解压:tar –zxvf phoenix-4.7.0-HBase-1.1-bin.tar.gz生成新的目录phoenix-4.7.0-HBase-1.1-bin将其配置到环境变量中去#phoenixexport PHOENIX_HOME=/usr/too...

2018-03-14 19:13:42 548

转载 HBase-1.2.1和Phoenix-4.7.0分布式安装指南

目录目录 11. 前言 22. 概念 22.1. Region name 23. 约定 24. 相关端口 35. 下载HBase 36. 安装步骤 36.1. 修改conf/regionservers 36.2. 修改conf/hbase-site.xml 36.2.1. hbase.master.info.port 56.2.2. hbase.master.info.bindAddress 56...

2018-03-14 15:42:16 725

原创 HBase行键设计原则

【原理】HBase是一个分布式的、面向列的数据库,它和一般关系型数据库的最大区别是:HBase很适合于存储非结构化的数据,还有就是它基于列的而不是基于行的模式。既然HBase是采用KeyValue的列存储,那Rowkey就是KeyValue的Key了,表示唯一一行。Rowkey也是一段二进制码流,最大长度为64KB,内容可以由使用的用户自定义。数据加载时,一般也是根据Rowkey的二进制序由小...

2018-03-13 16:58:16 9919

转载 HDFS基本原理及数据存取实战

本文主要介绍了hdfs的基本原理、hdfs基本操作、hdfs的读取数据流程、namenode工作机制,rpc编程以及常见的两种必会的面试题等,旨在于全面深入的理解HDFS的基本工作流程并可以开发出简易的HDFS的程序。一、HDFS简介Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。HDFS体系结构中有两类节点,一类是N...

2018-03-10 17:42:04 594

转载 Linux中命令选项及参数简介

登录Linux后,我们就可以在#或$符后面去输入命令,有的时候命令后面还会跟着“选项”(英文options)或“参数”(英文arguments)。即Linux中命令格式为:command [options] [arguments] //中括号代表是可选的,即有些命令不需要选项也不需要参数,但有的命令在运行时需要多个选项或参数。选项options:选项是调整命令执行行为的开关

2018-01-15 19:45:33 5107 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除