4 FangStar8Jeff

尚未进行身份认证

我要认证

暂无相关简介

等级
TA的排名 9w+

确保业务意图在网络中的正确实施——网络验证研究

https://mp.weixin.qq.com/s?src=11&timestamp=1593671795&ver=2435&signature=EqdGpM*bdRI2X7YwH95HZcTr3f2L5xrvAWnNkh8d4e95xvbJwQabChk6wo6V5nN7KQwGVnTLq29DRjrXM5JtdBVfXFUahQVBGlTRUj5FM*IC0a4SxlWKASwV7dfLyqSH&new=1

2020-07-02 14:41:13

Spark温故而知新

重要角色Driver(驱动器)Spark的驱动器是执行开发程序中的main方法的进程。它负责开发人员编写的用来创建SparkContext、创建RDD,以及进行RDD的转化操作和行动操作代码的执行。如果你是用spark shell,那么当你启动Spark shell的时候,系统后台自启了一个Spark驱动器程序,就是在Spark shell中预加载的一个叫作 sc的SparkContext...

2020-03-27 14:58:12

HBase与Hive的对比

1.Hive(1) 数据仓库Hive的本质其实就相当于将HDFS中已经存储的文件在Mysql中做了一个双射关系,以方便使用HQL去管理查询。(2) 用于数据分析、清洗Hive适用于离线的数据分析和清洗,延迟较高。(3) 基于HDFS、MapReduceHive存储的数据依旧在DataNode上,编写的HQL语句终将是转换为MapReduce代码执行。2.HBase(...

2020-03-25 16:53:27

HBase的读写流程

HBase读数据流程如图3所示图3所示 HBase读数据流程1)Client先访问zookeeper,从meta表读取region的位置,然后读取meta表中的数据。meta中又存储了用户表的region信息;2)根据namespace、表名和rowkey在meta表中找到对应的region信息;3)找到这个region对应的regionserver;4)查找对应的regi...

2020-03-25 16:38:19

HBase复习

HBase的特点1)海量存储Hbase适合存储PB级别的海量数据,在PB级别的数据以及采用廉价PC存储的情况下,能在几十到百毫秒内返回数据。这与Hbase的极易扩展性息息相关。正式因为Hbase良好的扩展性,才为海量数据的存储提供了便利。2)列式存储这里的列式存储其实说的是列族存储,Hbase是根据列族来存储数据的。列族下面可以有非常多的列,列族在创建表的时候就必须指定。3)极...

2020-03-25 16:35:09

Hive的分区字段能否插入到普通字段,普通字段能否插入到分区字段

1、现在新增了一个date类型的新字段值,默认空值,尝试将分区的字段值插入执行以下的语句,将p_pftp_dim_currency表的2019-10-31号的数据插入到p_pftp_dim_currency_jeff中其中data_dt是p_pftp_dim_currency的分区字段,data_date是p_pftp_dim_currency_jeff的普通字段insert o...

2020-03-25 15:44:34

Hive的日期处理函数

1)date_format函数(根据格式整理日期)hive (gmall)> select date_format('2019-02-10','yyyy-MM');2019-022)date_add函数(加减日期)hive (gmall)> select date_add('2019-02-10',-1);2019-02-09hive (gmall)> s...

2020-01-28 10:16:51

Hive的collect_set函数

1)创建原数据表hive (gmall)>drop table if exists stud;create table stud (name string, area string, course string, score int);2)向原数据表中插入数据hive (gmall)>insert into table stud values('zhang3',...

2020-01-28 10:15:03

电商业务术语归类

用户用户以设备为判断标准,在移动统计中,每个独立设备认为是一个独立用户。Android系统根据IMEI号,IOS系统根据OpenUDID来标识一个独立用户,每部手机一个用户。 新增用户首次联网使用应用的用户。如果一个用户首次打开某APP,那这个用户定义为新增用户;卸载再安装的设备,不会被算作一次新增。新增用户包括日新增用户、周新增用户、月新增用户。 活跃用户...

2020-01-28 10:04:33

SHELL脚本中单引号和双引号的区别

在Linux操作系统上编写Shell脚本时候,我们是在变量的前面使用$符号来获取该变量的值,通常在脚本中使用”$param”这种带双引号的格式,但也有出现使用'$param'这种带引号的使用的场景,首先大家看一段例子:[root@linux ~]# name=TekTea[root@linux ~]# echo $nameTekTea[root@linux ~]# sayhello=”H...

2019-12-04 11:25:08

Hive的分区问题以及hdfs映射到Hive的过程

在创建Hive表时,字段分区是一个非常非常容易导致将来遇到问题的一个地方,我们常常将时间日期来作为分区字段。考虑到数据源之间的转换,日期字段作为分区时,不要用date类型!oracle的date类型只支持全格式的数据类型,就是yyyy-MM-dd hh:mm:ss,而Hive则时yyyy-MM-dd,oracle导数据到Hive中,系统会自动截掉后面的时分秒,然而反过来,就不会!!...

2019-11-14 14:13:32

使用DBeaver访问Kerberos下的Hive 最强教程

配置 Windows 的 kerberos 认证操作场景本文以安全模式为例,如果使用 FusionInsight 非安全模式进行对接不需要使用 kerberos认证。前提条件已完成 FusionInsight HD V100R002C70SPC200 的安装,包含 KrbServer 组件。配置kerberos认证步骤 1 下载并安装 MIT Kerberos。下载...

2019-10-10 10:57:40

史上最全IntelliJ IDEA 快捷键,速度收藏!

程序员每日都会花费数小时使用ide编写和调试代码,其中很多操作都是机械重复且频率非常高,本着"工欲善其事必先利其器"的精神,闷头写代码之外花点时间研究一下自己用的ide,其带来的效率提升非常可观。自动代码常用的有fori/sout/psvm+Tab即可生成循环、System.out、main方法等boilerplate样板代码 。例如要输入for(User user : u...

2019-09-04 09:15:01

2019最新spark面试题,看了它,你还怕找不到工作吗?

【导读】本篇文章为大家带来spark面试指南,文内会有两种题型,问答题和代码题,题目大部分来自于网络上,有小部分是来自于工作中的总结,每个题目会给出一个参考答案。为什么考察Spark?Spark作为大数据组件中的执行引擎,具备以下优势特性。 高效性。内存计算下,Spark 比 MapReduce 快100倍。Spark使用最先进的DAG调度程序、查询优化程序和...

2019-09-03 09:14:20

在Windows10,IDEA下进行pyspark编程

python3.7IDEA 2019.1spark2.4.3先在本地Windows下安装好Python(记得安装时候勾选上将配置环境变量)https://baijiahao.baidu.com/s?id=1606573927720991570&wfr=spider&for=pccmd里输入 python -V查看是否安装和配置成功下载好...

2019-08-14 16:12:15

unix_timestamp、from_unixtime时间戳函数的使用

一、unix_timestamp函数用法1、UNIX_TIMESTAMP() :若无参数调用,则返回一个 Unix timestamp ('1970-01-01 00:00:00' GMT 之后的秒数) 作为无符号整数,得到当前时间戳2、UNIX_TIMESTAMP(date):若用date 来调用 UNIX_TIMESTAMP(),它会将参数值以'1970-01-01 00:00:00...

2019-08-03 09:05:42

sparkSQL外部数据源读JDBC

def getDataFrameFromDb(spark: SparkSession, jdbcUrl: String, userName: String, password: String, queryString: String,driverClass: String="com.mysql.jdbc.Driver"): DataFrame = { spark.read.form...

2019-07-31 10:10:58

Git从入门到精通

https://www.liaoxuefeng.com/wiki/896043488029600

2019-07-30 10:00:57

having和where的区别

下面以一个例子来具体的讲解:1. where和having都可以使用的场景1)select addtime,name from dw_users where addtime> 15000000002)select addtime,name from dw_users having addtime> 1500000000解释:上面的having可以用的前提是我已经筛选出了...

2019-07-24 09:03:09

数据分层

在流式数据模型中,数据模型整体上分为五层。1. ODS跟离线系统的定义一样, ODS 层属于操作数据层,是直接从业务系统采集过来的最原始数据,包含了所有业务的变更过程,数据粒度也是最细的。在这一层,实时和离线在源头上是统一的, 这样的好处是用同一份数据加工出来的指标,口径基本是统一的,可以更方便进行实时和离线间数据比对。例如:原始的订单变更记录数据、服务器引擎的访问日志。...

2019-07-10 16:45:10

查看更多

勋章 我的勋章
  • 签到新秀
    签到新秀
    累计签到获取,不积跬步,无以至千里,继续坚持!
  • 技术圈认证
    技术圈认证
    用户完成年度认证,即可获得
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。