• 博客(80)
  • 收藏
  • 关注

原创 当你看到这,才说明你真的懂数仓

我发现有的公司把宽表和明细层多同步一份到集市层给应用侧直接调用。不允许应用方调用仓内明细表和宽表的。大厂也这么搞吗?

2024-02-05 14:58:46 285

原创 必读:揭秘HR心理,高效制胜校招实习简历!

很多同学之前私信过语兴简历修改问题,这期我找几个特定典型问题说。

2024-02-04 14:32:27 355

原创 一文带你了解数据岗位:解锁数据世界的秘密

可能很多人不清楚数据仓库具体是要做什么内容,为了方便理解我们把数据仓库理解为大型餐厅中的仓库及配菜。(1)将数据从各类系统接入,如关系型数据库,日志系统,客户端,服务端等(就像把鸡牛羊从牧场买来,把菜从地里拔出来)简称数据传输(extract)。(2)将数据按照数据建模的方式,进行清洗,转化(就像把菜洗干净,肉切好,放在不同的货架上)简称为数据转换(transform)。

2024-02-01 10:50:15 162

原创 数据域,主题域,傻傻分不清?

在数据的舞台上,划分数据域就像是一场魔法表演✨。这个魔法的目的是为了让整体数据管理变得轻松、查找变得得心应手,使业务环节像魔法般独立运作。这不仅让数据仓库和数据分析小伙伴轻松规划自己的领域,也让下游业务使用变得更加清晰和高效。

2024-02-01 10:46:33 233

原创 我是职场小白,如何能够平稳度过试用期?

2022整年可能大家在各个信息平台都有看到应届、试用期毕业(cy)情况,收集不少信息后发现数据这边毕业的也不少,尤其是数据分析/数据仓库侧(由于业务线被砍,人员使用成本太高),本节课针对于试用期该如何卷赢其他人,拿到好的试用期评价提出一些方法(当然也存在个人做的很好,但业务线亏损裁员,这不能怪个人能力差,被裁后立马写简历找下家)

2024-01-29 11:04:28 251

原创 学了这一篇,你对Hive优化会更上一层楼

问题1:– 所有节点的总(默认)限制为1000个动态分区– 默认值为每个节点100个动态分区我看某个博客上:#表示每个maper或reducer可以允许创建的最大动态分区个数这种说法对吗?如果正确,是不是:意味着每个节点上只能有1个maper或reducer问题2、输入的数据量比较大,比如1T数据,此时启动2000个Mapper任务去读取,这些Mapper任务的并行度是多少呢,如何确定的?开启动态分区后,这个任务的小文件数是如何确定的呢?

2024-01-29 11:01:58 167

原创 回响科技二面面试题解答

1、你们的数仓中DWD层为什么要划分数据域?划分数据域之后会对ADS层造成什么影响?是可以提效还是可扩展性强?你们是如何考虑的呢?2、AZkaban和dolphinScheduler的区别是什么?如果选型会从哪几个方面来考虑呢?3、数仓中数据的幂等性如何实现?就是如何保证数仓中的数据不丢失和不重复?4、零点漂移问题如何解决?5、你们是如何统一指标口径?

2024-01-29 11:00:21 484

原创 数据能给业务带来多大价值?

每次完成提数或报表后,怎么知道提供的数据能给业务带来多大的效益或帮助?想追踪数据的业务价值,有什么好的方法论嘛?

2024-01-29 10:58:13 154

原创 字节跳动二面经典题目

语论即为「语兴式论语」,以语录体及对话的形式,沉淀球友实际工作学习中存在的疑难杂症解答,希望能够更好的帮助到球友和粉丝。欢迎关注公众号:语数。

2024-01-29 10:50:32 176

原创 今年这个行情,我劝你早点准备校招

近年来,高校毕业生的数量快速增长,从2022年的1076万人到2023年的1158万人,预计2024年将达到1187万人。而秋季校园招聘提前批自7月启动,已如火如荼地进行了两个多月。暑期结束,也宣告着秋招的爆发期即将开始。一家又一家企业开启了校园招聘,我还没开始准备,因为无从下手,可又想要毕业时能拿到一个满意的Offer。这样的情况,我该怎么办?本人作为24届毕业的硕士生,从7月初至9月中旬参加秋招,目前已收到了4家大厂的意向,其中技术面试参与30余场(其中一面挂2场 二面挂0场 三面挂2场)

2024-01-29 10:24:48 1213

原创 深入浅出数据产品与指标体系

快速支持报表开发,主要在于前期数分与数仓沟通时候,数分能清楚到底要看什么方向指标,以及北极星指标拆解后的口径内容(一定要确定指标口径,如果只是看看,可让他们自己写sql加工),当确定完指标后数仓可优先设计ads模型划分主题先给到数分侧空表让他们把看板搭起来,如果数据还没接入可设计好ads 后开始接入,后续等数分将看板搭建好后数仓这边也几乎完成ads数据模型开发,共同抽1天去测试即可,当出现开发加测试时间很紧迫的时候,可优先做ods 穿透 后续补dwd dws。应球友建议,将语数精选改为语论,语论即为。

2024-01-29 10:22:58 776

原创 当你要做数仓汇报时,应该怎么讲故事?

语数精选来源于语数社区星球球友提问,主要沉淀一些大家工作和学习过程中存在的一些共性问题,希望能够更好的帮助到球友和粉丝。欢迎关注公众号:语数。

2024-01-29 10:21:07 740

原创 一文掌握0基础如何体系化学习数仓

语数精选来源于语数社区星球球友提问,主要沉淀一些大家工作和学习过程中存在的一些共性问题,希望能够更好的帮助到球友和粉丝。欢迎关注公众号:语数。

2024-01-29 10:20:23 872

原创 以数仓视角切入学习路线,大数据真正需要学习的内容有哪些?

语数精选来源于语数社区星球球友提问,主要沉淀一些大家工作和学习过程中存在的一些共性问题,希望能够更好的帮助到球友和粉丝。

2024-01-29 10:19:13 850

原创 面试官告诉你:大数据究竟该怎么学

2024-01-29 10:13:40 274

原创 揭秘:数仓开发面试真正需要注意的点

针对不同面试我们回答的内容也不同1面:mentor面考察基础,可以把你从项目背景到项目整体过程和细节以及成果说出,让面试官知道你在做什么。2面:leader 面考察基础同时考察场景应对能力,可以讲一讲项目整体背景以及开发流程,细节可以不说,最终讲一下结果,这里记得准备一个你在项目中遇到的难点还有未来规划。

2024-01-29 10:11:18 752

原创 数仓建设学习路线(五)-数据质量保障

如果下游血缘存在不是自己的表/报表,需要在相关业务群里说一下/找到下游表owner/报表owner发送通知,让下游owner进行修改,如联系不上需要向owner的leader说明问题,并且让下游表/报表的owner当天回复一下受不受影响,不回复则对方承担问题责任,如果对方不接受修改方案,需要双方约定一下修改内容、修改日期,重定方案。数据质量,意如其名,就是数据的准确性,他是数据仓库的基石,控制好数据质量,是做数据仓库基本要求,也使得下游业务方对数据用的放心。-->数据初始化(线上环境)

2024-01-25 17:48:26 344

原创 我在面试时写了这个,面试官对我刮目相看

对用户和新的日期进行分组聚合,得到用户和新的日期分别为多少天。作为资深面试官,孟哥常提及SQL的重要性,下面将通过两道SQL的讲解,帮助大家更好的理解题目的含义,更好的在实际生产场景中实践起来。只需要把今日登录的用户和未来第七天登录的用户的去重集合,取交集便可,取完交集再除以今日登录的用户数便为留存率。只需要把今日登录的用户和未来七天登录的用户的去重集合,取交集便可,取完交集再除以今日登录的用户数便为留存率。口径确认除了七日和第七日的处理外,还有七日和自然周的区别,还有的会牵扯到周同比,周环比。

2024-01-25 10:22:41 350

原创 数仓建设学习路线(四)-指标体系建设

与下游(风控/bi)达成合作,保障指标建设时口径的统一,完成指标覆盖,提升复用性,通过可视化方式提升查询效率。

2024-01-22 15:45:58 622

原创 数仓建设学习路线(三)元数据管理

元数据管理

2024-01-22 15:38:20 470

原创 数据治理实践 | 小文件治理

小文件是数仓侧长期头痛问题,它们会占用过多的存储空间,影响查询性能。因此,我们需要采取一些措施来对小文件进行治理,以保证Hive的高效性和稳定性。在本文中,我将介绍Hive中小文件治理的方法和技巧,希望对大家有所帮助。

2024-01-09 15:57:46 1162

原创 数据治理实践 | 网易某业务线的计算资源治理

本文从计算资源治理实践出发,带大家清楚认识计算资源治理到底该如何进行,并如何应用到其他项目中。由于数据治理层面可以分多个层面且内容繁多(包括模型合规、数据质量、数据安全、计算/存储资源、数据价值等治理内容),因此需要单独拆分为6个模块单独去阐述其中内容。笔者作为数仓开发经常会收到大量集群资源满载、任务产出延时等消息/邮件,甚至下游数分及其他同学也会询问任务运行慢的情况,在这里很多数仓同学遇到这类问题第一想到的都是加资源解决,但事实真不一定是缺少资源,而是需要优化当前问题任务。

2024-01-09 15:51:30 920

原创 数仓建设学习路线(二)模型建设(2)

欢迎各位同学评论区交流!也可以私信联系我进入学习交流群!

2024-01-08 16:43:15 944

原创 数仓建设学习路线(二)模型建设(1)

数据特征的抽象,通常包括数据结构、数据操作、数据约束。

2024-01-08 16:16:48 886

原创 数仓建设学习路线(一)认识数仓

更多文档资料关注gzh:语数,即可获取。

2024-01-08 15:54:17 556

原创 一文搞懂Yarn基础知识点

(12)MR向两个接收到任务的NodeManager发送程序启动脚本,这两个NodeManager分别启动MapTask,MapTask对数据分区排序。(11)RM将运行MapTask任务分配给另外两个NodeManager,另两个NodeManager分别领取任务并创建容器。(13)MrAppMaster等待所有MapTask运行完毕后,向RM申请容器,运行ReduceTask。(10)MRAppmaster向RM 申请运行MapTask资源。(5)程序资源提交完毕后,申请运行mrAppMaster。

2023-06-27 13:42:05 234

原创 Mac部署大数据学习环境(二)

sftp上传jdk解压并改名配置环境变量。

2023-04-18 15:24:16 164

原创 Mac部署大数据学习环境(一)

查看网段和子网掩码。

2023-04-18 15:20:05 194

原创 vbox CentOS7扩容

1.进入目录:cd /Applications/VirtualBox.app/Contents/MacOS/2.查看hdds:VBoxManage list hdds3.调整大小:VBoxManage modifyhd 317e9c64-585b-4a97-b555-29b1e089321c --resize 51200查看磁盘情况:fdisk -l /dev/sda使用 fdisk 将虚拟磁盘的空闲空间创建为一个新的分区:fdisk /dev/sdan {new partition}

2021-10-30 10:02:38 173

原创 mac idea常用快捷键总结

编辑类:Command + Shift + Enter 自动结束代码,行末自动添加分号Command + Option + T 对代码进行异常处理Command + / 注释/取消注释与行注释Command + Option + / 注释/取消注释与块注释Option + 方向键上 连续选中代码块Option + 方向键下 减少当前选中的代码块Command + Option + L 格式化代码Command + D 复制当前行或选定的块Fn+上键 向上翻页Fn+下键 向下翻页Comm

2021-09-24 10:41:12 723

原创 过滤Sqoop脚本内容中库表并生成定表刷新元数据脚本

#!/bin/bash#description:for special table invalid metadata;function grep_databseAndTableName(){for file in $(ls *.sh) do grep -o 'database\s\+\w\+\s\+\-*\w*\-\+\w\+\s\+\w\+' $file>>metadata_$file done}grep_databseAndTableNameecho "done grep

2021-09-08 15:27:56 170

原创 Hue实现Hive2脚本传参调度

首先准备一个hql文件如 xxx.hql然后设置给定HQL脚本中的动态参数变量名给定动态参数名Schedule中使用Oozie系统变量进行指定参数值

2021-05-19 18:26:26 392

原创 Hive计算身份证年龄

year(from_unixtime(unix_timestamp(),"yyyy-MM-dd")) - year(to_date(from_unixtime(unix_timestamp(substr(usr_id_card,7,8),'yyyyMMdd'),'yyyy-MM-dd')))

2020-08-13 14:28:09 2628

原创 JS页面带参跳转

// 跳转账单详情页function goRepayDetail(orderNo,productName,debit,contractIndex){ console.log('ok'); sessionStorage.setItem("drainageOrderNo",orderNo); sessionStorage.setItem("productName",productName); sessionStorage.setItem("debit", debit); .

2020-08-13 14:25:16 484

原创 sqoop导出脚本范例

其中参数分别为jdbc链接用户名密码mysql表名hive指定的hdfs文件夹更新键:数据插入mysql中根据此键来进行变化 写成sql表示为:update *** set *** = ?? where contract_index=??update-mode:表示更新的类型 有两种 一种是允许插入,另一种是只做更新操作指定分隔符指定换行符最后指定map数即可完成sqoop导出其本质并不是导出Hive表而是导出Hdfs...

2020-08-13 14:23:30 237

原创 JS移动端/PC端校验

if (navigator.userAgent.match(/(phone|pad|pod|iPhone|iPod|ios|iPad|Android|Mobile|BlackBerry|IEMobile|MQQBrowser|JUC|Fennec|wOSBrowser|BrowserNG|WebOS|Symbian|Windows Phone)/i))对userAgent进行正则匹配,可以写正则来添加相应的设备解决部分设备不兼容的问题...

2020-08-13 14:16:37 242

原创 Flume+Kafka+Spark Stremming+HBase+Phoenix实现日志数据处理分析

版本环境:Hadoop:3.0 -CDH6.2.1Spark:2.4-CDH6.2.1HBase:2.1.0-CDH6.2.1Phoenix:5.0.0-cdh6.2.0.p0.1308267基本架构:为什么要记录用户访问行为日志?1.网站页面的访问量2.网站的黏性 用户使用web端或者App端的多次点击,链接点击用户行为日志内容:客户端模块 app ID跳转链接地...

2019-12-16 18:05:20 913

原创 数据仓库简介

数据仓库构建数仓架构图:数据仓库的三个阶段:第一阶段:使用大量成熟的开源框架,主要是离线批处理为主,外围系统自研能力较弱,数据量和集群资源少。第二阶段:使用开源+自研方式,有自己的方法论和建模体系,有完善的元数据管理,数据质量监控。能有效支持离线实时需求第三阶段: 自研通用一站式大数据处理平台,有完善的数仓理论基础和外围工具,有完善的数据共享机制和权限管理趋势: 工...

2019-12-16 17:48:53 185

原创 大数据技术之 --Apache Phoenix

简介Phoenix是一个在Hbase上面实现的基于Hadoop的OLTP技术,具有低延迟、事务性、可使用SQL、提供JDBC接口的特点。 而且Phoenix还提供了Hbase二级索引的解决方案,丰富了Hbase查询的多样性,继承了Hbase海量数据快速随机查询的特点。Phoenix完全使用Java编写,作为HBase内嵌的JDBC驱动。Phoenix查询引擎会将SQL查询转换为一个或多个HBa...

2019-11-29 09:47:54 709

原创 Canal简介

简介Canal:译意为水道/管道/沟渠,主要用途是基于 MySQL 数据库增量日志解析,提供增量数据订阅和消费早期阿里巴巴因为杭州和美国双机房部署,存在跨机房同步的业务需求,实现方式主要是基于业务 trigger 获取增量变更。从 2010 年开始,业务逐步尝试数据库日志解析获取增量变更进行同步,由此衍生出了大量的数据库增量订阅和消费业务。基于日志增量订阅和消费的业务包括数据库镜像数据...

2019-11-29 09:40:45 941

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除