- 博客(11)
- 收藏
- 关注
原创 windows c++ vscode 环境搭建
主要参考两个文章这里面是基础的编译器下载安装,以及vscode要装什么插件https://zhuanlan.zhihu.com/p/77645306他推荐的地址下载太慢了,可以去网盘里面搜一下(油猴脚本里面有网盘搜索工具)这里是相关的配置jsonhttps://www.zhihu.com/question/30315894配置好之后重启vsc就行了...
2022-03-09 22:35:01 821
原创 jupyter notebook 切换kernel
维护一个用pandas处理的脚本,想用jupyter notebook来观察df,发现右上角只有默认内置的python执行器,找到了方法。1 激活想要更换的环境,意会,conda就是conda active之类的source activate pytorch(你的环境名)2 安装ipykernelpip3 install ipykernel3 环境加入ipykernelpython3 -m ipykernel install --user --name pytorch(你的环境名)..
2021-10-28 17:17:56 140
原创 springboot helloworld 新手上路
可以参考官方文档 官方文档,也可以参考 快速新建springboot项目热部署的时候,有一点奇怪,我需要在configration里面指定两项才能生效,而且需要我切到别的窗口才能触发自动重新编译。
2021-08-04 16:57:31 100
原创 一次由datagrip连hive的引发采坑之旅
最近tidb搞得比较多,这块都有点忘了。。。1 datagrip 连 hive1.1 保证hive启动了hiveserver2nohup hive --service hiveserver2 &1.2 datagrip配置跟hive配置文件一致就可以,不过注意用户名密码要用平时操作hadoop的用户名。本来还想去mysql查下hive的user表,看看用哪个user。后来发现hive和hadoop一样,都是没有用户管理的,用的就是linux系统的user。所以要用操作hadoop的
2021-07-11 00:03:15 1031 3
原创 《spark设计与实现》(许利杰)--读书笔记
除了主要介绍spark,还有一些跟mapreduce对比的内容。1 大数据处理框架概览1.1 大数据处理框架的四层结构1.1.1 用户层:数据输入、用户代码、配置参数生成应用提交给计算框架mr:driver负责设定输入输出数据类型,提交作业spark:driver能产生数据、广播给task,收集task数据,在driver内计算结果等。1.1.2 分布式数据并行处理层把应用转化成计算任务,再分布式执行。mr:map-shuffle-reduce将分块数据进行map(),结果写入buff
2020-09-09 20:59:44 778 2
原创 数仓规范
1 设计规范埋点规范见 数仓技术架构这个博客分层大家也都差不多,不过流量为主的数仓就比较千奇百怪的2 命名规范先把常用的术语抽出来,完了统一编个名字2.1 表的命名规范层_主题_名字_周期ods的标记出源系统2.2 字段命名2.3 脚本命名跟产出表同名导入导出的也标记一下导入导出的这个导出的应该在exp后面加上目的地(BI),这样同一个表导出多系统也不会重名了3 开发规范避免耦合,方便定位错误sql脚本注意对齐,不用tab...
2020-09-02 22:51:34 630
原创 维度建模详解
星座模型只是星型模型的维度公用,类似这种实际开发中,针对某一主题可以有明确的星型模型,星座模型啥的。但是众多主题间也存在维度公用的情况,这样交织在一起形成一张大网,很难说是啥模型吧。1 维度设计1.1 代理键维度表主键,关联事实表解决办法:自创一个自增的id,取代source+id这种判断方法所以有了代理键这个东西:实现方法:前一天gid的max+新增数据的行号,就是增量的gid了。1.2 稳定维度1.3 缓慢渐变维 => 拉链表这样这个id就不唯一了,跟事实表关联的
2020-09-01 23:42:22 4128
原创 数据质量管理
阿里做了十年数仓也才打通整个数据质量管理,不是一个两个数仓的人说要管质量就能管的了的。。。。方方面面都得考虑数据质量控制环节1 数据生产环节业务开发数仓说不上话,现有业务后有数仓,起初可能考虑不到,业务变化了等2 采集同步阶段尽量统一标准,控制好边界3 数据模型设计维度退化可能造成数据不一致=>存好历史状态,保证元数据字典完整,尽早计算下面就不会各算各的了4 ETL开发 & 指标体系监控机制才能保证数据的及时性统一口径定义,这个事也不是一个小技术人员就能搞定的,
2020-09-01 16:35:18 368
原创 数仓技术架构&采集同步
数据同步工具datax也有集群模式了,现在性能应该还好。sqoop就是调度了map任务集群加机器了记得要在数据库那边加入白名单Flume几十上百台日志服务器的话,直接往hdfs上写也不现实,一般会做两层flume,第二层放个三两台再往hdfs写。一般会后面布kafka,实时离线都从kafka消费,保证数据统一。调度系统Oozie与hadoop、hive、spark有版本依赖关系,注意jar包冲突可以时间触发,还可以数据触发azkaban在报警、失败重启方面比oozie差一些o
2020-08-31 23:00:39 677 1
原创 数仓模型理论
1 数仓介绍2 建模理论建模的目标:性能、成本、效率、数据质量中找到平衡点2.0 三范式123要求逐渐严格每一列不可分割属性要完全依赖于主键,不可以只依赖一部分(数据重复很多)案例中主键是学生id和课程,所属系和系主任只依赖学生id3. 主键以外的字段没有依赖关系2.1 ER(Entity Relationship)实体模型Bill Inom用这个建数仓,不现实,哪有那么多时间梳理所有的实体和关系,而且业务也在飞速变化,完全跟不上趟。ods dwd 基本跟数据库来的数据
2020-08-28 17:53:58 841 1
原创 利用gitee解决github下载慢的问题
先在github上fork到自己仓库,然后在gitee里新建仓库选择从GitHub上映射过来,再从gittee上下载就ok了详细参考https://www.cnblogs.com/st666/p/12874883.html
2020-08-10 18:19:19 307
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人