10 数据分析小Y

尚未进行身份认证

我要认证

学习BI、数据仓库、数据分析、机器学习。 毕业4年,从应届生到BI数据分析师老油条,不定期将过去自己求职积累经验和数据分析学习相关的一些笔记分享给大家,对互联网数据分析、机器学习有兴趣的朋友也可以关注我的工重号:python数据分析和机器学习,专注BI、数据分析和机器学习的学习和实践

等级
TA的排名 15w+

informatica的Filter组件学习笔记,mark一下

Filter组件概述转换类型:已连接、主动 过滤器转换允许您过滤映射中的行。通过过滤器转换从源转换传递所有的行,然后为转换输入过滤条件。所有过滤器转换中的端口均为输入/输出端口,只有符合条件的行才能通过过滤器转换。 在某些情况下,数据写入目标前需要基于一个或多个条件对其进行过滤。例如,如果您有包含关于当前员工信息的人力资源目标,可能希望过滤出兼职员工和钟点工。 下面的映射通过过滤器转换从包含员工数据的人力资源表传递行。过滤器仅允许薪水为 $3...

2020-10-19 23:01:14

[数据仓库建模] 事实表的类型(可加,半可加,不可加)

众所周知,数据仓库的事实表中是有数字度量的,一般会根据这些数据度量以及提前规定好的一致性维度来进行统计等工作。那么事实表中的数组度量分三种:1.可加事实,2.半可加事实,3.不可加事实下面让我们来看看它们的定义与区别1.可加事实可加事实指的是该度量可以按照和事实表关联的任一维度进行汇总。比如商品的单价,可以按照品类维度进行汇总,按照店铺维度进行汇总等等。2.半可加事实指的就是该度量在某些维度下不可进行汇总,或者说汇总起来没有意义,比如说价差额,价差额在时间维度下的汇总就没有意义。记录静态数据(

2020-09-10 23:26:52

奥卡姆剃刀和没有免费的午餐定理

“奥卡姆剃刀”和“没有免费的午餐”是机器学习中两个很基本的原则和定理。由于名字有点怪,所以初学者可能在理解上陷入误区。本文试图用简洁易懂的方式解释这两个原则和定理,并告诉大家它们的名字是怎么来的。

2020-05-25 14:27:57

将一个文件夹里所有的文件名提取方法,so easy!

工作中会遇到「将一个文件夹里所有的文件名提取出来,放到 Excel 表格里」这样的问题?比如:有很多员工的照片,想比对花名册,哪些人的照片缺失不同类型的文件,需要分类统计数量管理合同等文档,需要制作一份文档目录需要制作一份文件的清单,加备注说明……既然这么多场景会用到,又有那么多人问,那…是时候出手了!普通人,只会打开 Excel 表格,然后一个一个的手工输入。而掌握一些技巧的话一分钟便可搞定,而且非常准确,不会遗漏。下面是搜到的一些技巧,供参考!第一招:直接复制法如

2020-05-22 11:38:54

关于结构化表达,有意思的三张图来分享,值得好好看看

2020-05-13 10:14:56

用户增长全景图,值得好好看看

用户增长全景图够你一壶[得意][得意]第一,建立增长根基;第二,找到增长机会;第三,打造增长引擎。

2020-05-13 10:07:52

运营推荐书单:涉及市场、产品和运营

运营推荐书单:涉及市场、产品和运营1.《运营之光》,互联网人入门必读,教你学会用户体验为上的理念,非常易读2.《定位》,非常重要,是分析问题的第一步,对业务和产品的竞争力分析有帮助3.《游戏改变世界》,用户运营就是带着用户玩,加一些游戏的元素进去会让用户觉得更好玩,提升活跃和转化4.《营销的未来》,运营和市场推广新人必读,营销大师科特勒的经典之作5.《重来》,教你明白运营和产品背后的问题本质,更为简单有效的商业思维,能让你抽丝剥茧先找到重点6.《长尾理论》,长尾效应正是借助互联网才更好的释放,这

2020-05-12 16:56:20

Hive安装过程中出现 The reference to entity "createDatabaseIfNotExist" must end with the ';' delimiter.问题

Hive安装过程中出现 The reference to entity “createDatabaseIfNotExist” must end with the ‘;’ delimiter.问题,具体如下所示:[Fatal Error] hive-site.xml:132:95: The reference to entity “createDatabaseIfNotExist” must end with the ‘;’ delimiter.14/10/23 11:15:04 FATAL conf.C

2020-05-10 23:57:27

数据工程师面试题目集锦:Hive相关

大数据相关1 nosql和sql区别SQL数据库:在使用之前需要定义表的一个模式在表中存储相关联的数据支持join多表查询提供事务使用一个强声明性语言查询提供足够的支持,专业技能和工具NoSQL数据库:将相关联的数据存储在类似JSON格式,名称-值可以保存没有指定格式的数据保证更新一个文档,但不是多个文档提供出色的性能和可伸缩性使用JSON数据对象查询a 存储方式S...

2020-05-08 00:25:06

数据仓库学习笔记:数据仓库增量抽取(CDC)有哪些方式?

抽取处理需要重点考虑增量抽取,也被称为变化数据捕获,简称CDC。假设一个数据仓库系统,在每天夜里的业务低峰时间从操作型源系统抽取数据,那么增量抽取只需要过去24小时内发生变化的数据。变化数据捕获也是建立准实时数据仓库的关键技术。CDC能够帮助你识别从上次提取之后发生变化的数据。常用的变化数据捕获方法有时间戳、快照、触发器和日志四种。时间戳方法需要源系统有相应的数据列表示最后的数据变化。(弱点...

2020-05-07 13:10:32

python数据分析和机器学习入门,我有一些书单来推荐

想要快速入门python数据分析与机器学习,书籍是一个很好的门路,可以帮助我们系统的快速入门!下面是一些不错的书单,分享给大家,我也在拔草中,未来会把阅读笔记分享在我的公众号:python数据分析和机器学习(文章末尾有二维码,可以直接保存并扫码即可关注),可以先关注哦~~入门读物The Elements of Statistical Learning(英文第二版)The Element...

2020-05-07 13:04:07

数据分析小白入门必问:数据分析师的日常工作是什么?

数据分析师入坑指南:数据分析师的工作国企数据分析师工作image.png一、常规工作(工作模块)1.各种报•日报:•每天看,了解业务现状,•数据波动解释•数据敏感性(老板问数据,你能立马答出来,对于新手来说,背指标是提高数据敏感性的技巧)•周报•短期趋势•版本迭代分析•为其他ppt背书•月报•业务梳理•部分建议(重要,不能是纯数字)•目标评估及战略决策image....

2020-05-07 00:46:30

ETL数据仓库工程师笔试题和面试题整理

https://blog.csdn.net/weixin_42800008/article/category/7918190[这个人怎么那么多面试题]如何排重(考察sql),就是group by xxx having count(1)>1。shell的一些基本命令,如tail、seed、crontab等如如何查看文件第几行?如何动态查看文件?如何查询文件关键字等等。还有就是数据仓库...

2020-05-01 01:08:22

seaborn中的barplot学习记录

barplot 可以将一些统计函数的结果显示在图标上。其中,estimator 指定分组汇总的方式,传入一个函数的引用就可以了,默认是取平均值。以泰坦尼克号生存预测数据集来说#探索SibSp堂兄弟/妹个数与生存关系sns.barplot(x=‘SibSp’,y=‘Survived’,data=train)#等同于Survived_1=train.SibSp[train[‘Survive...

2020-05-01 01:04:16

异常波动数据分析案例集锦:流量相关

数据异常原因分析是每个数据分析师必备技能之一,对于新手,如何遇到异常的时候展开分析?数据异常分析原因分析:1. 数据有问题• 将时间轴拉长,看数据是近期异常还是历史异常,对比近三个月数据。• 查看和该指标关联的其他核心指标是否也异常,如果异常,也要一并查看。• 核查埋点是否有问题, 数据是否存在多发情况。• 业务口径是否有问题, 取的数据是不是真正需要的数据。• 写的sql逻辑是否...

2020-04-30 00:20:13

EXCEL图表技巧:选择合适图表最全指南,建议收藏

数据可视化是数据分析师必备流程之一。如何将自己的分析结果更好的呈现在用户面前,然后借助图表才能把数据故事讲好。 首先,我们需要认识到,其实数据通常不外乎五种相关关系,如构成、比较、趋势、分布及联系。本图摘自数据观我们常说的图表就是图形+表格。之前网上流行一个神图,根据上述相关关系选择不同数据图表类型,给大家做个参考。这个图表虽然很全面,但是我认为真正大部分复杂的图表都可以由饼图、条形图、柱形...

2020-04-30 00:11:41

数据仓库工程师面试题目(不定期更新)

1 缓慢变化维的设计?(真心常问,标准答案必备)三种:直接覆盖,增加新行,增加心属性列Type 1:覆盖:直接用新值代替旧值。Type 2:增加新行。将当前行的状态设置为off,并设置一个endtime时间戳,将当前时间标记上。同时新增1行,将其状态标记为on,设置begintime时间戳为上一个记录的endtime+1。Type 3:增加新列:给表增加一个新列,来存储新值,同时保留原来...

2020-04-30 00:08:53

Python如何删除多余的空格与空行(有代码)

‘’’-- encoding: utf-8 --@author:YY@Time:@Desc:删除字符串多余空格及删除多余的空格与空行‘’’#方法1. 通过字符串的replace方法去掉所有的空格test = 'I love python ’test_new1 = test.replace(" ", “”)print(test_new1)#方法2. 通过字符串的 sp...

2020-04-29 23:53:52

Kettle工具下的ETL优化思路 | 数据仓库面试

1、首先找到瓶颈(重现问题;日志)要知道你的性能瓶颈在哪,可能有时候你使用了不恰当的方式,导致整个操作都变慢,观察kettle log 生成的方式来了解你的ETL操作最慢的地方。2、排查方向:(1)源->(2)目标->(3)转换顺序一步一步进行优化。源:对读操作的优化读数据量大–>大数据优化?尽量缩小输入的数据集的大小(增量更新也是为了这个目的)没有索引目标:对写操...

2020-03-12 00:29:19

费米估算题:上海有多少辆自行车?

上海有多少辆自行车?这个解法要点就是根据年龄进行用户分群。参考:共享单车的标准渗透率 2.5%自行车数量=私家自行车数量+共享单车数私家自行车是以家庭为单位的,私家自行车车数量=平均每家有自行车数量*有自行车的家庭数量 =平均每家有自行车数量*上海家庭数量*有自行车的比例 =平均每家有自行车数量*上海人口数量/平均每家人口数量*有自行...

2020-03-12 00:17:05

查看更多

勋章 我的勋章
  • 签到新秀
    签到新秀
    累计签到获取,不积跬步,无以至千里,继续坚持!
  • 新人勋章
    新人勋章
    用户发布第一条blink获赞超过3个即可获得
  • 阅读者勋章Lv1
    阅读者勋章Lv1
    授予在CSDN APP累计阅读博文达到3天的你,是你的坚持与努力,使你超越了昨天的自己。
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv2
    勤写标兵Lv2
    授予每个自然周发布4篇到6篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。
  • 学习力
    学习力
    《原力计划【第二季】》第一期主题勋章 ,第一期活动已经结束啦,小伙伴们可以去参加第二期打卡挑战活动获取更多勋章哦。
  • 原力新人
    原力新人
    在《原力计划【第二季】》打卡挑战活动中,成功参与本活动并发布一篇原创文章的博主,即可获得此勋章。