自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(25)
  • 收藏
  • 关注

原创 mac打开java class文件出现乱码

下载一个jar文件,解析后打开.class文件出现乱码?如下图所示**问题原因:**我们知道,将源代码转换成二进制执行代码的过程叫“编译”,那么反编译就是将二进制执行代码转换成源代码。在java开发里,源代码是.java文件,然后经过编译后生成计算机识别的.class文件,但是.class文件是计算机识别的我们一般看不明白,因此需要反编译变成我们能读懂的源码,但是反编译后的代码并不是和源码一模一样,有些会被优化掉,是极度接近的。**解决方法:*下载一个反编译工具,如jd-gui,JD-GUI 是一个

2022-02-08 11:27:49 1438

原创 索引优化手册,面试专供

90%程序员面试都用得上的索引优化手册多关于索引,分为以下几点来讲解:一、索引的概述(什么是索引,索引的优缺点)二、索引的基本使用(创建索引)三、索引的基本原理(面试重点)四、索引的数据结构(B树,hash)五、创建索引的原则(重中之重,面试必问!敬请收藏!)六、百万级别或以上的数据如何删除 目录90%程序员面试都用得上的索引优化手册一、索引的概述1)什么是索引?2)索引的优缺点:二、索引的基本使用三、索引的基本原理(不想像别的文章那样一大堆篇幅废话)四、索引的数据结构(b树,hash)1)B树索引查询方

2020-12-15 12:58:19 236

原创 informatica的Filter组件学习笔记,mark一下

Filter组件概述转换类型:已连接、主动 过滤器转换允许您过滤映射中的行。通过过滤器转换从源转换传递所有的行,然后为转换输入过滤条件。所有过滤器转换中的端口均为输入/输出端口,只有符合条件的行才能通过过滤器转换。 在某些情况下,数据写入目标前需要基于一个或多个条件对其进行过滤。例如,如果您有包含关于当前员工信息的人力资源目标,可能希望过滤出兼职员工和钟点工。 下面的映射通过过滤器转换从包含员工数据的人力资源表传递行。过滤器仅允许薪水为 $3...

2020-10-19 23:01:14 732

原创 [数据仓库建模] 事实表的类型(可加,半可加,不可加)

众所周知,数据仓库的事实表中是有数字度量的,一般会根据这些数据度量以及提前规定好的一致性维度来进行统计等工作。那么事实表中的数组度量分三种:1.可加事实,2.半可加事实,3.不可加事实下面让我们来看看它们的定义与区别1.可加事实可加事实指的是该度量可以按照和事实表关联的任一维度进行汇总。比如商品的单价,可以按照品类维度进行汇总,按照店铺维度进行汇总等等。2.半可加事实指的就是该度量在某些维度下不可进行汇总,或者说汇总起来没有意义,比如说价差额,价差额在时间维度下的汇总就没有意义。记录静态数据(

2020-09-10 23:26:52 1509

转载 奥卡姆剃刀和没有免费的午餐定理

“奥卡姆剃刀”和“没有免费的午餐”是机器学习中两个很基本的原则和定理。由于名字有点怪,所以初学者可能在理解上陷入误区。本文试图用简洁易懂的方式解释这两个原则和定理,并告诉大家它们的名字是怎么来的。

2020-05-25 14:27:57 430

原创 将一个文件夹里所有的文件名提取方法,so easy!

工作中会遇到「将一个文件夹里所有的文件名提取出来,放到 Excel 表格里」这样的问题?比如:有很多员工的照片,想比对花名册,哪些人的照片缺失不同类型的文件,需要分类统计数量管理合同等文档,需要制作一份文档目录需要制作一份文件的清单,加备注说明……既然这么多场景会用到,又有那么多人问,那…是时候出手了!普通人,只会打开 Excel 表格,然后一个一个的手工输入。而掌握一些技巧的话一分钟便可搞定,而且非常准确,不会遗漏。下面是搜到的一些技巧,供参考!第一招:直接复制法如

2020-05-22 11:38:54 8753 2

原创 关于结构化表达,有意思的三张图来分享,值得好好看看

2020-05-13 10:14:56 640

原创 用户增长全景图,值得好好看看

用户增长全景图够你一壶[得意][得意]第一,建立增长根基;第二,找到增长机会;第三,打造增长引擎。

2020-05-13 10:07:52 446

原创 运营推荐书单:涉及市场、产品和运营

运营推荐书单:涉及市场、产品和运营1.《运营之光》,互联网人入门必读,教你学会用户体验为上的理念,非常易读2.《定位》,非常重要,是分析问题的第一步,对业务和产品的竞争力分析有帮助3.《游戏改变世界》,用户运营就是带着用户玩,加一些游戏的元素进去会让用户觉得更好玩,提升活跃和转化4.《营销的未来》,运营和市场推广新人必读,营销大师科特勒的经典之作5.《重来》,教你明白运营和产品背后的问题本质,更为简单有效的商业思维,能让你抽丝剥茧先找到重点6.《长尾理论》,长尾效应正是借助互联网才更好的释放,这

2020-05-12 16:56:20 241

原创 Hive安装过程中出现 The reference to entity "createDatabaseIfNotExist" must end with the ';' delimiter.问题

Hive安装过程中出现 The reference to entity “createDatabaseIfNotExist” must end with the ‘;’ delimiter.问题,具体如下所示:[Fatal Error] hive-site.xml:132:95: The reference to entity “createDatabaseIfNotExist” must end with the ‘;’ delimiter.14/10/23 11:15:04 FATAL conf.C

2020-05-10 23:57:27 699

原创 数据工程师面试题目集锦:Hive相关

大数据相关1 nosql和sql区别SQL数据库:在使用之前需要定义表的一个模式在表中存储相关联的数据支持join多表查询提供事务使用一个强声明性语言查询提供足够的支持,专业技能和工具NoSQL数据库:将相关联的数据存储在类似JSON格式,名称-值可以保存没有指定格式的数据保证更新一个文档,但不是多个文档提供出色的性能和可伸缩性使用JSON数据对象查询a 存储方式S...

2020-05-08 00:25:06 764

原创 数据仓库学习笔记:数据仓库增量抽取(CDC)有哪些方式?

抽取处理需要重点考虑增量抽取,也被称为变化数据捕获,简称CDC。假设一个数据仓库系统,在每天夜里的业务低峰时间从操作型源系统抽取数据,那么增量抽取只需要过去24小时内发生变化的数据。变化数据捕获也是建立准实时数据仓库的关键技术。CDC能够帮助你识别从上次提取之后发生变化的数据。常用的变化数据捕获方法有时间戳、快照、触发器和日志四种。时间戳方法需要源系统有相应的数据列表示最后的数据变化。(弱点...

2020-05-07 13:10:32 3028

原创 python数据分析和机器学习入门,我有一些书单来推荐

想要快速入门python数据分析与机器学习,书籍是一个很好的门路,可以帮助我们系统的快速入门!下面是一些不错的书单,分享给大家,我也在拔草中,未来会把阅读笔记分享在我的公众号:python数据分析和机器学习(文章末尾有二维码,可以直接保存并扫码即可关注),可以先关注哦~~入门读物The Elements of Statistical Learning(英文第二版)The Element...

2020-05-07 13:04:07 506 2

原创 数据分析小白入门必问:数据分析师的日常工作是什么?

数据分析师入坑指南:数据分析师的工作国企数据分析师工作image.png一、常规工作(工作模块)1.各种报•日报:•每天看,了解业务现状,•数据波动解释•数据敏感性(老板问数据,你能立马答出来,对于新手来说,背指标是提高数据敏感性的技巧)•周报•短期趋势•版本迭代分析•为其他ppt背书•月报•业务梳理•部分建议(重要,不能是纯数字)•目标评估及战略决策image....

2020-05-07 00:46:30 731

原创 ETL数据仓库工程师笔试题和面试题整理

https://blog.csdn.net/weixin_42800008/article/category/7918190[这个人怎么那么多面试题]如何排重(考察sql),就是group by xxx having count(1)>1。shell的一些基本命令,如tail、seed、crontab等如如何查看文件第几行?如何动态查看文件?如何查询文件关键字等等。还有就是数据仓库...

2020-05-01 01:08:22 25101 8

原创 seaborn中的barplot学习记录

barplot 可以将一些统计函数的结果显示在图标上。其中,estimator 指定分组汇总的方式,传入一个函数的引用就可以了,默认是取平均值。以泰坦尼克号生存预测数据集来说#探索SibSp堂兄弟/妹个数与生存关系sns.barplot(x=‘SibSp’,y=‘Survived’,data=train)#等同于Survived_1=train.SibSp[train[‘Survive...

2020-05-01 01:04:16 326

原创 异常波动数据分析案例集锦:流量相关

数据异常原因分析是每个数据分析师必备技能之一,对于新手,如何遇到异常的时候展开分析?数据异常分析原因分析:1. 数据有问题• 将时间轴拉长,看数据是近期异常还是历史异常,对比近三个月数据。• 查看和该指标关联的其他核心指标是否也异常,如果异常,也要一并查看。• 核查埋点是否有问题, 数据是否存在多发情况。• 业务口径是否有问题, 取的数据是不是真正需要的数据。• 写的sql逻辑是否...

2020-04-30 00:20:13 1432

原创 EXCEL图表技巧:选择合适图表最全指南,建议收藏

数据可视化是数据分析师必备流程之一。如何将自己的分析结果更好的呈现在用户面前,然后借助图表才能把数据故事讲好。 首先,我们需要认识到,其实数据通常不外乎五种相关关系,如构成、比较、趋势、分布及联系。本图摘自数据观我们常说的图表就是图形+表格。之前网上流行一个神图,根据上述相关关系选择不同数据图表类型,给大家做个参考。这个图表虽然很全面,但是我认为真正大部分复杂的图表都可以由饼图、条形图、柱形...

2020-04-30 00:11:41 9947

原创 数据仓库工程师面试题目(不定期更新)

1 缓慢变化维的设计?(真心常问,标准答案必备)三种:直接覆盖,增加新行,增加心属性列Type 1:覆盖:直接用新值代替旧值。Type 2:增加新行。将当前行的状态设置为off,并设置一个endtime时间戳,将当前时间标记上。同时新增1行,将其状态标记为on,设置begintime时间戳为上一个记录的endtime+1。Type 3:增加新列:给表增加一个新列,来存储新值,同时保留原来...

2020-04-30 00:08:53 9944

原创 Python如何删除多余的空格与空行(有代码)

‘’’-- encoding: utf-8 --@author:YY@Time:@Desc:删除字符串多余空格及删除多余的空格与空行‘’’#方法1. 通过字符串的replace方法去掉所有的空格test = 'I love python ’test_new1 = test.replace(" ", “”)print(test_new1)#方法2. 通过字符串的 sp...

2020-04-29 23:53:52 21198

原创 Kettle工具下的ETL优化思路 | 数据仓库面试

1、首先找到瓶颈(重现问题;日志)要知道你的性能瓶颈在哪,可能有时候你使用了不恰当的方式,导致整个操作都变慢,观察kettle log 生成的方式来了解你的ETL操作最慢的地方。2、排查方向:(1)源->(2)目标->(3)转换顺序一步一步进行优化。源:对读操作的优化读数据量大–>大数据优化?尽量缩小输入的数据集的大小(增量更新也是为了这个目的)没有索引目标:对写操...

2020-03-12 00:29:19 1708

原创 费米估算题:上海有多少辆自行车?

上海有多少辆自行车?这个解法要点就是根据年龄进行用户分群。参考:共享单车的标准渗透率 2.5%自行车数量=私家自行车数量+共享单车数私家自行车是以家庭为单位的,私家自行车车数量=平均每家有自行车数量*有自行车的家庭数量 =平均每家有自行车数量*上海家庭数量*有自行车的比例 =平均每家有自行车数量*上海人口数量/平均每家人口数量*有自行...

2020-03-12 00:17:05 4300 1

原创 来几道面试遇到的sql笔试题测测你的水平吧 |大数据分析师面试必备

面试遇到的sql笔试题目,共享给大家,如果是数据分析或者数据开发岗位,对sql一般都需要掌握,以下问题,最好能再hive,mysql或者oracle场景下都 实现下,熟悉巩固各个数据库的语法。1.A 和B 两张表,A中有B表的外键,B表中有A表中的外键,求A表中,B表中没有的数据行,B表中,A表没有的数据行。select * from a where not exists (select 1 ...

2019-06-29 10:31:44 1252

原创 关于kaggle没有办法下载数据集dataset问题

关于kaggle没有办法下载数据集dataset问题问题:我试图下载房价预测数据集,没有反应,或者断开连接,提示我检查代理服务器?什么鬼?经过一番搜索,最终通过以下方法解决。。。有跟我一样的朋友可以参考我的做法。(我爱分享,分享快乐)首先打开cmd安装kaggle库。命令:pip install kaggle然后,进入到C:\User\<用户名>下,如下图所示,就是...

2019-06-13 11:21:34 11294 5

原创 面试问题准备-数据仓库建模篇

1. 什么叫数据仓库?数据仓库的特点?(相信inmon的数据仓库概念的四个特点是最基本的吧,当然需要加上自己的理解)首先,用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate...

2019-04-06 23:26:51 25253 4

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除