自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(62)
  • 收藏
  • 关注

原创 Hive加密,PostgreSQL解密还原

当前公司数据平台使用的处理架构,由Hive进行大数据处理,然后将应用数据同步到PostgreSQL中做各类外围应用。由于部分数据涉及敏感信息,必须在Hive进行加密,然后在PG使用时再进行单个数据解密,并监控应用的数据调用事情。因此需要实现Hive解密到PostgreSQL解密还原的过程。在不编写UDF的情况下,有以下方法。

2023-08-13 08:03:55 2773

原创 Greenplum数据库性能下降时的调优方向汇总

一、硬件是否出现问题服务器是否宕机磁盘、内存性能是否正常 数据库的性能,归根到底就是依赖于硬件的性能,其中磁盘、内存的尤为重要。网络是否畅通 分布式数据库集群在处理数据时,会产生大量的内部数据传输。GP官方建议内部网络为万兆网,否则会影响集群性能。当网络存在拥堵,无疑很容易影响数据库性能。是否有失败的节点 GP不同的配置模型,在集群掉节点时,产生的性能下降有所一样。但无论怎么样,由于木桶效应,性能肯定会下降一大截。磁盘空间使用比例是否...

2022-03-24 23:28:23 3259

原创 PowerBI也能做爬虫:爬取豆瓣Top电影排行榜

对于简单的页面数据爬取,其实使用PowerBI就可以可视化直接实现了,不需要另外写爬虫程序。本文以爬取豆瓣Top250电影排行榜示例说明下操作的基本过程。一、分析URL规律及网页结构打开豆瓣电影Top 250 页面:https://movie.douban.com/top250观察每页有25部电影,总共10页观察第二页开始,URL的变化第二页https://movie.douban.com/top250?start=25&filter=第三页https://movie.d

2020-07-31 00:51:16 8984 2

原创 Selenium快速入门之3:10大常用模块方法梳理

一、webdriver模块在selenium中,无论是Firefox Driver、Chrome Driver,还是IE Drive,都继承至selenium\webdriver\remote\webdriver.py中的WebDriver 类。WebDriver类中的常用方法如下。(1)全局操作create_web_element 创建一个html元素close 关闭当前浏览器窗口forward/back 浏览器历史浏览上一次/下一次操作get 在当前浏览器会话页打开指定的...

2020-07-10 00:04:25 922

原创 Selenium快速入门之2:ActionChains所有行为动作、常用JS操作

一、ActionChains所有行为行为操作selenium中的ActionChains使用链式模型,即可以实现简单的交互行为,例如鼠标移动,鼠标点击事件,键盘输入,以及内容菜单交互。同时也可以完成复杂的类似于鼠标悬停和拖拽等动作。当在ActionChains对象上调用行为方法时,这些行为会存储在ActionChains对象的一个队列里。调用perform()时,这些动作就以他们队列的顺序来触发。例如:ActionChains(driver).key_down(Keys.CONTROL).send

2020-07-09 13:22:08 1290

原创 Selenium快速入门之1:最常使用方法整理

Selenium最早是为了测试浏览器、网页的,但目前也被广泛应用于网络爬虫。本文整理Selenium最常见的使用方法。一、创建webdriver,打开特定页面#打开浏览器、百度网站driver = webdriver.Chrome()driver.get("https://baidu.com")二、设置浏览器大小、设置页面大小driver = webdriver.Chrome()driver.get("https://baidu.com")三、页面前进/后退、刷新..

2020-06-30 23:51:26 532

原创 解析html:CSS Selector快速了解使用

CSS即层叠样式表,其选择器是一种用来确定HTML文档中某部分位置的语言。html文档是由一系列节点构成的数,例如:<html> <body> <div > <p>Hello world<p> <a href="/home">Click here</a> </div> </body></html>一、html文档的节点类型html文档的节点类型常

2020-06-28 20:29:13 1206

原创 解析html:Xpath快速了解使用

XPath是XML路径语言,它是用来确定xml文档中所部分位置的语言。xml文档(爬虫抓取下来的html也属于xml)是由一系列节点构成的数,例如:<html> <body> <div > <p>Hello world<p> <a href="/home">Click here</a> </div> </body></html>一、xml文档的节点类

2020-06-23 23:42:45 12212 1

原创 数据分析角度快速了解Python之NumPy库分类用法

对于大部分数据处理,主要集中在以下要点:(1)数据的创建(2)子集构造、过滤、转换(3)数据的整理、清洗(4)数据的统计描述、分组运算(5)数组的常用算法:排序、唯一化、集合运算(6)数据的输入输出本文从上面6个方面,分别介绍Numpy的常见用法。NumPy最重要就是其N维数组对象(ndarray),是一个快速灵活的同构数据集容器,所有元素必须是相同类型。每一个ndarray对象都有一个shape属性(表示维度大小的元组),一个dtype属性(表示数组数据类型的对象)。一

2020-06-11 18:49:28 1172

原创 Python的Requests库的使用实例

一、保存网站图片import requestsr = requests.get("https://img-blog.csdnimg.cn/2020022410223540.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224")with open("a.png","wb") as f: f.write(r.content)二、爬取亚马逊商品页面信息import requestsurl = "https://www

2020-06-06 10:48:41 290

原创 Python的requests库基础介绍2:常用方法整理,URL参数、各种POST、响应、异常、cookies等

本文总结了requests库基础的常见用法,包括URL参数、各种POST、响应、异常、cookies等。一、传递URL参数为 URL 的查询字符串(query string)传递数据。urlparams = {'key1': 'value1', 'key2': 'value2'}r = requests.get("http://httpbin.org/get", params=urlparams)r.status_coder.request.url二、定制请求头为请求添加

2020-05-29 00:13:24 457

原创 HTTP认证:基本认证、摘要认证、HTTPS+表单认证

一、HTTP认证认证就是给出一些身份证明,说明你是声称的那个人。HTTP提供了一个原生的质询/响应的框架:(1)客户端请求服务器的某一受保护的资源(2)服务器拒绝提供资源,并向客户端发起质询,询问用户名和密码(3)客户端向服务器传送用户名、密码(4)服务器检验认证成功,将资源提供给客户端二、基本认证(Basic认证)基本认证步骤:(1)客户端请求服务器某一受保护的资源(2)服务器拒绝提供资源,并对客户端进行质询,返回一条状态为401 (Unauthoriz.

2020-05-26 23:35:15 1241

原创 Python的requests库基础介绍1:安装、涵盖所有功能的七大方法

requests库是一个基于python的http库,相比于python标准库中提供了urllib、httplib等,requests库进行了更高级的封装,使得进行网络数据爬取时更加简单。一、requests库安装windows系统,只需要在命令行输入命令 pip install requests 即可安装linux系统下,只需要输入命令 sudo pip install requests 即可安装二、requests库的最主要的七个方法requests 的所有功能都可以通过以下

2020-05-23 00:17:25 666

原创 做自媒体数据分析的一些工具

官方指数:百度指数:掌握某些关键词的百度搜索动向http://index.baidu.com/v2/index.html#/微博指数:掌握微博热点https://data.weibo.com/index微信指数:掌握某些关键词的微信变动在微信搜索栏,搜索微信指数,进入小程序微信、微博数据分析平台:数说风云:实时、维度全面的微博排行与监控工具。微博、微信运营监控,自媒体全行业分类排行榜http:/social.datastory.com.cn友盟:国内领先的第三方全域数据智能服

2020-05-20 23:48:49 1572 1

原创 Fiddler对抓包报文修改的五种方法

Fiddler是十分流行好用的抓包工具,通过Fiddler不仅可以查看数据包,还可以对数据包进行修改,进行各种测试模拟。本文介绍五种常见的修改报文数据包的方法。一、直接使用Rules菜单,修改请求伪装客户端单击菜单 Rules -- User-Agents -- iPhone6请求报文User-Agent信息已被修改浏览器显示出来的页面变成了手机版的样式二、下断点,拦截并修改请求报文全局断点:单击菜单栏中的 Rules -- Automatic Breakpoint -.

2020-05-10 13:25:54 14827 2

原创 PowerBI报告扩容:丰富一页报告内容的几种方法

在做数据分析报告时,往往由于业务太复杂,老板要求又太多,且咱们数据人做报告展示总想面面俱到,导致总觉得一页报告放的图表内涵不够丰富,而设置过多的翻页又会显得很麻烦。针对此痛点,本文介绍几种在PowerBI中,扩容一页报告的方法。一、图表下钻通过图表下钻功能,能在同一个图表中,将同一个种类但层次丰富的数据进行一并展示,大幅节省报告空间。比如要展示部门维度、性别维度、年龄维度的在职员工...

2020-04-26 23:59:49 2993

原创 PowerBI应用案例:杜邦分析图动态观察财务指标

一、背景杜邦分析法利用各个财务指标之间的内在联系,建立财务分析的模型,来综合地分析和评价企业财务状况和经营业绩的方法。采用杜邦分析图将有关分析指标按内在联系加以排列,从而直观地反映出企业的财务状况和经营成果的总体面貌。本文利用PowerBI构建杜邦分析框架图,实现手工动态调整基础收入、费用、资产等,以观察上层的所有者权限报酬率、总资产净利率等指标的变化程度。二、示例数据各项...

2020-04-25 12:17:51 6973

原创 数据分析商业逻辑模型简介(一):AARRR模型、漏斗模型

AARRR模型Acquisition(获取)、Activation(活跃)、Retention(留存)、Revenue(收益)、Refer(传播)1.获取用户(Acquisition)如何获取用户?线上通过网站通过SEO,SEM,app通过市场首发、ASO等方式获取。还有运营活动的H5页面,自媒体等方式。线下通过地推和传单进行获取用户。2.提高活跃度(Activation)...

2020-04-23 23:54:45 3386

原创 数据分析应懂的Linux两三道板斧

由于Linux系统的稳定、便捷、受攻击少等原因,很多平台环境会选择部署在Linux服务器上。在做业务数据分析、数据支撑时,如果不懂得Linux的两三道板斧,容易受到限制。本文总结数据分析相关的最常使用到的Linux操作。linux系统里一切皆文件。 既然要操作文件,那么围绕此核心组织本文,看看文件管理及其周边操作。一、man帮助命令授人以鱼不如授人以渔,先介绍如何查帮助格式:m...

2020-04-22 00:26:06 333

原创 Power BI应用案例:销售帕累托分析(28法则)

一、应用背景帕累托法则往往称为二八原理,即百分之八十的问题是百分之二十的原因所造成的。帕累托图在项目管理中主要用来找出产生大多数问题的关键原因,用来解决大多数问题。本文利用Power BI进行帕累托分析销售情况,可视化直观找出明星产品。二、示例数据所有产品的销售额汇总数据,包括字段产品货号、类别、零售价、销量、销售额等。三、构建度量值(1)帕累托图需要的度量值...

2020-04-19 16:09:25 5931

原创 SQL开窗函数:格式、示例、PARTITION BY 子句、ORDER BY子句、常用聚合函数

一、开窗函数介绍开窗函数(使用OVER字句定义)用于为行定义一个“窗口”,并使用窗口对行集合进行聚合计算。使用开窗函数后,可以不需要使用GROUP BY子句对数据进行分组,就能够在同一行中同时返回聚合结果。二、开窗函数格式 格式:函数名(列) OVER(选项) OVER 关键字表示把函数当成开窗函数而不是聚合函数。SQL 标准允许将所有聚合函数用做开窗函数,使用 OV...

2020-04-15 13:33:52 2394 1

原创 SQL的各种SUM,示例看用group by、partition by的实现方式

一、示例数据员工信息表,包括字段有:员工姓名、省份、城市、年龄、薪水CREATE TABLE TMP_Person (PName VARCHAR2(20),PProvince VARCHAR2(20),Pcity VARCHAR2(20),PAge INT,PSalary INT)INSERT INTO TMP_Person(PName,PProvince,Pcity,PAge...

2020-04-14 21:20:27 2254

原创 决策树基本概念梳理及简单应用

一、应用背景当在生活上决定“今天出门要不要带伞”,当在工作上需要分析“这个用户会不会流失”等诸如此类的问题,实际上我们就是在做决策。一般决策我们会这样思考“如果条件是这样这样, 那么我就选择A; 如果条件是那样那样, 那么我就选择B”。这样的思考过程,就与决策树算法的过程相类似。二、决策树概述决策树是一种分而治之,不断分类细化的决策过程。一个困难的预测问题, 通过树的分支节点,...

2020-04-11 09:33:00 1465

原创 数据分析商业逻辑模型图谱

数据分析商业逻辑模型图谱:通用分析模型、战略分析模型、目标管理、产品分析、用户分析、营销分析等。往后会将对每一个模块不断丰富细化,并结合实战案例进行使用。(数据分析能力图 X 数据分析逻辑模型图 X 数据分析技能图 = 分析师核心能力框架)...

2020-04-05 19:20:48 1342

原创 数据分析师技能图谱

数据分析技能图谱:数学基础->数据提取-分析软件->程序语言->大数据平台->案例实战同类的技能/工具中,可以选择其中某一种深入学习即可。图谱后续将不断丰富细化。...

2020-04-05 14:24:58 578

原创 数据分析师能力图谱(二):分析原因 、 输出建议、 总结汇报

数据分析师能力图谱:理解业务 --> 定义问题 --> 明确标准 --> 分析原因 --> 输出建议 --> 总结汇报。往后会将对每一种能力详细分解叙述,不断丰富细化。...

2020-04-05 12:18:36 574

原创 数据分析师能力图谱(一):理解业务、定义问题、明确标准

数据分析师能力图谱:理解业务 --> 定义问题 --> 明确标准 --> 分析原因 --> 输出建议 --> 总结汇报。往面将对每一种能力详细分解叙述,不断丰富细化。...

2020-04-04 23:37:42 1207

原创 假设检验:知识点梳理,及最常见的平均值检验实例

假设检验:平均值检验的例子例子1:老板问:生产工艺变化了之后,生产的产品是不是及格呢?已知累计使用时长服从正态分布,使用均值要求为1000小时,已知标准差为100小时。现在随机抽取30件,测得使用时间平均值为950小时。那么在显著水平0.05下判断这批产品是否及格。例子2:老板问:新版促销页面上线后,日均用户活跃数量是否有显著变化?已知日均活跃用户数量服从正态分布...

2020-04-02 00:33:07 3490

原创 DAX与SQL对比学习

1、select查询整张表--DAXEVALUATE'销售合计表'--SQLselct * from 销售合计表2、select查询表中特定字段--DAXEVALUATESUMMARIZE ( '销售合计表', '销售合计表'[产品], '销售合计表'[日期] )--SQLselect 产品,日期 from 销售合计表3、distinct去重-...

2020-03-29 13:48:13 1971

原创 DAX函数十大分类及示例

数据分析表达式 (DAX) 公式中总共有 200 多个函数,分为以下类型:一、日期和时间函数创建基于日期和时间的计算,DAX 中很多函数都与 Excel 日期和时间函数类似。 不过 DAX 函数使用日期/时间数据类型,可以将列中的值用作参数 。例子:Date函数。返回指定日期。DATE(2020,3,27)) //结果:2020/3/27 0:00:00二、时间智能函数...

2020-03-28 00:04:30 14199 2

原创 Dax调试方法:在DaxStudio中模拟上下文环境测试dax函数

在PowerBI中建模的时候,需要大量的Dax代码的编写,当dax的运行结果与预期不一样时,在Power BI中往往比较难进行测试排错。关于如果使用DaxStudio的安装使用,以及基本的dax编写测试方法,在文章https://blog.csdn.net/scut_yfli/article/details/105030463中做了详细介绍。本文主要介绍下,几种常见场景下编写dax,在设计...

2020-03-25 00:49:28 2488

原创 Dax编写利器:DaxStudio全面介绍(下载安装、功能分区、高效代码编写、调试方法等)

DaxStudio是由SQLBI的两位专家开发的一款免费软件,用于编写执行Dax语言,软件支撑连接到Excel、Powerpivot, Power BI和SSAS 。本文全面介绍Dax Studio的安装、功能分区、连接数据源、高效代码编写、调试方法、重要特性等各方面功能。一、安装官方下载地址:https://daxstudio.org/安装包大小7M左右,还是很小巧玲珑的。安装的...

2020-03-22 16:58:09 12431

原创 Power BI所有原生可视化图表分类(视觉对象)

下面介绍下Power BI所有原生可视化图表对象(视觉对象)一、用来可视化单一数值的卡片:多行卡片:单个数字仪表盘:当前的状态二、表示趋势变化的折线图:强调一系列值的整体形状,通常以时间的推移来显示三、表示整理和局部的关系、构成的分区图:基本(分层)和堆积圆环图:显示部分与整体的关系饼图:饼图显示部分与整体的关系散...

2020-03-19 13:40:50 9467

原创 Power BI与Python数据分析全流程中怎么搭配

使用Power BI进行数据分析,洞察商业逻辑时,可以搭配Python这个强大的工具,在数据获取、数据清理、数据可视化的全流程中,变得更加灵活、强大。下面具体介绍下这几个方面,Power BI与Python是怎么样进行联合的。一、数据获取在“获取数据”功能中,选择“其他-Python脚本”、填写Python导入的脚本import numpy as npimport...

2020-03-15 17:15:56 3377 1

原创 Power BI中配置Python运行环境,及相关错误问题解决

Power BI Desktop中支持python,在Power BI的数据获取、数据转换、数据可视化、数据输出的全流程中,都可以支持使用Python。关于如何全流程使用Python在后面文章中会详细介绍。本文先介绍如何在Power BI Desktop配置Python环境。一、使用python配置使用Python的原生环境作为主目录二、使用Anaconda配置使用An...

2020-03-15 13:14:33 4374 3

原创 PowerBI应用案例:用户RFM分析

一、背景RFM模型是用户运营中的重要模型,使用该模型,对用户进行分类,针对不同的客户推行不同的策略,实现精准化运营,以期获取最大的转化率。模型的三个指标:R(Recency)最近一次消费时间:表示用户最近一次消费距离现在的时间。消费时间越近的客户价值越大。1年前消费过的用户肯定没有1周前消费过的用户价值大。F(Frequency)消费频率:消费频率是指用户在统计周期内购买商品的次数...

2020-03-14 16:13:16 4852 7

原创 Power BI应用案例:淘宝用户行为分析实战

一、案例背景基于千万级的淘宝用户的使用记录,对淘宝用户的行为进行分析,具体指标包括:日PV、日UV、小时PV、小时UV、不同用户行为的PV、用户购买次数分布、用户购买频次分布、活跃用户消费情况等。通过本案例,可以基本看看Power BI都能分析达到怎么样的效果。二、数据来源及结构阿里天池官方发布的1万用户在2014年双十二期间的行为记录,数据量达1200万+。数据下载地址:...

2020-03-13 02:30:46 6252 1

原创 Oracle数据库基本SQL语句2:应付90%日常查询,过一下看都会没有

第一部分地址:https://blog.csdn.net/scut_yfli/article/details/104786477六、格式转换--TO_NUMBERselect to_number('123') from dual; --123--TO_DATEselect * from table1 where birthdate = to_date('1980年12月17日',...

2020-03-11 00:24:21 141

原创 Oracle数据库基本SQL语句1:应付90%日常查询,过一下看都会没有

一、基础操作--查询表数据select * from table1 where id=1;--更新表数据update table1 set name='更新名字' where id=1;常见基础操作--删除表数据delete from table1 where id =1;--插入表数据insert into table1 (id,name) values ('aa',...

2020-03-10 23:23:49 228

原创 python实践概率统计1:探索性数据分析

preg = nsfg.ReadFemPreg()preg.head()

2020-03-08 16:48:55 378

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除