自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(140)
  • 收藏
  • 关注

原创 Power BI瀑布图

瀑布图是根据数据的正负值来表示增加和减少,并以此来调整柱子的上升和下降,进而更具柱子的变化序列来表达最终数据的生成过程。

2023-02-02 16:19:44 1559 1

原创 Power BI散点图

在直角坐标系中,用两组数据构成多个坐标点,这些点的分布图就是散点图,根据点的分布及大致趋势,判断两个变量之间是否存在某种关系。

2023-02-02 16:01:47 1814 1

原创 Power BI饼图

饼图展现的是个体占总体的比例,利用扇面的角度来展示比例大小。

2023-02-02 14:29:12 1076

原创 Power BI面积图

面积图主要是反映各类别数据变化的趋势以及占比情况。

2023-02-01 17:22:16 369

原创 Power BI折线图

如果要展现数据的趋势变化,折线图应该是不二之选,并且它更擅长于展现时间序列下的数据,根据折线斜率的不同展现变化的速率。

2023-02-01 10:50:46 2052

原创 Power BI柱形图

在PowerBI中制作常见的柱形图,简单来说,柱形图就是利用水平的柱子表示不同分类数据的大小,与之类似的是条形图,它就是竖的柱形图,或者说把柱形图顺时针转动90度就成了条形图,使用以及作图方式类似,因此本文介绍的柱形图的各项设置也适用于条形图。

2023-01-05 11:19:43 2191 1

原创 Power BI 可视化修改配色

PowerBI可视化修改配色的方法

2023-01-03 17:46:31 1202

原创 Power BI中的透视列和逆透视

透视列(Pivot)和逆透视列(Unpivot)是经常使用的一对数据聚合和拆分方法,在Power Query中也提供了同样的功能。

2022-11-30 19:43:54 3634

原创 Python中的变量

Python 变量概述Python中的变量表示(指向)特定值的名称,它是数据的名字,更专业的理解,变量是内存中数据的引用。从形式上看,每个变量都拥有独一无二的名字,例如 a=1,a为变量,1 为值。从底层看:程序中的数据都要放在内存条中,变量就是这块内存的名字。Python 变量命名变量名是一种标志符,标志符的主要作用就是作为变量、函数、类、模块以及其他对象的名称,就好像我们每个人需要起个名字,便于称呼、指代。标识符命名规则:包含字母(严格区分大小写)、数字和下划线。标志符可以字母或下划线开头

2022-04-26 14:37:11 2293

原创 Python连接MySQL数据库

Python语言是一种流行的开源编程语言,不仅表达能力强,提供了高效的数据结构,还能简单有效地面向对象编程。我们使用Python进行web开发、网络爬虫、数据挖掘、人工智能等研究时,不可避免的要连接数据库来存储或读取数据。本文主要介绍Python连接MySQL数据库的方法,以及DB

2022-04-22 21:08:46 21403

原创 pip安装三方库不成功的解决方法

pip安装第三方库时报错:WARNING: You are using pip version 20.2.3; however, version 20.2.4 is available.You should consider upgrading via the ‘c:\users\lenovo\appdata\local\programs\python\python37\python.exe -m pip install --upgrade pip’ command.原因:pip版本过低,导致安装第

2022-04-21 19:44:11 5252

原创 NewSQL新式的关系型数据库

数据库发展至今历经三代更迭:SQL,传统关系型数据库,例如 MySQLNoSQL,非关系型数据库,例如 MongoDBNewSQL,新式关系型数据库,例如SpannerSQL 的问题随着互联网的发展以及业务数据量的不断膨胀,互联网应用的用户规模和数据量呈指数级增长,并且要求7X24小时在线。传统关系型数据库无法满足高性能、高并发、扩展性的要求,在这种环境下通常有2种解决方法:升级服务器硬件虽然提升了性能,但总有天花板。数据分片,使用分布式集群结构对单点数据库进行数据分片,存放到由

2022-03-28 20:57:09 1806

原创 后关系型数据库Caché

关系型数据库把数据表示为简单的两维模型,即表示为行与列的记录来进行存储处理。虽然关系型数据库简单、易于理解,并被广泛的应用,但是随着Internet的发展,多种复杂数据的使用,这种简单两维模型的关系型数据库显然已经难以应付各类复杂的应用。于是,更多的数据库专家开始了对后关系型数据库的研究。后关系型数据库采用的是独特的多维数据结构,这不仅能够真实地反应和更好地描述现实世界的复杂数据及其之间的联系,同时也使数据的存取能够更快实现。后关系型数据库提供三种方式访问数据:对象访问、SQL访问、直接对多维数据数组访

2022-03-25 18:37:09 741

原创 非关系型数据库

“数据库”起源于20世纪60年代后期,1970年IBM的研究员E.F.Codd博士连续发表论文提出关系模型,在之后的几十年中,关系模型的概念得到了充分的发展并逐渐成为主流数据库结构的主流模型。关系型数据库的瓶颈关系型数据库的最大特点就是事务的一致性,但是,在网页应用中,尤其是SNS应用中,一致性却显得不是那么重要,用户A看到的内容和用户B看到的内容更新不一致是可以容忍的,或者说,两个人看到同一好友的数据更新的时间差那么几秒是可以容忍的,因此,关系型数据库的最大特点在这里已经不是那么重要了。相反地,关系

2022-03-24 19:28:24 7594

原创 Power BI数据可视化

数据可视化是以图形来直观地呈现数据,帮助我们快速理解数据中蕴含的信息。在Power BI Desktop中,数据可视化主要是通过制作视觉对象来完成的。Power BI Desktop中预置了种类丰富的视觉对象,可以从不同的角度来展现数据。折线图折线图主要用于连接各个单独的数据点,它能够简洁、清晰地展现在一段时间内的数据变化趋势。步骤1:在可视化窗格中单击“分区图”,然后在字段窗格中勾选要以可视化方式呈现的字段,如“下单日期”和“销售金额”。步骤2:勾选的字段会自动添加到可视化窗格的“字段”选项卡中

2021-12-15 20:25:56 26905

原创 Power BI数据建模分析

在进行数据分析时,如果需要利用多个表中的数据及其关系来执行一些复杂的数据分析任务时,需要在数据建模时创建数据表之间的关系。创建表关系目前Power BI Desktop提供两种创建表关系的方法:自动创建和手动创建。自动创建当在Power BI Desktop选项菜单中勾选了“加载数据后自动检测新关系”复选框后,Power BI会在加载数据时自动尝试在各个表之间建立关联关系。如果没有开启“加载数据后自动检测新关系”功能,也可以在“管理关系”面板单击“自动检测”按钮,Power BI会自动检查表并添

2021-11-28 19:52:15 2928

原创 Power BI数据查询编辑

数据导入使用Power BI Desktop进行数据分析,需要先获取数据,Power BI Desktop支持从文件、数据库、Power Platform等多种数据源获取数据。为了方便练习,我们选择从文件导入Excel工作簿的数据。步骤1:获取数据。启动Power BI Desktop,在“主页”选项卡下的“数据”组中单击“获取数据”按钮。在弹出的获取“获取数据”对话框,选择要连接的文件类型,单击“连接”按钮。步骤2:选择文件。在弹出的“打开”对话框中,找到文件的保存位置,选中要导入的文件,单击

2021-11-24 19:46:50 5766

原创 商业智能分析

BI概述BI是Business Intelligence的英文缩写,中文解释为商业智能,用来帮助企业更好地利用数据提高决策质量的技术集合,是从大量的数据中钻取信息与知识的过程。换句话来说,BI是一套完整的解决方案,可以将企业的不同业务系统(如ERP、CRM、OA、BPM等,包括自己开发的业务系统软件)的数据进行有效的整合,并利用合适的查询和分析工具快速且准确地为企业提供报表展现与分析,为企业提供决策支持。对企业来说,商业智能BI不能直接产生决策,而是利用BI处理后的数据来支持决策。核心是通过有效整合数

2021-11-23 09:50:59 1844

原创 A/B-Test原理详解

A/B-Test是一种对比分析方法,通过对用户进行随机分组,根据单一变量的原则为每一组用户分配一个实验方案,在相同的时间维度观察用户的反应,以确定最佳方案。从本质上来讲,A/B-Test属于试验范畴。通过假设检验的统计学原理,来推断某些策略的效果。假设检验假设检验分为两步:假设 —> 检验。假设检验的思想其实是一个倾向于推翻假设的过程。证明一件事有两种方式:从理论公式上严格推导,或者穷尽所有情况。对于从理论上严格推导,最常见的一个例子是高等数学中支撑实数完备理论的七大基本定理(确界原理

2021-05-14 20:43:31 4072

原创 A/B-Test简介

随着移动互联网的发展,人口红利肉眼可见的减少,流量竞争从增量竞争变成了存量竞争。截至2020年底,互联网用户已经高达10亿。微信,支付宝,头条,抖音这些APP基本已经瓜分了用户的大部分时间,其他APP想要存活,期望通过关注数据驱动的精细化运营,在一片红海中继续获得确定的用户增长,而A/B测试就是一种有效的精细化运营手段。A/B-Test简介A/B-Test是为同一个目标制定两个方案,在同一时间维度,分别让组成成分相同(或相似)的用户群组随机的使用一个方案,收集各群组的用户体验数据和业务数据,最后根据显

2021-05-12 21:40:11 1189

原创 数据类型之日期时间

类型格式大小范围用途YEARYYYY1字节(1901,2155)年TIMEHH:MM:SS3字节(-838:59:59,838:59:59)时间DATEYYYY-MM-DD3字节(1000-01-01,9999-12-31)日期DATETIMEYYYY-MM-DD HH:MM:SS8字节(1000-01-01 00:00:00,9999-12-31 23:59:59)日期时间TIMESTAMPYYYY-MM-DD HH:MM...

2021-04-27 19:59:09 1689

原创 数据类型之整数

类型大小范围范围(unsigned)用途TINYINT1字节(-128,127)(0,255)小整数值SMALLINT2字节(-32768,32767)(0,65535)大整数值MEDIUMINT3字节(-8388608,8388607)(0,16777215)大整数值INT4字节(-2147483648,2147483647)(0,4294967295)大整数值BIGINT8字节(-9223372036854775808...

2021-04-27 16:31:57 915

原创 当数据库查询速度过慢时,从哪几个方面排查解决?

影响数据库查询速度的四个因素风险分析QPS(Queries Per Second):每秒查询率,是指一台服务器每秒能够相应的查询次数,是对一个特定的查询服务器在规定时间内所处理流量多少的衡量标准。TPS(TransactionsPerSecond):事务数/秒,它是软件测试结果的测量单位。客户机在发送请求时开始计时,收到服务器响应后结束计时,以此来计算使用的时间和完成的事务个数。效率低下的SQL语句会带来超高的QPS与TPS:大量的并发:数据连接数被占满(max_connection默认100

2021-04-23 21:22:07 3597 2

原创 神奇的费米问题

在很多数据分析面试中,面试官都喜欢问求职者这样的一些问题:北京有多少量特斯拉汽车?某胡同口的煎饼摊一年能卖出多少个煎饼?一辆公交车里能装下多少个乒乓球?一个正常成年人有多少根头发?一般人遇到这样的问题就会感觉摸不着头脑,不知道怎么解决,干脆凭感觉瞎猜一个数字。这其实忽视了面试官考察的目的,他不是要你一个确定的数字,而是想考验你的数据思维能力,如何在数据不明确、以及各种限制条件下,利用一些假设的理由和经验推算出正确答案。这种看似无厘头的问题,被称为费米问题,是以科学家费米命名的。这类问题能

2021-04-06 09:22:26 1204 1

原创 Excel连接MySQL数据库

本机环境:Win10 64位操作系统Excel2019 64bitMySQL服务+workbench客户端MySQL ODBC连接器VC++ 2019 Redistributable以上组件务必安装相同位数的版本,否则容易报错!操作步骤:MySQL官网下载连接驱动,32/64位系统均可用。下载完成后双击安装即可。安装完成后,在Excel“数据”选项卡中点击“MySQL for Excel”。在弹出的对话框中填写连接信息即可连接成功。...

2021-03-30 18:51:11 2462

原创 数据处理之异常值处理

异常值是指那些在数据集中存在的不合理的值,需要注意的是,不合理的值是偏离正常范围的值,不是错误值。比如人的身高为-1m,人的体重为1吨等,都属于异常值的范围。虽然异常值不常出现,但是又会对实际项目分析有影响,造成结果的偏差,所以在数据挖掘的过程中不能不重视。异常值出现的原因数据集中的异常值可能是由于传感器故障、人工录入错误或异常事件导致。如果忽视这些异常值,在某些建模场景下就会导致结论的错误(如线性回归模型、K均值聚类等),所以在数据的探索过程中,有必要识别出这些异常值并处理好它们。异常值检测简单统

2021-03-17 20:27:53 14293

原创 数据处理之缺失值处理

在数据分析工作中,数据准备(Data Preparation,包括数据的获取、清洗、转换和集成)常常占据了70%左右的工作量。没有高质量的数据,就没有高质量的数据挖掘结果,数据缺失是数据分析中经常遇到的问题之一。缺失值是指粗糙数据中由于缺少信息而造成的数据的删失或截断。它指的是现有数据集中某个或某些属性的值是不完全的。值得注意的是,这里所说的缺失值,不仅包括数据库中的NULL值,也包括用于表示数值缺失的特殊数值(比如,在系统中用-999来表示数值不存在)。如果在数据库中缺乏相关的数据说明,常常需要花费更

2021-03-12 19:44:41 5953

原创 数据类型之小数

类型大小范围(有符号)范围(无符号)用途FLOAT4字节(-3.402 823 466 E+38,-1.175 494 351 E-38),0,(1.175 494 351 E-38,3.402 823 466 351 E+38)0,(1.175 494 351 E-38,3.402 823 466 E+38)单精度 浮点数值DOUBLE8字节(-1.797 693 134 862 315 7 E+308,-2.225073858507 2014E-308),0,...

2021-02-20 19:21:12 5630 1

原创 数据类型之字节与字符的区别

字节(Byte)是计算机信息技术用于计量存储容量的一种计量单位,通常情况下一字节等于八位。每个bit位是0/1两种状态,也就是说一个字节可以表示256个状态。字符(Character)是指计算机中使用的字母、数字、字和符号,如’A’、‘B’、’$’、’&'等。字节与字符:ASCII 码中,一个英文字母(不分大小写)为一个字节,一个中文汉字为两个字节。UTF-8 编码中,一个英文字为一个字节,一个中文为三个字节。Unicode 编码中,一个英文为一个字节,一个中文为两个字节。符号:英文标

2021-02-18 17:32:32 1833 1

原创 数据类型之CHAR和VARCHAR的区别

char是固定长度字符串类型,而varchar是可变长度字符串类型。也就是说,定义一个char(10)和varchar(10),如果存进去的是‘csdn’,那么char所占的长度依然为10,除了字符‘csdn’外,后面跟六个空格,而varchar就立马把长度变为4了,取数据的时 候,char类型的要用trim()去掉多余的空格,而varchar是不需要的。char的存储方式是,对英文字符(ASCII)占用1个字节,对一个汉字占用3个字节。varchar的存储方式是,对每个英文字符占用3个字节,汉字也.

2021-01-21 13:55:48 2121

原创 快时尚行业线上零售数据分析报告

跨境进口零售电商,即跨境进口零售电子商务,是以互联网为平台,向中国境内用户以零售的形式销售中国关境外的商品,并与用户达成商品销售协议的商业行为。最近几年,主打进口零售的跨境电商企业如雨后春笋般出现,掀起了一波跨境电商热潮,为发展趋于稳定的电商行业创造了新的热点。本项目利用MySQL对考拉海购的零售数据进行分析,从用户、商品、市场等角度探索跨境电商市场和用户的特点。市场分析近年来,随着我国人民生活水平和消费能力的提高,大家的消费观念和消费行为正逐渐发生转变,对于商品品质的需求不断增强。消费者在追求国外.

2021-01-18 18:52:40 807

原创 时间序列模型

模型概述时间序列是按时间顺序排列的、随时间变化且相互关联的数据序列。时间序列分析是在时间间隔不变的情况下,根据不同时间点的历史数据集合,对未来进行预测,用来了解长期发展趋势。构成要素时间序列可以分为长期趋势(trend)、季节变动(seasonal)、循环变动(cycling)和随机波动(irregular)四个部分。长期趋势( T ):在较长时期内受某种根本性因素作用而形成的总的变动趋势季节变动( S ):在一年内随着季节的变化而发生的有规律的周期性变动循环变动( C ):以若干年为周期所

2021-01-05 03:42:53 5013

原创 基于SQL的淘宝用户行为分析

互联网经济的高速发展使得企业营销的焦点从产品中心转化为客户中心,客户关系成为企业的核心问题,客户关系管理的核心问题是客户分类,通过客户分类区分无价值、高价值客户,针对不同价值的客户采取不同的营销策略,以实现企业利润的最大化;...

2020-11-22 13:24:58 737

原创 MySQL性能优化

MySQL性能优化就是通过合理安排资源,调整系统参数使MySQL运行更快、更节省资源。MySQL性能优化包括查询速度优化、数据库结构优化、MySQL服务器优化等。优化简介优化数据库是数据库管理员和数据库开发人员的必备技能。MySQL优化,一方面是找出系统瓶颈,提高MySQL数据库整体的性能;另一方面需要合理的结构设计和参数调整,以提高用户操作响应的速度;同时还要尽可能节省系统资源,以便系统可以提供更大负荷的服务。例如,通过优化文件系统,提高磁盘I/O的读写速度;通过优化操作系统调整策略,提高MySQL在

2020-09-25 18:16:31 492

原创 Power BI连接MySQL

在主页选择从MySQL数据库获取数据输入数据库IP和使用的数据库名称点击确定后选择数据库, 然后输入用户名密码, 选择级别选择指定的数据库即可之后弹出的导航器中即可有可预览的数据也可以在连接数据库时,选择高级查询中的sql语句执行查询操作, 这样也可以直接加载数据如果出现“此连接器需要安装一个或多个其他组件才能使用”这样的情况:是因为MySQL没有安装连接Power BI的驱动点击“了解详细信息”之后,进入MySQL组件的下载页面,先下载Connector/Net的组件下载地址:

2020-09-07 13:28:42 4296

原创 业务数据分析方法(3):数据异常如何分析

要处理数据异常,我们要先知道什么是数据异常。首先要有数据,才能知道什么是“异常”,百度百科的解释是:指非正常的,不同于平常的。比方如突然的涨,突如其来的跌。数据涨跌是我们在日常工作中,最容易被发现的现象,也是我们平时工作中要去分析的。也就是说,平时数据没有波动,也许我们不需要去分析,但是如果数据有涨或者跌我们都需要去查出原因的。为什么涨和跌都要关注?相信很多朋友跟我一样,起初接触到数据,我只关心跌,为什么昨天的数据跌了?并去分析其原因,也会关心涨,但并不关心为什么涨,就像买股票一样,跌了痛心疾首,并分析

2020-08-25 18:13:40 1804

原创 业务数据分析方法(2):多维度拆解法

多维度拆解是数据分析里最重要的一种分析方法,通过不同的维度去观察同一组数据,从而洞查数据异动背后的原因。多维度拆解的适用场景对单一指标的构成或比例进行拆解分析这种场景往往适用于像分栏目的播放量和新老用户比例等等。对业务流程进行拆解分析一般适用于从不同渠道浏览到添加购物车到购买的这种全局的转化流程,像有些跨区域的产品,不同的区域活动的效果自然不同,这时候我们就可以从不同省份的活动情况来进行分析。对需要还原行为发生的场景时进行拆解分析比较适用于一些直播类的产品,比如需要去观察打赏主播的等级、性别.

2020-08-25 17:44:55 1908

原创 业务数据分析方法(1):对比分析法

在日常工作中遇到简单的业务问题,可以直接查看数据进行验证并解决,但遇到复杂的问题时,可能看到数据都无从下手,拿到数据也看不出什么问题。下面介绍几种常见又比较通用的数据分析方法,希望这些分析方法能够成为你进行数据分析和解决业务问题的利器。在数据分析工作中,你可能经常遇到这样的问题:从浏览到消费的转化率一直很低,那到底该优化哪里呢?如果你要投放广告该怎么选择对象人群呢?遇到类似的问题,我们需要将具体的业务问题和数据之间建立一种关系,然后通过一些分析方法和分析工具,让我们在遇到此类问题时知道:我该选择什么样的.

2020-08-25 16:38:11 1066

原创 主流的ETL工具

ETL是数据仓库中的非常重要的一环,是承前启后的必要的一步。ETL负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库中,成为联机分析处理、数据挖掘的基础。ETL是什么ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。通俗的说法就是从数据源抽取数据出来,进行清洗加工转换,然后加载到定义好的数据仓库模型中去。目的是

2020-08-20 19:51:05 1156 2

原创 SQL中的NULL

特殊的未知值NULL不是0,也不是’'空字符串,而是一个未知的状态——可能有值,可能无值,可能存在,可能不存在,可能是任何值,可能不是任何值。总之一切皆有可能。NULL 的值不确定,因此 NULL 与 NULL 是不相同的。在逻辑判断中,NULL=NULL 返回的判断结果不是 TRUE ,而是 NULL。因为,未知和未知是无法进行比较的。假设你有两场相亲,在见面之前,你对这两个相亲对象的具体信息一无所知。因此,这俩人对你来说,都是“未知的”,都可以标记为 NULL。但是,你能说这俩人是同一个人吗?不能吧

2020-07-23 09:23:25 799

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除