自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(553)
  • 资源 (1)
  • 问答 (1)
  • 收藏
  • 关注

原创 DAX:GROUPBY 嵌套聚合

GROUPBY函数的作用是根据输入的表进行数据聚合,输入的表可以是表表达式,也就是说,GRUOPBY的参数可以是一个动态查询返回的表,也就是说GROUPBY函数主要用于嵌套聚合的情况。GROUPBY (<table> [, <groupBy_columnName> [, <groupBy_columnName> [, …]]] [, <name&gt...

2024-03-21 18:11:00 309

原创 Newtonsoft.Json 入门介绍

本人是C#小白,这里摘抄并整理了两位大神的文章:Newtonsoft.Json笔记 -JToken、JObject、JArray详解Json 基于类 Newtonsoft.Json.Linq.JToken的应用简介简单介绍如何使用Newtonsoft.Json类库和操作Json对象,这里主要介绍Linq to Json类。Newtonsoft.Json封装类实现了JToken,直接对JS...

2023-11-13 17:44:00 696 1

原创 PowerBI 开发 第23篇:共享数据集

Power BI共享数据集的优点是:只要数据集刷新,那么引用该数据集的报表都会自动刷新,节省了报表数据刷新的时间和算力,缺点是:使用共享数据集的报表,虽然可以新增Measure(Measure仅存在于本地报表中,不会同步到共享dataset),但是无法修改数据模型,比如,无法修改关系,不能创建计算列,不能查看共享Measure的定义等,这导致报表开发的自由度受到限制。一,什么是共享数据集?在...

2023-06-12 15:59:00 1258 1

原创 DAX:概述EARLIEST和EARLIER函数

EARLIEST和EARLIER函数只用于行上下文中,并且主要用于计算列的行上下文中。行上下文的作用是迭代,逐行扫描表,并且不会筛选数据。EARLIER函数用于访问外层行上下文,即使用外层行上下文,而不是最内层的行上下文检索列的值。EARLIER(<column>, <number>) EARLIEST(<column>) 注意:EARLIER函数...

2023-05-04 18:40:00 913

原创 DAX:概述ALL函数

简单的说,当ALL用作表函数时,忽略应用到表上的任何过滤器,并返回数据表;当ALL用作CALCULATE和CALCULATETABLE函数中修饰器时,ALL函数从扩展表中移除已经应用的过滤上下文。注意自动存在(auto-eixist)对ALL()函数的影响。正常情况下,包含 ALL() 函数的 DAX 表达式,会忽略已应用到表或指定列上的任何过滤器。但是,由于auto-exists机制的存...

2023-04-20 15:11:00 664

原创 DAX:LOOKUPVALUE 函数

LOOKUPVALUE函数用于根据一个或多个搜索条件,从另一个表中获取一个或0个值。LOOKUPVALUE运行在行上下文中,根据当前表中的当前行,从另一个表中查找条件相等的行,查找不需要两个表之间存在关系,搜索结果也不受过滤条件的影响。当两个表之间存在关系时,考虑使用RELATED函数,因为RELATED函数查询性能更快。LOOKUPVALUE( <result_columnN...

2022-12-09 18:21:00 2767

原创 DAX:GROUPBY函数

DAX 中的 SUMMARIZE 函数功能强大,但同时也很难使用。 它可用于执行表之间的分组和连接,正如我们之前在分组数据一文中描述的那样。 不幸的是,它在计算聚合值时存在一些众所周知的性能问题。除了性能之外,SUMMARIZE 的计算限制是它无法聚合在查询本身内动态计算的值。一,SUMMARIZE函数的限制例如,考虑以下查询,它应该为每个产品类别返回相关子类别的平均价格的最大值。ADD...

2022-12-08 18:53:00 583 1

原创 DAX:SUMMARIZE的秘密

作为一个查询函数,SUMMARIZE 执行三个操作:它可以按表本身或相关表的任何列对表进行分组;它可以创建新列,在行上下文和过滤上下文中计算表达式;它可以产生不同级别的小计(subtotal)。在 SUMMARIZE 的三个主要操作中,只有第一个是安全的。 另外两个操作——创建新列和计算小计——应该避免。 并不是说这些功能不起作用。 问题是 SUMMARIZE 的语义非常复杂,以至于...

2022-12-08 15:51:00 1448

原创 VS配置OpenCV

OpenCV下载地址:http://opencv.org/downloads.html,根据操作系统选择合适的安装包。本文使用的是OpenCV-3.4.16的Windows版本,Visual Studio是VS2022版本。我把OpenCV解压到D:\Program Files (x86)\opencv。1,在Windows 10 中添加环境变量在系统变量的Path变量中添加以下两个路径:...

2022-09-01 17:17:00 977

原创 pandas Series矢量化的字符串函数——Series.str

在清理文本数据时,对pandas Series(序列)可以使用map函数,所有的字符串都可以应用字符串函数或正则表达式,但是如果存在NA,就会报错。为了解决这个问题,Series有一些可以跳过NA值的字符串操作方法,这可以通过Series的str属性来访问。s1 = pd.Series(['Mouse', 'dog', 'house and parrot', '23', np.NaN])s...

2022-08-12 12:28:00 766

原创 pandas merge 和 concat

merge是按照列值或索引值进行连接,concat是按照轴进行拼接。一,merge数据库风格的连接是merge,DataFrame.merge(right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=False, suffixes=('_x', ...

2022-08-11 17:04:00 751

原创 pandas reindex、set_index 和 reset_index

操纵索引包括:重索引、设置索引、替换轴的索引、重置索引一,重索引 (reindex)重索引是指数据框按照新的索引进行排列,如果已存的索引和新索引不匹配,那么使用NA来填充。DataFrame.reindex(labels=None, index=None, columns=None, axis=None, method=None, copy=True, level=...

2022-08-11 12:07:00 1087

原创 pandas 排序和排名

Series和DataFrame可以按照索引进行排序,也可以按照值来排序,对值也可以进行排名。一,按照索引排序(sort by index)对于一个Series或DataFrame,可以按照索引进行排序,使用sort_index()函数来实现索引的排序:DataFrame.sort_index(axis=0, level=None, ascending=True, inplace=Fal...

2022-08-10 16:35:00 1238

原创 pandas pivot、pivot_table和melt

pandas的pivot和pivot_table 用于表格数据的行列互换,而melt用于unpivot 表格数据。1,pivot有如下数据集:import pandas as pdimport numpy as nptable = {"Item":['Item0','Item0','Item1','Item1'],"CType":['Gold','Bronze','Gold',...

2022-08-09 10:45:00 969

原创 pandas stack和unstack

在使用pandas进行数据整理时,经常会用到stack和unstack两个函数。stack直译过来是堆叠,堆积,unstack是展开。但是stack和unstack的作用类似于pivot和unpivot,stack用于把列转换为行,而unstack用于把行转换为列。因此,可以把stack和unstack的功能解释为行列互换。stack():从列到行堆叠,把列转换为行unstack():从行...

2022-08-04 11:19:00 1649

原创 pandas 学习 第15篇:分组 groupby

对DataFrame 和 Series 进行分组之后,会返回一个数据类型为GroupBy的对象。对数据进行分组之后,能够得到一个分组键和一个分组数据,一个分组对应的分组键是唯一的,分组是具有相同分组键的行或列的列表。一,groupby函数的基本原理这一节的内容引用于《Pandas教程 | 超好用的Groupby用法详解》,我强烈建议阅读原文,原文写的真棒。为了后续图解的方便,采用模拟生成的...

2022-08-01 16:06:00 2043

原创 PowerBI 开发 第22篇:发现异常(Find Anomalies)

异常检测通过自动检测时间序列数据中的异常来增强折线图,并且提供了异常解释,以帮助用户进行根本原因的分析。异常检测只能用于Line Chart中,并且必须有Date字段作为X坐标轴,也就是说,只能按照时间序列来检测异常数据。启用异常检测,只需要在Analyse面板中选择“Find anomalies”。一,格式化异常开发人员可以格式化表示异常的icon的形状、大小和颜色,以及预期范围的颜色...

2022-07-19 20:06:00 416

原创 PowerBI开发 第21篇:关键因素(Key Influencer)

关键因素(Key Influencer)图表能够帮助用户分析KPI的因素,并按照因素的重要性进行排名,也就是说,该图表可以查看哪些因素会影响到KPI,并计算出因素的相对重要性。使用Key Influencer Visual,不仅可以查看单个因素的影响,还可以查看多个因素构成的组合(称作Segment)对指标的影响。Key Influencer Visaul 的配置:Key Influenc...

2022-07-12 18:33:00 553

原创 【转】评估分类模型的指标:ROC/AUC

原文:【机器学习笔记】:一文让你彻底理解准确率,精准率,召回率,真正率,假正率,ROC/AUC作者:xiaoyu微信公众号:Python数据科学知乎:python数据分析师ROC/AUC作为机器学习的评估指标非常重要,也是面试中经常出现的问题(80%都会问到)。其实,理解它并不是非常难,但是好多朋友都遇到了一个相同的问题,那就是:每次看书的时候都很明白,但回过头就忘了,经常容易将概念弄...

2022-06-02 10:14:00 453

原创 DAX :表值函数 ADDCOLUMNS 和 SELECTCOLUMNS

函数ADDCOLUMNS和SELECTCOLUMNS的功能相似,都是迭代函数,在行下文中计算表达式,并返回一个表,但是从数据沿袭的角度来看:在ADDCOLUMNS函数中,添加的列不具有数据沿袭的能力。在SELECTCOLUMNS函数中,SELECTCOLUMNS 保留简单列引用的数据沿袭,对列执行的任何表达式都会破坏数据沿袭。一,ADDCOLUMNS函数ADDCOLUMNS是一个迭代...

2022-05-25 11:15:00 2581

原创 DAX :【翻译】自动存在(auto-exist)

自动存在是 DAX 中内置的一项技术,其唯一的目标是避免无用计算,换句话说,它是 DAX 的过滤机制使用的一种优化技术,目的是减少计算值的工作量。例如,假设有人构建了一份按大陆和国家/地区划分的报告。 在一个数据库中,一个人可能有两大洲和五个国家:在这些数据上,可以运行一个简单的查询,如下所示:EVALUATESUMMARIZECOLUMNS ( Geography[Con...

2022-05-23 17:49:00 182

原创 DAX 第八篇:【翻译】数据沿袭(Data Lineage )

数据沿袭实际上存在DAX中的每个角落,它的设计如此好,以至于很多开发人员在不知情的情况使用。DAX使用数据沿袭来维护关于列值来源的信息。数据沿袭实际上是一个标签(Tag),分配给表中的每一列,此Tag用于标识数据模型中的原始列,即列的值源自于该列。通过数据沿袭,DAX可以利用现有的关系来过滤数据模型。对列的简单引用会保留数据沿袭,对列执行运算会破坏数据沿袭。1,对列的简单引用会保留数据沿袭...

2022-05-22 19:01:00 678

原创 DAX:直接过滤和交叉过滤

在筛选上下文中,一列可能是由于应用了过滤器而被直接筛选,也可能是由于关系的传递,其他列被筛选而导致该列被间接筛选。因此,可以把数据模型中的筛选分为直接过滤和交叉过滤。直接过滤:当过滤器直接作用到表中的一列上时,该列是被直接过滤的。直接过滤是由外部的切片器和查询上下文中的行和列过滤器确定的,不受交叉过滤器的影响。注意:如果外部切片器没有勾选任何选项时,默认显示基础表中所有的唯一值。交叉过滤:...

2022-05-19 13:28:00 363

原创 DAX:表值函数 VALUES和DISTINCT

表值函数 VALUES, DISTINCT 都用于返回一列的唯一值,唯一的区别是处理表种空行的行为不同。当关系代表的约束无效时,数据模型会再关系的“一”端的任何表中自动创建一个空行,这就是空值的由来,也就是说,在一个1:M的关系中,如果“多”端在“一”端没有对应的值,那么数据模型默认把BLANK作为值来关联“多”端。一,VALUES函数VALUES函数收到过滤上下文的影响,并可以添加BL...

2022-05-18 21:40:00 1311

原创 在Windows服务器上启用远程桌面连接

按照以下的步骤来启用远程桌面连接,可以允许同时连接多人。Step1:登录Windows 服务器“”,打开“Start”(按下Windows键),输入“Edit group policy” 或 “gpedit.msc”来加载“Local Group Policy Editor”Step2:导航到Computer Configuration>>Administrative Te...

2022-05-12 20:50:00 3048

原创 DAX:RELATED 和 RELATEDTABLE

函数RELATED 和 RELATEDTABLE用于在表达式内部操作关系,从关系的角度,这两个函数的区别是:在一对多的关系中,RELATED 用于从“多”端访问“一”端,在这种情况下,相关表中至多有一行。如果数据行不存在,那么RELATED 函数返回BLANK。如果希望从关系的“一”端访问到“多”端,就需要使用RELATEDTABLE 函数,在这种情况下,相关表中可能有多行,RELATE...

2022-05-03 21:34:00 1333

原创 PowerBI开发:用自然语言来探索数据--Q&A

Power BI报表的用户,肯定会被Q&A的功能惊艳到,在查看报表时,仅仅通过输入文本就可以探索数据,并且结果是可视化的,更令人惊艳的时,结果几乎是实时显示出来的。这使得Q&A Visual就像一个搜索引擎,输入你想查询的问题,Q&A返回一个可视化的结果。在您开始输入问题之前,Q&A会显示一些建议,如下图所示:用户也可以输入自己的问题,Q&A支持广...

2022-04-11 22:03:00 562

原创 numpy 学习:保存和加载

numpy使用save(), savez()和load()函数来保存和加载numpy的二进制文件。一,保存文件save()和savez()的区别是前者是非压缩的,而后者是压缩存储。1,save()函数def save(file, arr, allow_pickle=True, fix_imports=True)save()函数:以.npy格式将数组保存到二进制文件中。.npy格...

2022-01-05 14:47:00 1348

原创 numpy 学习:统计函数和相关性

数组的统计函数用于对数组做统计运算。一,统计方法NumPy内置数据分析常用的统计量:mean():计算元素的均值median():计算中位数var():计算元素的方差std() :计算元素标准差max():计算元素的最大值min():计算元素的最小值ptp():计算元素的取值范围,即最大值和最小值的差值percentile():计算百分位quantile():计算分为数...

2022-01-05 14:21:00 552

原创 numpy 学习:数组的查找

1,查找最大值或最小值所在的索引按照特定的轴查找最大值或最小值的索引numpy.argmax(a, axis=None, out=None, *, keepdims=<no value>)numpy.argmin(a, axis=None, out=None, *, keepdims=<no value>)举个例子,查找最小值的索引:>>&gt...

2022-01-05 14:18:00 1351

原创 numpy 学习:数组的拼接、堆叠和拆分

拼接不会改变数组的维度,而堆叠会增加新的轴。一,拼接如果要把两份数据组合到一起,需要拼接操作。numpy.concatenate((a1, a2, ...), axis=0, out=None)参数axis默认值是0,标识按照行来拼接,如果设置为None,那么所有的数组将展开为一维,并拼接在一起。对二维数组进行拼接x = np.array([[1, 2, 3], [4, 5, ...

2022-01-05 14:15:00 2141

原创 numpy 学习:通用函数(包含数学函数)

通用函数(universal function)通常叫作ufunc,它对数组中的各个元素逐一进行操作。这表明,通用函数分别处理输入数组的每个元素,生成的结果组成一个新的输出数组。输出数组的大小跟输入数组相同。一元通用函数:abs:计算绝对值sqrt:计算平方根square:计算平方exp:计算元素的值数exlog、log10、log2:计算对数ceil、floor:计算元素的ce...

2022-01-05 13:50:00 917

原创 numpy 学习:数组改变形状、副本和view

一个数组的形状是由每个轴的元素数量决定的,可以通过reshape()和resize()函数来操纵数组的形状。transpose()函数用于数组的转置,ravel()函数用于把数组展开为一维数组,而flatten()用于获得数组展开之后的一个副本;swapaxes()函数用于交换数组的两个轴,squeeze()函数用于删除数组中长度为1的轴。一,数组的变形数组的转置可以通过数组的属性T来获得,...

2022-01-04 17:26:00 2991

原创 numpy 数据类型和空值

numpy支持的数据类型非常精细,但是numpy不支持精确小数。在导入numpy模块时,通常把numpy模块重命名为np:import numpy as np一,numpy的数据类型Numpy支持的标量数据类型非常繁杂,我比较喜欢固定size的数据类型,因为固定size的数据类型跟平台无关,且命名格式比较规范,格式是:[u]type[size],u代表无符号,size代表占用的内存空间...

2021-12-31 17:51:00 943

原创 Databricks:有用的代码集锦

本文总结了在工作中用过的脚本1,列出folder中的所有文件%pythondisplay(dbutils.fs.ls("dbfs:/mnt/folder/"))2,改变表的列由于Azure Databricks不支持修改列,所以可以通过把数据表重命名,然后创建一个同名的表来实现列的改变%sqlalter table capsbi.table_datarename to c...

2021-12-31 16:52:00 562 1

原创 Python 数据类型:布尔类型和None

bool(也叫逻辑值)有True和False,用于表示真或假。True和False是预先定义的关键字,在内部,True和False是bool的实例,实际上仅仅是内置的整数类型int的子类。True和False的行为跟整数1和0是相同的。有些值是unknown的,用None来表示。一,布尔类型bool数据类型的值是:True和False,显示的是True和False,其行为跟整数1和0是相同...

2021-12-27 23:19:00 893

原创 Python 开始:变量、操作符、print()和type()

Python的对象分为变量和常量,常量的值是字面意思,其值是不可变的;变量的值是可变的,例如,123,"上海"是常量,而a=1,a=2,其中a是变量名。内置的核心数据类型有:数字、字符串、列表(list)、字典(dictionary)、元组(tuple)、文件、集合(set)、None和布尔(bool)类型。变量的数据类型是由初始化的常量来指定的,其类型根据赋值是可变的,这就是Python的动态...

2021-12-26 22:34:00 2507

原创 Python 学习:浮点数

在Python语言中,浮点数是有精度的,通常有精度缺失,这是由于浮点数是使用2进制进行计算的,如下所示:>>> print(0.3 - 0.2)>>> print(0.3 - 0.2 == 0.1)0.09999999999999998False让我们考虑十进制的 1 / 3 是 0.3333333,十进制的 2 / 3 是 0.6666666...

2021-12-17 17:58:00 5292

原创 Databricks 第12篇:Notebook 工作流

Databricks 集成了命令行,比如 %run,允许用户在一个Notebook中去执行指定的notebook,当运行 %run时,被调用的notebook会立即执行。%run <notebook_path_name>%run命令相当于Python语言中的import语句,在被调用notebook中定义的所有变量在当前的notebook中都可用。注意:%run命令必须独占...

2021-11-17 16:19:00 1495

原创 Numpy 学习 第五篇:数组的高级操作

数组的高级操作主要是组合数组,拆分数组,tile数组和重组元素。一,组合数组一维数组相当于是1行N列的数组,当使用column_stack()时,该一维数组作为一个新列;当使用hstack()函数时,为原始数组新增N列;当使用vstack()函数时,为原始数组新增1行。1,把一维数组作为列添加到二维数组中tup是一个数组的序列,按照列堆叠时,相当于二维数组新增一列;按照行堆叠时,相当于增...

2021-07-29 13:04:00 845

<利用Python进行数据分析>的源代码和数据集

<利用Python进行数据分析>的源代码和数据集

2022-07-29

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除