- 博客(286)
- 收藏
- 关注
原创 红包参与领取、活跃用户等相关9题
(为什么会出现“已领取红包,但未登录的情况”,因为在现实的数据中,数据上报无法做到十分准确,这种其实是BUG数据。备注:日志流水表,每一行为领取1次红包。无特殊说明,一般不考虑领取红包但当日未登录的情况。备注:一个用户1天只出现1次,出现即表示当日登陆。
2024-02-19 17:33:22 343 1
原创 格式化日期表头
原理:函数内部使用datetime.strptime()将日期表头字符串转换为日期对象,然后使用date_obj.strftime()将日期对象格式化为指定格式的字符串。
2024-01-24 14:21:16 333
原创 metabase filter
除“字段过滤器”之外的所有变量类型都会自动导致在此问题上放置过滤器小部件;然后,您可以选择在您的问题上显示过滤器小部件,但即使不这样做,您现在也可以在将此问题添加到仪表板时将字段过滤器变量映射到仪表板过滤器。为变量提供“字段过滤器”类型允许您将问题链接到仪表板过滤器小部件或在 SQL 问题上使用更多类型的过滤器小部件。字段过滤器变量插入的 SQL 类似于在现有列上添加过滤器时由 GUI 查询生成器生成的 SQL。本机查询中的变量允许您使用过滤器小部件或通过 URL 动态替换查询中的值。
2023-12-19 12:29:41 89
原创 对于技术人员实力的判断
俗话说“文无第一,武无第二”,技术就是一种“文”的能力,很多时候我们很难直观看出一个技术人员的实力,但不管是公司招聘的面试,还是公司内部的晋升面评,都需要在较短时间内快速判断一个技术人员的实力。得益于工作岗位的关系,我在考核技术人员的实力时积累了较丰富的经验(包括踩坑的经验)。首先是招聘,前后面试了几百个人吧,技术范围包括服务器、android、iOS、前端,既包括初出茅庐的应届生,也包括腾讯的 T4 大牛;
2023-12-07 17:44:18 99
原创 pymysql.err.InternalError: (1054, “Unknown column ‘nan‘ in ‘field list‘“
记录在本地环境通过,然后在云环境,解决问题的过程;
2023-12-06 19:14:23 380
原创 ProgrammingError: nan can not be used with MySQL
【代码】ProgrammingError: nan can not be used with MySQL。
2023-11-30 16:25:04 577
原创 DataFrame.empty 与 DataFrame is None 的区别是?
总结来说,DataFrame.empty用于检查DataFrame对象是否为空,而DataFrame is None用于检查DataFrame对象是否为None对象。在上述示例中,由于DataFrame对象df被显式设置为None,因此df is None为True,输出结果为"DataFrame为None"。在上述示例中,由于DataFrame对象df不包含任何数据,因此df.empty为True,输出结果为"DataFrame为空"。请注意,empty 与 None 是不同的概念,这个要注意。
2023-11-17 11:05:40 229
原创 傻傻分不清 “json.dump()、 json.dumps()、 json.loads() 、 json.load()“的区别?
json.dump():将Python对象序列化为JSON格式的数据并将其写入文件。它接受两个参数:要序列化的Python对象和要写入的文件对象。示例用法:json.dump(obj, file)。json.dumps():将Python对象序列化为JSON格式的字符串。它接受一个参数:要序列化的Python对象。示例用法:json.dumps(obj)。json.load():从文件中读取JSON格式的数据并将其反序列化为Python对象。它接受一个参数:要读取的文件对象。
2023-11-09 15:19:23 222
原创 【实用】得到三个动态时间点作为分界点
因为周报需要对比上周,所以现在有一个需求,动态生成上周周一的时间点,类似 ‘2023-10-23 00:00:00’ 并将值赋予给time2变量,将time2 减去7天,得到的时间点赋值给time1,将time2 减去7天,得到的时间点赋值给time3,得到三个动态时间点作为分界点;
2023-11-03 15:53:13 67
原创 ConnectionError: HTTPSConnectionPool
连接不上url ,chatcpt 第一步就告诉我了,折腾了大半个下午,惭愧!
2023-11-02 18:24:25 1020
原创 手机型号抓取
方式②:原始数据中,每个页面的数据存储在一个列表中,然后页面中的每条数据以字典单元形式盛放在列表中,因此,策略是可以先通过aList.extend(bList)方法,把所有的需要的n个页面中的列表中的字典(每条记录)总体组装在一个总列表中 --》 然后再转成一个总的df。方式①:每个页面的数据处理成df, 然后再合并df , pd.concat()/ df.append() 循环合并。Code处理结果:DataFrame 及 流程。个人感觉方式②的效果会更高效一些!
2023-10-31 09:56:41 60
原创 使用Python计算数据集中不同维度下的方差和 JS 散度
本文介绍了如何使用 Python 和 Pandas 库计算数据集中不同维度下的方差和 JS 散度。这些指标可以用于评估各维度变化的波动大小,从而实现异常维度挖掘和数据分析等目的。在数据挖掘领域中,我们经常需要衡量不同维度之间的差异或相似度。为了实现这一目标,通常需要使用各种方法来计算两个样本之间的差异。本文将介绍如何使用 Python 和 Pandas 库来计算数据集中不同维度下的方差和 JS 散度,以评估各维度变化的波动大小。最后,我们得到了各维度下的方差和 JS 散度指标。
2023-05-30 19:01:15 593
原创 Python 连接 MySQL 数据库
首先,在使用 pandas.read_sql() 时,需要在 SQL 查询语句中包含所有必要的过滤条件、排序方式等信息,以确保返回的结果集合是正确的,而不是整个表或视图中的所有数据。除了使用 pymysql 库连接 MySQL 数据库之外,我们还可以使用 SQLAlchemy 的 create_engine 函数创建 MySQL 数据库连接引擎,并使用 Pandas 库中的 read_sql 函数直接将查询结果转化为 Pandas dataframe 对象。希望本文对您有所帮助!
2023-05-17 20:09:30 13176 3
原创 Python数据离散化指南:手写if-elif语句与pandas中cut()方法的实现
第二种方法是使用 pandas 库的 cut() 方法将输入值 x 映射到不同的标签中,并返回标签。两种方法各有优缺点。第一种方法是使用条件语句来显式地检查输入值 x 是否在每个区间内,并返回相应的标签。这种方法适用于自定义的分段方式,要求手动设置每个阈值和对应的标签。当我们进行数据分析时,有时候需要对数值型数据进行离散化,将其划分为不同的标签或类别。其中 tran_amount_label 是新添加的一列,它显示了每个交易额所属的标签和类别。在本文中,我们将介绍两种常见的离散化方法,并提供实现代码。
2023-05-16 18:36:10 460
原创 metabase的地图展示方式及切换地图源
瓦片数据也是可以修改,如使用https://blog.csdn.net/banhusao3974/article/details/102053671。1、pin map,就是按经纬度在地图上打点,要求数据必须有经纬度:Latitude field及Longitude field。2、region map ,这个比较简单,按区域显示数据,有对应区域编号,比如city就可以,注意是编号要在地域数据中有。3、grid map,这个只按区域(瓦片,tile)显示汇总只,必须配置对应的汇总函数。
2023-03-22 15:22:32 408
原创 大数据常见术语
大数据常见术语一览主要内容包含以下(收藏,转发给你身边的朋友)雪花模型、星型模型和星座模型事实表维度表上钻与下钻维度退化数据湖UV与PV画像ETL机器学习大数据杀熟SKU与SPU即席查询数据湖数据中台ODS,DWD,DWS,DWT与ADST0与T+1用户画像用户画像又称用户角色,作为一种勾画目标用户、联系用户诉求与设计方向的有效工具,用户画像在各领域得到了广泛的应用。我们在实际操作的过程中往往会以最为浅显和贴近生活的话语将用户的属性、行为与期待的数据转化联结起来。作为实际
2023-03-01 10:37:03 3686
原创 数据库必知词汇:即席查询(Ad Hoc)
它们之间的差别在于,通常的查询在系统设计和实施时是已知的,所有我们可以在系统实施时通过建立索引、分区等技术来优化这些查询,使这些查询的效率很高。而即席查询是用户在使用时临时生产的,是一种松散类型的命令/查询,其值取决于某个变量,每次执行命令时,结果都不同,这取决于变量的值。临时查询是短期的,并且是在运行时创建的。在一个数据仓库系统中,即席查询使用的越多,对数据仓库的要求就越高,对数据模型的对称性的要求也越高。即席查询与普通应用查询最大的不同是普通的应用查询是定制开发的,而即席查询是由用户自定义查询条件的。
2023-03-01 10:32:09 580
原创 我用python封装了个实现对MySQL建库、建表并实现增删改查操作的类
我用python封装了个实现对MySQL建库、建表并实现增删改查操作的类。
2023-02-25 21:45:18 167
原创 数据集市与数据仓库的区别
数据集市:按照某一特定部门的数据模型建立的,由于每个部门有自己特定的需求,因此,他们对数据集市的期望也不同。而数据集市则是部门级的,一般只能为某个局部范围内的管理人员服务,因此也称之为部门级数据仓库。独立数据集市的数据子集来源于各生产系统,许多企业在计划实施数据仓库时,往往处于投资方面的考虑,首先建成独立数据集市,用来解决个别部门较迫切的决策问题。一般为那些访问数据仓库十分频繁的关键业务部门建立从属的数据集市,能提高查询反应速度。(3)数据集市的数据组织一般采用星形模型。数据集市按数据的来源分为以下两种。
2023-02-25 15:08:50 1578
原创 Python打印详细报错日志logging
logging模块可以实现Python程序的错误日志功能。通过使用baseConfig()函数就可以对logging进行一个日志配置。包括输出的格式和错误等级,记录的文件目录。在程序中完成logger,handler,filter,formater的实例化 被配置好logging,然后再使用logging取得logger进行日志操作。
2023-02-25 14:05:09 1378 1
原创 如何开发一个手工数据收集API接口
定义 API 端点:确定要收集的数据类型以及 API 端点的外观。例如,如果你想收集有关用户的信息,你可以定义一个像 /api/users 这样的端点来返回所有用户的列表。编写文档:为您的 API 创建清晰简洁的文档,以便其他人知道如何有效地使用它。添加身份验证:根据您收集的数据类型,您可能需要向 API 添加身份验证。您需要验证传入的数据,将其存储在数据库中,然后将适当的响应返回给客户端。具体实施细节将取决于您选择的 Web 框架、您收集的数据类型以及您的具体要求。
2023-02-10 17:33:37 381
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人