自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(205)
  • 收藏
  • 关注

原创 【数据分析面试】25.求字母序数位置总和(Python:ord函数)

字母和是字符串中每个字母在标准英语字母顺序中的序数位置的总和。因此,字母a的值为1,z的值为26,依此类推。写一个python函数计算英文单字的字母和。

2024-04-20 12:45:29 92

原创 如何训练一个大语言模型(LLMs)

在当今数字时代,语言模型已经成为自然语言处理任务的强大工具,从文本生成到情感分析和机器翻译等各个方面都有涉猎。然而,训练这些模型需要仔细的规划、大量的计算资源以及机器学习技术方面的专业知识。那么一个大型语言模型(LLMs)到底是如何训练出来的呢?在查阅了解之后,我们将相关内容整理出来。在本文中,将和大家一起探讨训练LLMs所涉及的步骤

2024-04-19 13:06:35 803

原创 【数据分析面试】24.20个数据库问答题 (考察数据开发和实际应用能力)

20个数据库相关的问题,看看你是否都能回答上来?

2024-04-19 13:06:07 531

原创 【数据分析面试】23.Airbnb 预测模型选择 (机器学习:线性回归Vs随机森林)

现在需要你搭建一个模型去预测对Airbnb上的房价。在线性回归和随机森林两种模型中,哪个会表现更好?

2024-04-18 11:30:00 292

原创 【数据分析面试】22.补充缺失数据(Python:数据插值interpolate()用法)

线性插值是一种方法,用于在已知数据点之间的位置估算缺失值。它假设数据的变化是直线形式的。比如,如果你有两个点的数据,线性插值会用一条直线连接它们,然后根据这条直线上的位置来估算其他点的值。在时间序列数据中,线性插值通过已知时间点的数据来估算缺失时间点的数据,假设数据在时间上是线性变化的。举个例子,假设我们有一条线上有两个点 A 和 B,它们的坐标分别是 (x1, y1) 和 (x2, y2)。线性插值会根据这两个点之间的直线来估算任意两个点之间的值。

2024-04-17 11:30:00 1279

原创 【数据分析面试】21.Spotify 音乐数据库搭建(SQL主键和外键)

Spotify是一家总部位于瑞典的音乐流媒体服务提供商。假设现在你在Spotify工作,你需要设计一个用于存储歌曲元数据的关系型数据库。你会如何设计?如果还需要设计用户数据库呢?

2024-04-16 17:44:43 918

原创 【数据分析面试】19.计算主要地址下单百分比 (SQL)

给定一个交易表和一个用户表,编写一个查询来确定用户是否倾向于向他们的主要地址下订单,而不是其他地址。

2024-04-15 10:30:00 226

原创 【数据分析面试】20.找出用户名字 (Python:apply()\labmda())

假设你有一个DataFrame,其中包含用户ID和他们的全名,例如 'James Emerson' 或 'Fiona Woodward'。你的任务是将这个DataFrame转换为一个新的DataFrame,只包括用户ID和每个用户的名字。

2024-04-15 10:30:00 981

原创 【数据分析面试】 18.计算每季度的各部门支出(SQL:EXTRACT函数介绍)

按照要求根据交易表格,汇总计算出每季度的支出

2024-04-13 10:30:00 281

原创 【资料分享】适合新手练习的5个金融风控数据集

打包整理了5个金融风控数据集,包括信用卡违约预测、P2P贷款预测、借款风险数据、企业财务困境预测以及公司破产预测。

2024-04-12 10:30:00 664

原创 【数据分析面试】17. 学生分数表 (SQL:MAX函数的特殊使用技巧 + Case When)

MAX函数和CASE WHEN语句的组合可以实现一些有趣的功能,特别是在需要根据条件计算最大值时。你需要使用这个语法组合,完成创建学生分数表的任务。

2024-04-12 10:30:00 849

原创 【数据分析面试】16.查找会员的发货记录(SQL:JOIN vs LEFT JOIN)

通过用户表和发货记录表,查找会员的发货记录

2024-04-11 11:30:00 269

原创 最近大语言模型太多了,写个了问卷让它们回答,看看Ta们的回答

最近各家都在训练大语言模型,作为普通使用者,也不知道哪家的比较好,也分不清的Ta们的差别好坏,于是让Chatgpt生成了一些问卷题目,让Ta们自己回答。

2024-04-10 16:09:54 387

原创 【数据分析面试】15. 找出符合条件的学生 (Python: loc 和 iloc的使用方法)

在python中loc和iloc的区别。

2024-04-10 12:00:00 367

原创 【数据分析面试】14. 优化页面UI(业务分析及AB测试)

如何评估是否需要优化页面UI设计?

2024-04-09 12:00:00 233

原创 【数据分析面试】13.找出未售出的座位(SQL:JOIN语法介绍inner join、left join、right join、outer join、cross join)

交叉连接不需要指定任何连接条件,它会将左表中的每一行与右表中的每一行进行组合,生成的结果集的行数等于左表行数乘以右表行数。连接查询对多个表进行JOIN运算,简单地说,就是先确定一个主表作为结果集,然后,把其他表的行有选择性地“连接”在主表结果集上。用于在连接两个表时,返回左表或右表中的所有行,即使在另一个表中没有匹配的行。:可以通过左外连接实现同样功能,在一些数据库中,右外连接的语法支持不如左外连接那么普遍,因此可能会导致可读性较差的代码。然后,我们计算航班上的总座位数减去已售出的座位数,得到剩余座位数。

2024-04-08 16:00:36 441

原创 【数据分析面试】12. 随机抽取颜色球(Python random模块应用:choices()/choice()/sample())

是Python标准库中的一个函数,用于从一个给定的集合中随机选择元素。其中,population是需要从中选择元素的集合,可以是列表、元组、字符串等。weights是一个可选参数,用于指定每个元素的选择权重,如果不提供,则默认所有元素具有相同的权重。k是一个整数,表示需要选择的元素数量,默认为1。以下是一些使用# 创建列表jar# 随机选择5个元素,每个元素被选中的概率相等。# 随机选择5个元素,但只有数字3有被选中的权重,因此结果中只会包含数字3。#使用累积权重来确定每个元素被选中的概率。

2024-04-07 11:00:00 816

原创 【数据分析面试】11. 计算账户关闭率(SQL:评估不同查询方法的性能效率)

给定一个账户状态表,编写一个查询以获取在2019年12月31日活跃并在2020年1月1日关闭的账户所占的百分比,以及在2019年12月31日活跃的总账户数。这可能会导致额外的性能开销,特别是在没有适当索引的情况下。然而,如果数据库优化器能够有效地执行这些操作,这种方法也可以提供良好的性能。这种方法在处理大型数据集时可能会遇到性能问题,因为它执行了两次全表扫描。最终,最佳的选择应该基于具体的业务需求、数据特性和系统环境进行测试和评估。关键是要圈定两组ID:31号集体的激活账户,以及1号的休眠账户。

2024-04-06 10:00:00 519

原创 【数据分析面试】10. 计算平均通勤时间(SQL:timestampdiff() 和datediff()区别)

编写一个查询,以获取纽约(NY)每位通勤者的平均通勤时间(以分钟为单位),以及纽约所有通勤者的平均通勤时间(以分钟为单位)。是一个用于计算两个日期时间之间差异的 MySQL 函数。它接受三个参数:时间单位、起始日期时间和结束日期时间。一般思路是,先计算纽约的平均通勤时间,然后再计算个人的,最后把结果汇总在一起。它接受两个日期参数,并返回。函数通常用于计算两个日期时间之间的差异,因此它的参数通常是。类型的参数,但是如果只是想计算日期之间的天数差异,使用。下面是直接用一个窗口函数,完成对每个ID的平均值计算。

2024-04-05 10:00:00 499

原创 【数据分析面试】9.找出最新的员工薪资 (SQL)

CTE(Common Table Expression,公用表表达式)是一种在 SQL 中临时定义、命名的查询结果集,它能够在查询中被引用多次。CTE 可以用于提高 SQL 查询的可读性和可维护性,尤其是当查询需要复杂的子查询或多个嵌套查询时。CTE 名称是一个用户指定的标识符,用于在查询中引用该临时表,而查询定义则是一个 SQL 查询,用于生成临时表的内容。人力资源部门的负责人仍然需要每位员工的当前薪资。在更新数据表时,使用了插入而不是更新,这就导致了数据表中会同时存在新旧两条数据,想要找出新的数据。

2024-04-04 11:00:00 398

原创 AI技术在金融领域/银行业的应用和风险

随着科技的不断发展,人工智能(AI)技术已经在各行各业得到了广泛的应用,其中包括银行业。银行业作为经济的重要组成部分,一直在不断地探索和应用新技术,以提升服务效率、风险管理和客户体验。然而,AI技术的应用也带来了一些挑战和风险,需要银行业和监管机构共同应对。

2024-04-03 15:41:05 1184

原创 【数据分析面试】8.计算标准差(python)

在不使用Numpy内置函数的情况下,如何编写计算标准差的函数?

2024-04-03 11:00:00 382

原创 【数据分析面试】7. 不同产品的月销售额(SQL)

给定一个包含每月销售数据的表,编写一个查询以找到每个产品在每个月销售的总金额,并将每个产品作为输出表中的单独列。条件聚合和条件求和每个产品的销售金额,并将每个产品作为输出表格的单独列。这是一个经典的行转列问题,我们可以使用条件聚合和条件求和来生成输出表格。

2024-04-02 11:00:00 331

原创 超越Pandas:数据处理利器Polars的快速入门指南

Polars是一个用于数据处理和分析的快速、内存高效的Rust语言编写的数据操作库。它提供了类似于Pandas的API,但具有更好的性能和内存使用效率。本文将介绍Polars库的基本使用说明,并通过具体的代码案例展示其功能和特性。

2024-04-01 14:00:00 1025

原创 【数据分析面试】6.计算对话总数(SQL)

给定了名为 `messenger_sends` 的消息表格,找出总共有多少个唯一的对话。

2024-04-01 10:30:00 350

原创 【数据分析面试】5.地址信息数据清洗合并 (Python)

来创建一个单一的数据框,其中包含完整的地址,格式为街道、城市、州、邮政编码。一个包含有关地址的信息,另一个包含了不同城市和州之间的关系。

2024-03-31 10:30:00 351

原创 【数据分析面试】4.寻找超过100元的订单 (Python:merge和concat用法)

concat()left和right: 要连接的DataFrame对象。how: 连接方式,可选值有’left’, ‘right’, ‘outer’, ‘inner’,默认为’inner’。on: 连接键,用于连接两个DataFrame的列名。如果两个DataFrame中的列名不同,可以使用left_on和right_on来指定左右DataFrame的连接键。left_on和right_on: 左右DataFrame连接的列,如果列名不同。left_index和。

2024-03-30 10:30:00 640

原创 【数据分析面试】3.编写数据选取函数(Python)

方法选择喜欢的颜色为绿色或红色的行,然后使用条件筛选出成绩大于90的行,最后返回满足条件的结果。的函数,以选择仅当学生喜欢的颜色是绿色或红色且他们的成绩高于90时的行。

2024-03-29 10:30:00 316

原创 【特征工程】WOE编码(Weight of Evidence Encoding):信息权重编码方法详解及代码示例

Weight of Evidence Encoding(WOE编码)是一种用于二分类问题的编码方法,通过计算每个类别的证据权重来表示其与目标变量之间的关系。

2024-03-28 15:12:18 1062

原创 【数据分析面试】2.连续访问最长天数用户(SQL)

给定一个包含事件日志的表格,找出连续访问平台时间最长的前五个用户。注意:连续访问是指用户在连续的几天内每天至少访问一次平台。events表created_aturl。

2024-03-28 10:30:00 703

原创 学校管理系统项目——数据架构设计方案

学校作为一个组织机构,需要管理大量的信息和数据,包括学生信息、教师信息、课程信息、成绩信息等。为了更高效地管理这些数据,提升学校管理水平和服务质量,本文对学校数据管理系统的需求进行了分析与总结,旨在为学校选择和搭建一套合适的数据管理系统提供参考。

2024-03-27 17:13:59 1121

原创 【数据分析面试】1. 计算年度收入百分比(SQL)

你需要为公司的营收来源生成一份年度报告。计算截止目前为止,在表格中记录的第一年和最后一年所创造的总收入百分比。将百分比四舍五入到两位小数。示例:表。

2024-03-27 10:30:00 362

原创 教育行业信息数据化:探索8种不同的数据库类型及用途

本文将深入探讨不同类型的教育数据库及其在教育领域中的重要性和功能。

2024-03-26 16:17:34 970

原创 数据库性能优化方案——索引优化

使用索引优化数据库性能的案例

2024-03-26 15:49:13 129

原创 Python中,type() 和 isinstance() 的区别

函数检查一个对象是否是特定类或类型的实例。它接受两个参数:要检查的对象和要检查的类或类型。如果对象是指定类或类型的实例,则返回。函数返回一个对象的类型。它接受一个参数,并返回该参数的类型。这会返回对象的类或类型,帮助您了解变量中存储的数据类型。当您想要检查对象是否属于特定类或其子类时,这非常有用。允许您检查对象是否是特定类或类型的实例,包括其子类。给出了对象的确切类型,而。

2024-03-23 13:00:00 285

原创 Python中装饰器函数的用法介绍

在Python中,装饰器(Decorator)是一种特殊的函数,它可以用来修改或增强其他函数或方法的行为。装饰器允许您在不修改原始函数代码的情况下,向函数添加新的功能或行为。它们通常用于添加日志记录、性能分析、验证或修改函数的返回值等方面。符号紧跟着装饰器函数名,放在要装饰的函数定义之前。当调用被装饰的函数时,装饰器函数将被自动调用,并用其返回值来替换原始函数。是一个装饰器函数,它接受一个函数作为参数并返回一个新的包装函数。函数在调用被装饰的函数之前打印日志,并且通过。函数,从而使其被装饰。

2024-03-23 12:15:00 215

原创 【特征工程】分类变量:简洁而高效的频数编码(Frequency Encoding)

频数编码介绍。。。

2024-01-19 14:16:01 979

原创 【Pytorch】搭建一个简单的泰坦尼克号预测模型

本文使用PyTorch构建一个简单而有效的泰坦尼克号生存预测模型。通过这个项目,你会学到如何使用PyTorch框架创建神经网络、进行数据预处理和训练模型。我们将探讨如何处理泰坦尼克号数据集,设计并训练一个神经网络,以预测乘客是否在灾难中幸存

2024-01-19 14:14:13 1759

原创 【特征工程】分类变量:MultiLabelBinarizer对多标签数据进行编码

对多标签数据进行编码,MultiLabelBinarizer的介绍、优缺点及代码案例

2024-01-17 10:00:00 1216

原创 【特征工程】分类变量:BinaryEncoder二进制编码方法详解

使用BinaryEncoder对分类变量进行二进制编码

2024-01-17 10:00:00 500

Convolution and ReLu

Convolution and ReLu 学习代码

2023-08-14

Bigmart Sales Data

Bigmart Sales Data

2022-11-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除