cndrip-CSDN博客

原创【Kaggle】练习赛《鲍鱼年龄预测》(下)

本文在上篇《鲍鱼年龄预测》用 optuna 对四个不同模型优化参数，最终用融合的方式，完成这份赛题。

2024-04-08 07:45:00 584 1

原创【Kaggle】练习赛《鲍鱼年龄预测》(上)

本文是Kaggle月度练习赛的一个回归的赛题，本期是2024年4月份的题目《Regression with an Abalone Dataset》即《鲍鱼年龄预测》，本篇着重讲解数据探索（ EDA）方面，下篇讲解建模优化方面。🚀 在这个激动人心的探索中，我们深入了解鲍鱼生物学的迷人世界。我们的使命？利用先进的机器学习技术，根据鲍鱼的身体测量结果预测鲍鱼的年龄。

2024-04-06 21:25:12 907

作为机器学习的初学者，Kaggle提供了一个很好的练习和学习平台，其中有一个栏目《PLAYGROUND》，可以理解为游乐场系列赛，提供有趣、平易近人的数据集，以练习他们的机器学习技能，并每个月都会有一场比赛。非常适合新手学习的机会，同时会有大量的高手分享其代码，本期是2024年2月份的题目《Multi-Class Prediction of Obesity Risk》即《肥胖风险的多类别预测》，在此我分享在这个比赛过程的点点滴滴。

2024-03-07 19:36:16 1195 3

原创【量化交易笔记】13.实盘交易策略制定与实施

以股票的截面数据与收益率进行机器学习建模，验证不用机器学习的验证结果，而是用交易回测作为标准。用实际的量化交易框架，讲解了具体策略的制定和实施的过程。

2023-12-24 19:37:39 1135 2

原创【机器学习可解释性】5.SHAP值的高级使用

排列重要性非常重要，因为它创建了简单的数字度量来查看哪些特征对模型重要。这有助于我们轻松地比较特性，并且您可以向非技术人员展示结果图。但它并没有告诉你每个特性的重要性。如果一个特征具有中等排列重要性，那可能意味着它具有中等排列重要性对一些预测有很大影响，但总体上没有影响，或者所有预测的中等效应SHAP总结图可以让我们鸟瞰特征的重要性和驱动因素。我们将浏览一个足球数据的示例图：这张图由许多点组成。垂直位置显示它所描绘的特征颜色显示该特征在数据集的那一行中是高还是低。

2023-10-29 20:02:35 2772 5

原创【机器学习可解释性】4.SHAP 值

SHAP 值 (SHapley Additive exPlanations的首字母缩写)对预测进行分解，以显示每个特征的影响。你可以在哪里使用这个?一个模型说，银行不应该借钱给某人，法律要求银行解释每笔拒绝贷款的依据医疗保健提供者想要确定是什么因素导致每个病人患某种疾病的风险，这样他们就可以通过有针对性的健康干预措施直接解决这些风险因素在本次课程中，您将使用SHAP 值来解释单个预测。

2023-10-28 20:33:33 1835 2

原创【机器学习可解释性】3.部分依赖图

部分依赖图 --每个特征怎么样影响预测结果？像排列重要性一样，部分依赖图是在模型拟合后计算的。我们将使用拟合模型来预测我们的结果(他们的球员赢得“全场最佳球员”的概率)。但是我们**反复改变一个变量的值**来做出一系列的预测。如果球队只有40%的控球率，我们就能预测结果。然后我们预测，他们有50%的几率拿球，然后再预测60%，等等...... 我们追踪预测结果(在纵轴上)，当我们从小的控球值移动到大的值(在横轴上)。除了一维的图之外，还有二维部分依赖图，更加直观的表示二个特征（变量）影响预测结果。

2023-10-27 20:09:13 2011 1

原创【机器学习可解释性】2.特征重要性排列

你的模型认为哪些特征最重要？我们可能会对模型提出的最基本的问题之一是：哪些特征对预测的影响最大？这个概念被称为特征重要性。有多种方法可以衡量特征的重要性。一些方法巧妙地回答了上述问题的不同版本。其他方法也有不足之处。在本课程中，我们将重点讨论排列的重要性。快速计算广泛使用和理解，并且与我们希望特征重要性度量具有的属性一致。您将通过出租车票价预测比赛的数据样本来思考和计算排列重要性。我们现在不会专注于数据探索或模型构建。你可以运行下面的单元格加载数据将数据划分为训练集和验证集。

2023-10-26 21:26:02 1295 1

原创【机器学习可解释性】1.模型洞察的价值

本文是 kaggle上机器学习可解释性课程，共五部分，除第一部分介绍外，每部分包括辅导和练习。此为第一部分，原文链接如果你是入门者，建议先看之前的文章《sklearn快速入门教程》和《机器学习中级教程》。引用格式的文字，非原文的内容，是我在学习过程中，加入一些体会和感想，与小伙伴们分享。在机器学习中，除线性回归可以比较容易解释之外，其他的模型很难做进一步解释和展示，特别给对机器学习不太了解的朋友，因此急需要有可解释的文字、图表以及相关的内容，最直观的就是图形。

2023-10-25 21:03:56 372

原创【量化交易笔记】12.海龟交易策略

海龟交易法则利用唐奇安通道的突破点作为买卖信号指导交易，简单而言唐奇安通道是由一条上轨线、中线和下线组成，上轨线由N1日内最高价构成，下轨线由N2日内最低价计算，当价格冲破上轨是可能的买入信号，反之，冲破下轨时是可能的卖出信号。原始的海龟交易采用唐奇安通道来追踪趋势，在趋势比较明显的行情表现不错，但是在震荡的行情中效果不佳，当然这是所有趋势型策略的通病。信息比率越大，说明该策略单位跟踪误差所获得的超额收益越高，因此，信息比率较大的策略的表现要优于信息比率较小的策略。

2023-10-24 21:01:07 648 3

原创【量化交易笔记】11.移动平均交易策略

上一节我们建立了最最简单的交易策略，尽管有了盈利，但实际操作上是不可行的。本节将运用移动平均指标，包括单一移动平均策略和双移动平均策略，来建立经典的移动平均策略。这几个策略都没有取得良好的效果，这是因为移动平均策略是适合趋势市场。这个震荡的市场效果不理想。以上回测，并没有加入交易费用，是不全面的。回测的图形不是很直观，没有看到收益情况，需要查表格最后才能看明白。回测应有收益曲线，基准曲线等回测一些相关参数，如α和β\alpha 和 \betaα和β，最大回测，年化收益等。

2023-10-22 23:15:11 306

原创【量化交易笔记】10.建立最简单的交易策略

本文制定了，最最最简单的交易策略，并进行了回测，采用完整的代码，通俗易懂。从数据采集，数据处理，设定交易信息，实现交易，并进行回测，一个完整的过程。从而，使大家对交易策略有了一个整体的了解。

2023-10-20 19:49:17 275

原创【量化交易笔记】9.量化投资理论及一般流程

本文从三个目前流行的量化投资中最重要的三大理论讲解投资的低层逻辑及相关公式，并讲述了什么是阿尔法（ α）和贝塔（β）。并讨论了策略研究的一般流程。

2023-10-18 23:37:05 304

原创可视化上证50结构图

用机器学习的方法，将上证50的成分股的K线数据，通过协方差矩阵，并使用Affinity Propagation进行聚类分析后，在二维平面展示。

2023-10-15 17:59:54 187

原创【量化交易笔记】8.基于深度学习(LSTM)预测股票价格

前一章节，已作随机森林来预测股票价格，也是一种比较常见的方法，本章基于深度学习算法来处理时间序列，来预测股票未来的价格。LSTM是一种特殊类型的循环神经网络（RNN），在自然语言处理和时间序列数据分析等任务中取得了显著成果。LSTM通过处理序列数据中的长期依赖关系，能够更好地捕捉时间序列数据的特征和模式。这使得它成为预测股票价格这类时间相关数据的有力工具。关于LSTM 在之前的文章中也略作介绍。我们仍以上一章的数据，采用类似于上一章的处理方式进行处理。

2023-06-11 22:25:12 4035 11

原创【量化交易笔记】7.基于随机森林预测股票价格

机器学习在量化交易主要有两方面的应用，第一就是用时间序列的日频数据来预测未来的股价，第二用截面数据来预测收益，现在量化基因的因子都基于这个模型。接下来，我分别来说明，机器学习分成预测结果分成分类和回归。本章，就以随机森林来做未来某天的股价，是一种典型的回归分析方法，如果预测股价的涨跌就是分类问题。在这里有很多坑，我帮小伙伴一一填平。这里只是预测的方法，想应用到真实的预测，以此来作股票买卖，我在这里说，别，千万别，…。

2023-05-31 22:48:08 3620 15

原创【量化交易笔记】6.布林带的实现

布林线（Bollinger Bands，BOLL）又称布林带，是约翰·布林（John Bollinger）提出的一种行情价格频带分轨，是根据统计学中的标准差原理，设计出来的一种非常实用的技术指标。布林线也建立在移动平均线之上，但包含最近的价格波动，使指标更能适应不同的市场条件。布林线通常可由上轨（压力线）、中轨（行情平衡线）和下轨（支撑线）三条轨道线组成，属于通道式指标或路径式指标[1]。股票的布林带指标是一种基于统计学的技术指标，用于衡量股票价格在一定时间内的波动范围。

2023-05-16 22:04:42 680

原创【量化交易笔记】5.SMA，EMA 和WMA区别

股票中的SMA，EMA和WMA是常用的技术分析指标。这些指标基于历史股价计算得出，可以帮助投资者了解股票的趋势，为决策提供依据。虽然它们都是平均值算法，但它们之间还是有一些区别的。

2023-05-01 21:58:42 3976 1

原创【量化交易笔记】4.移动平均值的实现

本部分讲解移动平均MA原理，实现，并通过K 线图中的各类均线，如 5日均线（周），10日均线（半月），20日均线（月），250日均线（年）。在肌市多头排列，空头排列这些专业名称，我在以后讲解都需要用到移动平均值。

2023-03-09 20:37:37 1024

原创【量化交易笔记】3.实现数据库保存数据

将下载的A股K线数据本地化，通过数据库方式进行保存。

2023-03-08 19:07:09 948

原创【量化交易笔记】2.数据本地化存储(CSV)

通过本地化的数据表形式保存数据，这样大大方便以后数据的操作。为了更高效的操作数据，下一节介绍数据库方式存放以上数据，基本的思路是一样的，只是存储方式不一样而已。

2023-03-07 19:51:25 1134 2

原创【量化交易笔记】1.数据来源

三个平台均可以满足我们入门级需求，根据个人喜好进行选择，如后续想对基金，期货做量化研究，不建议使用 baostock；专栏仅仅是A股，因此就选择 baostock 工具进行研究。小伙伴们肯定不会仅仅研究一两支股票，如进行选股操作，因此需要下载大量的本地数据，所以这里有两种方式，一种下载保存为csv格式文件；另一种方式，用数据库的方式保存。下一节，我将带大家学习保存数据的两种方式。

2023-03-06 18:10:24 2336 9

原创【量化交易笔记】0.开篇

有位小伙伴找我，说想学量化，我说欢迎一起学，我问他目的，他说“ 想炒股赚钱”，“那你会什么？”，“我会编程！”，其实有这两点就够了。其实量化是有门槛的，需要掌握一些基本的知识，如数学知识，金融知识，财务知识，同时也要具有一定的编程能力。本人作为一个编程爱好者，来学习量化，本人认为 “**有赚钱的动力和编程的能力**”。这一篇作为量化交易学习的开篇，计划从以下几方面来学习，如涉及到软件安装，不会做专门的解决，自己自行百度，但其中的坑也有相应的说明。会首重放在代码实现上，尽量用少的文字，附大量实例。

2023-03-05 09:55:57 178

原创 CDA Level Ⅲ 模拟题（二）

即IDF可以反映w的独特性。ABCD文本分类 : 在给定已知的分类体系下，根据文本特征构建有监督机器学习模型，达到识别文本类型或内容主旨的目的. 文本关联 : 它是传统关联规则方法在文本挖掘上的应用，包含文档类型关联、词汇关联、实体关联等内容. 文本聚类: 就是从众多的文档中把一些内容相似的文档聚为一类的技术，同类的文本相似度较大，而不同类的文本相似度较小，是一种无监督的机器学习方法. 文本摘要: 就是对数据内容进行提炼与总结，以简洁、直观的摘要来概括所关注的主要内容，方便我们快速地了解与浏览内容.

2023-02-05 23:24:47 1158

原创 CDA Level Ⅲ 模拟题（一）

TAN 分类器是由Friedman 等人提出的一种树状贝叶斯网络, 是朴素贝叶斯分类器的一种改进模型隐马尔可夫模型（Hidden Markov Model，HMM）是统计模型，它用来描述一个含有隐含未知参数的马尔可夫过程 LSA是1988年S.T. Dumais等提出的一种新的信息检索模型，它使用统计计算的方法对大量的文本集进行分析，提取出词与词之间潜在的语义结构，并用这种潜在的语义结构表示词和文本，达到消除词之间的相关性和简化文本向量实现降维的目的 TWO-STEP是一种分层群集算法。

2023-02-05 23:23:22 2496

原创 CDA Level Ⅱ 模拟题（二）

CDA二级考试模拟题

2023-02-04 13:44:06 3796

原创 CDA Level Ⅱ 模拟题（一）

CDA二级考试模拟题

2023-02-04 13:41:57 1104

原创 CDA Level I 模拟题（7）多选题【附答案解析】

CRISP-DM模型是应用最广泛的KDD过程模型，下面属于CRISP-DM模型的阶段有（）A.业务理解B.数据理解C.数据准备、建模、模型评估D.模型发布2/20表结构是数据分析中常用的数据结构，以下属于表结构分析工具的是A.DB2B.Power BIC.ExcelD.PPT3.收集多源数据是进行数据分析工作中的重要步骤之一，以下可以成为表结构数据数据源的选项有哪些A.CSV格式的数据文件B.数据库C.Excel文件D.网页数据4/20某电商订单表中的主键为订单号，根据业务常识判

2022-06-01 18:57:28 1083

原创 CDA Level I 模拟题（6）案例分析题【附答案解析】

案例分析题练习题【单选题】一、表t1中有id，name，salary三列，如果t1是一个论坛的发帖信息表，id是发帖人的编号，name是帖子的标题，salary是每次发帖论坛奖励的分数。1表示更新t1表中字段内容的语句是A.create table t1（id int，name char（30），salary int）;B.drop table t1;C.create view v_t1 as select id,name from t1;D.update t1 set name=’lixi

2022-06-01 18:56:40 1190

原创 CDA Level I 模拟题（5）【附答案解析】

练习题【单选题】以上订单表与订单详情表间用于连接的公共字段应是____A.两表的单号B.两表的客户IDC.单金额与产品金额D.没有公共字段两表连接后使用左连接进行查询后的总行数是____A.5B.6C.4D.83.建立如下数据库表： CREATE TABLE department( departid int not null primary key, deptname varchar(20) not null ); CREATE TABLE employee( emp

2022-05-30 22:27:13 952

原创 CDA Level I 模拟题（4）【附答案解析】

练习题【单选题】1.某电商的每笔交易信息逐行记录在订单表中，在订单表中能否使用average求客户购买金额的总平均值A.可以B.不行C.无多次购物行为的客户存在时可以D.有多次购物行为的客户存在时可以2.在记录某电商交易行为内容的订单表中求客户购买金额总平均值应使用的公式是（客户有多次购买行为）A.SUM/COUNTB.直接用AverageC.SUM/DISTINCTCOUNTD.SUM/AVERAGE3.同环比是业务描述性分析中针对时间维度使用的重要指标，以下选项中不适用于做同环比

2022-05-29 15:12:46 1252

原创 CDA Level I 模拟题（3）【附答案解析】

练习题【单选题】1.四象限分析法帮助我们理解分析项目的特征，应用四象限分析法对客户贡献价值进行描述时可以使用的横纵轴是A.到店时间、消费金额B.消费金额、购买数量C.消费金额、消费频次D.消费渠道、到店时间2.某电商平台进行分析时，不能直接描述商品销售情况好坏的指标是A.库存周转率B.库销比C.动销金额D.动销天数3.通过数据分析为某电商平台定位核心用户群体可以使用哪种分析模型A.5W2HB.帕累托分析C.漏斗模型D.AB测试4.不适合用销量作为度量使用的是A.汽车行业市

2022-05-28 16:56:11 1470

原创 CDA Level I 模拟题（2）【附答案解析】

练习题【单选题】

2022-05-28 16:41:38 925

原创 CDA Level I 模拟题（1）【附答案解析】

CDA Level I 考试模拟题

2022-05-28 14:23:28 1731

原创深度学习初级课程应用. 用TPU探测希格斯玻色子

本文为kaggle 深度学习初级课程应用部分. Detecting the Higgs Boson With TPUs应用所学知识，弥补课程与应用新技能之间的差距！在庞大的数据中寻找希格斯玻色子。

2022-05-20 21:30:56 349

原创深度学习初级课程 6.二分类

本文为kaggle 深度学习初级课程第六部分 Binary Classification Apply deep learning to another common task.现在我们将把神经网络应用于另一个常见的机器学习问题：分类。到目前为止，我们所学到的大部分知识仍然适用。主要区别在于我们使用的损耗函数，以及我们希望最后一层产生什么样的输出。

2022-05-18 19:54:29 1937

原创深度学习初级课程 5.剪枝、批量标准化

本文为kaggle 深度学习初级课程第五部分Dropout and Batch Normalization Add these special layers to prevent overfitting and stabilize training.在这节课中，我们将学习两种特殊的层（dropout 和 Batch Normalization），它们本身不包含任何神经元，但它们添加了一些功能，有时可以以各种方式使模型受益。两者都是现代体系结构中常用的。

2022-05-16 22:53:28 646

原创深度学习初级课程 4.过拟合和欠拟合

本文为kaggle 深度学习初级课程第四部分 Overfitting and Underfitting --Improve performance with extra capacity or early stopping.在本课中，我们将学习如何解释这些学习曲线，以及如何使用它们来指导模型开发。特别是，我们将检查学习曲线，寻找拟合不足和拟合过度的证据，并查看几种纠正策略。

2022-05-15 10:18:20 1402

原创深度学习初级课程 3.随机梯度下降法

本文为kaggle 深度学习初级课程第二部分 Deep Neural Networks --Add hidden layers to your network to uncover complex relationships.在这节课中，我们将了解随机梯度实现的方法，看到如何训练神经网络；我们将看到神经网络是如何学习的。

2022-05-14 09:34:45 1449

Kaggle 2022-04月赛数据集机器学习 tabular-playground-series-apr-2022.zip

竞赛中，数据集中包括60秒的传感器数据序列进行分类，指示受试者在序列期间是否处于两种活动状态之一。 train.csv ：训练集，包括约26000个60秒的13个生物传感器的记录，供近1000名实验参与者使用 - sequence：序列，每个序列的唯一id - subject：受试者，实验中受试者的唯一id - step：步长,录制的时间步长，以1秒为间隔 - sensor_00-sensor_12： 13个传感器在该时间步的值 train_labels: 标签, csv-每个序列的类标签。 - sequence：序列，—每个序列的唯一id。 - state：状态，与每个序列关联的状态。这就是你试图预测的目标。 test.csv ：测试集。对于12000个序列中的每一个，您都应该预测该序列状态的值。 sample_submission.csv ：提交样品，csv-正确格式的示例提交文件。后继将写一篇关于如何使用数据集的文章，敬请关注。

2022-05-03

TA关注的人

Kaggle 2022-04月赛数据集 机器学习 tabular-playground-series-apr-2022.zip

数据处理可视化的最有价值的 50 张图资源包

2020年浙江省信息学省选题目及数据（ZJOI2020）

常用Excel三个库文件

Android短信发送程序

手机拔号程序

手机号码抽奖程序

照片抽奖程序（javascript）

运行结果及报错内容，如何解决？

Kaggle 2022-04月赛数据集机器学习 tabular-playground-series-apr-2022.zip