weixin_43105300-CSDN博客

原创新闻推荐_多路召回

多路召回所谓的“多路召回”策略，就是指采用不同的策略、特征或简单模型，分别召回一部分候选集，然后把候选集混合在一起供后续排序模型使用，可以明显的看出，“多路召回策略”是在“计算速度”和“召回率”之间进行权衡的结果。其中，各种简单策略保证候选集的快速召回，从不同角度设计的策略保证召回率接近理想的状态，不至于损伤排序效果。如下图是多路召回的一个示意图，在多路召回中，每个策略之间毫不相关，所以一般可以写并发多线程同时进行，这样可以更加高效。上图只是一个多路召回的例子，也就是说可以使用多种不同的策略来获取用户

2020-12-01 09:23:04 180

原创 DW_新闻推荐_task02_数据分析

数据分析：下面的这张图生动的描述了机器学习与深度学习的区别：特征提取我们做一个新任务，需要利用我们的知识和工具进行进行探索。就像让你去景岗山打老虎，你需要做好准备，比如带上攻击武器，带上地图，带上跌打药，需要分析老虎可能出没的地方等等。同样的，做机器学习任务，数据的理解、清洗是第一步，十分重要！本期的主题是“新闻”推荐，所以新闻本身作为首要的特征是需要重点关注的。一共有多少个文章主题文章的被点击的分布状况？（最常见的分为热门，冷门）用户对文章的点击分布情况？（有的人很关注新闻，热门、冷门

2020-11-27 22:29:33 168

原创新闻推荐-task01 baseline

DataWhale 新闻推荐学习第一课，赛题理解与baseline下面是阿里的天池比赛入口。零基础入门推荐系统 - 新闻推荐让代码跑起来的法门：step 1，如下图所示下载数据集到本地。在DataA1121.md 里面有数据下载的网络地址。直接复制到浏览器里面即可下载。step2, 在本地Pycharm 里面新建Project. 然后再项目文件夹里面新建文件夹data_raw, temp_results 。将第一步下载的数据集放到data_raw 文件夹下面。step3, 根据学习

2020-11-25 21:57:50 128

原创模型融合

一、Stackingstacking 将若干基学习器获得的预测结果，将预测结果作为新的训练集来训练一个学习器。如下图假设有五个基学习器，(注，这里的5个基学习器已经训练好) ，将原始数据（设特征维度N）输入到五基学习器中，并得到预测结果输入到模型六中。注意：由下面图可以看出，模型六的输入是5个基模型的预测结果stackIng。也即，模型六的输入特征维度为5。 N理论应该大于5. 这里类似于CNN的迁移学习过程，固定已训练好模型的的特征提取网络参数，然后训练最后的全连接层（Linear）。这里，这种

2020-09-27 22:58:13 309

转载 LightGBM

今天在学习的时候由Datawhale 推荐一篇LightGBM的模型介绍博客写得非常棒。加之我今天的笔记也没有更好的内容来记录，所以就索性转载一波优秀的博客！！声明：本文内容转载自白话机器学习算法理论+实战番外篇之LightGBMLightGBM， 2017年由微软提出，是GBDT模型的另一个进化版本，主要用于解决GBDT在海量数据中遇到的问题，以便更好更快的用于工业实践中。从 LightGBM 名字我们可以看出其是轻量级（Light）的梯度提升机器（GBM），所以面对大规模数据集，它依然非常淡定

2020-09-25 22:04:37 200

翻译金融风控_03_特征工程

Datawhalechina-team-learning-data-mining本文摘录自特征工程，是机器学习，甚至是深度学习中最为重要的一部分，在实际应用中往往也是所花费时间最多的一步，所以无论如何要深入理解和学习。特征工程涉及到下面的内容：1、数据预处理 1.1 缺失值的填充 -->用0，即特征对于结果没有作用。 -->特征前（后）面的值替换, 利用特征的已出现的值进行替换，而不是一个毫无意义的值。 1.2 时间格式处理 1.2.1 把 1

2020-09-21 23:01:43 98

原创金融风控_02_数据分析

第二天打卡：关于pd.read_csv(root_dir, nrows =5, chunk_size = 5 )#设置chunksize参数，来控制每次迭代数据的大小chunker = pd.read_csv("./train.csv",chunksize=5)for item in chunker: print(type(item)) #<class 'pandas.core.frame.DataFrame'> print(len(item))这里关于nro

2020-09-18 19:13:46 136

原创金融风控--task01_赛题理解

Oh My God, 这是第4次参加Datawhale 组织的开源学习了，很感激。组织二维码如下，如果有兴趣的朋友可以添加关注公众号！这一次打以这种比赛的方式进行学习，很期待！话不多说，进入主题！！！！1、赛题数据理解。1.1 要求，以个人信贷为背景，根据背景信息预测其是否有违约的可能。典型的分类任务，且输出违约的可能性。1.2 评价标准：提交结果为每个样本是1的概率。评价方法为AUC评估（越大越好）。AUC(Area Under Curve) AUC（Area Under Curve）被

2020-09-15 12:18:40 233

原创 Task03_SVM

SVM, 这里还是推荐阿泽的读书笔记。里面的内容写得很细。我还在理解当中。SVM 超详细在下面模型得可视化中。w参数由于是2维张量，所以需要在SVC.coef_ 后面加[0]表示取第一维。这里得问题点是：在可视化得时候，这里在得到W参数后，a1 为什么要是W[0]/W[1]??这是因为在二维平面上，我们考虑得决策边界得时候，为了方程的简写方便，写为了W^TX + B = 0. X为向量（X1，X2），这里X2就应该是Y。所以我们求得的参数W[1]就应该是y的系数。为了画图方便就需要把y的系数变

2020-08-26 22:47:16 106

原创机器学习--决策树

首先需要安装的几个包：pip install python-graphvizpip install seaborn带着问题学习，事半功倍。1、决策树ID3,C4.5, CART的区别2、掌握Bagging 和Boosting3、掌握随机森林，XGBoost原理4、随机森林，XGB，LGB的各自区别5、GBDT和XGB的区别。决策树在现在的相亲或者择偶额过程中，下面的这种方式就是人的决策过程。而这种过程用图的形式表达出来就像一颗倒着的树的形状。所以这种结构就叫做决策树。观察这个决策流程

2020-08-22 20:55:59 127

原创机器学习--Logistic Regression(逻辑回归)---分类器

1. 回归与分类的区别回归是统计学中最有力的工具之一。机器学习监督学习算法分为分类算法和回归算法两种，其实就是根据类别标签分布类型为离散型、连续性而定义的。回归算法用于连续型分布预测，针对的是数值型的样本，使用回归，可以在给定输入的时候预测出一个数值，这是对分类方法的提升，因为这样可以预测连续型数据而不仅仅是离散的类别标签。2. 逻辑“回归”Logistic Regression 虽然被称为回归，但其实际上是分类模型，并常用于二分类。Logistic Regression 因其简单、可并行化、可解释强

2020-08-20 23:03:15 1523

原创 Task_09_文件系统。

简洁的 with 语句with语句的工作原理enter()/exit()这两个方法with后面返回的对象要求必须有这两个方法，而文件对象f刚好是有这两个方法的。object.enter(self)进入与此对象相关的运行时上下文。with语句将将此方法的返回值绑定到语句的AS子句中指定的目标（如果有设置的话）object.exit(self, exc_type, exc_value, traceback)退出与此对象相关的运行时上下文。参数描述导致上下文退出的异常。如果上下文运行时没有异常发生，

2020-08-08 17:53:36 67

原创 Task08_模块与datetime

关于交换字典的Key 和 Value 的方法：第一种，新建一个字典，通过获取key, value后直接交换赋值。dict_ori = {'A':1, 'B':2, 'C':3}dict_new = {value:key for key,value in dict_ori.items()}第二种，利用内置迭代器zip 函数，新建字典，通过直接获取原字典的Value， Key.dict_ori = {'A':1, 'B':2, 'C':3}dict_new2= dict(zip(dict_ori

2020-08-07 19:13:09 91

原创 Task_07类、对象和魔法方法

在谈到类于对象就必然少不了面向对象是编程的基本概念。如下片段摘自百度百科，面向对象编程（Object OrientedProgramming，OOP，面向对象程序设计）的主要思想是把构成问题的各个事务分解成各个对象，建立对象的目的不是为了完成一个步骤，而是为了描叙一个事物在整个解决问题的步骤中的行为。面向对象程序设计中的概念主要包括：对象、类、数据抽象、继承、动态绑定、数据封装、多态性、消息传递。通过这些概念面向对象的思想得到了具体的体现。面对对象程序设计是尽可能地在模拟人类的思维。通过这样的方式能

2020-08-05 18:34:01 155

weixin_43105300的博客

原创新闻推荐_多路召回

原创 DW_新闻推荐_task02_数据分析

原创新闻推荐-task01 baseline

原创模型融合

转载 LightGBM

翻译金融风控_03_特征工程

原创金融风控_02_数据分析

原创金融风控--task01_赛题理解

原创 Task03_SVM

原创机器学习--决策树

原创机器学习--Logistic Regression(逻辑回归)---分类器

原创 Task_09_文件系统。

原创 Task08_模块与datetime

原创 Task_07类、对象和魔法方法

原创 Task06_函数_lambda

原创 Task_05_关于字典，集合，序列

原创列表及相关知识Task04

原创 datawhalechina 学习任务之异常处理

原创 datawhale学习记录第二次任务

原创 DatawhaleChina_Learing_Course1

原创深度学习数据集汇总与最新论文

Dataset_List_Overview.xlsx

空空如也