自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 资源 (1)
  • 收藏
  • 关注

原创 新闻推荐_多路召回

多路召回所谓的“多路召回”策略,就是指采用不同的策略、特征或简单模型,分别召回一部分候选集,然后把候选集混合在一起供后续排序模型使用,可以明显的看出,“多路召回策略”是在“计算速度”和“召回率”之间进行权衡的结果。其中,各种简单策略保证候选集的快速召回,从不同角度设计的策略保证召回率接近理想的状态,不至于损伤排序效果。如下图是多路召回的一个示意图,在多路召回中,每个策略之间毫不相关,所以一般可以写并发多线程同时进行,这样可以更加高效。上图只是一个多路召回的例子,也就是说可以使用多种不同的策略来获取用户

2020-12-01 09:23:04 180

原创 DW_新闻推荐_task02_数据分析

数据分析:下面的这张图生动的描述了机器学习与深度学习的区别:特征提取我们做一个新任务,需要利用我们的知识和工具进行进行探索。就像让你去景岗山打老虎,你需要做好准备,比如带上攻击武器,带上地图,带上跌打药,需要分析老虎可能出没的地方等等。同样的,做机器学习任务,数据的理解、清洗是第一步,十分重要!本期的主题是“新闻”推荐,所以新闻本身作为首要的特征是需要重点关注的。一共有多少个文章主题文章的被点击的分布状况? (最常见的分为热门,冷门)用户对文章的点击分布情况? (有的人很关注新闻,热门、冷门

2020-11-27 22:29:33 168

原创 新闻推荐-task01 baseline

DataWhale 新闻推荐学习第一课,赛题理解与baseline下面是阿里的天池比赛入口。零基础入门推荐系统 - 新闻推荐让代码跑起来的法门:step 1, 如下图所示下载数据集到本地。在DataA1121.md 里面有数据下载的网络地址。直接复制到浏览器里面即可下载。step2, 在本地Pycharm 里面新建Project. 然后再项目文件夹里面新建文件夹data_raw, temp_results 。 将第一步下载的数据集放到data_raw 文件夹下面。step3, 根据学习

2020-11-25 21:57:50 128

原创 模型融合

一、Stackingstacking 将若干基学习器获得的预测结果,将预测结果作为新的训练集来训练一个学习器。如下图 假设有五个基学习器,(注,这里的5个基学习器已经训练好) , 将原始数据(设特征维度N)输入到五基学习器中,并得到预测结果输入到模型六中。注意:由下面图可以看出,模型六的输入是5个基模型的预测结果stackIng。也即,模型六的输入特征维度为5。 N理论应该大于5. 这里类似于CNN的迁移学习过程,固定已训练好模型的的特征提取网络参数,然后训练最后的全连接层(Linear)。这里,这种

2020-09-27 22:58:13 309

转载 LightGBM

今天在学习的时候由Datawhale 推荐一篇LightGBM的模型介绍博客写得非常棒。加之我今天的笔记也没有更好的内容来记录,所以就索性转载一波优秀的博客!!声明: 本文内容转载自白话机器学习算法理论+实战番外篇之LightGBMLightGBM, 2017年由微软提出,是GBDT模型的另一个进化版本, 主要用于解决GBDT在海量数据中遇到的问题,以便更好更快的用于工业实践中。从 LightGBM 名字我们可以看出其是轻量级(Light)的梯度提升机器(GBM), 所以面对大规模数据集,它依然非常淡定

2020-09-25 22:04:37 200

翻译 金融风控_03_特征工程

Datawhalechina-team-learning-data-mining本文摘录自特征工程,是机器学习,甚至是深度学习中最为重要的一部分,在实际应用中往往也是所花费时间最多的一步,所以无论如何要深入理解和学习。特征工程涉及到下面的内容:1、数据预处理 1.1 缺失值的填充 -->用0,即特征对于结果没有作用。 -->特征前(后)面的值替换, 利用特征的已出现的值进行替换,而不是一个毫无意义的值。 1.2 时间格式处理 1.2.1 把 1

2020-09-21 23:01:43 98

原创 金融风控_02_数据分析

第二天打卡:关于pd.read_csv(root_dir, nrows =5, chunk_size = 5 )#设置chunksize参数,来控制每次迭代数据的大小chunker = pd.read_csv("./train.csv",chunksize=5)for item in chunker: print(type(item)) #<class 'pandas.core.frame.DataFrame'> print(len(item))这里关于nro

2020-09-18 19:13:46 136

原创 金融风控--task01_赛题理解

Oh My God, 这是第4次参加Datawhale 组织的开源学习了,很感激。组织二维码如下,如果有兴趣的朋友可以添加关注公众号!这一次打以这种比赛的方式进行学习,很期待!话不多说,进入主题!!!!1、赛题数据理解。1.1 要求,以个人信贷为背景,根据背景信息预测其是否有违约的可能。典型的分类任务,且输出违约的可能性。1.2 评价标准:提交结果为每个样本是1的概率。评价方法为AUC评估(越大越好)。AUC(Area Under Curve) AUC(Area Under Curve)被

2020-09-15 12:18:40 233

原创 Task03_SVM

SVM, 这里还是推荐阿泽的读书笔记。里面的内容写得很细。我还在理解当中。SVM 超详细在下面模型得可视化中。w参数由于是2维张量,所以需要在SVC.coef_ 后面加[0]表示取第一维。这里得问题点是:在可视化得时候,这里在得到W参数后,a1 为什么要是W[0]/W[1]??这是因为在二维平面上,我们考虑得决策边界得时候,为了方程的简写方便,写为了W^TX + B = 0. X为向量(X1,X2),这里X2就应该是Y。 所以我们求得的参数W[1]就应该是y的系数。 为了画图方便就需要把y的系数变

2020-08-26 22:47:16 106

原创 机器学习--决策树

首先需要安装的几个包:pip install python-graphvizpip install seaborn带着问题学习,事半功倍。1、决策树ID3,C4.5, CART的区别2、掌握Bagging 和Boosting3、掌握随机森林,XGBoost原理4、随机森林,XGB,LGB的各自区别5、GBDT和XGB的区别。决策树在现在的相亲或者择偶额过程中,下面的这种方式就是人的决策过程。而这种过程用图的形式表达出来就像一颗倒着的树的形状。所以这种结构就叫做决策树。观察这个决策流程

2020-08-22 20:55:59 127

原创 机器学习--Logistic Regression(逻辑回归)---分类器

1. 回归与分类的区别回归是统计学中最有力的工具之一。机器学习监督学习算法分为分类算法和回归算法两种,其实就是根据类别标签分布类型为离散型、连续性而定义的。回归算法用于连续型分布预测,针对的是数值型的样本,使用回归,可以在给定输入的时候预测出一个数值,这是对分类方法的提升,因为这样可以预测连续型数据而不仅仅是离散的类别标签。2. 逻辑“回归”Logistic Regression 虽然被称为回归,但其实际上是分类模型,并常用于二分类。Logistic Regression 因其简单、可并行化、可解释强

2020-08-20 23:03:15 1523

原创 Task_09_文件系统。

简洁的 with 语句with语句的工作原理enter()/exit()这两个方法with后面返回的对象要求必须有这两个方法,而文件对象f刚好是有这两个方法的。object.enter(self)进入与此对象相关的运行时上下文。with语句将将此方法的返回值绑定到语句的AS子句中指定的目标(如果有设置的话)object.exit(self, exc_type, exc_value, traceback)退出与此对象相关的运行时上下文。参数描述导致上下文退出的异常。如果上下文运行时没有异常发生,

2020-08-08 17:53:36 67

原创 Task08_模块与datetime

关于交换字典的Key 和 Value 的方法:第一种,新建一个字典,通过获取key, value后直接交换赋值。dict_ori = {'A':1, 'B':2, 'C':3}dict_new = {value:key for key,value in dict_ori.items()}第二种,利用内置迭代器zip 函数, 新建字典,通过直接获取原字典的Value, Key.dict_ori = {'A':1, 'B':2, 'C':3}dict_new2= dict(zip(dict_ori

2020-08-07 19:13:09 91

原创 Task_07类、对象和魔法方法

在谈到类于对象就必然少不了面向对象是编程的基本概念。如下片段摘自百度百科,面向对象编程(Object OrientedProgramming,OOP,面向对象程序设计)的主要思想是把构成问题的各个事务分解成各个对象,建立对象的目的不是为了完成一个步骤,而是为了描叙一个事物在整个解决问题的步骤中的行为。面向对象程序设计中的概念主要包括:对象、类、数据抽象、继承、动态绑定、数据封装、多态性、消息传递。通过这些概念面向对象的思想得到了具体的体现。面对对象程序设计是尽可能地在模拟人类的思维。通过这样的方式能

2020-08-05 18:34:01 155

原创 Task06_函数_lambda

关于Sorted 与 sort:sorted() 函数对所有可迭代的对象进行排序操作。sort 与 sorted 区别:sort 是应用在 list 上的方法,sorted 可以对所有可迭代的对象进行排序操作。list 的 sort 方法返回的是对已经存在的列表进行操作,无返回值,而内建函数 sorted 方法返回的是一个新的 list,而不是在原来的基础上进行的操作。语法sorted 语法:sorted(iterable, cmp=None, key=None, reverse=Fal

2020-08-02 21:59:57 958

原创 Task_05_关于字典,集合,序列

这几天工作太忙了,这次得打卡先简单完成一个作业。剩下的明天补上。有一个字典,保存的是学生各个编程语言的成绩,内容如下data = {‘python’: {‘上学期’: ‘90’, ‘下学期’: ‘95’},‘c++’: [‘95’, ‘96’, ‘97’],‘java’: [{‘月考’:‘90’, ‘期中考试’: ‘94’, ‘期末考试’: ‘98’}]}各门课程的考试成绩存储方式并不相同,有的用字典,有的用列表,但是分数都是字符串类型,请实现函数transfer_score(score_di

2020-07-31 22:43:52 108

原创 列表及相关知识Task04

Task 04 列表及相关操作容器器数据类型,有以下四种。列表<class 'list'>元组<class 'tuple'>字典<class 'dict'>集合<class 'set'>字符串<class 'str'>这里有必要扩展一下python中的容器。容器:容器是一种把多个元素组织在一起的数据结构,容器中的元素可以逐个地迭代获取,可以用in, notin关键字判断元素是否包含在容器中。这里的容器于我们常理解的Do

2020-07-27 22:34:14 86

原创 datawhalechina 学习任务之 异常处理

第三次打卡:之前学习看过python相关的书,完整的看过。但是实际敲入的代码比较少。所以代码是,看十遍不如动手敲一遍。奉劝广大朋友,代码只有不停的敲和查找错误才能成长,才能充分理解。代码是需要理解而不是记忆。打卡内容如下: 在敲代码的过程中,print( )函数没有加end=’ ',所以在输入数字的时候会自动到第二行,原因时Print() 函数的end符默认是**‘\n’**。这里有另外一个细节。try …except如果在try 后面发生的错误并不在except列举的错误类别里面时,

2020-07-24 18:29:04 107

原创 datawhale学习记录第二次任务

学习内容,条件语句与循环语句今天也是有些忙碌,工作原因出差,没办法电脑上学习与做作业。立即手机下载了csdn,下载python的ide。不得不说现代的手机真的是万能的。话不多说,先上任务运行图。第一作业比较简单的利用循环与判断语句就可以了。第二个题目就比较费事一点。在学习的过程发现如下图所示。如果不加break,会便利所有非质数的因式分解。同时也会打印出这个数是一个质数。如何才能让分解能答应完整,又不输出 16是一个质数。 明天研究吧...

2020-07-23 23:28:07 60

原创 DatawhaleChina_Learing_Course1

[ ]前言: 首先说明一下DataWhale 这个组织。 Datawhale组织网站----https://datawhale.club/ , 以下内容摘自 “CSDN博主「Datawhale」的原创文章 ”(原文链接:https://blog.csdn.net/Datawhale/article/details/85100466)Datawhale是一个专注于AI领域的开源组织,致力于构建一个纯粹的学习圈子,帮助学习者更好地成长。我们专注于机器学习,深度学习,编程和数学等AI领域.

2020-07-22 19:50:00 109

原创 深度学习 数据集汇总与最新论文

深度学习数据集整理与汇总数据子涉及,计算机视觉,自然语言,音频与视频

2020-04-11 18:07:56 360

Dataset_List_Overview.xlsx

汇总了目前开源的训练模型的数据集链接,直接点击链接即可下载,不用到处查找,一个文档包含了所有!喜欢的请帮忙点赞!

2020-04-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除