SofaSofa数据科学社区-CSDN博客

原创【教程】SHAP值解释xgboost模型的特征重要性-SofaSofa

利用SHAP解释Xgboost模型Xgboost相对于线性模型在进行预测时往往有更好的精度，但是同时也失去了线性模型的可解释性。所以Xgboost通常被认为是黑箱模型。2017年，Lundberg和Lee的论文提出了SHAP值这一广泛适用的方法用来解释各种模型（分类以及回归），其中最大的受益者莫过于之前难以被理解的黑箱模型，如xgboost和神经网络模型。本教程中，我们在真实数据集上进行实操...

2019-05-11 09:33:35 9697 2

原创 GMM与EM算法的Python实现

GMM与EM算法的Python实现高斯混合模型(GMM)是一种常用的聚类模型，通常我们利用最大期望算法(EM)对高斯混合模型中的参数进行估计。本教程中，我们自己动手一步步实现高斯混合模型。完整代码在第4节。预计学习用时：30分钟。本教程基于Python 3.6。原创者：u_u | 修改校对：SofaSofa TeamM |1. 高斯混合模型(Gaussian Mixture mode...

2019-04-30 14:23:10 8353 11

原创机器学习、数据挖掘、算法岗位面试题库、面经

DS/ML类面试在本质上大同小异，只是侧重点不同。DS/ML与传统的软件开发岗和数据工程岗位在面试中最大的区别就是，DS/ML更多涉及机器学习、概率统计、数值优化、高数线代、AB Test等多方面的知识。机器学习、数据挖掘、算法岗位面试题库、面经（SofaSofa数据科学社区整理，包括BAT以及北美FLAG）完整题库以及解答点击这里部分题目如下：...

2018-12-19 11:07:28 885 1

原创 K-Means算法、非负矩阵分解(NMF)与图像压缩(Python)

K-Means算法是最基础的聚类算法、也是最常用的机器学习算法之一。本教程中，我们利用K-Means对图像中的像素点进行聚类，然后用每个像素所在的簇的中心点来代替每个像素的真实值，从而达到图像压缩的目的。非负矩阵分解(Non-negative Matrix Factorization, NMF)是一种对非负矩阵进行低维近似逼近的常见方法，同样也能达到图像压缩的目的。 0. 前言K...

2018-10-03 12:16:31 2566

原创谷歌内部机器学习术语表

本术语表中列出了一般的机器学习术语和 TensorFlow 专用术语的定义。完整版请点击这里机器学习术语词典。AA/B 测试 (A/B testing) 一种统计方法，用于将两种或多种技术进行比较，通常是将当前采用的技术与新技术进行比较。A/B 测试不仅旨在确定哪种技术的效果更好，而且还有助于了解相应差异是否具有显著的统计意义。A/B 测试通常是采用一种衡量方式对两种技术进...

2018-09-14 12:34:07 314

原创机器学习中关于“调参”的种种问题

参数与超参的区别是什么？调参中的GridSearch是什么意思？xgboost怎么调参？利用交叉验证调参后还需要用完整的数据集重新训练吗？随机森林如何调参？glmnet中的参数lambda.min.ratio什么意思...

2018-07-16 09:38:07 790

原创【形状识别：是方还是圆】CNN还是逻辑回归？

SofaSofa的练习项目【形状识别：是方还是圆】，主要针对于数据新人、尤其图像处理、识别方面的新手进行自我练习、自我提高，与大家切磋。在同学们的催促下，我们终于上传了标杆模型。标杆模型1：逻辑回归模型模型2：基于keras的CNN完整代码点击这里。由于这次项目非常简单，大家得到100%的准确率的机会是很高的。甚至不用神经网络模型，都是有机会得到100%的哦。...

2018-06-01 13:45:39 1037

原创关于numpy的种种

python numpy里array和matrix的区别？二维numpy.array转为一维的numpy.array或者list怎么对2维的numpy array取整？numpy里矩阵乘法matmul，@和dot的区别？sklearn算法里输入的数据集是要求pandas.DataFrame还是numpy.array呢numpy.array转换为图片并显示出来如何在numpy array尾部增加一行...

2018-05-21 12:15:52 239

原创【数据实战】足球运动员身价估计

本次数据项目的主题是足球运动员身价估计。每个足球运动员在转会市场都有各自的价码。本次数据练习的目的是根据球员的各项信息和能力值来预测该球员的市场价值。标杆模型提供了两个思路：第一个是找到很少数的几个关键特征然后训练模型，比如四个变量的决策树模型(Python)，这个模型的MAE为39.03。第二个思路是门将/非门将随机森林(Python)，也就是说根据球员位置分别训练随机森林。这个方法的MAE为...

2018-05-12 22:43:18 2925 3

原创关于过拟合的种种问题

为什么过拟合不好？无监督式学习也会过拟合吗？决策树模型有什么特点以及如何防止过拟合？无监督学习（比如K Means）里怎么加正则项来防止过拟合随机森林会发生过拟合（overfitting）吗？训练集加入噪声防止over fitting还是加剧overfitting？机器学习算法的鲁棒性是什么意思？...

2018-05-10 10:01:11 320

原创利用朴素贝叶斯对名字进行性别预测

朴素贝叶斯一直是文本分类的“好手”，不妨来看看怎么用它来判断名字的性别。请点击阅读利用朴素贝叶斯对名字进行性别预测。

2018-03-26 08:02:43 2143

原创关于机器学习、数据科学面试的准备

最近很多人私信小编，问起“机器学习”“数据科学”这一类岗位面试如何准备的问题。小编是很乐于和大家分享的，但是，前提是你真心想走这条路的。有些同学问，“您好，我想转行，做机器学习这块，我该怎么准备面试呢？”小编也竟然无语凝噎，因为您的问题更像是“我想转行，我该从哪里开始、我该学些什么？”。这篇分享不是关于转行的准备的，是关于面试的准备的，关于在校生实习、应届生全职、社招跳槽等等。-------开始-...

2018-02-17 15:34:45 424

原创关于xgboost，你需要知道的问题

xgboost是怎么做到regularization的？xgboost中的决策树的复杂度是怎么定义的？对于xgboost，还需要做很多特征工程吗xgboost如何调参xgboost能够做回归预测吗xgboost那么好，那线性模型还有价值吗？xgboost中的gblinear是什么意思xgboost为什么比gbdt好那么多？. . .去SofaSofal浏览更多问题

2017-12-08 12:06:28 1360

原创机器学习之中文处理：文言文还是白话文

机器读中文2：“辨古识今”比赛概述本比赛为个人练习赛，主要针对于数据新人、尤其中文文本处理方面的新手进行自我练习、自我提高，与大家切磋。练习赛时限：2017-11-01 至 2019-11-01 任务类型：自然语言处理、二元分类背景介绍: 本次练习赛是“机器读中文”系列的第二期（第一期为机器读中文：根据名字判断性别）。自然语言处理是机器学习中的一个重要方向，但是现在流行的学习资料和网上

2017-11-27 11:21:35 2566

原创关于PCA的那些事

PCA是机器学习中常用的方法、也是个经常被提及的术语。关于PCA的那些事，你不得不知。为什么PCA被称作非监督式学习？在使用PCA降维时，有哪些坑？ PCA的目标函数是什么？ PCA降维之前为什么要先标准化或者归一化？利用PCA降维，降到几维比较合适？ PCA和SVD是一回事吗？除了PCA，还有什么降维的方法？

2017-11-10 12:57:24 850

SofaSofa_io的博客