天才厨师1号-CSDN博客

原创 CNdeepdive 安装报错：deepdive Failed connect to raw.githubusercontent.com:443； Connection refused

CNdeepdive 安装报错：deepdive Failed connect to raw.githubusercontent.com:443; Connection refused问题描述：问题解决：问题描述：文件下载从openkg下载zip安装包：link减压缩文件CNdeepdive.zipunzip CNdeepdive.zip 打开翻新软件进入CNdeeepdive文件夹，运行 sh install.sh进行安装，报错如下：问题解决：确认https:/

2021-11-03 16:08:30 269

原创 XGBOOST（Extreme Gradient Boosting）算法原理详细总结

上篇我们对传统的GBDT算法原理进行了总结，本篇我们来探讨GBDT的进阶版本XGBOOST。XGBOOST是由陈天奇博士提出，下面我们主要参考XGBOOST的论文：XGBoost: A Scalable Tree Boosting System以及Boosted Trees PPT 。 ...

2019-12-17 15:42:34 4054

原创 Scikit-learn GBDT算法库总结与实践

上篇我们对传统的GBDT算法原理进行了总结，相信大家对GBDT的算法原理有了一定的了解。本篇我们就探讨Scikit-learn中GBDT算法库的使用。本篇我们先对Scikit-learn中GBDT算法库进行概述；再分别介绍Boosting框架的常用参数和基学习器CART回归树的常用参数...

2019-12-07 22:09:58 1735

原创梯度提升树（GBDT）算法原理详细总结

上篇我们对boosting家族中的Adaboost算法进行了总结，本篇我们来探讨传统的梯度提升树（Gradient Boosting Decison Tree）算法。梯度提升树被认为是统计学习中性能最好的方法之一。梯度提升树（GBDT）全称为Gradient Boosting Deci...

2019-12-06 17:23:50 8110 1

原创 Scikit-learn AdaBoost算法库总结与实践

class sklearn.ensemble.AdaBoostClassifier(base_estimator=None, n_estimators=50, learning_rate=1.0, algorithm=‘SAMME.R’, random_state=None)[source]class sklearn.ensemble.Ad...

2019-11-24 12:50:10 2241 1

原创 AdaBoost算法原理详细总结

在集成学习方法之Bagging，Boosting，Stacking篇章中，我们谈论boosting框架的原理，在boosting系列算法中，AdaBoost是著名的算法之一。AdaBoost是英文"Adaptive Boosting"（自适应增强）的缩写，由Yoav Freund和Robert Schapire在1995年提出。 ...

2019-11-17 00:50:20 2608

原创 Scikit-learn随机森林算法库总结与调参实践

上篇我们对随机森林的算法原理进行了探讨，以及算法的优缺点进行了总结。我们知道随机森林是在bagging框架下，组合多颗随机特征生成的CART树，是一种非常强大的算法。本篇我们就来探讨Scikit-learn中随机森林库类的使用。按照以往的套路，我们先对随机森林库里进行概述，再对常用参数进行解读，最后进行一个简单的实践。 &nbs...

2019-11-13 16:44:26 3816 2

原创随机森林（Random Forest）算法原理总结

1）决策树 2）随机森林 4）Out of Bag评价 3）随机森林的应用计算特征重要性异常值检测——Isolation Forest计算样本的相似度 ...

2019-11-08 18:23:41 12171 3

原创集成学习方法之Bagging，Boosting，Stacking

“团结就是力量，这力量是铁，这力量是钢… …”，小学学的一首歌，至今还刻骨铭心。“团结就是力量”，完美的阐述了机器学习中非常强大的集成学习方法的思想。其实，集成学习方法就这么简单，将多个模型组合在一起会得到更强大的模型。本篇就让我们一起来探讨比赛必用神技——集成学习方法（Ensemble Learning Method）。 &n...

2019-11-07 15:16:23 4277

原创 Scikit-learn决策树算法库总结与简单实践

1）Scikit-learn决策树算法库概述2）DecisionTreeClassifier常用参数 Scikit-learn DecisionTreeClassifier类官方API：class sklearn.tree.DecisionTreeClassifier(criterion=‘gini’, splitter=‘best’, m...

2019-11-04 20:12:43 4287 4

原创决策树（Decision Tree）算法原理总结（二）

上篇我们探讨了ID3算法，以及C4.5算法，也了解了C4.5算法的不足，比如不能处理回归任务，特征选择的过程运算量较大等。本篇我们来探讨CART算法是如何改进C4.5算法的，以及决策树是如何应对过拟合问题的，最后我们对决策树算法的优缺点进行一个总结。1）CART算法简介 CART(Cl...

2019-10-31 23:04:57 3490 1

原创决策树（Decision Tree）算法原理总结（一）

如同上几篇我们探讨的SVM一样，决策树算法既可以处理分类问题（二分类和多分类），又可以处理回归问题。同时，决策树也广泛的运用在集成算法中，比如随机森林算法。本篇我们来探讨下决策树的原理，以及基于ID3，C4.5算法分类决策树生成。1）IF-Then到决策树理论3）决策树ID3算法4）决策树C4.5算法...

2019-10-29 23:07:16 3403

原创 Scikit-learn 支持向量机算法库总结与简单实践

前两篇我们简单的探讨了SVM的原理，趁热我们来进行一些简单实践操作。磨刀不误砍柴工，先来认识下scikit-learn中集成的SVM算法库。scikit-learn中SVM的算法库分为两类，一类是分类的算法库，包括SVC， NuSVC，和LinearSVC 3个类。另一类是回归算法库，包括SVR， NuSVR，和LinearSVR 3个类。本...

2019-10-27 16:44:38 3058

原创支持向量机（Support Vector Machine）原理总结（二）

上篇我们探讨了线性支持向量机和线性可分支持向量机的原理，它们在线性可分的数据表现很好，但是没办法对线性不可分的数据进行分类。那么有没有一些技巧，让支持向量机也能处理线性不可分的书籍呢？本篇我们将探讨核技巧，以及应用核技巧的线性不可分支持向量机。解决线性不可分问题的思路有两种，第一种是换...

2019-10-25 18:32:01 2881 1

原创支持向量机（Support Vector Machine）原理总结（一）

支持向量机（support vector machine）是一个非常强大并且有多种功能的机器学习模型，能够处理线性或非线性分类问题、回归问题，同时还可以做异常值的检测。SVM特别适合应用于复杂但中小规模数据集的分类问题。支持向量机按照是否线性可分，可分为线性支持向量机，非线性支持向量机...

2019-10-23 15:49:55 3094 1

原创 Scikit-learn 逻辑回归算法库简单总结与实践

节对逻辑回归的原理及推导过程进行了总结，本节我们对Scikit-learn库中逻辑回归进行参数经验总结，并在鸢尾花数据上，利用Scikit-learn中逻辑回归库进行分类。1）概述在sklearn.linear_model下有两个类，LogisticRegression， Logis...

2019-10-17 17:15:18 3403

原创逻辑回归（Logistic Regression）原理详细总结

逻辑回归（Logistic Regression）是一个分类算法，既可以用来解决二分类问题也可以解决多分类问题。那么为什么名为“回归“的算法却是用来解决分类问题的呢？本文将对逻辑回归的由来及原理做出详细的总结。1）线性回归（Linear Regression) 线性回归一般化的描述指通过计...

2019-10-14 16:43:06 6284 2

原创自然语言处理基础之信息熵，联合熵，条件熵，交叉熵，相对熵

本文主要介绍信息论基本相关知识，这些知识在机器学习中的相关算法的基础，是学习机器学习及深度学习的基础知识。本文具体介绍信息熵、交叉熵及相对熵，需要深入了解信息论知识，请参考《信息论基础》。1）信息熵（Information Entropy）信息熵来源于克劳德·爱尔伍德·香农的信息论，在介绍信息熵之前，我们先来了解信息量的概念。 ...

2019-05-16 15:23:10 2067

NLP_谢立侠