Guiabbey-CSDN博客

原创 0925Stacking集成学习+StratifiedKFold

#导入包import pandas as pdimport numpy as npimport mathfrom sklearn.linear_model import LogisticRegressionCVfrom sklearn.ensemble import RandomForestClassifierfrom xgboost.sklearn import XGBClassi...

2019-09-25 20:11:02 265

原创 0729训练模型涉及到的代码

0729整理不熟知的知识点1、sklearn.metrics.roc_curve参数2、seaborn.heatmap()参数3、不平衡数据集的处理SMOTEENNSMOTE5、训练模型（以随机森林为例）未使用交叉验证使用交叉验证6、混淆矩阵7、ROC曲线8、模型的评估1、sklearn.metrics.roc_curve参数https://www.cnblogs.com/wzyuan/p/9...

2019-07-29 12:58:48 519

原创 MySQL实战--基于emp dept salgrade表

2019-07-11 17:27:02 1144

原创 0711那些你踩过的坑——卸载干净MySQL并安装

0711那些你踩过的坑——卸载干净MySQL并安装一、卸载MySQL一、MySQL的安装一、卸载MySQL参考博客：https://blog.csdn.net/weixin_41792162/article/details/89921559我按照网上的方法删除了各种关于mysql的文件夹以及注册表到最后一步Apply Configuration还是不成功。1、卡在Starting ser...

2019-07-11 13:42:19 219

原创 0523西瓜书——04决策树

0523西瓜书——04决策树一、树的划分流程二、树如何进行划分1、信息增益2、增益率一、树的划分流程二、树如何进行划分如何选择最优划分属性？我们希望决策树分支节点所包含的样本尽可能属于同一类别，即结点的“纯度”越来越高。1、信息增益信息增益：结点划分前后信息熵的差值。2、增益率...

2019-05-23 19:23:59 222

原创决策树、随机森林、逻辑回归、SVM、XGBoost重要参数

决策树、随机森林、逻辑回归、SVM、XGBoost重要参数一、决策树二、随机森林三、逻辑回归四、SVM五、XGBoost一、决策树分类树的8个重要参数：criterion、2个随机性相关的参数（random_state,splitter）、5个剪枝参数（max_depth、min_samples_split、min_samples_leaf、max_feature、min_impurity_...

2019-05-20 12:58:13 3553

原创 0515西瓜书——03线性模型

线性模型

2019-05-15 11:37:39 151

原创将多列数据转换为1列

DataFrame数据多列转换成1列一、DataFrame数据多列转换成1列二、Excel将多行多列转换成一行一列一、DataFrame数据多列转换成1列原本我的数据是这样的import pandas as pdimport numpy as np#导入源数据df = pd.read_table(r'C:\Users\Administrator\Desktop\习题4.7数据.txt...

2019-05-08 21:13:36 4386

原创准确率、精确率、召回率、f1、ROC曲线

准确率、精确率、召回率、f1曲线、ROC曲线T(True)、F(False)、P(Positive)、N(Negative)一、准确率二、精确率（查准率）三、召回率（查全率）四、f1分数五、ROC曲线几种指标的区别：案例T(True)、F(False)、P(Positive)、N(Negative)一、准确率acc = （TP+TN)/(TP+TN+FP+FN)，预测正确的结果占总样本的百...

2019-05-07 19:30:25 1581

原创那些你踩过的坑——安装graphviz画决策树

安装graphviz尝试pip install graphviz不行在http://www.graphviz.org/download/下载安装包配置环境还是不行（可能是我不会哈哈哈）简单粗暴的方法：conda install python-graphviz尝试pip install graphviz不行在http://www.graphviz.org/download/下载安装包配置环境...

2019-04-22 16:10:19 2765 2

原创 0410代码实现损失函数的参数求解

代码实现损失函数的参数求解一、正规方程组法二、使用sklearn方式求解三、批量梯度下降法四、随机梯度下降一、正规方程组法import numpy as npimport matplotlib.pyplot as pltX = 2 * np.random.rand(100,1) #rand(100,1)生成100个1维的随机均匀分布y = 4 + 3 * X + np.random...

2019-04-10 14:41:39 407

原创 0409MySQL实战

MySQL实战-持续更新201904081、从不订购的客户（简单）2、第N高的薪水（中等）3、（困难）体育馆人流量201904081、从不订购的客户（简单）某网站包含两个表，Customers 表和 Orders 表。编写一个 SQL 查询，找出所有从不订购任何东西的客户。--创建表插入值CREATE TABLE Customers( Id int(10) primary key, ...

2019-04-09 18:34:03 227 1

原创 01《对比Excel,学python数据分析》读书笔记——数据分析基础

0408数据分析基础1、数据分析作用2、数据分析的指标3、数据分析的常规流程1、数据分析作用数据分析可以把隐藏在大量数据背后的信息提取出来，总结出数据的内在规律。数据分析在企业日常经营分析中有三大作用，现状分析、原因分析、预测分析。现状分析：业务在过去发生了什么？（现阶段整体运营情况+企业各项业务的构成），可通过日常报表来实现。（日报、周报、月报）原因分析：某一现状存在的原因，原因分析...

2019-04-08 20:36:26 2199

原创 0408任务三高级算法梳理-XGB算法梳理

任务三XGB算法梳理一、算法原理二、损失函数三、分裂结点算法四、正则化五、对缺失值处理六、优缺点七、应用场景八、sklearn参数一、算法原理xgboost的基础是梯度提升算法，提升法中最著名的算法包括Adaboost和梯度提升树，xgboost是由梯度提升树GBDT发展而来。梯度提升树可以有回归树和分类树，两者都是以CART树算法为主流，xgboost背后也是CART树，这意味着xgboos...

2019-04-08 15:08:14 599

原创 0406任务二高级算法梳理-GBDT算法梳理

任务四MySQL实战

2019-04-07 20:25:22 283

原创 0405任务四MySQL实战

任务四MySQL实战二、作业项目七：各部门工资最高的员工（难度：中等）项目八：换座位（难度：中等）项目九：分数排名（难度：中等）项目十：行程和用户（难度：困难）项目十一：各部门前3高工资的员工（难度：中等）项目十二：分数排名 - （难度：中等）二、作业项目七：各部门工资最高的员工（难度：中等）--创建Employee表并插入数据CREATE TABLE Employee( Id int(...

2019-04-05 21:21:52 223

原创 0403高级算法梳理——随机森林算法梳理

任务一随机森林算法梳理一、集成学习的概念二、个体学习器概念三、boosting bagging一、集成学习的概念集成学习（ensemble learning）通过构建并结合多个学习器来完成学习任务，有时也被称为多分类系统。上图显示出集成学习的一般结构：先产生一组“个体学习器”，再用某种策略将它们组合起来。个体学习器通常由一个现有的学习算法从训练数据中产生，例如C4.5决策树算法、BP神经网...

2019-04-04 21:42:16 806

原创 0403任务三MySQL 基础（二）- 表操作

任务三MySQL 基础（二）- 表操作一、学习内容1、MySQL表数据类型2、用SQL语句创建表3、用SQL语句向表中添加数据4、用SQL语句删除表5、用SQL语句修改表二、作业1、项目三：超过5名学生的课（难度：简单）2、项目四：交换工资（难度：简单）三、MySQL 基础（三）- 表联结四、作业1、项目五：组合两张表（难度：简单）2、项目六：删除重复的邮箱（难度：简单）一、学习内容1...

2019-04-03 14:26:57 459

原创 0401再也不担心No module named 'xxx'的问题啦

再也不担心No module named 'xxx'的问题啦原本遇到的问题是：No module named 'imblearn'原本遇到的问题是：No module named ‘imblearn’imblearn处理不均衡数据集，pip install imblearn.导入该包后python中正常，但在jupyter notebook和pycharm均报错在网上找到一篇解决问题的“渔”。...

2019-04-01 21:21:34 2211

原创 0401任务二MySQL基础（一）——查询语句

任务二MySQL基础（一）——查询语句一、学习内容二、作业一、学习内容1. 导入示例数据库，教程 https://www.yiibai.com/mysql/how-to-load-sample-database-into-mysql-database-server.html下载示例数据库yiibaidb.sql将下载的文件放入临时文件夹中连接到MySQL服务器并创建数据库（...

2019-04-01 14:00:28 512

原创 0331任务一：MySQL软件安装和数据库理论知识

任务一：MySQL软件安装和数据库理论知识一、软件安装及服务器设置二、数据库基础知识三、MySQL数据库管理系统一、软件安装及服务器设置参考：1、http://www.runoob.com/mysql/mysql-install.html2、https://blog.csdn.net/m0_37788308/article/details/79965378选做：使用图像界面软件...

2019-03-31 18:27:02 728

原创 0304线性回归(多变量)-基于波士顿房产数据集

1、首先对波士顿房产数据集进行分析CRIM: 城镇人均犯罪率ZN: 住宅用地所占比例INDUS: 城镇中非住宅用地所占比例CHAS: 查尔斯河（Charles River）变量（若土地位于河流边界，则为 1；否则为 0）5555NOX: 环保指数RM: 每栋住宅的房间数2222AGE: 1940 年以前建成的自住单位的比例DIS: 距离 5 个波士顿的就业中心的加权距离。222R...

2019-03-05 15:17:08 1973

原创 0304网页爬虫-使用lxml+xpath爬取丁香园回复内容

1、XPathXPath的选择功能十分强大，它提供了非常简洁明了的路径选择表达式。另外，它还提供了超过100个内建函数，用于字符串、数值、时间的匹配以及节点、序列的处理等。几乎所有我们想要定位的节点，都可以用XPath来选择。2、XPath常用规则3、实战from lxml import etreeimport requestsdef get_html(url, headers):...

2019-03-04 20:46:49 234

原创 0303Beautiful Soup库的应用

1、Beautiful Soup库是解析、遍历、维护“标签树”的功能库。BeautifulSoup对应于HTML/XML文档的全部内容。2、Beautiful Soup库的引用：from bs4 import BeautifulSoup3、Beautiful Soup库的解析器4、Beautiful Soup类的基本元素5、使用beautifulsoup提取丁香园论坛特定帖子的所有回复...

2019-03-03 20:00:24 160

原创 0303简单线性回归-基于波士顿房产数据集

1、回归算法的评价指标有MSE，RMSE，MAE、R-Squared，下面一一介绍。MSE均方误差：MAE平均绝对误差：RMSE均方根误差：可决系数（拟合优度）2、用以上4个指标测评回归算法——基于波士顿房产数据集（1）波士顿房产数据集波士顿房产数据集：使用sklearn.datasets.load_boston即可加载相关数据。该数据集共有 506 个观察，13 个输...

2019-03-03 15:00:06 4635

原创 0302网络爬虫

一、正则表达式1、正则表达式：通用的字符串表达框架，简洁表达一组字符串的表达式。针对字符串表达“简洁”和“特征”思想的工具。判断某字符串的特征归属。主要应用在字符串匹配中正则表达式在文本处理中常用：表达文本类型的特征（病毒、入侵等）；同时查找或替换一组字符串；匹配字符串的全部或部分。正则表达式的使用：编译：将符合正则表达式语法的字符串转换成正则表达式特征。正则表达式语法：正则表达式是由字...

2019-03-02 21:19:00 210

原创代码实现简单线性回归（算术法和向量法）

一、问题描述假如我们有一组关于程序员工作经验（Experience）和薪水(Salary)的数据.1、向量法求解2、算术法求解3、两种方法性能比较就本例而言，向量法和算术法算得的结果一样。...

2019-03-02 17:33:36 409

原创 0301网络爬虫（1/7）

一、Python的第三方库Requests1、Requests是python公认的第三方优秀的网络爬虫库，通过这个库可以自动爬取HTML页面，自动进行网络内容请求的提交。2、Requests库的七个主要方法：3、requests库最常用的方法get方法requests.get(url,params=None,**kwargs)url:拟获取页面的url链接params:url中额外...

2019-03-01 12:50:09 162

原创 0228线性回归算法梳理

线性回归算法梳理一、机器学习相关概念二、线性回归原理一、机器学习相关概念1、有监督学习与无监督学习有监督学习的数据具备特征（features）与预测目标(label)，有监督学习同时拥有输入变量x和输出变量y。用一个算法把输入到输出的映射关系——y=f(x)学习出来，当拿到新数据x1时就可以用学习到的映射关系得到相应的y1。常见有监督学习算法：回归和分类。如线性回归、朴素贝叶斯分类、逻辑回归...

2019-02-28 22:01:38 408

原创解决你pycharm和anaconda调用cv2的问题ImportError: No module named 'cv2'

ImportError: No module named 'cv2'前言Pycharm下import cv2Anaconda下import tensorflow前言遇到了这个问题，ImportError: No module named ‘cv2’。在网上查了大半天有人给出的解决方案是:https://blog.csdn.net/wgx571859177/article/details/782...

2019-01-16 22:11:09 9716 5

Guiabbey的博客