自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(30)
  • 收藏
  • 关注

原创 0925Stacking集成学习+StratifiedKFold

#导入包import pandas as pdimport numpy as npimport mathfrom sklearn.linear_model import LogisticRegressionCVfrom sklearn.ensemble import RandomForestClassifierfrom xgboost.sklearn import XGBClassi...

2019-09-25 20:11:02 265

原创 0729训练模型涉及到的代码

0729整理不熟知的知识点1、sklearn.metrics.roc_curve参数2、seaborn.heatmap()参数3、不平衡数据集的处理SMOTEENNSMOTE5、训练模型(以随机森林为例)未使用交叉验证使用交叉验证6、混淆矩阵7、ROC曲线8、模型的评估1、sklearn.metrics.roc_curve参数https://www.cnblogs.com/wzyuan/p/9...

2019-07-29 12:58:48 519

原创 MySQL实战--基于emp dept salgrade表

MySQL实战-基于emp,dept,salgrade表的34道题1、取得每个部门最高薪水的人员名称2、哪些人的薪水在部门的平均薪水之上--emp表+-------+--------+-----------+------+------------+---------+---------+--------+| EMPNO | ENAME | JOB | MGR | HIREDA...

2019-07-11 17:27:02 1144

原创 0711那些你踩过的坑——卸载干净MySQL并安装

0711那些你踩过的坑——卸载干净MySQL并安装一、卸载MySQL一、MySQL的安装一、卸载MySQL参考博客:https://blog.csdn.net/weixin_41792162/article/details/89921559我按照网上的方法删除了各种关于mysql的文件夹以及注册表到最后一步Apply Configuration还是不成功。1、卡在Starting ser...

2019-07-11 13:42:19 219

原创 0523西瓜书——04决策树

0523西瓜书——04决策树一、树的划分流程二、树如何进行划分1、信息增益2、增益率一、树的划分流程二、树如何进行划分如何选择最优划分属性?我们希望决策树分支节点所包含的样本尽可能属于同一类别,即结点的“纯度”越来越高。1、信息增益信息增益:结点划分前后信息熵的差值。2、增益率...

2019-05-23 19:23:59 222

原创 决策树、随机森林、逻辑回归、SVM、XGBoost重要参数

决策树、随机森林、逻辑回归、SVM、XGBoost重要参数一、决策树二、随机森林三、逻辑回归四、SVM五、XGBoost一、决策树分类树的8个重要参数:criterion、2个随机性相关的参数(random_state,splitter)、5个剪枝参数(max_depth、min_samples_split、min_samples_leaf、max_feature、min_impurity_...

2019-05-20 12:58:13 3553

原创 0515西瓜书——03线性模型

线性模型

2019-05-15 11:37:39 151

原创 将多列数据转换为1列

DataFrame数据多列转换成1列一、DataFrame数据多列转换成1列二、Excel将多行多列转换成一行一列一、DataFrame数据多列转换成1列原本我的数据是这样的import pandas as pdimport numpy as np#导入源数据df = pd.read_table(r'C:\Users\Administrator\Desktop\习题4.7数据.txt...

2019-05-08 21:13:36 4386

原创 准确率、精确率、召回率、f1、ROC曲线

准确率、精确率、召回率、f1曲线、ROC曲线T(True)、F(False)、P(Positive)、N(Negative)一、准确率二、精确率(查准率)三、召回率(查全率)四、f1分数五、ROC曲线几种指标的区别:案例T(True)、F(False)、P(Positive)、N(Negative)一、准确率acc = (TP+TN)/(TP+TN+FP+FN),预测正确的结果占总样本的百...

2019-05-07 19:30:25 1581

原创 那些你踩过的坑——安装graphviz画决策树

安装graphviz尝试pip install graphviz不行在http://www.graphviz.org/download/下载安装包配置环境还是不行(可能是我不会 哈哈哈)简单粗暴的方法:conda install python-graphviz尝试pip install graphviz不行在http://www.graphviz.org/download/下载安装包配置环境...

2019-04-22 16:10:19 2765 2

原创 0410代码实现损失函数的参数求解

代码实现损失函数的参数求解一、正规方程组法二、使用sklearn方式求解三、批量梯度下降法四、随机梯度下降一、正规方程组法import numpy as npimport matplotlib.pyplot as pltX = 2 * np.random.rand(100,1) #rand(100,1)生成100个1维的随机均匀分布y = 4 + 3 * X + np.random...

2019-04-10 14:41:39 407

原创 0409MySQL实战

MySQL实战-持续更新201904081、从不订购的客户(简单)2、第N高的薪水(中等)3、(困难)体育馆人流量201904081、从不订购的客户(简单)某网站包含两个表,Customers 表和 Orders 表。编写一个 SQL 查询,找出所有从不订购任何东西的客户。--创建表插入值CREATE TABLE Customers( Id int(10) primary key, ...

2019-04-09 18:34:03 227 1

原创 01《对比Excel,学python数据分析》读书笔记——数据分析基础

0408数据分析基础1、数据分析作用2、数据分析的指标3、数据分析的常规流程1、数据分析作用数据分析可以把隐藏在大量数据背后的信息提取出来,总结出数据的内在规律。数据分析在企业日常经营分析中有三大作用,现状分析、原因分析、预测分析。现状分析:业务在过去发生了什么?(现阶段整体运营情况+企业各项业务的构成),可通过日常报表来实现。(日报、周报、月报)原因分析:某一现状存在的原因,原因分析...

2019-04-08 20:36:26 2199

原创 0408任务三高级算法梳理-XGB算法梳理

任务三XGB算法梳理一、算法原理二、损失函数三、分裂结点算法四、正则化五、对缺失值处理六、优缺点七、应用场景八、sklearn参数一、算法原理xgboost的基础是梯度提升算法,提升法中最著名的算法包括Adaboost和梯度提升树,xgboost是由梯度提升树GBDT发展而来。梯度提升树可以有回归树和分类树,两者都是以CART树算法为主流,xgboost背后也是CART树,这意味着xgboos...

2019-04-08 15:08:14 599

原创 0406任务二高级算法梳理-GBDT算法梳理

任务四MySQL实战

2019-04-07 20:25:22 283

原创 0405任务四MySQL实战

任务四MySQL实战二、作业项目七:各部门工资最高的员工(难度:中等)项目八:换座位(难度:中等)项目九:分数排名(难度:中等)项目十:行程和用户(难度:困难)项目十一:各部门前3高工资的员工(难度:中等)项目十二:分数排名 - (难度:中等)二、作业项目七:各部门工资最高的员工(难度:中等)--创建Employee表并插入数据CREATE TABLE Employee( Id int(...

2019-04-05 21:21:52 223

原创 0403高级算法梳理——随机森林算法梳理

任务一随机森林算法梳理一、集成学习的概念二、个体学习器概念三、boosting bagging一、集成学习的概念集成学习(ensemble learning)通过构建并结合多个学习器来完成学习任务,有时也被称为多分类系统。上图显示出集成学习的一般结构:先产生一组“个体学习器”,再用某种策略将它们组合起来。个体学习器通常由一个现有的学习算法从训练数据中产生,例如C4.5决策树算法、BP神经网...

2019-04-04 21:42:16 806

原创 0403任务三MySQL 基础 (二)- 表操作

任务三MySQL 基础 (二)- 表操作一、学习内容1、MySQL表数据类型2、用SQL语句创建表3、用SQL语句向表中添加数据4、用SQL语句删除表5、 用SQL语句修改表二、作业1、项目三:超过5名学生的课(难度:简单)2、项目四:交换工资(难度:简单)三、MySQL 基础 (三)- 表联结四、作业1、项目五:组合两张表 (难度:简单)2、项目六:删除重复的邮箱(难度:简单)一、学习内容1...

2019-04-03 14:26:57 459

原创 0401再也不担心No module named 'xxx'的问题啦

再也不担心No module named 'xxx'的问题啦原本遇到的问题是:No module named 'imblearn'原本遇到的问题是:No module named ‘imblearn’imblearn处理不均衡数据集,pip install imblearn.导入该包后python中正常,但在jupyter notebook和pycharm均报错在网上找到一篇解决问题的“渔”。...

2019-04-01 21:21:34 2211

原创 0401任务二MySQL基础(一)——查询语句

任务二MySQL基础(一)——查询语句一、学习内容二、作业一、学习内容1. 导入示例数据库,教程 https://www.yiibai.com/mysql/how-to-load-sample-database-into-mysql-database-server.html下载示例数据库yiibaidb.sql将下载的文件放入临时文件夹中连接到MySQL服务器并创建数据库(...

2019-04-01 14:00:28 512

原创 0331任务一:MySQL软件安装和数据库理论知识

任务一:MySQL软件安装和数据库理论知识一、软件安装及服务器设置二、数据库基础知识三、MySQL数据库管理系统一、软件安装及服务器设置参考:1、http://www.runoob.com/mysql/mysql-install.html2、https://blog.csdn.net/m0_37788308/article/details/79965378选做:使用图像界面软件...

2019-03-31 18:27:02 728

原创 0304线性回归(多变量)-基于波士顿房产数据集

1、首先对波士顿房产数据集进行分析CRIM: 城镇人均犯罪率ZN: 住宅用地所占比例INDUS: 城镇中非住宅用地所占比例CHAS: 查尔斯河(Charles River)变量(若土地位于河流边界,则为 1;否则为 0)5555NOX: 环保指数RM: 每栋住宅的房间数2222AGE: 1940 年以前建成的自住单位的比例DIS: 距离 5 个波士顿的就业中心的加权距离。222R...

2019-03-05 15:17:08 1973

原创 0304网页爬虫-使用lxml+xpath爬取丁香园回复内容

1、XPathXPath的选择功能十分强大,它提供了非常简洁明了的路径选择表达式。另外,它还提供了超过100个内建函数,用于字符串、数值、时间的匹配以及节点、序列的处理等。几乎所有我们想要定位的节点,都可以用XPath来选择。2、XPath常用规则3、实战from lxml import etreeimport requestsdef get_html(url, headers):...

2019-03-04 20:46:49 234

原创 0303Beautiful Soup库的应用

1、Beautiful Soup库是解析、遍历、维护“标签树”的功能库。BeautifulSoup对应于HTML/XML文档的全部内容。2、Beautiful Soup库的引用:from bs4 import BeautifulSoup3、Beautiful Soup库的解析器4、Beautiful Soup类的基本元素5、使用beautifulsoup提取丁香园论坛特定帖子的所有回复...

2019-03-03 20:00:24 160

原创 0303简单线性回归-基于波士顿房产数据集

1、回归算法的评价指标有MSE,RMSE,MAE、R-Squared,下面一一介绍。MSE均方误差:MAE平均绝对误差:RMSE均方根误差:可决系数(拟合优度)2、用以上4个指标测评回归算法——基于波士顿房产数据集(1) 波士顿房产数据集波士顿房产数据集:使用sklearn.datasets.load_boston即可加载相关数据。该数据集共有 506 个观察,13 个输...

2019-03-03 15:00:06 4635

原创 0302网络爬虫

一、正则表达式1、正则表达式:通用的字符串表达框架,简洁表达一组字符串的表达式。针对字符串表达“简洁”和“特征”思想的工具。判断某字符串的特征归属。主要应用在字符串匹配中正则表达式在文本处理中常用:表达文本类型的特征(病毒、入侵等);同时查找或替换一组字符串;匹配字符串的全部或部分。正则表达式的使用:编译:将符合正则表达式语法的字符串转换成正则表达式特征。正则表达式语法:正则表达式是由字...

2019-03-02 21:19:00 210

原创 代码实现简单线性回归(算术法和向量法)

一、问题描述假如我们有一组关于程序员工作经验(Experience)和薪水(Salary)的数据.1、向量法求解2、算术法求解3、两种方法性能比较就本例而言,向量法和算术法算得的结果一样。...

2019-03-02 17:33:36 409

原创 0301网络爬虫(1/7)

一、Python的第三方库Requests1、Requests是python公认的第三方优秀的网络爬虫库,通过这个库可以自动爬取HTML页面,自动进行网络内容请求的提交。2、Requests库的七个主要方法:3、requests库最常用的方法get方法requests.get(url,params=None,**kwargs)url:拟获取页面的url链接params:url中额外...

2019-03-01 12:50:09 162

原创 0228线性回归算法梳理

线性回归算法梳理一、机器学习相关概念二、线性回归原理一、机器学习相关概念1、有监督学习与无监督学习有监督学习的数据具备特征(features)与预测目标(label),有监督学习同时拥有输入变量x和输出变量y。用一个算法把输入到输出的映射关系——y=f(x)学习出来,当拿到新数据x1时就可以用学习到的映射关系得到相应的y1。常见有监督学习算法:回归和分类。如线性回归、朴素贝叶斯分类、逻辑回归...

2019-02-28 22:01:38 408

原创 解决你pycharm和anaconda调用cv2的问题ImportError: No module named 'cv2'

ImportError: No module named 'cv2'前言Pycharm下import cv2Anaconda下import tensorflow前言遇到了这个问题,ImportError: No module named ‘cv2’。在网上查了大半天有人给出的解决方案是:https://blog.csdn.net/wgx571859177/article/details/782...

2019-01-16 22:11:09 9716 5

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除