3 SamWang_333

尚未进行身份认证

暂无相关简介

等级
TA的排名 24w+

kfold cross_validate Stratified KFold StratifiedKFold 和 StratifiedShuffleSplit 交叉验证方法

from sklearn.model_selection import train_test_split,cross_val_score,cross_validate # 交叉验证所需的函数from sklearn.model_selection import KFold,LeaveOneOut,LeavePOut,ShuffleSplit # 交叉验证所需的子集划分方法from sklear...

2020-01-29 22:41:55

自己记录 渔船 数据 分析

import pandas as pdimport os#usr/bin/python3.4-- coding: utf-8 --df = pd.read_csv(r’E:\machineLearning\data\fishing\hy_round1_train_20200102\0.csv’,encoding=‘utf8’,engine=‘python’)path = r’E:\mac...

2020-01-25 23:21:05

朴素贝叶斯模型

朴素贝叶斯模型,全称为:Naive Bayesian Model,Naive 能翻译为朴素,已经是很高看它了,因为我们知道naive的含义如下:naive: marked by or showing unaffected simplicity and lack of guile or worldly experience;它是简单的,它是缺乏worldly experience的。正如它的名...

2020-01-15 11:39:17

机器学习的一些基础问题

参考:http://kubicode.me/2015/08/16/Machine%20Learning/Common-Interview/?from=singlemessage#http://blog.csdn.NET/heyongluoyao8/article/details/49429629http://lib.csdn.Net/article/machinelearning/33798...

2020-01-14 23:40:55

使用 Pandas 对机器学习 数据 进行预处理 分类型 进行 连续数据归一化 和 离散数据编码

Pandasread_csv ()df.columns.tolist() #获取所有的列名字df.dtypes.value_counts() # 有多少数据类型统计Select_dtypes 连续数据和离散数据的 分拆str_list = df.select_dtypes(include=[‘object’])print(str_list.columns) #encode...

2020-01-07 15:40:17

机器学习的评价方法 Recall Metric ROC

分类问题1.1 混淆矩阵(Confusion Matrix)矩阵中的每一行代表实例的预测类别,每一列代表实例的真实类别。真正(True Positive , TP):被模型预测为正的正样本。假正(False Positive , FP):被模型预测为正的负样本。假负(False Negative , FN):被模型预测为负的正样本。真负(True Negative , TN):被模型...

2020-01-06 16:49:31

遍历文件夹 并 copy 文件 程序

import osimport sysimport timefrom shutil import Errorfrom shutil import copystatfrom shutil import copy2图片所处的绝对路径,其中r表示去掉python的内部转义PicPath = r’E:\images’CopyPath = r’E:\images\backup’根据传参判断...

2019-12-27 15:16:22

遍历文件夹读取JPG文件,并处理 短横线,书横线

import osimport imutilsimport cv2import pytesseractimport redef get_text(gray): # get page number information from the head, then fill it by 255image_text = gray[:180, :400]text_iamge = pytes...

2019-12-27 15:12:31

使用sklearn的cross_val_score 迭代 寻找K-means 参数

from sklearn import datasets #自带数据集from sklearn.model_selection import train_test_split,cross_val_score #划分数据 交叉验证from sklearn.neighbors import KNeighborsClassifier #一个简单的模型,只有K一个参数,类似K-meansimpor...

2019-12-14 22:28:40

特征数据清洗 编码 标准化

特征工程是机器学习的第一步,涉及清理现有数据集、提高信噪比和降低维数的所有技术。大多数算法对输入数据有很强的假设,当使用原始数据集时,它们的性能可能会受到负面影响。另外有些特征之间高度相关,在其中一个特征提供了足够的信息之后,与之相关的其他特征往往无法提供额外的信息。这时我们就需要了解如何减少特征数量或者仅选择最佳特征。一、scikit-learn数据集scikit-learn提供了一些用于...

2019-12-13 14:43:20

机器学习模型 特征选择 方法汇总 线性,随机森林,

特征选择是特征工程里的一个重要问题,其目标是寻找最优特征子集。特征选择能剔除不相关(irrelevant)或冗余(redundant )的特征,从而达到减少特征个数,提高模型精确度,减少运行时间的目的。另一方面,选取出真正相关的特征简化模型,协助理解数据产生的过程。并且常能听到“数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已”,由此可见其重要性。但是它几乎很少出现于机器学习书本里...

2019-12-13 14:18:36

重要 线性回归的特征选择 根据 P值, SelectKBest(识别哪些feature选中), SelectPercentile 迭代选择

在特征选择中,最适合在探索阶段使用的就是过滤式的方法,比如方差阈值法和单变量选择法。在上一篇文章中我们介绍了如何在sklearn中使用方差阈值法,那么今天我们就进一步介绍更加实用、有效的单变量选择法。sklearn中的单变量选择法单变量选择法的主要思路是根据某些统计检验的方法分别对每个变量进行检验,得到一组分数、p-value数据,然后我们排序选择分数最高(或p-value最小等)的那些特征。...

2019-12-13 14:07:46

线性回归的特征筛选方法

https://zhuanlan.zhihu.com/p/61224180在特征选择中,最适合在探索阶段使用的就是过滤式的方法,比如方差阈值法和单变量选择法。在上一篇文章中我们介绍了如何在sklearn中使用方差阈值法,那么今天我们就进一步介绍更加实用、有效的单变量选择法。sklearn中的单变量选择法单变量选择法的主要思路是根据某些统计检验的方法分别对每个变量进行检验,得到一组分数、p-v...

2019-12-13 00:08:53

回归 特征 选择 方法

作者:Data Insights链接:https://zhuanlan.zhihu.com/p/61223950来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。一、特征选择的重要性机器学习过程中,特征选择是非常重要的一步。可以说,选到了合适的特征,那么模型的训练就成功了一半。一方面,遗漏掉重要特征肯定是我们无法接受的,这会导致我们的模型拟合能力不足;另一方...

2019-12-12 23:59:37

回归模型 中 特征 重要性 分析

1.树模型,建立好模型以后,看那个属性里根节点越近则越重要。模型会自带一些输出重要属性的方法。2.线性模型,模型一般可以直接输出参数,参数越大越重要。3.利用互信息等类似的方法可以做,sklearn有,scipy里面也有。l1正则,可以观察训练完毕后参数为零的特征,删除掉就可以。模型自带。2. sklearn有一个feature_select模块可以做特征选择。sklearn库里面其实...

2019-12-12 23:54:21

线性回归变量 正则化 模型的保存和加载

回归问题的判定目标值为连续性的值(小数)期末成绩= 0.7考试成绩+0.3平时成绩西瓜好坏 = 0.2色泽+0.5根 + 0.3敲声 z这是分类问题找关系。找到特征和最终结果的关系程度找到权重y =kx+b+b 是一种偏置。是为了当特征只有一个时也能通用多个特征: k1房子面积+k2房子面积 + b多个特征: w1房屋面积+w2房屋面积+ 。。。+bw表示每个特征的权重。b表示...

2019-12-12 23:17:15

如何看待印度人成为谷歌新CEO

2019-12-12 22:23:01

boston 房价 线性回归

-- encoding:utf-8 --from sklearn import datasetsfrom sklearn.model_selection import train_test_split #原文中cross_validation已过时改为model_selectionfrom sklearn.linear_model import LinearRegressionimport...

2019-12-12 22:08:24

线性回归 模型的评价方法 MSE, MAE,R2

回归模型的评价在sklearn中包含四种评价尺度,分别为mean_squared_error、mean_absolute_error、explained_variance_scorer2_score【2】。mean_absolute_error:平均绝对误差(Mean Absolute Error,MAE),用于评估预测结果和真实数据集的接近程度的程度,其其值越小说明拟合效果越好。...

2019-12-12 22:02:42

housing 机器学习 预测 线性回归 随机森林

import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport matplotlibimport numpy as npfrom sklearn.model_selection import cross_val_scorefrom sklearn.model_selection import trai...

2019-12-12 21:55:22

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv4
    勤写标兵Lv4
    授予每个自然周发布9篇以上(包括9篇)原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。