自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

糯米君的博客

python算法源码+详细注释

  • 博客(261)
  • 资源 (9)
  • 收藏
  • 关注

原创 特征工程-工业蒸汽量预测-阿里云天池大赛

包含几个大的模块:1、异常值分析-绘制各个特征的箱线图2、归一化3、查看数据分布-绘制KDE分布图4、计算特征相关性,以热力图形式可视化显示和多重共线性分析(计算方差膨胀系数)5、特征降维:(1)特征相关性的初筛,计算相关性系数并筛选大于0.1的特征变量(2)利用PCA方法去除数据的多重共线性,并进行降维

2023-08-29 23:42:41 193

原创 线性判别分析法LDA-线性降维-特征降维

LDA的两种性质:①同类的数据点尽可能接近;②不同类的数据点尽可能分开。

2023-07-22 22:29:06 206

原创 主成分分析法PCA-线性降维-特征降维

主成分分析法是最常用的线性降维方法,主要原理是通过某种线性投影,将高维的数据映射到低维的空间中表示,并期望在所投影的维度上数据的方差最大,以此达到使用较少的数据维度来保留较多的原数据点特性的效果。

2023-07-22 22:24:31 361

原创 基于模型的特征选择法SelectFromModel()函数筛选特征简单实战-从糖尿病数据集中基于疾病进展寻找最佳两个特征。

使用SelectFromModel()结合LassoCv基于查找预测从基线开始一年后疾病进展,从糖尿病数据集(由从442名糖尿病患者中收集的10个变量(特征))中筛选出最佳的两个特征。

2023-06-21 00:08:47 252

原创 基于模型的特征选择法SelectFromModel()函数筛选特征-嵌入法-特征选择-特征降维

SelectFromModel(根据重要性权重选择特征)主要采用基于模型的特征选择法,常见的有基于惩罚项的特征选择法和基于树模型的特征选择法。

2023-06-20 23:51:05 464

原创 递归消除特征法RFE筛选特征-包装法-特征选择-特征降维

RFE(Recursive feature elimination):递归消除特征法使用一个基模型(这里使用逻辑回归)来进行多轮训练,每轮训练后,消除若干权值系数的特征,再基于新的特征集进行下一轮训练。

2023-06-20 23:27:29 1125

原创 SelectKBest()函数筛选特征-过滤法-特征选择-特征降维

SelectKBest()函数:选择K个最好的特征,返回选择特征后的数据。

2023-06-20 23:07:20 886

原创 方差选择法筛选特征-过滤法-特征选择-特征降维

如果一个特征不发散,即方差接近0,就说明样本在这个特征上基本没有差异,这个特征对于样本的区分没有作用,使用方差选择法,计算各个特征的方差,然后根据阈值选择方差大于阈值的特征。

2023-06-20 22:45:48 211

原创 机器学习 7种常用简单的特征处理方法

1.标准化: StandardScaler()2.区间缩放法: MinMaxScaler()3.归一化: Normalizer()4.定量特征二值化: Binarizer()5.定性特征哑编码: OneHotEncoder()6.缺失值填充: SimpleImputer()7.数据转换:(1) 多项式转换: PolynomialFeatures()(2) 对数变换: FunctionTransformer(log1p)

2023-06-05 22:11:16 608

原创 HDFS入门-统计HDFS上文件的词频,然后将统计结果输出到HDFS

需求:统计HDFS上的文件的词频,然后将统计结果输出到HDFS特点:用到了maven管理jar包;核心处理部分封装为接口(可插拔);路径、文件名等变量配置在自定义配置文件中,方便改写;通过反射创建对象(接口);代码结构良好,可插拔等等

2023-06-02 23:11:27 331

原创 数据探索-工业蒸汽量预测-阿里云天池大赛

包含几个大的模块:1、变量箱型图2、采用模型预测的形式找出异常样本3、绘制训练数据集中所有变量的直方图和Q-Q图(查看变量是否符合正态分布)4、绘制KDE分布图,可以查看并对比训练集和测试集中特征变量的分布情况,发现两个数据集中分布不一致的特征变量5、计算变量与target之间的相关性系数并用热力图的形式显示6、根据相关系数筛选特征变量7、做Box-Cox变换,使变量分布更接近正态分布

2023-05-27 22:04:42 195

原创 python 双类别型变量关联性分析-卡方检验chi2()

卡方检验:主要用于两个和两个以上样本率(构成比)及两个二值型离散变量的关联性分析,即比较理论频次与实际频次的吻合程度或拟合程度。

2023-05-03 17:17:58 921 1

原创 python 计算相关性系数np.corrcoef()

计算相关性是分析连续型与连续型双变量的常用方法

2023-04-17 21:35:59 2983

原创 机器学习 深度森林回归的加利福尼亚房价简单实践

实施深层森林回归

2023-04-14 23:49:30 331

原创 python numpy数组的合并与拆分

numpy数组的合并与拆分

2023-04-09 17:44:35 332

原创 python numpy的ndarray及其创建(特定数组,等差数组,随机数组)

numpy的ndarray及其创建(创建特定数组,等差数组,随机数组)

2023-03-29 11:48:52 1070

原创 python 举个例子进行numpy与python数组性能对比

numpy与原生python的性能对比(jupyter跑)

2023-03-29 11:32:16 84

原创 Jupyter的高级使用(6个常用魔法命令)

Jupyter的高级使用(6个常用魔法命令)

2023-03-28 17:41:16 485

原创 markdown常用基础语法

markdown基础语法

2023-03-26 23:35:04 53

原创 anaconda常用命令

anaconda常用命令

2023-03-26 23:28:37 68

原创 机器学习常用公开数据集列表

机器学习常用公开数据集列表

2023-03-26 23:21:31 191

原创 深度学习 图示12种常见激活函数

所谓激活,实际上是对隐藏层或卷积层等等的输出结果做一次非线性映射。

2023-03-21 10:05:03 109

原创 sql 视图view的基本操作(建立、删除、查询和更新视图)

建立、删除、查询和更新视图

2023-02-18 17:49:23 3912

原创 sql delete删除表的数据

删除某一个元组的值;删除多个元组的值;带子查询的删除语句

2023-02-18 16:02:05 3305

原创 sql update更新数据

修改某一个元组的值;修改多个元组的值;带子查询的修改语句

2023-02-18 15:27:41 278

原创 sql insert into命令插入数据

插入单个元组;插入子查询结果

2023-02-18 11:45:09 547

原创 sql select语句的一般格式

详解select语句的一般格式

2023-02-18 11:23:24 89

原创 sql select基于派生表的查询(子查询出现在from中)

select基于派生表的查询:子查询出现在from中

2023-02-18 10:53:26 194

原创 sql select集合查询(并union、交intersect和差except操作)

select集合查询:并union、交intersect和差except操作

2023-02-18 10:38:06 276

原创 sql 4种类型的select嵌套查询(父查询、子查询)

4种类型的select嵌套查询:1.带有in谓词的子查询;2.带有比较运算符的子查询;3.带有any(some)或all谓词的子查询;4.带有exists谓词(存在量词)的子查询

2023-02-17 23:30:34 2048

原创 sql select多表连接查询

select多表连接查询

2023-02-17 22:03:34 146

原创 sql select外连接查询

select外连接查询

2023-02-17 21:58:17 102

原创 sql 自身连接查询

自身连接查询

2023-02-17 20:40:06 606

原创 sql 等值与非等值连接查询

等值连接查询

2023-02-17 20:33:17 176

原创 sql group by分组子句的使用

group by分组简单讲解

2023-02-17 20:04:43 64

原创 sql 常用聚集函数

常用聚集函数

2023-02-17 17:50:25 50

原创 sql select查询语句中where子句常用的查询条件

where子句常用的查询条件:比较、确定范围、确定集合、字符匹配、空值、多重条件等

2023-02-17 17:27:18 1640

原创 sql select查询语句的一般格式

select查询语句的一般格式

2023-02-17 16:09:56 101

原创 sql 索引index的建立、修改与删除

建立索引是加快查询速度的有效手段

2023-02-17 15:45:39 967

原创 sql 表table结构的删除(drop table命令)

drop table命令的使用

2023-02-16 17:40:12 386

数据-工业蒸汽量预测-阿里云天池大赛

数据-工业蒸汽量预测-阿里云天池大赛

2023-05-27

加利福尼亚房价的数据集

加利福尼亚房价的数据集

2023-04-14

经典数据集:住房数据集housing.data

其中包含了由D·哈里斯和慕·鲁宾菲尔德两位在1978年收集的关于波士顿郊区住房的信息。

2022-01-25

HDFS入门项目-使用HDFS JAVA API完成统计HDFS上的文件的词频,然后将统计结果输出到HDFS.rar

需求:统计HDFS上的文件的词频,然后将统计结果输出到HDFS 特点: 用到了maven管理jar包; 核心处理部分封装为接口(可插拔); 路径、文件名等变量配置在自定义配置文件中,方便改写; 通过反射创建对象(接口); 代码结构良好,可插拔等等

2022-01-23

玻森情感词典下载链接.txt

玻森情感词典

2021-03-28

4000+古诗数据集下载链接.txt

4000+古诗数据集下载链接.txt

2021-03-27

住房数据集housing.data.txt下载链接.txt

机器学习算法常用数据集

2021-01-30

IMDB 电影评论数据集.rar压缩包下载.txt

机器学习常用数据集

2021-01-24

facebook的预训练 fastText 模型wiki-news-300d-1M.vec下载.txt

外网很难下载,贼慢,所以特此分享一个链接。

2021-01-21

Dev-c++_5.11_TDM-GCC_4.9.2.zip压缩包下载链接.txt

Dev-cpp是一个GCC在win32下的IDE程序, 具有以下功能: 1.集成编译环境,支持工程模板. 2.支持语法加高,自动注释,对中文的支持也不错. 3.支持CVS集成 4.支持源码分析,可以形成类树图. 5.支持扩展包.

2021-01-17

googlenews-vectors-negative300.bin.gz压缩包下载链接.txt

GoogleNews-vectors-negative300.bin.gz 压缩包下载链接,由于外网下载这个压缩包过慢,所以特此分享一个链接。

2021-01-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除