CquptDJ-CSDN博客

原创 pyspark分布式部署随机森林算法

分布式算法的文章我早就想写了，但是一直比较忙，没有写，最近一个项目又用到了，就记录一下运用Spark部署机器学习分类算法-随机森林的记录过程，写了一个demo。在大规模数据的情况下如果需要用机器学习算法，Spark是一个很好的选择，可以大大提升任务的运行速度，工业环境中效率往往是最需要的，Spark可以解决我们的分布式算法部署需求。

2024-02-26 14:49:53 1842

原创实现制作动漫版的你---动漫风格迁移网络AnimeGANv2

最近居家太无聊了，无意见逛到了AI社区，发现最近AI算法热度还是很高，什么AI绘画，还有什么AI作诗，写歌。可以说，人工智能领域在一步步挑战人类的高度，从循规蹈矩的简单工作，到高难度的智慧挑战，现在已经在挑战人类最后防线—思想，创作！不过我还是觉得人工智能的路还很遥远！

2022-11-21 23:12:33 1898 4

原创阿里天池金融数据分析赛题2：保险反欺诈预测baseline

好久没写baseline了，最近逛比赛的时候突然看到阿里新人赛又出新题目了，索性写个baseline给初学者，昨天晚上把比赛数据下载了，然后随便跑了个模型，AUC就达到了0.95，排在了第二名，下图是我排名的截图，所以题目还是比较简单的，适合初学者入手。我比较喜欢做开源，因为分享也是一种快乐，如果大家对baseline代码有任何疑问，都可以提出来，我会详细解答的，也欢迎大家关注，有任何问题我都会解答！baseline的线上提交分数是0.9463，排名显示0.95.........

2022-07-02 15:19:05 13229 84

原创阿里天池街景字符编码YOLO5方案

前言最近在做OCR相关的任务，用到了阿里天池一个街景字符识别比赛的数据集，索性就分享一下相关方案，我采用YOLO5模型，最终在平台提交分数也做到了0.924，没有经过任何优化，可以看出YOLO5的效果还是非常不错的。比赛地址链接：https://tianchi.aliyun.com/competition/entrance/531795/introduction?spm=5176.12281973.1005.7.3dd52448VtZc6t下载YOLO5模型YOLO5下载：https://githu

2022-06-25 16:53:13 3960 11

原创最快配置GPU版本Pytorch

GPU版Pytorch最近在搞深度学习，需要用到GPU跑模型了，配置GPU版本的Pytorch是真的烦，而且每个人遇到的问题不一样，网上很多教程也良莠不齐，这里我将自己总结的最简便的配置Pytorch方法分享给大家。...

2022-04-19 23:58:02 880 4

原创 2021 CCF基于UEBA的用户上网异常行为分析baseline线上0.90

2021CCF BDCI今年CCF又来了，每年都有大佬选手夺冠，也有黑马新人突出重围，对于新人来说一份baseline是很好的起点，可以更快入门数据竞赛。(大佬请忽略！！！)基于UEBA的用户上网异常行为分析结构化数据比较好入手，由于贷款违约数据有问题，所以选择了另外一个结构化赛题写了一个baseline，我只提交了一次，线上有0.8994，虽然比不上前排大佬的分数，但是对于入门来说还是可以参考下，而且提升空间还很大！比赛地址链接：https://www.datafountain.cn/compet

2021-09-22 22:01:00 2826 9

原创 NLP自然语言处理—文本分类入门

前言NLP作为机器学习三大热门领域之一，现在的发展也是越来越完备，从2012年神经网络崛起之后，自然语言领域就迎来了春天，特别是当预训练方法横空出世之后，NLP作为最先尝到预训练甜头的先锋，可以说是如虎添翼。虽然我个人做NLP方面的东西比较少(主要是穷，设备有限，跑不动模型)，但是在结构化数据挖掘中有时候还是会遇到NLP相关的问题，比如在某些电商问题中，很多数据是文本数据，这些数据还是需要用到NLP的一些处理方法。以后的发展中会遇到更多关于NLP的问题，所以对于NLP领域一定要有了解，就算达不到精通的

2021-08-29 20:14:24 1388 17

原创机器学习模型评估——混淆矩阵

混淆矩阵什么是混淆矩阵(Confusion Matrix)？我们在做分类问题时会用到机器学习分类模型，不管是二分类还是多分类问题，我们都要对模型的性能进行评估，看看模型的分类效果是否好，有多好！我们常常会选择一个合适的评估指标进行衡量，比如我们熟悉的ACC，AUC，F1-score，召回率等等，而混淆矩阵也是和它们一样的功能，混淆矩阵可以直观的展示我们分类器对每个样本的分类情况，知道有哪些类别分正确了，哪些类别被错误地分到了其他类别，混淆矩阵就做这么个事。概括：混淆矩阵就是我们用来评估模型分类好坏的(特

2021-08-27 22:45:53 3051 13

原创用DNN做回归预测对比XGBoost

前言现在神经网络的运用越来越流行了，即使在结构化数据领域神经网络也随着数据量的增大而逐渐替代传统机器学习方法，能够创建一个基础的深度神经网络解决问题对一个合格的算法工程师来说变得越来越关键了。我就从一个初学者的角度出发，对我们常见的回归问题运用神经网络对和集成学习大杀器XGBoost进行预测效果对比。气温数据集下载地址：https://pan.baidu.com/s/1KNYfb2S7ct4KsIJxUFz2Uw 提取码：DJNB数据集探索打印前11行数据：可以看到，气温数据集只有9个特征属性

2021-08-19 21:34:48 8618 13

原创数据挖掘中特征筛选方法策略

前言数据挖掘中我们经常会遇到高维数据，特别是当我们的特征工程做得比较复杂时，这些特征可能会让我们的模型过拟合，或者很多特征是没有意义，对模型的优化起不到作用，反而会降低模型的运行效率和精度，所以我们需要对我们的特征变量进行筛选，去除掉无意义的特征，尽可能保留少而强的特征。下面是我用得最多的几个方法，也是我个人觉得最实用方法，其他特征筛选方法大家可以自行查阅资料，这里不多介绍。方差选择卡方检验相关系数互信息其他方法写在最后...

2021-08-01 15:01:06 2667 11

原创 LSTM实现时序问题预测(Tensorflow版本)

前言前面写了一个RNN对股票走势的预测，可以看到循环神经网络在时序问题上面的表现还是非常不错的，本次就用RNN的改进版本LSTM(长短时记忆神经网络)再做一个时间序列问题，看看LSTM的效果怎么样。相关库数据集...

2021-07-18 17:03:22 7031 30

原创 RNN实现股票时间序列预测(Tensorflow版本)

前言

2021-07-17 16:14:18 1651 13

原创 Resnet实现猫狗识别(Tensorflow版本)

前言

2021-07-12 22:41:15 1812 10

原创 CNN实现猫狗识别(Tensorflow版本)

前言

2021-07-12 22:39:49 4173 18

原创 Opencv简单图像处理(二)

前言接着前面一篇博客，第二部分主要介绍简单的图像平滑处理和图像锐化处理图像平滑图像平滑从信号处理的角度看就是去除其中的高频信息，保留低频信息，和通信原理里面信号的处理有点类似。平滑处滤波对图像的低频分量增强，同时削弱高频分量，用于消除图像中的随机噪声，起到平滑作用。总的来说平滑处理的目的就是改善图像质量，消除噪音。同时，根据滤波器的不同方法也不同，这里就举均值滤波的方式，还有高斯加权滤波，中值滤波，双边滤波等等，大家可以自己尝试。import cv2import numpy as npfro

2021-06-28 20:45:55 371 11

原创 Opencv简单图像处理(一)

前言最近对图像处理方面比较感兴趣，所以记录一下自己的学习过程同时也分享自己的学习结果。对于Opencv是图像处理里面不可或缺的一部分，所以我就使用Opencv来简单处理一张图片，图片来自我的最爱《权力的游戏》读取原图并打印上面代码直接读取图片然后进行打印，这里有两种输出方式，第一种是用非CV库的方式输出，所以一定要加我注释的那句话，不然RGB颜色顺序可能是乱的；第二种就不需要了，但是要加最后一句话，不然输出可能会卡或者一闪而过！import cv2import numpy as npfrom m

2021-06-28 17:03:24 745 12

原创讯飞开发者大赛-环境空气质量评价挑战赛baseline

前言最近讯飞开发者大赛如火如荼地进行着，各赛道赛题都具有挑战性，大家都可以参与挑战大赛地址：https://challenge.xfyun.cn/环境空气质量评价挑战赛数据说明具体的数据只有报名后即可下载，数据量并不大，初赛训练集和测试集都只有几百条数据评价指标本模型依据提交的结果文件，利用均方根误差（RMSE）评价模型。（1）样本的相对综合污染系数 IPRC，用于判断样本之间的相对污染程度。（2）基于IPRC，计算RMSE. 其中m为样本数，y为IPRC真实值，y_pred为IPR

2021-06-26 09:43:27 1872 5

原创数据挖掘简单可视化方法

简单数据可视化最近有不少人私信问我数据可视化的图怎么画的？让我开源一下代码。这里我就简单演示一些最基础在数据挖掘过程中用得最多的几个数据可视化方法，希望可以帮助更多的人。说明：可视化数据集采用前面民宿预测项目的数据集！1.对数据集进行缺失值统计：plt.figure(figsize=(10, 10))missing = train.isnull().sum()/len(train)missing = missing[missing > 0] #这里只画出有缺失值的属性极其比例missi

2021-06-17 09:09:17 1616 6

原创员工满意度预测分析

前言一个基础的数据分析项目，数据集非常简单，虽然有很多处理方法都用不上就可以做到一个比较好的效果(当然也可以进行一下骚操作，可以，但没必要)，但是对于入门来说是非常适合的。训练集及测试集数据获取链接：链接：https://pan.baidu.com/s/1692cGZ7igopC3-Dka9_sMA提取码：DJNB话不多说baseline代码如下：from sklearn.ensemble import RandomForestRegressorfrom sklearn.preprocess

2021-04-14 22:31:55 5713 16

原创阿里天池心跳信号分类预测baseline

阿里天池又来了一个数据挖掘新人赛，是关于心跳信号分类的预测问题，主要针对初学者学习数据挖掘知识比赛地址链接这次数据比较有意思，和最常见的多属性结构化数据不同，本次数据是心电图数据记录，所以用一下传统的思维方法可能做出来效果并不好，但是baseline还是采用传统的方法做的，仅仅只是实现做出结果的步骤，没有优化方法，最后会提到几个优化的思路。baseline代码如下：import pandas as pdimport numpy as npfrom lightgbm import LGBMClas

2021-04-02 02:15:24 4393 19

原创模型融合---Stacking和Blending方法

前言机器学习中常常需要进行模型融合操作，而对于简单的问题，我们可以采用简单的方法，比如回归问题可以采用简单的线性加权融合，对于分类问题可以进行投票。这两个方法都是简单好理解的方法，但是有些时候为了达到更好的融合效果，我们需要更加花里胡哨的融合方法，其实也不复杂，原理也很简单。这里就介绍两种常用的进阶模型融合方法—stacking和blending。这里是kaggle上面对于这两种模型融合方法的英文介绍：kaggle模型融合介绍话不多说，直接开始！...

2021-03-26 09:30:44 3721 6

原创 GBDT算法的升级--XGBoost与LightGBM算法

本文同样不涉及公式推导及代码，对于GBDT算法的学习可以参考前面的文章 GBDT算法原理，这里不再讲述GBDT，只讲述XGBoost与LightGBM算法原理参考文档：LightGBM官方文档(全英文)XGBoost官方文档(全英文)...

2021-03-06 17:18:10 3663 2

原创 Boosting族算法--Adaboost算法与GBDT算法原理(简单易懂)

Boosting算法

2021-02-21 23:20:55 4824 7

原创 Python实现随机森林算法(不调用sklearn方法)

前言网上关于随机森林原理介绍的文章或者资料很多，所以我的博客重点不是去详细地介绍随机森林的理论原理或者Bagging和Boosting的原理，也不是去写如何去掉包实现它，而是通过前段时间我自己写随机森林算法时发现网上很多python实现随机森林算法的代码都不是通过随机森林最原始的理论支撑去完成的，而且一些写法也是比较复杂和一些错误，所以我想自己写一篇用python实现随机森林算法的博客记录自己的学习过程，同时如果有其他人想学习也可以用的代码。当然，我的代码可以直接运行，应该是没有任何错误的，我也在代码中

2020-12-11 17:15:32 7951 22

原创阿里天池金融风控baseline

前言比赛地址链接由于本次为基础赛，所以分为正式赛和长期赛，正式赛时间由于和另外重量级比赛冲突，所以做的大佬很少，本人有幸通过自己写的baseline冲到了Rank10,其实代码很少，也简单，也没有做特征，只是做的人少了普遍分都比较低，这篇博客的主要目的是给初学者一个参考，后面可以加很多特征提高，由此分享一下baseline及心得此次天池金融风控赛数据量比较小，训练集提供了80万数据，测试集有20万，数据集也在比赛链接里面可以下载，不用多说，直接放代码，有错误大佬勿喷，本人也是初学者代码如下：imp

2020-11-17 21:20:48 14616 64

原创 Python爬虫--爬取豆瓣电影

前言关于爬虫技术，我前段时间就想写一篇博客分享一下自己写基于python语言的爬虫经历，python语言写爬虫程序有天然的优势，因为python有许多关于爬取网页信息的第三方库，如果用python写爬虫程序会非常方便，下面就分享一下我做的一个用于爬取豆瓣电影top250榜单信息的python爬虫我目前写过两个爬虫程序，一个是爬取中国大学排名网站的信息，另外一个就是今天我要介绍的豆瓣电影爬虫。所以目前我所掌握的关于爬虫的知识并不是太全面，只了解了一下python爬虫基础知识。目前我用过requests库，

2020-06-04 21:53:12 5028 3

原创 Java初学小项目--基于awt库，swing库的可视化电影管理系统(三)

前言这是电影管理系统项目的第三篇博客，也是该程序最后一篇博客，前面两篇博客已经介绍了管理系统的可视化实现，看了前面博客的朋友对于各个功能可视化的实现应该都可以完成了，最后一步就是将我们要执行的指令传达到后台MySQL数据库，实现对数据库的数据的修改。数据库连接模块为了我们在需要调用数据库时的方便，我就单独创建了一个数据库连接的类名为MySQL类，因为数据库的每次连接都需要比较繁琐的格式，如果单独创建一个连接数据库的类就没有这么麻烦，下面就是MySQL类的代码实现：import java.sql.*;

2020-05-17 17:01:19 4458 2

原创 Java初学小项目--基于awt库，swing库的可视化电影管理系统(二)

前言我的上一篇博客已经介绍了一个基于awt库和swing库的可视化界面的实现，对于Java小白来说，看完那篇博客做出一个自己满意的可视化界面应该没有多大问题，所以，这次就直接进入第二阶段，监听器的设置。话不多说，直接进入正题，希望能够帮助初学Java的你。监听器什么是监听器？我举个例子，就比如说我们设置了一个按钮，那你把按钮添加到窗口里面后对它进行点击，但是为什么点击之后没有任何反应呢？是不是程序有问题？其实不是，如果你创建好按钮之后点击就有效果的话，那恭喜你，你见鬼了。。。那怎样才能让我们创建的按

2020-05-16 21:17:54 4201 2

原创 Java初学练手小项目---基于awt库，swing库以及MySQL数据库制作简易电影管理系统(一)

前言

2020-05-15 18:21:27 4699 1

热衷于开源，热爱人工智能领域，时常分享机器学习，数据挖掘项目及方法，我们一起努力！