自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 资源 (3)
  • 收藏
  • 关注

原创 ACF PACF ETS ARIMA

ACF:**加粗样式**

2022-11-08 19:46:50 402 1

原创 零基础入门数据挖掘-心跳信号分类预测TASK01

1、赛题理解赛题以心电图心跳信号数据为背景,要求根据心电图感应数据预测心跳信号所属类别,其中心跳信号对应正常病例以及受不同心律不齐和心肌梗塞影响的病例,这是一个多分类的问题。2、赛题数据数据来自某平台心电图数据记录,总数据量超过20万,主要为1列心跳信号序列数据,其中每个样本的信号序列采样频次一致,长度相等。为了保证比赛的公平性,将会从中抽取10万条作为训练集,2万条作为测试集A,2万条作为测试集B,同时会对心跳信号类别(label)信息进行脱敏。给出的数据格式如下:train.csvid:

2021-03-16 18:58:22 931 2

原创 DataWhale 零基础入门金融风控教程 2020-09-15

任务介绍整体学习内容本次组队学习的内容为:数据挖掘实践(金融风控),该内容来自 Datawhale与天池联合发起的 零基础入门数据挖掘 - 贷款违约预测 学习赛的第一场。项目地址为:参考链接整体赛题要求比赛要求参赛选手根据给定的数据集,建立模型,预测金融风险。赛题以预测金融风险为任务,数据集报名后可见并可下载,该数据来自某信贷平台的贷款记录,总数据量超过120w,包含47列变量信息,其中15列为匿名变量。为了保证比赛的公平性,将会从中抽取80万条作为训练集,20万条作为测试集A,20万条作为测试

2020-09-15 20:18:18 285

原创 AUC和ROC

https://blog.csdn.net/songyunli1111/article/details/82285266课程234

2019-08-15 20:29:14 114

原创 spark windows环境搭建

1、官网下载安装包或者编译包:https://www.apache.org/dyn/closer.lua/spark/spark-2.4.3/spark-2.4.3-bin-hadoop2.7.tgz2、解压到安装目录-自定义目录,配置环境变量3、安装java和scala;4、运行安装目录下的spark-shell:这个入口是scala;5、安装idea;6、配置idea开发环境:...

2019-06-10 19:05:59 151

翻译 Hadoop MapReduce工作流程(无Yarn模式)

https://blog.csdn.net/Athenaer/article/details/82039901、整体流程整体流程如下:1、运行mapred程序;2、本次运行将生成一个Job,于是JobClient向JobTracker申请一个JobID以标识这个Job;3、JobClient将Job所需要的资源提交到HDFS中一个以JobID命名的目录中。这些资源包括JAR包、配置...

2019-04-27 15:58:45 403

原创 hadoop本地安装

1、获取hadoop版本包,解压到本地目录(和java安装在一个盘符)2、下载window下的bin目录文件:https://github.com/steveloughran/winutils解压后将bin目录下的文件,覆盖hadoop安装目录的bin目录;3、配置hadoop文件(同在linux环境下配置相似,可参考>https://blog.csdn.net/u010108512/...

2019-04-25 22:07:30 670

原创 idea构建可执行jar包

1、设置Artifactsfiles->Project Structure->Artifacts选中Artifacts,后点“+”号,在弹出的下拉框选JAR,后选Empty;如果需要构建可执行的jar,在添加Empty Artifacts时:点击红色选中按钮,这样会生成Manifest文件,后续配置jar包的主类,不需要在调用jar包是指定主类。点击后生成:填写主类的...

2019-04-23 14:56:46 2771

原创 虚拟机搭建的CenOS配置网络

本文编写的原因:采用的VMware搭建的centos7虚拟机网络配置,重启网络时发现一只找不到对应的网卡,原因是初始配置网络时里没有ifcfg-eth0只有 ifcfg-ens33(没有Eth0网卡),最初时拷贝的ens33文件直接配置的,但是没有对应的网卡,所以重启网络失败。在CentOS 5的时候,我们习惯了eth0 这样的网络设备命名,在CentOS 6下,发现网络设备变成了em1 这样...

2019-04-20 14:03:48 140

翻译 Pytorch基础-第三课

1、pytorch nn实现逻辑回归逻辑回归原理:https://blog.csdn.net/u010108512/article/details/88957864import torchfrom torch import nnfrom torch.autograd import Variable # 导入Variable函数进行自动求导,有了Variable PyTorch才能实...

2019-04-10 21:24:36 93

原创 Pytorch基础-第二课

1、采用numpy实现梯度下降import numpy as npx_data = np.array([1,2,3])#训练数据y_data = np.array([2,8,6])#训练数据lr = 0.1 #学习率w = 0 #初始权重cost = [] #每次迭代的损失for i in range(10): y_predict = x_data * w los...

2019-04-08 21:18:29 127

翻译 Pytorch基础-第一课

本文大量参考了:https://www.jianshu.com/p/51d8b353b4351 PyTorch简介PyTorch是Torch7团队开发的。Torch是一个开源科学计算框架,可以追溯到2002年纽约大学的项目。Torch的核心在于在构建深度神经网络及其优化和训练,为图像,语音,视频处理以及大规模机器学习问题提供快速高效的计算方案。为了追求更高的速度,灵活性和可扩展性,Tor...

2019-04-06 23:15:23 178

翻译 基础算法梳理:3-决策树梳理

1、信息论基础;2、决策树原理及应用场景;3、决策树防止过拟合手段;4、sklearn参数详解;1、信息论基础

2019-04-03 16:26:45 439

翻译 基础算法梳理:2-逻辑回归梳理

1、逻辑回归与线性回归的联系与区别2、 逻辑回归的原理3、逻辑回归损失函数推导及优化4、 正则化与模型评估指标5、逻辑回归的优缺点6、样本不均衡问题解决办法7. sklearn参数1 标题线性回归与逻辑回归的区别与联系1)线性回归要求变量服从正态分布,logistic回归对变量分布没有要求。2)线性回归要求因变量是连续性数值变量,而logistic回归要求因变量是分类型变量。...

2019-04-01 21:30:40 379

翻译 基础算法梳理:1-线性回归梳理

监督学习:监督学习主要有分类和回归两种,给定的训练样本都是有标记的,通过有标记的训练样本得到一个最优模型。通过这个最优的模型,我们可以对没有标记的数据进行分类、预测等。无监督学习相对于监督学习,给定的数据都是没有标记的,通过算法得到数据间的相似性、关联性来判断数据是否属于一个类别,主要的无监督学习为聚类算法。...

2019-03-30 17:25:48 344

testA.csv,天池金融风控测试集数据集

天池比赛,由datawhale主办的金融风控数据集,可下载供学习参考使用,测试集部分,训练集部分已经上传至平台可下载

2020-09-16

train.csv,金融风控数据集

天池金融风控数据集,提供下载功能,可以下载看看,适合初学学习使用,目前上传的是训练集,最新版的,。。。。。

2020-09-16

Hadoop本地调试NativeIO

hadoop 本地调试代码,暂时还未调试完成,等待本地调试成功

2019-04-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除