自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

evanzh7的博客

数据挖掘 | java | web

  • 博客(13)
  • 收藏
  • 关注

原创 java项目连接oracle的url三种格式

格式一: Oracle JDBC Thin using an SID:jdbc:oracle:thin:@host:port:SIDExample: jdbc:oracle:thin:@localhost:1521:orcl格式二: Oracle JDBC Thin using a ServiceName:jdbc:oracle:thin:@//host:port/service_nameExample:jdbc:oracle:thin:@//localhost:1521/orcl.city.co

2021-03-10 10:26:01 1551

原创 投资研究——中信建投证券研究报告

中信建投-价格之翼系列研究之零一大宗一波三折,PPI何去何从-20160606中信建投-价格之翼系列研究之零二PPI对CPI的影响,历史考察与传导机制-20160614中信投建-价格之翼系列研究之零三莫听穿林打叶声,何妨吟啸且徐行-当前PPI上行对CPI的影响分析-20160628中信建投-价格之翼系列研究之零四M1增速上涨的原因及其对CPI的影响-160823中信建投-价格之翼系列研究之零五利用高频数据预测CPI食品价格变动-160909中信建投-价格之翼系列研究之零六货币超发为何.

2021-02-18 09:08:30 926

原创 maven解析oracle驱动包失败

报错信息:could not find artifact com.oracle.jdbc:ojdbc6:pom:11.2.0.1.0版本号可能有差异。问题原因:Oracle的ojdbc.jar是收费的,所以maven的中央仓库中没有这个资源,只能通过配置本地库才能加载到项目中去解决方法:安装驱动文件ojdbc6.jar到本地maven仓库mvn install:install-file -DgroupId=com.oracle -DartifactId=ojdbc6 -Dvers..

2021-02-18 08:32:55 1372

原创 风控模型的基础知识

风控模型根据设定的y变量与可获得的x变量不同,大致可以分为三类:即A卡,B卡,C卡。今天就让我们聊聊三者的区别。1、A卡(Application score card)A卡即申请评分模型,此类风控模型的目的在于预测申请时点(申请信用卡、申请贷款)未来一定时间内逾期的概率。Y变量的设定观察点为申请时点,定义为表现期内是否逾期。X变量一般只有客户填写的申请书信息,加上外部查询的数据与征信报告。2、B卡(Behavior score card)B卡即行为评分模型,此类风控模型的目的在于预测使用时点(获得贷

2021-01-12 10:08:33 2680

原创 竞赛-贷款违约预测-05 模型融合

一、目标将之前建模调参的结果进行模型融合,尝试多种融合方案二、内容平均简单平均法加权平均法投票简单投票法加权投票法综合:排序融合log融合stacking:构建多层模型,并利用预测结果再拟合预测。blending:选取部分数据预测训练得到预测结果作为新特征,带入剩下的数据中预测。boosting/bagging(在Task4中已经提及,就不再赘述)...

2020-09-27 22:18:42 126

原创 竞赛-贷款违约预测-03 特征工程(纯理论)

1. 目标1.1 学习特征预处理、缺失值、异常值处理、数据分桶等特征处理方法1.2 学习特征交互、编码、选择的相应方法1.3 完成相应学习打卡任务,两个选做的作业不做强制性要求,供学有余力同学自己探索2. 内容2.1 数据预处理 2.1.1 缺失值的填充 2.1.2 时间格式处理 2.1.3 对象类型特征转换到数值2.2 异常值处理2.2.1基于3segama原则2.2.2 基于箱型图2.3 数据分箱2.3.1 固定宽度分箱2.3.2 分位数分箱 - 离散数值型数据分箱

2020-09-21 23:49:51 2159

原创 竞赛-贷款违约预测-02 探索性数据分析(EDA——Exploratory Data Analysis)

目标:学习如何对数据集整体概况进行分析,包括数据集的基本情况(缺失值,异常值)学习了解变量间的相互关系、变量与预测值之间的存在关系内容:数据总体了解:读取数据集并了解数据集大小,原始特征维度;通过info熟悉数据类型;粗略查看数据集中各特征基本统计量;缺失值和唯一值:查看数据缺失值情况查看唯一值特征情况深入数据-查看数据类型类别型数据数值型数据- 离散数值型数据- 连续数值型数据数据间相关关系特征和特征之间关系特征和目标变量之间关系用pan

2020-09-18 23:54:56 1253

原创 竞赛-贷款违约预测-01 赛题理解

Object: 赛题理解Key Result:理解赛题数据和目标清楚评分体系。理解赛题的解题思路。1. 赛题数据和目标比赛地址:https://tianchi.aliyun.com/competition/entrance/531830/information1.1赛题数据sample_submit.csv两列,id,isDefaultid取值范围:[800000,999999]isDefault取值0.5testA.csv测试数据集20万条数据48列数据:id,

2020-09-15 23:36:00 528

原创 hivevar hiveconf区别

使用场景:hive 传参到sql中命名空间hiveconfhivevar详细描述hive相关配置属性用户自定义变量访问方式${hiveconf:var-name}${hivevar:var-name} ${var-name}例子hive --hivevar a=‘this is a’ -e ‘!echo ${a};’ 输出:this is ahive --hiveconf a=‘this is a’ -e ‘!echo ${hiveconf:a};’ 输出

2020-08-13 10:29:32 851

原创 【算法研究】-05-SVM

SVM: Support Vector Machines 支持向量机。之所以成为“机”,是因为它会产生一个二值决策结果,即它是一种决策机。优点:泛化错误率低,计算开销不大,结果易解释。缺点:对参数调节和核函数的选择敏感,原始分类器不加修改仅适用于处理二类问题。适用数据类型:数值型和标称型数据相关概念:分隔超平面(separating hyperplane):如上图从右向左的斜线将数据集...

2020-05-01 22:38:30 416

原创 【算法研究】-04-条件随机场

文章目录理论部分相关概念马尔可夫过程定义:假设一个随机过程中,tnt_ntn​ 时刻的状态xnx_nxn​的条件发布,只与其前一状态xn−1x_{n-1}xn−1​ 相关,即:则将其称为 马尔可夫过程。隐马尔科夫算法定义:隐马尔科夫算法是对含有未知参数(隐状态)的马尔可夫链进行建模的生成模型,如下图所示:在隐马尔科夫模型中,包含隐状态 和 观察状态,隐状态 xix_...

2020-04-28 23:53:00 93

原创 Oracle数据库初始化简单操作

1. initialize oracle tablespace 初始化oracle数据库表空间create tablespace test datafile 'c:\oracle\test.dbf' size 50M default storage (initial 500K Next 500K minextents 1 maxextents unlimited pct...

2019-09-22 19:48:40 4843

原创 《影响力》读书笔记

文章目录引言第一章 影响力的武器第二章 互惠给予 索取 在索取互惠原理如何起作用互惠原理所向披靡互惠原理适用于强加的恩惠互惠原理可触发不对等交换互惠式让步如何拒绝第三章 承诺和一致言出必行承诺是关键奇妙的行为众目睽睽额外的努力内心的抉择如何拒绝引言研究原因: 自己容易顺从–>对研究顺从性感兴趣–>从事实验社会心理学这一行目的: 是观察容易说服他人的人经常使用且效果最好的技术和策略...

2019-09-22 19:42:48 443

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除