自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 资源 (12)
  • 收藏
  • 关注

原创 SMOTE原理及实现

Smote算法原理: python2.7 算法实现: 原算法只能针对N采样率小于100%或者N为100%整数的参数进行采样。我实现的代码可对任意N>0的采样率从进行SMOTE。详情见源码#!/usr/bin/env python2# -*- coding: utf-8 -*-from sklearn.neighbors import NearestNeighborsimport

2018-01-29 22:05:50 5626

转载 凸优化

定义:抛开凸优化的种种理论和算法不谈,纯粹的看优化模型,凸优化需满足一下三个条件: 1.在最小化(最大化)的要求下 2.目标函数是一个凸函数(凹函数) 3.约束条件所形成的可行域集合是一个凸集。凸优化问题为什么这么重要: 此处问题解答引自知乎:https://www.zhihu.com/question/246415751、有相当一部分问题是或等价于凸优化问题。有许多问题都可以直接建立成

2017-12-07 15:06:41 2536

原创 互联网金融业申请评分卡

评分卡模型由以下几类: 反欺诈评分卡、申请评分卡,行为评分卡、催收评分卡申请评分卡是指针对一个新用户申请信用卡或者初次借款时的评分卡模型。 特性: 稳定性:当总体逾期/违约概率不变时,分数的分布也应不变。 区分行:违约人群与正常人群的分数应当有显著差异 预测能力:低分人群的违约率更高。 和预期概率等价:评分可以精确反映违约/逾期概率,反之亦然。 思考: 商户评分模型?新的商户或者个

2017-12-06 22:21:14 1499

原创 《Python 金融大数据分析》记录

本文记录一些该书中出现的知识,方便需要使用的时候查询。隐含波动率隐含波动率是在其他条件下不变的情况下,输入公式不同期权行权价格和到期日测得的市场报价的那些波动率值。 这种情况下隐含波动率不是模型/公式的输入参数,而是对该公式进行某项数字化优化过程的结果4.1 基础数据结构: Python 整数可以为任意大,解释程序简单地使用所需位/字节表现数值。 a = 10000 a.bit_le

2017-12-05 21:00:48 2986

原创 Bagging 的python实现

#!/usr/bin/env python2# -*- coding: utf-8 -*-"""Created on 2017-08-28 @author: panda_zjd"""import numpy as npimport pandas as pdfrom collections import defaultdict import randomfrom sklearn.mo

2017-09-03 17:03:41 12645 14

原创 Python 踩坑记录

工作中遇到类似下面逻辑判断i = 1while i!= 1.5: i = i+0.1 print i在想象中i应该停止在1.5就不输出了,但是实际的输出结果是无限循环。这是因为在计算机的逻辑中,浮点数的存储规则决定了不是所有的浮点数都能准确表示,有些是不准确的,只是无限接近。如0.1转换为二进制表示形式为0.0001100110011.....后面1001无限循环。在内存中根据浮

2017-08-29 15:54:05 381

原创 Python 惰性计算

惰性计算(Lazy evaluation),是指仅仅在真正需要执行的时候才计算表达式的值。充分利用其特性可以带来很多便利。避免不必要的计算,带来性能的提升。 对于Python中的条件表达式 if x and y,在x为false的情况下y表达式的值将不再计算。而对于if x or y,当x的值为true的时候将直接返回,不再计算y的值。因此编程中可以利用该特性,在 and逻辑中,将小概率发生的条

2017-08-28 17:17:00 6591

转载 Python 开发实用的库

Python 重新 import 模块——reload() 转载自:http://blog.chinaunix.net/uid-7448695-id-2626493.html 写 Python 程序的时候,一边写模块一边调试。调试是在 python 自身的命令行终端进行的,效果还不错。当然有一个问题:模块 import 之后,调试过程中发现 bug,当然就想卸载或重新加载。不过没有找到类似 u

2017-07-12 10:50:14 280

转载 Mysql 控制台命令介绍

(一) 连接MySQL: 格式: mysql -h主机地址 -u用户名 -p用户密码 1、例1:连接到本机上的MYSQL 首先在打开DOS窗口,然后进入mysql安装目录下的bin目录下,例如: D:/mysql/bin,再键入命令mysql -uroot -p,回车后提示你输密码,如果刚安装好MYSQL,超级用户root是没有密码的,故直接回车即可进入到MYSQL中了,MYSQL的提示符是:

2017-06-19 16:49:54 474

原创 优化sql语句的策略

本文是对近期sql学习的整理感悟。 1.对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引。 2.应尽量避免在 where 子句中使用!=或<>操作符,否则将引擎放弃使用索引而进行全表扫描。 3.应尽量避免在 where 子句中对字段进行 null 值判断,否则将导致引擎放弃使用索引而进行全表扫描,如: select id f

2017-06-18 22:03:10 257

原创 某互联网风控部门算法实习生面试

面试从投递简历到最终面试持续了近40天,也许是跟美团有缘吧…. 春招的时候,我并没有投递美团的职位,4月末的某一天,我看到某招聘网站上有风控部门的社招信息,咨询了下有无算法实习生岗位,于是与该公司开始了持续一个多月的面试…..一面(电话面):投递简历后的一周内,该公司员工与我进行了电话面试,面试内容很发散,主要围绕项目进行询问,问了一些写过文章里的核心内容,问了一些推荐系统的内容并与面试官

2017-05-25 09:24:15 4360 1

转载 机器学习的前世今生:一部气势恢宏的人工智能发展史

本文转载自:http://www.iheima.com/zixun/2016/0911/158681.shtml?utm_source=tuicool&utm_medium=referral机器学习的发展是整个人工智能发展史上颇为重要的一个分支。其中故事一波三折,令人惊讶叹服,颇为荡气回肠。基础奠定的热烈时期20世纪50年代初到60年代中叶Hebb于1949年基于神经心理学的学习机制开启机器学习的第

2017-05-22 18:33:00 765

转载 Xgboost在Python库中的参数介绍 及其调参过程

本文介绍Xgboost在Python库中参数及其调参经验

2017-05-22 10:59:22 1993

转载 代价敏感学习

代价敏感的学习方法是机器学习领域中的一种新方法,它主要考虑在分类中,当不同的分类错误会导致不同的惩罚力度时如何训练分类器。例如在医疗中,“将病人误诊为健康人的代价”与“将健康人误诊为病人的代价”不同;在金融信用卡盗用检测中,“将盗用误认为正常使用的代价”与将“正常使用误认为盗用的代价”也不同。通常,不同的代价被表示成为一个N×N的矩阵Cost中,其中N 是类别的个数。Cost[i, j]表示将一个i

2017-05-17 13:23:30 20917

原创 sklearn GridSearchCV

前言:记录常用工具,方便以后使用时可以随时查看,也希望能够帮到寻找这方面资料的人们。sklearn中函数定义:sklearn.model_selection.GridSearchCV(estimator, param_grid, scoring=None, fit_params=None, n_jobs=1, iid=True, refit=True, cv=None, verbose=0, pr

2017-05-16 12:55:35 1131

原创 交叉验证(Cross Validation)

Sklearn库中关于交叉验证的资料 http://scikit-learn.org/stable/modules/cross_validation.html交叉验证(Cross Validation)主要是用来验证分类器性能的一种统计分析方法,其基本思想: 将原始数据进行分组,一部分为训练集,另一部分为验证集,首先用训练集对分类器进行训练,再利用验证集来测试得到的模型,以此来作为评价分类器的

2017-05-15 13:49:55 2159

原创 异常值检测算法

闲话:最近总是特别嗜睡,不知为何床对我的引力总是让我死死的赖在上面,大概是懒癌又犯了....要改。异常值分析是检验数据是否有录入错误以及含有不合常理的数据的过程,忽视异常值的存在是十分危险的,不加剔除地把异常值包括进数据的计算分析过程中,对结果会产生不良影响,重视异常值的出现,分析其产生的原因,常常成为发现问题进而改进决策的契机。常用的异常值检测方法主要有: 1. 简单统计量分析:先对变量做一个

2017-05-13 14:50:17 46093 2

原创 5月新浪微博算法实习面经

前言:运气也是实力的一部分,非洲来的我如何才能搭载上去往欧洲的飞机.....面试分了两轮,时间长达2个多小时。 一面:面试官看过我的简历后,告知我简历内容偏少,我所做项目没有和他们部分匹配的项目,希望我能够尽可能的描述自己的能力,看能不能匹配上面试官所在部分(微博搜索部)….尴尬…..一面主要还是问项目,让我描述简历中提到的两个机器学习项目,并详细讨论了项目中所用的模型和方法(RF,GBDT,时

2017-05-12 16:41:48 2697

原创 GBDT和Xgboost模型对比总结

一.GBDT有哪些参数,如何确定树的深度,学习率怎样确定。 答:本题答案引自http://www.07net01.com/2016/12/1742073.html 在sk-learn中,GradientBoostingClassifier为GBDT的分类类,GradientBoostingRegressor为GBDT的回归类,两者的参数类型相同,我们把参数分为两类,第一类是Boosting

2017-05-10 19:55:10 9630 2

原创 Python 排序算法小结

排序就是整理数据的序列,使其中元素按照特定的顺序排列的操作。排序可以使数据的存储方式更具有结构性。排序算法是算法的入门知识,每种算法都有其使用的场合,死记硬背很难记忆,理清算法的本质更有助于我们记忆。 对于每种排序方法,我们需要明白,每个算法的思想是什么?算法的稳定性如何,时间复杂度是多少,在什么情况下,算法出现最好(最坏)情况以及每种算法的具体实现。插入排序:顾名思义其基本操作是插入,不

2017-05-09 10:42:12 670

原创 2017年5月百度机器学习实习面经

2017年5月百度机器学习实习面经 古人云:不积跬步无以至千里,不积小流无以成江海。谨以此文为开端,记录我的学习过程。面试持续1个小时,大致过程如下: 首先自我介绍,然后聊聊自己的项目,感觉百度统招的面试官更加关注细节,他们会询问项目的细节,面试官会问很多特征选择、数据清洗的细节,也会问为什么要选择你使用的模型,模型的参数是如何设定的,如果用其他的模型的话效果有什么不同之类的问题。举个小例

2017-05-08 13:40:45 2217

考研狙击手高分备考资料

考研狙击手高分备考资料 考研的战友们拿去

2016-03-01

人工神经网络导论 蒋宗礼编

人工神经网络导论 蒋宗礼编 pdf 想要学习的同学拿去

2016-03-01

模式识别(张学工)

模式识别(张学工)教材 想要的同学拿去学习

2016-03-01

theano tutorial release0.7

theano tutorial release0.7的pdf 适合想要学习的初学者

2016-03-01

快速傅立叶 FFT

快速傅立叶 FFT c++ 含插值函数 适合初学者

2016-03-01

图像 快速沃尔什变换 c++

图像 快速沃尔什变换 c++ 适合初学者学习

2016-03-01

libsvm-3.21

libsvm-3.21 c++的开源类库

2016-03-01

Tentative NumPy Tutorial

Tentative NumPy Tutorial 适合初学者学习Python Tentative NumPy Tutorial

2016-03-01

三次样条插值函数的类 c++

三次样条插值函数的类 c++ 适合想要学习的初学者下载

2016-03-01

沃尔什哈达玛变换 c++程序

沃尔什哈达玛变换 MFC对话框程序,想要资源的拿去学习把

2016-03-01

python简明教程中文

python简明教程中文 想学习python的初学者可以下载

2016-03-01

DeepLearningTutorial

学习DeepLearningTutorial用的PDF

2016-03-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除