自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

小数据研究院

知乎专栏「小数据研究院」:https://zhuanlan.zhihu.com/datapool

  • 博客(49)
  • 资源 (1)
  • 收藏
  • 关注

原创 从shell命令行推送数据到远程MySQL数据库

由于工作需要,今天捣鼓了半天把本地的数据推送到远程MySQL数据库,放一个清新版的命令,如下:mysql -h{服务器地址}-p{端口}-u{用户名} -p{密码} -e "LOAD DATA LOCAL INFILE '{服务器上的文件路径}' INTO TABLE {库名}.{表名} character set utf8mb4 FIELDS TERMINATED BY ',';"把{}里面的信息填写正确,在shell运行即可~...

2022-03-22 23:39:39 484

原创 【项目经验总结】贷前评分卡建模全流程指南

由于前几个月参与了一家股份制银行的信贷风控项目,其中我负责了贷前评分卡建模相关工作,最近刚完成模型交付,在此总结记录一下,从数据诊断到样本提取,再到模型构建的全流程工作内容。本文主要侧重实地驻场建模时,遇到的问题和需要关注的点,对一些技术上的原理不作赘述,主要按以下顺序记录:一. 数据诊断二. 数据提取三. 数据预处理四. 变量分箱五. 变量筛选六. 模型建立及评估七. 评分卡构建及生成一. 数据诊断此处的「数据诊断」,是指针对行方数据库中那些对我们之后建模.

2021-03-28 20:14:36 1264

原创 评分卡建模工具scorecardpy全解读

说到评分卡建模工具,做过评分卡的应该都能想到谢博士的scorecardpy和专为工业界模型开发设计的Python工具包--Toad,两者相比,scorecardpy更加轻量级,且依赖较少,可以满足大多数场景下的评分卡构建。为了使评分卡建模流程更加便捷,该Python包针对建模中各个关键步骤都提供了现成的函数,如下: 数据集划分 (split_df) 变量筛选(iv, var_filter) 变量分箱(woebin, woebin_plot, woebin_adj, woebin

2021-03-05 12:09:23 5310 2

原创 大鱼风控笔记 3:量化风控政策的关注点

首先明确“政策”和“策略”的区别,“政策”的scope更大一些,一般来说比较稳定,而“策略”可能会每隔几个月进行调整。从作用上区分,“政策”决定了“能不能做”以及“能做到什么程度”,而“策略”则来指导在“政策”范围内“如何做”。1)量化风控政策的设定逻辑在一个具体的信贷场景中,“政策”是最早被确定下来的内容。由于风险控制是针对产品的操作,所以在开发一个新的信贷产品时,需要首先确定产品的scope,也就是由具体的“政策”来圈定这个产品的范围到底是什么。在设定风控政策时,主要要考虑风控埋点和产品属性

2021-02-23 16:58:00 582

原创 大鱼风控笔记 2:量化风控体系的实现要求

”数字化转型“被宣扬很多年了,但革命尚未成功,如今很多银行正处在数字化转型的档口,只有头部的大行在数字化转型的道路上走在前面。大行体量大,有自己的科技团队,有的甚至成立了自己旗下的金科公司,凭借地理优势,近几年吸引了很多人才,同时有各咨询公司助力,天时地利人和,智能营销、智能风控搞得火热。招商银行、平安银行,近几年前后启动零售战略转型,不断推进线上业务,很快成为了银行业的零售业务“领头羊”。先富带动后富,有了先驱的成功经验,一些城商行也紧跟其后,开始铆劲儿推动将部分线下业务向线上逐步转型。基于之

2020-12-16 01:11:05 842 1

原创 大鱼风控笔记 1:量化风控体系的风险板块

关于风控市场上比较关注的几种风险类型,可以参照「巴塞尔协议」。「巴塞尔协议III」主要涉及以下几种风险类型:信用风险:信用风险是指由于信用活动中存在的不确定性而导致银行遭受损失的可能性,确切地说,是所有因客户违约而引起的风险。 市场风险:市场风险通常是由金融资产的价格变化而产生的,市场风险一般又可分为利率风险、汇率风险等。 流动性风险:狭义的流动性风险是指商业银行没有足够的现金来弥补客户存款的提取而产生的支付风险;广义的流动性风险除了包含狭义的内容外,还包括商业银行的资金来源不足而未能满足客户合理的

2020-11-12 13:47:15 1182 1

原创 百度OCR接口使用详细教程

如何把图片、PDF文件中的文字进行识别提取,这个问题仿佛困扰了我们很多年,直到现在,当急需OCR功能时也没有一个快速、高效且免费的在线工具或软件能马上拿来用。前阵子的工作中正好有这个需求,我要把一篇PDF格式论文中的表格内容提取出来,供数据可视化使用。这些表格包含少量文字和大量数字,说多不多,说少也不少,人工提取数字出错率比较高。这时候!我又想找个“在线OCR工具”了!一些号称在线快速OCR的网页,广告横飞且速度慢,上传文件后无反应,大都是标题党骗点击赚广告费的…… 个别看起来比较正经的OCR软件,

2020-10-21 18:36:12 23516 4

原创 盘一盘2020年上半年的微博热搜词条(文末提供获取热搜词条方法)

6月10日晚上,我正在冲浪,突然收到一条推送:于是热搜停在了6月10日下午15点整:杨幂、彭昱畅、明道或成最大赢家,(可能)花一天的钱买了七倍的量。于是在热搜恢复之前,我去挖了一下历史热搜词条,没有新瓜吃的日子,就回味一下微博曾经喂我们吃过的瓜吧…我收集了2020年1月1日- 6月10日中午和晚上两个时间点的热搜词条,也就是 161*2**50=16100个热搜词条,以及当时的热搜指数。本年度最热词条来自谁?今年最火爆的一条是「罗志祥周扬青分手」,发生在4月23日上午,.

2020-06-13 16:20:51 17100 7

原创 Flask+Axios+jQuery构建前后端通信的小例子

比较暴力但好理解的方法,下面详细说一下。工具准备Flaskpip install flaskAxioshttps://cdnjs.cloudflare.com/ajax/libs/axios/0.19.2/axios.min.js数据下面的例子用动物森友会中鱼类的价格、活动季节、图片等数据作为测试数据,通过关键词进行查询并做前端展示,数据来源:https://raw.githubusercontent.com/chendaniely/animal_crossin.

2020-05-10 13:00:19 404

原创 AttributeError: 'Request' object has no attribute 'is_xhr' 报错的解决办法

在用 Flask+VUE 做前后端分离的数据可视化项目时,遇到了这个报错:AttributeError: 'Request' object has no attribute 'is_xhr'是 Werkzeug 的版本问题,只需在命令行执行: pip install Werkzeug==0.16.1 ⬇️ 扫描下方二维码关注公众号【数据池塘】 ⬇️回复【算法】,获取最全面的...

2020-04-22 09:58:39 6975 3

原创 韩国新冠病例突破7000人,韩疾控中心公开数据解析

新冠肺炎在韩国一触即发,虽有不良组织屡屡做出违反抗疫秩序的事,但韩国官方始终很尽责,做出的决策都很关键果决,没有上演电影《流感》的剧情。前几日,韩国疾病预防控制中心(KCDC)在官网(http://www.cdc.go.kr)公开了全部确诊病例的相关信息,目前在 Github 和 Kaggle 上都同步了这些数据,都有人在维护和更新。最近在 Kaggle 的公开数据集中始终保持前三的热度。...

2020-03-08 11:39:45 942

原创 异常检测算法分类及经典模型概览

最近工作涉及有关异常检测的内容,而且前几天在公司做了一次有关异常检测算法和应用场景的分享,在此总结记录一下。​什么是异常检测?异常检测(Anomaly Detection 或 Outlier Detection)指的是通过数据挖掘手段识别数据中的“异常点”,常见的应用场景包括:金融领域:从金融数据中识别”欺诈案例“,如识别信用卡申请欺诈、虚假信贷等;网络安全:从流量数据中找出”入...

2020-02-23 13:12:09 4591 1

原创 数据工作者的福音:Google 发布正式版数据搜索工具啦!

作为数据工程师,平时在工作中一定少不了到处搜找测试数据,常用的网站包括:Kaggle、Freebase、Data.gov等等,有时候要挨个网站搜索关键字和主题,然后下载了又发现数据集可能并不适用,非常浪费时间。好消息是,上个月 Google 推出了正式版的数据搜索工具 ——Dataset Search:覆盖了 2500w 个公开数据集,而且用户可以使用过滤器进行搜索条件限定,筛选是...

2020-02-05 23:17:02 282

原创 用 Python 写一个 Kaggle 比赛排行榜的爬虫

长久以来,我和小伙伴们都被 Kaggle 网站的加载速度困扰着,比如最近在用 Kaggle 上的数据集测试模型效果时,遇到排行榜(Leaderboard)刷新困难的问题。于是我们开始探索解决方案。首先尝试直接使用页面链接进行数据爬取,很明显爬不到,因为 Kaggle 的数据是异步响应的。于是我打开 Leaderboard 页面的开发者工具,以著名的Titanic 竞赛的排行榜为例,打开 Ne...

2019-11-23 20:20:24 875

原创 macOS 上使用 lightgbm 遇到的坑及解决方法

lightgbm 包安装成功,但使用时遇到以下错误:OSError: dlopen(/Users/Cyan/anaconda3/lib/python3.7/site-packages/lightgbm/lib_lightgbm.so, 6): Library not loaded: /usr/local/opt/libomp/lib/libomp.dylib Referenced from...

2019-08-27 16:45:22 5011 1

原创 孤立森林(Isolation Forest)算法剖析

之后会持续更新算法剖析系列,力图用最生动的例子演示每一个算法的原理,不稀里糊涂做一个调包侠。欢迎持续关注,指正不足。孤立森林(Isolation Forest)算法是西瓜书作者周志华老师的团队研究开发的算法,一般用于结构化数据的异常检测。异常的定义针对于不同类型的异常,要用不同的算法来进行检测,而孤立森林算法主要针对的是连续型结构化数据中的异常点。使用孤立森林的前提是,将异常点定义...

2019-07-25 23:28:52 16489 6

原创 用 dash_bootstrap_components 为 dash 生成美观的导航栏

先安装 pip 包:pip install dash-bootstrap-components把 bootstrap 的 sheetstyle 加入你的 app 中:app = dash.Dash(__name__, external_stylesheets=[dbc.themes.BOOTSTRAP])生成 navbar:import dash_bootstrap_co...

2019-07-17 10:00:27 5098 1

原创 Python Plotly Dash 画多折线图

import plotly.plotly as pyimport plotly.graph_objs as go# Create random data with numpyimport numpy as npN = 500random_x = np.linspace(0, 1, N)random_y = np.random.randn(N)# Create a trace...

2019-07-07 17:39:26 6040 2

原创 Plotly Dash 画多个子图

import plotly.plotly as pyimport plotly.graph_objs as gotrace1 = go.Scatter( x=[1, 2, 3], y=[4, 5, 6])trace2 = go.Scatter( x=[20, 30, 40], y=[50, 60, 70], xaxis='x2', yax...

2019-07-05 09:39:47 6017 2

原创 ImportError: cannot import name 'Graph' from 'pyecharts' 解决办法

最近 pyecharts 包的结构进行了调整,Graph 模块已经不在根目录导致 ImportError,引入语句改成如下即可:from pyecharts.charts.basic_charts.graph import Graph欢迎关注我的知乎专栏【数据池塘】,专注于分享机器学习、数据挖掘相关内容:https://zhuanlan.zhihu.com/datapool...

2019-06-21 15:05:27 7830

原创 我的 Hive 为什么跑不起来/跑得慢?看看是不是少了这几行代码?

《饮食男女》开头说:“人生不能像做菜,把所有的料都准备好了才下锅。”但做大数据挖掘不一样,MapReduce 不同于人生,一定要把准备工作做好了,才能顺利运行后面的步骤。如果你的 HiveQL 代码没毛病,却一运行就出现 Fail 提示,可以看看,是不是少了下面哪项准备工作?指定队列set mapred.job.queue.name=queue01; //自己指定一个队列在 H...

2018-11-30 22:26:54 4772 1

原创 Java面试常问基础知识(持续更新)

欢迎关注我的知乎专栏【数据池塘】,专注于分享机器学习,数据挖掘相关内容:HTTPS://zhuanlan.zhihu.com/datapool本文中的知识都是我自己或同学在面试过程中常被问到的,在此整理记录一下比较好的答案。1,简述JVM的内存模式。JVM内存空间包含:方法区,爪哇的堆,爪哇的栈,本地方法栈,程序计数器。区方法的英文各个线程共享的内存区域,用于它存储已被虚拟机加载的...

2018-08-04 20:27:58 336

原创 用 Python 检验数据正态分布的几种方法

什么是正态分布关于什么是正态分布,早在中学时老师就讲过了。通俗来讲,就是当我们把数据绘制成频率直方图,所构成曲线的波峰位于中间,两边对称,并且随着往两侧延伸逐渐呈下降趋势,这样的曲线就可以说是符合数学上的正态分布。由于任何特征的频率总和都为100%或1,所以该曲线和横轴之间部分的面积也为100%或1,这是正态分布的几何意义。如下图,是数据统计实例中出现的正态分布性数据:为什么要做正...

2018-07-27 14:02:14 35857 7

原创 训练及优化神经网络基本流程之第0到6步

在之前的笔记中,我记录过《神经网络的代价函数及反向传播算法》,以及使用BP算法(反向传播算法)的一点细节。这篇笔记想简短地总结记录一下训练并优化神经网络的几个步骤:第零步:之所以写了个第零步,是想记录一下如何搭建神经网络,毕竟要先有网络才能谈后续的训练和优化。关于构建问题之前也有过记录:《神经网络的模型构建》。输入层的单元个数取决于特征个数,也就是;输出层的单元个数取决于训练集中结果的...

2018-07-19 20:19:17 5893

原创 【LintCode】算法题 1443. 最长AB子串

描述给你一个只由字母'A'和'B'组成的字符串s,找一个最长的子串,要求这个子串里面'A'和'B'的数目相等,输出该子串的长度。这个子串可以为空。 s的长度n满足2<=n<=1000000。样例给定s="ABAAABBBA",返回8。解释:子串 s[0,7] 和子串 s[1,8] 满足条件,长度为 8。给定s="AAA...

2018-06-21 19:41:10 1442

原创 基于 XGBoost 对 Santander 银行用户购买行为进行预测

Santander Product Recommendation是我去年做的一个数据挖掘project,简单来说就是,给了一定量的数据,用合适的算法对这些数据进行建模分析,给出预测,从而挖掘出有价值的信息。这也是目前互联网金融公司重点关注的工作内容之一,由于最近在准备面试,回顾之前做过的项目,想重点总结一下这个项目。项目简介Santander 银行成立于西班牙,也称作西班牙国际银行,是...

2018-06-11 12:08:31 4858 4

原创 NLP 带你分析 —— 扎克伯格在听证会上说了什么?

蹭一下这几天扎克伯格因为 Facebook 信息泄漏事件,坐上美国参议院委员会听证会的热度,我们用 NLP 手段来分析一下听证会上的对话内容,看看扎克伯格到底说了什么?我是在 Jupyter 里进行分析的,需要的包有:import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport nltk.cor...

2018-06-11 12:04:26 737

原创 BP神经网络算法:将参数矩阵向量化

上一篇《机器学习:神经网络的代价函数及反向传播算法》记录了如何使用反向传播算法计算代价函数的导数,其中一个细节就是需要把参数的矩阵表达式展开成向量的形式,以便在后来使用高级的优化算法。Ng 老师在讲展开参数(Unrolling Parameters)这部分时,比较粗略。自己补了一下视频里提到的内容,在这里总结记录一下~基于 Matlab 实现 unrolling parameters,有...

2018-04-16 02:57:45 2079

原创 机器学习:神经网络的代价函数及反向传播算法

在《机器学习:神经网络的模型构建》中,我记录了神经网络的一些基础知识,包括神经网络的逻辑单元、模型表示、前向传播等等。这篇笔记中,我会整理神经网络的代价函数以及反向传播算法~那么如何在给定的训练集下,来为神经网络拟合参数呢?和之前学习的大多数算法一样,要从代价函数开始讨论起了。神经网络在分类中的应用神经网络可以应用在两种分类问题中:二分类问题和多分类问题。在二分类问题中,y 等于 0 或 1,神经...

2018-04-15 03:43:57 1919

原创 Kaggle 数据清洗挑战 Day 5 - 处理不一致数据

今天是 Kaggle 数据清洗挑战的第五天,转眼最后一天啦!这次任务是处理拼写不一致的数据,例如“康涅狄格州”可能被记录为 “Connecticut”、“Coon.” 或 “Conecticutt”,这些实际代表是同一个值,而机器会将他们识别为不同的对象。今天用一个简单的方法来整理这些拼写不一致的数据,具体包括三个部分:Get our environment set up Do some p...

2018-04-14 03:12:00 1005

原创 Kaggle 数据清洗挑战 Day 4 - 字符编码(Character Encoding)处理

今天是 Kaggle 数据清洗挑战的第四天,任务是对字符进行编码处理~分为四个部分来学习:Get our environment set up What are encodings? Reading in files with encoding problems Saving your files with UTF-8 encoding1、搭建环境首先还是引入需要的 lib 包...

2018-04-14 03:10:30 532

原创 Kaggle 数据清洗挑战 Day 3 - 快速解析日期(date)数据

今天是 Kaggle 数据清洗挑战的第三天,任务是解析 date 型数据。相信我们都遇到过此类情况,拿到的数据集中有需要分析的日期数据,但它们的类型是 String,不便作图,也不适合作为一个 factor 帮助我们进行预测。也可能你拿到的是 Timestamp 类型的数据(如:2005-10-30 T 10:45 UTC),而你只需要年份和月份信息。遇到这些情况,我们都可以使用 python 对...

2018-03-30 06:16:20 973

原创 Kaggle 数据清洗挑战 Day 2 - 数据缩放及标准化处理

今天是 Kaggle 数据清洗挑战的第二天,任务是进行数据缩放(scaling)及标准化处理(normalization),分为四个部分:Get our environment set up Scaling vs. Normalization: What's the difference? Practice scaling Practice normalization1、搭建环境第...

2018-03-30 06:15:31 830

原创 Kaggle 数据清洗挑战 Day 1 - 手把手教你五步处理缺失值

前些天报名参加了 Kaggle 的 Data Cleaning 5天挑战,5天的任务如下:Day 1: Handling missing values Day 2: Data scaling and normalization Day 3: Cleaning and parsing dates Day 4: Fixing encoding errors (no more messed u...

2018-03-28 04:35:12 2966

原创 机器学习:神经网络的模型构建

什么是神经网络神经网络是一种模拟人脑工作原理,从而实现类人工智能的机器学习技术,支持处理图像、文本、语音以及序列多种类型的数据,可以实现分类、回归和预测等。简单的神经元:逻辑单元(Logistic Unit)由于神经网络建立在很多个神经元的基础上,其中每一个神经元都是一个学习模型,这些神经元叫做激活单元(Activation Unit)。以逻辑回归模型为例,采纳一些特征作为输入,给出逻辑输出,如下...

2018-03-28 04:34:18 3638

原创 机器学习:用正规方程法求解线性回归

求解线性回归最常用的两个方法是:梯度下降法和最小二乘法,之前在文章《机器学习:用梯度下降法实现线性回归》中介绍了梯度下降法的工作流程等,这篇文章着重介绍最小二乘法的使用。由于最小二乘法是基于正规方程的,所以也被称为正规方程法。什么是最小二乘法最小二乘法是一种数学优化技术,它通过最小化误差的平方和寻找数据的最佳函数匹配。方法的选择那么在求解线性回归时,对于这两种方法该如何选择呢?先看一下这两种方法的...

2018-03-25 01:38:04 2522

原创 机器学习:分类(Classification)算法

在目前的机器学习工作中,最常见的三种任务就是:回归分析分类分析聚类分析这篇文章的重点是分类(Classification)在机器学习领域中的应用。什么是「分类」虽然我们人类都不喜欢被分类,被贴标签,但数据研究的基础正是给数据“贴标签”进行分类。类别分得越精准,我们得到的结果就越有价值。分类是一个有监督的学习过程,目标数据库中有哪些类别是已知的,分类过程需要做的就是把每一条记录归到对应的类别之中。由...

2018-03-17 09:54:00 15901

原创 机器学习:用梯度下降法实现线性回归

之前在 机器学习算法数学基础之 —— 线性代数篇 中,总结过求解线性回归的两种方法:最小二乘法梯度下降法这篇文章重点总结一下梯度下降法中的一些细节和需要注意的地方。梯度下降法是什么假设有一个估计函数:  ,其代价函数(cost function)为: 这个代价函数是 x(i) 的估计值与真实值 y(i) 的差的平方和,前面乘上 1/2,是因为在求导的时候,这个系数就不见了。梯度下降法的流程:1)首...

2018-02-25 10:01:14 1678

原创 机器学习算法数学基础之 —— 统计与概率论篇(3)

核心问题发现数字的隐藏规律,完成分类。核心技能最大似然估计给定一个概率分布  ,已知其概率密度函数(连续分布)或概率质量函数(离散分布)为 ,以及一个分布参数  ,我们可以从这个分布中抽出一个具有  个值的采样  利用  计算出其似然函数:若  是离散分布,  即是在参数为  时观测到这一采样的概率。若其是连续分布,  则为  联合分布的概率密度函数在观测值处的取值。一旦我们获得  我们就能求得一...

2018-02-22 08:19:06 670

原创 机器学习算法数学基础之 —— 线性代数篇(2)

线性代数核心问题求多元方程组的解。核心技能乘积、内积、秩已知矩阵 A 和矩阵 B,求 A 和 B 的乘积 C=AB。矩阵 A 大小为 mxn,矩阵 B 大小为 nxp。常规方法:矩阵 C 中每一个元素 Cij = A 的第i行 乘以(点乘)B 的第 j 列。设有 n 维向量令  ,称  为向量 x 与 y 的内积。在线代中秩的定义:一个矩阵 A 的列秩是 A 的线性无关的列的极大数目。类似地,行秩...

2018-02-21 13:44:10 2150

RSS订阅器(JAVA)

用JAVA写的RSS订阅器,使用了Spring MVC框架,可在tomcat上运行。

2018-01-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除