5 王大鱼

尚未进行身份认证

文章均首发在知乎专栏「数据池塘」:https://zhuanlan.zhihu.com/datapool,欢迎关注!

等级
TA的排名 8w+

孤立森林(Isolation Forest)算法剖析

之后会持续更新算法剖析系列,力图用最生动的例子演示每一个算法的原理,不稀里糊涂做一个调包侠。欢迎持续关注,指正不足。孤立森林(IsolationForest)算法是西瓜书作者周志华老师的团队研究开发的算法,一般用于结构化数据的异常检测。异常的定义针对于不同类型的异常,要用不同的算法来进行检测,而孤立森林算法主要针对的是连续型结构化数据中的异常点。使用孤立森林的前提是,将异常点定义...

2019-07-25 23:28:52

用 dash_bootstrap_components 为 dash 生成美观的导航栏

先安装pip包:pipinstalldash-bootstrap-components把bootstrap的sheetstyle加入你的app中:app=dash.Dash(__name__,external_stylesheets=[dbc.themes.BOOTSTRAP])生成navbar:importdash_bootstrap_co...

2019-07-17 10:00:27

Python Plotly Dash 画多折线图

importplotly.plotlyaspyimportplotly.graph_objsasgo#CreaterandomdatawithnumpyimportnumpyasnpN=500random_x=np.linspace(0,1,N)random_y=np.random.randn(N)#Createatrace...

2019-07-07 17:39:26

Plotly Dash 画多个子图

importplotly.plotlyaspyimportplotly.graph_objsasgotrace1=go.Scatter(x=[1,2,3],y=[4,5,6])trace2=go.Scatter(x=[20,30,40],y=[50,60,70],xaxis='x2',yax...

2019-07-05 09:39:47

ImportError: cannot import name 'Graph' from 'pyecharts' 解决办法

最近pyecharts包的结构进行了调整,Graph模块已经不在根目录导致ImportError,引入语句改成如下即可:frompyecharts.charts.basic_charts.graphimportGraph欢迎关注我的知乎专栏【数据池塘】,专注于分享机器学习、数据挖掘相关内容:https://zhuanlan.zhihu.com/datapool...

2019-06-21 15:05:27

【数据池塘】

欢迎关注我的知乎专栏【数据池塘】,专注于分享机器学习、数据挖掘相关内容:https://zhuanlan.zhihu.com/datapool

2018-11-30 22:29:07

我的 Hive 为什么跑不起来/跑得慢?看看是不是少了这几行代码?

《饮食男女》开头说:“人生不能像做菜,把所有的料都准备好了才下锅。”但做大数据挖掘不一样,MapReduce不同于人生,一定要把准备工作做好了,才能顺利运行后面的步骤。如果你的HiveQL代码没毛病,却一运行就出现Fail提示,可以看看,是不是少了下面哪项准备工作?指定队列setmapred.job.queue.name=queue01;//自己指定一个队列在H...

2018-11-30 22:26:54

Java面试常问基础知识(持续更新)

欢迎关注我的知乎专栏【数据池塘】,专注于分享机器学习,数据挖掘相关内容:HTTPS://zhuanlan.zhihu.com/datapool本文中的知识都是我自己或同学在面试过程中常被问到的,在此整理记录一下比较好的答案。1,简述JVM的内存模式。JVM内存空间包含:方法区,爪哇的堆,爪哇的栈,本地方法栈,程序计数器。区方法的英文各个线程共享的内存区域,用于它存储已被虚拟机加载的...

2018-08-04 20:27:58

用 Python 检验数据正态分布的几种方法

什么是正态分布关于什么是正态分布,早在中学时老师就讲过了。通俗来讲,就是当我们把数据绘制成频率直方图,所构成曲线的波峰位于中间,两边对称,并且随着往两侧延伸逐渐呈下降趋势,这样的曲线就可以说是符合数学上的正态分布。由于任何特征的频率总和都为100%或1,所以该曲线和横轴之间部分的面积也为100%或1,这是正态分布的几何意义。如下图,是数据统计实例中出现的正态分布性数据:为什么要做正...

2018-07-27 14:02:14

训练及优化神经网络基本流程之第0到6步

在之前的笔记中,我记录过《神经网络的代价函数及反向传播算法》,以及使用BP算法(反向传播算法)的一点细节。这篇笔记想简短地总结记录一下训练并优化神经网络的几个步骤:第零步:之所以写了个第零步,是想记录一下如何搭建神经网络,毕竟要先有网络才能谈后续的训练和优化。关于构建问题之前也有过记录:《神经网络的模型构建》。输入层的单元个数取决于特征个数,也就是  ;输出层的单元个数取决于训练集中结果的...

2018-07-19 20:19:17

【LintCode】算法题 1443. 最长AB子串

描述给你一个只由字母'A'和'B'组成的字符串s,找一个最长的子串,要求这个子串里面'A'和'B'的数目相等,输出该子串的长度。这个子串可以为空。s的长度n满足 2<=n<=1000000。样例给定s="ABAAABBBA",返回8。解释:子串s[0,7]和子串s[1,8]满足条件,长度为8。给定s="AAAAAA",返回0。解释:s中除了空字串,不存在'A'和...

2018-06-21 19:41:10

基于 XGBoost 对 Santander 银行用户购买行为进行预测

SantanderProductRecommendation 是我去年做的一个数据挖掘 project,简单来说就是,给了一定量的数据,用合适的算法对这些数据进行建模分析,给出预测,从而挖掘出有价值的信息。这也是目前互联网金融公司重点关注的工作内容之一,由于最近在准备面试,回顾之前做过的项目,想重点总结一下这个项目。项目简介Santander银行成立于西班牙,也称作西班牙国际银行,是西班牙最...

2018-06-11 12:08:31

NLP 带你分析 —— 扎克伯格在听证会上说了什么?

蹭一下这几天扎克伯格因为Facebook信息泄漏事件,坐上美国参议院委员会听证会的热度,我们用NLP手段来分析一下听证会上的对话内容,看看扎克伯格到底说了什么?我是在Jupyter里进行分析的,需要的包有:importpandasaspdimportnumpyasnpimportmatplotlib.pyplotaspltimportnltk.corpusa...

2018-06-11 12:04:26

BP神经网络算法:将参数矩阵向量化

上一篇《机器学习:神经网络的代价函数及反向传播算法》记录了如何使用反向传播算法计算代价函数的导数,其中一个细节就是需要把参数的矩阵表达式展开成向量的形式,以便在后来使用高级的优化算法。Ng老师在讲展开参数(UnrollingParameters)这部分时,比较粗略。自己补了一下视频里提到的内容,在这里总结记录一下~基于Matlab实现unrollingparameters,有以下步骤:...

2018-04-16 02:57:45

机器学习:神经网络的代价函数及反向传播算法

在《机器学习:神经网络的模型构建》中,我记录了神经网络的一些基础知识,包括神经网络的逻辑单元、模型表示、前向传播等等。这篇笔记中,我会整理神经网络的代价函数以及反向传播算法~那么如何在给定的训练集下,来为神经网络拟合参数呢?和之前学习的大多数算法一样,要从代价函数开始讨论起了。神经网络在分类中的应用神经网络可以应用在两种分类问题中:二分类问题和多分类问题。在二分类问题中,y等于0或1,神经...

2018-04-15 03:43:57

Kaggle 数据清洗挑战 Day 5 - 处理不一致数据

今天是Kaggle数据清洗挑战的第五天,转眼最后一天啦!这次任务是处理拼写不一致的数据,例如“康涅狄格州”可能被记录为“Connecticut”、“Coon.”或“Conecticutt”,这些实际代表是同一个值,而机器会将他们识别为不同的对象。今天用一个简单的方法来整理这些拼写不一致的数据,具体包括三个部分:GetourenvironmentsetupDosomepreli...

2018-04-14 03:12:00

Kaggle 数据清洗挑战 Day 4 - 字符编码(Character Encoding)处理

今天是Kaggle数据清洗挑战的第四天,任务是对字符进行编码处理~分为四个部分来学习:GetourenvironmentsetupWhatareencodings?ReadinginfileswithencodingproblemsSavingyourfileswithUTF-8encoding1、搭建环境首先还是引入需要的lib包:#moduleswe...

2018-04-14 03:10:30

Kaggle 数据清洗挑战 Day 3 - 快速解析日期(date)数据

今天是Kaggle数据清洗挑战的第三天,任务是解析date型数据。相信我们都遇到过此类情况,拿到的数据集中有需要分析的日期数据,但它们的类型是String,不便作图,也不适合作为一个factor帮助我们进行预测。也可能你拿到的是Timestamp类型的数据(如:2005-10-30T10:45UTC),而你只需要年份和月份信息。遇到这些情况,我们都可以使用python对...

2018-03-30 06:16:20

Kaggle 数据清洗挑战 Day 2 - 数据缩放及标准化处理

今天是Kaggle数据清洗挑战的第二天,任务是进行数据缩放(scaling)及标准化处理(normalization),分为四个部分:GetourenvironmentsetupScalingvs.Normalization:What'sthedifference?PracticescalingPracticenormalization1、搭建环境第一步依然是引入我们需要...

2018-03-30 06:15:31

Kaggle 数据清洗挑战 Day 1 - 手把手教你五步处理缺失值

前些天报名参加了Kaggle的DataCleaning5天挑战,5天的任务如下:Day1:HandlingmissingvaluesDay2:DatascalingandnormalizationDay3:CleaningandparsingdatesDay4:Fixingencodingerrors(nomoremesseduptextf...

2018-03-28 04:35:12

查看更多

勋章 我的勋章
  • GitHub
    GitHub
    绑定GitHub第三方账户获取
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!