6 成鹏

尚未进行身份认证

关注数据分析

等级
TA的排名 14w+

推荐一个学习SQL的好网站

如果英语可以的话,可以通过这个网站学习SQL,有例子,有实操。http://sqlzoo.net/wiki/SQL_Tutorial

2015-09-06 18:40:42

怎样辨别渠道作弊—数据分析篇

节前写了一篇文章,通过统计指标分析渠道投放的效果(点击链接查看),今天想说下怎样辨别渠道作弊,分析渠道的效果,还有反作弊手段。欢迎拍砖。有的运营人员做渠道投放,每个渠道都投放了,点击量特别高,但激活量只有个位数。也有可能点击激活数量都很高,但是留存率很低。费用都花光了,但是效果没有出来。自己做数据分析,但是却得不到结论。我们做数据分析的前提是需要拿到靠谱的数据。如果数据不准确,基于

2015-08-29 22:25:50

Pandas数据探索与实践

Pandas数据探索与实践介绍只要我们要用Python来做数据分析,就避免不了用到Pandas。Python有很多用于数据清洗和数据准备的库,但是很少有数据分析和数据建模的库。Pandas的出现,使得我们能在Python中解决大多数数据分析的问题,而不用切换到一些特殊语言如R中,这样就减少了我们许多的工作量。内容Pandas下载与基本教程Pandas数据探索的基本流程用Pandas对Titan

2015-08-27 22:51:13

如何评估模型好坏

介绍“所有模型都是坏的,但有些模型是有用的”。我们建立模型之后,接下来就要去评估模型,确定这个模型是否‘有用’。当你费尽全力去建立完模型后,你会发现仅仅就是一些单个的数值或单个的曲线去告诉你你的模型到底是否能够派上用场。在实际情况中,我们会用不同的度量去评估我们的模型,而度量的选择,完全取决于模型的类型和模型以后要做的事。下面我们就会学习到一些用于评价模型的常用度量和图表以及它们各自的使用场景。内容

2015-08-26 10:23:02

PYTHON数据可视化

介绍由于经常需要用Python进行数据数据分析,但经常碰到这样的情况:想做一个图,看看数据的趋势,但是以前记住的代码,在许久没有用后,一下载突然忘了如何去写。这篇cheatsheet是从Analytic Vidhya中找到的,打算自己好好熟悉一遍,然后作为以后的参考。内容为什么数据可视化非常重要?数据可视化python库的介绍cheatsheet用于可视化的数据导入数据直方图箱形图风琴

2015-08-20 13:28:18

常见的七种回归技术

介绍根据受欢迎程度,线性回归和逻辑回归经常是我们做预测模型时,且第一个学习的算法。但是如果认为回归就两个算法,就大错特错了。事实上我们有许多类型的回归方法可以去建模。每一个算法都有其重要性和特殊性。内容什么是回归分析?我们为什么要使用回归分析?回归有哪些类型 ? 线性回归逻辑回归多项式回归逐步回归岭回归Lasso回归ElasticNet回归如何去选择回归模型?什么是回归分析

2015-08-19 11:50:09

机器学习scikit-learn(一)

机器学习scikit-learn在数据分析过程中,我们经常会碰到各种各样的问题。如何获取外部数据?如何处理脏数据?如何处理缺失值?若有许多特征,我们减少特征?建立各种模型中算法的细节?到最后,面对多种模型,我们该如何选择?这些问题,都将在此文中得到解答。此文分为五个部分:建立模型的之前的工作 建立线性模型聚类分析分类建立模型之后的工作 建立模型前的工作如何从外界获取数据?获取外界数据

2015-08-15 14:38:16

数据分析的理论与实践

学习重在与理论在实践中的运用,数据分析更为如此。而我们所知的数据分析包括很多的理论知识,简单的有统计学中的参数与非参,复杂的有机器学习中的神经网络和支持向量机。在学习的过程中我们不可能在一开始就把这些理论全部弄清楚,需要理论与实践反反复复的去磨,才能把这些融汇贯通。比如说学习一些统计学理论,我们从刚开始的数据分类开始学,一章一章的学到多元线性回归,这算基础统计学的理论学习完成了。但是我们真的会

2015-07-08 11:00:40

数据探索和数据准备的步骤

数据探索和数据准备的步骤前言如我们所知,数据分析工作的70%的时间都用作于数据清洗,数据探索和数据准备当中,这可以说是数据分析的核心所在。数据清洗主要是工具层面上的,这里先不讨论。我们这里讨论数据探索和数据准备的六大步骤。 变量的识别单变量的分析双变量的分析处理缺失值处理异常值特征提取(Feature Engineering)变量的识别在对数据分析之前,我们需要去识别变量,去了解变量

2015-07-04 11:21:26

各种相似度计算的python实现

各种相似度计算的python实现(一)前言在数据挖掘中有很多地方要计算相似度,比如聚类分析和协同过滤。计算相似度的有许多方法,其中有欧几里德距离、曼哈顿距离、Jaccard系数和皮尔逊相关度等等。我们这里把一些常用的相似度计算方法,用python进行实现以下。如果是初学者,我认为把公式先写下来,然后再写代码去实现比较好。欧几里德距离几个数据集之间的相似度一般是基于每对对象间的距离计算。最常用的当然是

2015-07-04 10:54:22

Python学习笔记(1)

Python教程笔记Python简介优点:应用范围广、优雅、明确、简单 缺点:运行速度慢、代码不能加密安装Python对于完全没写过程序的人来说,安装Python也是一个技术活。我安装的是Windows 2.7版,有一段时间我发现我根本不会打开Python,直到后来我才明白可以从“开始”键 + R ——输入cmd——输入Python打开Python。Python解释器

2015-04-26 16:18:20
勋章 我的勋章
    暂无奖章