4 望月怀古

尚未进行身份认证

暂无相关简介

等级
TA的排名 20w+

第10章 家用电器用户行为分析与事件识别

本案例又是一个LM模型的应用。不过比较精彩的部分是时间序列数据的处理操作,进行的数据规约和特征提取部分。书中的代码除了贯序模型中一个错误外,其他并没有发现错误。不过因为本身对于时间序列的操作不是太熟悉,所以基本上就是跟着书中的代码走了一遍。挖掘目标1.1根据热水器采集到的数据,划分一次完整的用水事件。1.2在划分好的一次完整的用水事件中,识别出洗浴事件。分析方法和过程2.1

2017-12-02 16:49:26

第12章 电子商务网站用户行为分析及服务推荐

八十几万条的数据,第一次让我感觉到了小笔记本是多么的不给力。个人想要学习大数据真是从开始就很难啊。磕磕碰碰总算把这一章中的主要代码全都弄出来了。下面就开始。为了避免在中间插入太多代码造成内容本身零落,所以代码请至我的个人博客中中自行下载。背景与挖掘目标推荐系统和搜索引擎的不同在于,推荐系统不需要用户提供明确的要求,而是通过分析用户的历史行为,从而主动想用户推荐能够满足他们兴趣和需求的信息。分析方

2017-11-24 22:45:13

python数据分析与挖掘实战 第九章 拓展练习

这一章的拓展练习感觉是比较简单的。基本上没有太多让人纠结的地方。没有特征提取和数据规约,让事情简单了不少。当然不包括写出C4.5的决策树,我也没有那么写。读取数据,划分训练集和测试集,不用多说。 虽然题目要求的使用决策树,不过我依然使用了SVC做了一次。很巧合的是,同样也是要把train放大,我这里放大了30倍,但好像这不是我测试中效果最好的一次,不过就这一把,有兴趣各位可以再试。结果如下: 这

2017-11-06 16:29:55

第9章 基于水色图像的水质评价

背景与挖掘目标根据数码相机采集的水色照片对水质进行自动评价。我个人对这个评价中的采样过程是有意见的,如果对周围环境不做严格限制,数码相机采样得到的结果本身差异度就很大,用来做样本是不合理的。不过做为练习题,也就只能这样了。分析方法与过程对图像中心区域的抽取可以采用pillow库来完成。我编写了以下代码进行颜色矩的抽取。首先,看一下我从网络上面下载的一张图,由于没有找到水质的图,所以找了一张细菌

2017-10-31 10:11:32

第8章 中医证型关联规则挖掘

数据预处理首先从数据集中读取数据。1-6列分别进行聚类,然后分别存入新的DataFrame中。得到每一列的质心和聚类的个数。会与书中略有不同。3.根据上面聚类的质心,替换表中的数据为类别。我采用的是cut方法。代码如下,不知道有没有更方便的:forrinrange(6):cr=result.iloc[::2,:].ix[r]data_c.ix[:,r]=pd

2017-10-29 22:01:57

python数据分析与挖掘实战 第七章 拓展思考

流失客户分类模型1 数据预处理如果动手做过的人可能面临的第一个问题就是,这数据读进pandas怎么弄编码结果都是错的。如果你存在这样的问题,那么我建议你使用NotePad++载入文件以后,改成无BOM的UTF-8编码,然后就可以正常读取了。数据预处理部分 根据书上的条件,预处理需要分以下几条: 1、老客户:飞行次数大于6次 2、已流失客户:第二年飞行次数’L1Y_Flight_Count

2017-10-24 17:00:28

第7章 航空公司客户价值分析

1 数据挖掘建模的目的借助航空公司客户数据,对客户进行分类。对不同的客户类别进行特征分析,比较不同类客户的客户价值。对不同价值的客户类别提供个性化服务,制定相应的营销策略。2 分析方法与过程2.1 分析方法 识别客户价值应用最广泛的模型是通过3个指标(最近消费时间间隔(Recency)、消费频率(Frequency)和消费金额(Monetary))来进行客户细分,识别出高价值客户,简称R

2017-10-21 10:00:45

python数据分析与挖掘实战 第六章 拓展思考

企业偷漏税识别模型1、数据探索 偷漏税企业分布首先生成dataimport pandas as pdinputfile = r'E:\Download\百度云\图书配套数据、代码\chapter6\拓展思考\tax.xls'data = pd.read_excel(inputfile,index_col=0)通过以下代码获得各类销售模式中异常比率:t = pd.DataFrame(data

2017-10-14 15:13:28

python3.6中xadmin安装问题

1、安装过程中你会发现在git上面提供的是pip install xadmin,而在对应的文档上面提供的是pip install django-xadmin 但是这两者对于python3.6而言,其实都是错误的,你需要使用的是: pip install git+git://github.com/sshwsfc/xadmin.git最后pip会提示安装成功2、但是你实际运行的时候又会发现,还缺少一

2017-10-10 17:01:20

第6章 电力窃漏电用户自动识别

数据挖掘建模目的1.1 归纳出窃漏电用户的关键特征,构建窃漏电用户的识别模型。1.2 利用实时监测数据,调用窃漏电用户识别模型实现实时诊断。分析方法与过程 2.1 数据抽取 从营销系统、自动化设备及往年的窃漏电用户数据抽取数据。(实际上包含了自动抽取和人工标示两种方法)2.2 数据探索 初步分析的过程,可以说是技术选型阶段。而本案例中采用的是分布分析和周期性分析方法。2.2.1 分

2017-09-20 17:00:23

Numpy之random模块

简单的随机数据rand(d0, d1, ..., dn)随机值>>> np.random.rand(3,2)array([[ 0.14022471, 0.96360618], #random [ 0.37601032, 0.25528411], #random [ 0.49313049, 0.9490987

2017-05-07 11:05:41

正则表达式

正则表达式内容

2017-03-10 09:01:36

python_控制台输出带颜色的文字方法

python_控制台输出带颜色的文字方法注:虽然以下内容可用,但有些解释器中会出现莫名奇妙的错误,慎用!色号: 前景色 背景色 颜色 30 40 黑色 31 41 红色 32 42 绿色 33 43 黃色 34 44 蓝色 35 45 紫红色 36 46 青蓝色 37 47 白色显示方式

2017-03-10 08:59:10

欢迎使用CSDN-markdown编辑器

Python字符串Python字符串字符串的方法及注释字符串格式化格式化操作符辅助指令字符串转义字符含义字符串的方法及注释 方法 注释 capitalize() 把字符串的第一个字符改为大写 casefold() 把整个字符串的所有字符改为小写 center(width) 将字符串居中,并使用空格填充至长度 width 的新字符串 count(sub[,st

2017-03-09 11:33:42
勋章 我的勋章
    暂无奖章