苏菲兔子和魔法师小麦-CSDN博客

原创 [python和大数据-1]利用爬虫登录知乎进行BFS搜索抓取用户信息本地mysql分析【PART1】

某某孙逸仙魔法大学计科的python新手撰写，最近被前女友劈腿，我心里几乎是崩溃的，于是找了点时间做了做这个知乎的项目，写一些东西作为笔记。表示楼主在网上看到这个：我从腾讯那“偷了”3000万QQ用户数据,出了份很有趣的独家报告 http://it.taocms.org/07/8326.htm想着自己也完全有能力做一些类似的project，于是楼楼拿出自己封存半年的知乎帐号开始了爬虫之旅。作者

2015-10-31 17:30:26 19953 2

原创 [PYTHON]-用Scrapy爬虫遍历百度贴吧，本地保存文字版【PART 1】

来自某SYSU中山不放假大学，初级新手的python自学之路啊。。。泪目，做一个Scrapy教程方便跟我一样的新人吧，整天百度太累人了！之前用python的requests模块做了爬糗百、贴吧（单帖）、中大教务系统的选课结果查询的小project，其实运用的都是最基本的爬虫，在还是再强调一下requests模块真的比urllib好用多了，真心推荐大家去学习一下，可以节约你背urllib函数的很大功夫

2015-10-24 00:52:05 18562

原创 [python之数据分析] 基础篇1- Numpy，Scipy，Matplotlib 快速入门攻略

本文全部来自我(小麦)的《大数据公选》课程讲义，包括三篇python和Numpy等数据分析包的相关教程，excel和SPSS的数据分析教程等等，作者是小麦以及懿文同学，是原创资料。本来是课程内部资料，现在开源出来，仅供大家学习。如要转载，请联系我，并尊重版权。Python Data Analysis Fundamental TurtorialPython 基本语法和数据结构已在另一篇文章介绍

2016-04-10 12:28:15 3776

转载常见面试之机器学习算法思想简单梳理

作者：tornadomeet 出处：http://www.cnblogs.com/tornadomeet 欢迎转载或分享，但请务必声明文章出处。（新浪微博：tornadomeet,欢迎交流！）前言：　　找工作时（IT行业），除了常见的软件开发以外，机器学习岗位也可以当作是一个选择，不少计算机方向的研究生都会接触这个，如果你的研究方向是机器学习/数据挖掘之类，且又对其非常感兴趣

2016-04-10 00:35:10 1124

转载决策树算法：ID3和C4.5

ID3是Quinlan提出的一个著名的决策树生成方法。一、ID3的基本概念如下：决策树中每一个非叶结点对应着一个非类别属性，树枝代表这个属性的值。一个叶结点代表从树根到叶结点之间的路径对应的记录所属的类别属性值。每一个非叶结点都将与属性中具有最大信息量的非类别属性相关联。采用信息增益来选择能够最好地将样本分类的属性。二、信息增益从信息论知识中我们

2016-04-09 22:35:39 4739

原创 IBM SPSS Modeler 【6】建立决策树

SPSS 数据挖掘方法概述——关联、决策树本实验是基于关联和决策树在数据挖掘中的应用。通过该实验，能够客观实际地理解关联分析和决策树的相关知识。首先进行的是关联分析，之后利用关联分析的数据建立一个决策树。

2016-04-09 05:44:45 24799 2

原创 IBM SPSS Modeler 【5】关联分析

SPSS 数据挖掘方法概述——关联、决策树本实验是基于关联和决策树在数据挖掘中的应用。通过该实验，能够客观实际地理解关联分析和决策树的相关知识。首先进行的是关联分析，之后利用关联分析的数据建立一个决策树。1、关联分析（1）打开并查看数据文件。利用“可变文件”节点将“Demos”下的“BASKETS1n”添加节点中。然后使用“输出”选项卡下的“表”

2016-04-09 05:42:51 28292 2

原创 IBM SPSS Modeler 【4】神经网络模型的测试验证

2、神经网络模型的测试验证（1）在以上步骤的基础上，导入新的样本数据作为测试数据。在同一个流中，利用“可变文件”导入 “Demos”文件夹下的“GOODS2n”数据作为测试数据。（2）同样地，还是利用“输出”下的“表”来查看一下“GOODS2n”里面存的数据，如图 30 所示，这里的数据跟“GOODS1n”几乎一样。为了对“GOODS2n”中

2016-04-09 05:38:56 22583 4

原创 IBM SPSS Modeler 【3】神经网络的生成

利用神经网络模型分析哪些营销策略适合做促销。通过本实验的分析，可以帮助销售部门提出合理有效的促销方案。这个实验主要由两部分组成，生成神经网络模型和测试验证神经网络模型。

2016-04-09 05:35:08 22514 5

原创 IBM SPSS Modeler 【3】 Kohonen聚类分析和直接分析法

在数据挖掘中，聚类分析关注的内容是一些相似的对象按照不同种类的度量构造成的群体。聚类分析的目标就是在相似的基础上对数据进行分类。 IBM SPSS Modeler 提供了多种聚类分析模型，其中主要包括两种聚类分析，K-Mean 聚类分析和 Kohonen 聚类分析，下面对各种聚类分析实验步骤进行详解。

2016-04-09 05:32:48 17090

原创 IBM SPSS Modeler 【2】两步聚类

在数据挖掘中，聚类分析关注的内容是一些相似的对象按照不同种类的度量构造成的群体。聚类分析的目标就是在相似的基础上对数据进行分类。 IBM SPSS Modeler 提供了多种聚类分析模型，其中主要包括两种聚类分析，K-Mean 聚类分析和 Kohonen 聚类分析，下面对各种聚类分析实验步骤进行详解。

2016-04-09 05:29:36 23486 1

原创 IBM SPSS Modeler 【1】 K均值聚类

在数据挖掘中，聚类分析关注的内容是一些相似的对象按照不同种类的度量构造成的群体。聚类分析的目标就是在相似的基础上对数据进行分类。IBM SPSS Modeler 提供了多种聚类分析模型，其中主要包括两种聚类分析，K-Mean 聚类分析和 Kohonen 聚类分析，下面对各种聚类分析实验步骤进行详解。

2016-04-09 05:26:52 21471 3

原创 [python之数据分析] 基础篇1- Numpy，Scipy，Matplotlib 快速入门攻略

小麦今年是咱们大数据课的助教，在老师的要求下，做了python与数据分析、数据挖掘的step-by-step教程。本来是放在教程的群里，供班上的同学们参考的，本着分享开源的原则，放在这里供大家一起学习。注意：本教程只是最最基础的入门，如果要进一步学习请谷歌或者读文档即可！！

2016-04-09 05:09:48 12019 2

原创 [Python极速入门] Python 2.7极速入门讲义

Python, 是一种面向对象、解释型计算机程序设计语言。结构简洁，风格优雅。而且在数据科学领域非常火爆。现，小麦特为有C/C++基础的人，推出5分钟上手PYTHON系列教程，结合其他文章的Numpy等包的使用说明，让使用者快速上手。

2016-04-09 05:01:03 11870

原创【ACM】Spring Outing

比较喜欢hihocoder.com这个oj，上面每周都有竞赛题，算法往往不难，甚至有的其实很基础；但是，它的解题思路妙就妙在，往往看似很难解决的题目，换一个角度去思考，就有非常简单而且非常优美的解答，实在适合当作脑经急转弯呵！比如这次这题：Spring Outing

2016-04-09 04:29:21 14058

转载 python多线程之Queue

Queue模块实现了多生产者多消费者队列, 尤其适合多线程编程.Queue类中实现了所有需要的锁原语(这句话非常重要), Queue模块实现了三种类型队列:

2016-04-09 03:19:23 14947 1

转载支持向量机通俗导论（理解SVM的三层境界）

支持向量机，因其英文名为support vector machine，故一般简称SVM，通俗来讲，它是一种二类分类模型，其基本模型定义为特征空间上的间隔最大的线性分类器，其学习策略便是间隔最大化，最终可转化为一个凸二次规划问题的求解。

2016-04-04 21:10:57 19310

原创苏菲兔子和魔法师小麦

茫茫人海相遇，是我们的缘分。很高兴认识你，我叫小麦，是个励志成为能变出兔子的魔法师。

2016-03-28 22:42:11 16121

原创 [PYTHON]-用Scrapy爬虫遍历百度贴吧，本地保存文字版【PART 2】

这里紧接着上一节的内容讲：上一节在这里：http://blog.csdn.net/xiaomai_sysu/article/details/49372711上次我们定义了item.py\pipelines.py\settings.py，了解了布隆过滤。今天我们定义重头戏：定义蜘蛛我们首先在脑海里回想一下我们的目标：抓取所有的《中山大学吧》帖子标题+内容我们先来到百度贴吧的中山大学主页。我们看到，

2015-10-24 11:11:22 7948

原创 python简单爬取热门文字段子并自动浏览

最近刚学python的爬虫，意外找到转自崔庆才老师的爬虫实战教程，觉得不错。这里是我的学习笔记，更好的教程在：http://python.jobbole.com/81351/ （不知道为什么，在学校登不进崔老师的博客，所以放一份伯乐在线网的转载）实战目标 1.用requests模板抓取糗百热门的段子 2. 过滤所有带图片的段子 3 设定想浏览的页数、设定每隔多少时间刷新下个段子

2015-10-20 22:28:48 9540

苏菲兔子和魔法师小麦

原创 [python和大数据-1]利用爬虫登录知乎进行BFS搜索抓取用户信息本地mysql分析【PART1】

原创 [PYTHON]-用Scrapy爬虫遍历百度贴吧，本地保存文字版【PART 1】

原创 [python之数据分析] 基础篇1- Numpy，Scipy，Matplotlib 快速入门攻略

转载常见面试之机器学习算法思想简单梳理

转载决策树算法：ID3和C4.5

原创 IBM SPSS Modeler 【6】建立决策树

原创 IBM SPSS Modeler 【5】关联分析

原创 IBM SPSS Modeler 【4】神经网络模型的测试验证

原创 IBM SPSS Modeler 【3】神经网络的生成

原创 IBM SPSS Modeler 【3】 Kohonen聚类分析和直接分析法

原创 IBM SPSS Modeler 【2】两步聚类

原创 IBM SPSS Modeler 【1】 K均值聚类

原创 [python之数据分析] 基础篇1- Numpy，Scipy，Matplotlib 快速入门攻略

原创 [Python极速入门] Python 2.7极速入门讲义

原创【ACM】Spring Outing

转载 python多线程之Queue

转载支持向量机通俗导论（理解SVM的三层境界）

原创苏菲兔子和魔法师小麦

原创 [PYTHON]-用Scrapy爬虫遍历百度贴吧，本地保存文字版【PART 2】

原创 python简单爬取热门文字段子并自动浏览

空空如也

空空如也