6 David&Tea

尚未进行身份认证

暂无相关描述

等级
博文 47
排名 2w+

Scrapy简介

Scrapy框架Scrapy,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫等,最新版本又提供了web2.0爬虫的支持。整

2017-10-08 21:29:10

Word2Vector

Word2vec词向量的概念将word映射到一个新的空间中,并以多维的连续实数向量进行表示叫做“WordRepresention”或“WordEmbedding”。自从21世纪以来,人们逐渐从原始的词向量稀疏表示法过渡到现在的低维空间中的密集表示。用稀疏表示法在解决实际问题时经常会遇到维数灾难,并且语义信息无法表示,无法揭示word之间的潜在联系。而采用低维空间表示法,不但解决了

2017-10-08 18:28:32

IntelliJ IDEA 运行Hadoop2.7.0 wordcount 实例

IntelliJIDEA运行Hadoop2.7.0wordcount实例背景      Hadoop2.7.0在虚拟机上安装完成,core-site.xml中配置的fs.defaultFS端口为9000。1新建maven项目2配置pom.xml由于我虚拟机中的Hadoop版本为2.7.0,所以这里的maven的Hadoop版本必须对应,不然会出错。具体配

2017-01-18 10:26:59

Hadoop2.7.0安装问题

Hadoop2.7.0安装问题 HDFSWeb页面DataNodes显示问题当安装成功后,各个节点JPS均正常,在HDFS的Web页面的Overview页面显示LiveNodes的个数为3,但是在具体细节的Datanodes页面只有一个,具体如下: 以上情况纯属正常,因为此时datanode里面的数据为空,所有仅显示一个,当你上传文件至HDFS时,即可正

2017-01-17 09:02:30

Hadoop2.7 安装

Hadoop2.7安装参考:http://www.linuxidc.com/Linux/2015-01/112029.html机器准备 192.168.72.130master192.168.72.131slave1192.168.72.132slave2192.168.72.133slave3目录 安装JDK配置host文件

2017-01-16 15:22:15

协同过滤算法

协同过滤算法算法介绍 关于协同过滤的一个最经典的例子就是看电影,有时候不知道哪一部电影是我们喜欢的或者评分比较高的,那么通常的做法就是问问周围的朋友,看看最近有什么好的电影推荐。在问的时候,都习惯于问跟自己口味差不多的朋友,这就是协同过滤的核心思想。   协同过滤是在海量数据中挖掘出小部分与你品味类似的用户,在协同过滤中,这些用户成为邻居,然后根据他们喜欢的东西组织成一个排

2017-01-14 14:14:03

First Head-设计模式:代理模式

代理模式定义 代理模式为另一个对象提供一个替身或占位符以控制对这个对象的访问。 需求 糖果机经理想要查看糖果的运行状态,但是真正的糖果机并不想让经理看到别的实现,所以通过远程代理访问某个方法。 传统设计 判断产看人的权限,然后大量if语句来判断是否访问。 Decorator模式 试用范围 需要控制对象访问权限的时

2017-01-10 16:54:09

First-Head 设计模式:状态模式

状态模式定义 状态模式允许对象在内部状态改变时改变它的行为,对象看起来好像修改了它的类。 需求 糖果机有多个状态,不同状态都有相应的办法,所以需要很多if条件,如果增加一个状态的话就需要改变所有的代码。 传统设计 对每个方法写四个if(如果有四个状态),如果增加一个状态,就在if中增加一个if条件。 Decorator模式

2017-01-08 18:36:48

First-Head:迭代器模式和组合模式

迭代器模式定义 迭代器模式提供一种方法顺序访问一个聚合对象中的各个元素,而又不暴露其内部的表示。 需求 煎饼屋和午餐店要合并,但是煎饼屋采用arraylist实现,午餐店采用数组实现,现在服务员要告诉顾客有哪些食品。 传统设计 两个for循环分别读取arraylist和数组,然后打印。当还有一个比如说咖啡店时,就需要再来一个for循环,太不好了。

2017-01-05 18:55:29

Frist Head-设计模式:模板方法模式

模板方法模式定义 模板方法模式在一个方法中定义一个算法的骨架,而将一些步骤延迟到子类之中。模板方法使得子类可以在不改变算法结构的情况下,重新定义算法中的某些步骤。 需求 实现煮咖啡和煮茶,两者之间的步骤及其相似。 传统设计 将一样的步骤放在父类,不一样的步骤放在子类,然后子类继承。 Decorator模式 试用范围

2016-12-29 20:00:31

First Head-设计模式:适配器模式和外观模式

适配器模式定义 适配器模式将一个类的接口,转换成客户期望的另一个接口。适配器让原本不兼容的类可以无间合作。 需求 客户需要一只鸭子,但是没有鸭子,所以需要用火鸡来冒充。 传统设计 因为火鸡和鸭子是不同的类,所有无法适配。 Decorator模式 试用范围 适用于两个接口不一样是,但是需要冒充的情况下。 外

2016-12-29 17:19:18

First Head-设计模式:命令模式

命令模式定义 命令模式将"请求"封装成对象,以便使用不同的请求,队列或日志来参数化其他对象、命令模式也支持可撤销的操作。 需求 一个遥控器控制不同的多个设备开关,遥控器上有6个设备的所有开关(12个)加上一个撤销上一个操作的按钮,每个设备的开关等是不同的类的不同方法,方法名也不一样,如何实现这个类。 传统设计 12个开关分别绑定不同的设备的开关方法

2016-12-29 16:07:19

Head First-设计模式:单件模式

单件模式定义 单件模式确保一个类只有一个实例,并提供一个全局访问点。 需求 巧克力工厂使用锅炉制造巧克力,锅炉只能有一个实例。 传统设计 使用静态方法来保证一个实例。 Decorator模式 试用范围 当某个类只能有一个实例时。

2016-12-29 14:45:26

数据结构与算法分析:算法设计技巧

算法设计技巧贪婪算法 顾名思义,贪心算法总是作出在当前看来最好的选择。也就是说贪心算法并不从整体最优考虑,它所作出的选择只是在某种意义上的局部最优选择。当然,希望贪心算法得到的最终结果也是整体最优的。虽然贪心算法不能对所有问题都得到整体最优解,但对许多问题它能产生整体最优解。如单源最短路经问题,最小生成树问题等。在一些情况下,即使贪心算法不能得到整体最优解,其最终结果却是最优解的很好

2016-12-27 17:48:23

数据结构与算法分析:图论

图论算法定义 路径:由一个顶点序列使得这样一条路径。 环:路径,路径长为0,为环。 简单路径:不包含环,所有顶点是互异的,但是第一个和最后一个可以是相同的。 圈:满足的路径称为圈,若各该路径是简单路径,则为简单圈。 连通的无向图:无向图中的每个顶点之间都有路径。 强连通的有向图:每个顶点之间都有路径。 有向图的基础图:去掉有向图上的弧所

2016-12-27 14:51:30

Head First-设计模式:工厂模式

工厂方法模式定义 工厂方法模式定义了一个创建对象的接口,但由子类决定要实例化的类是哪一个,工厂方法让类把实例化推迟到子类。 该方法通过子类继承来创建对象。 需求 披萨店有很多家分店,每个分店需要制作不同的风味的披萨,但是他们的制作过程是一样的。 传统设计 对于不同的披萨下载不同的订单中,但是订单中有一些相同的部分,所以需要提取出来,

2016-12-26 15:28:54

Head First-设计模式:装饰者模式

装饰者(Decorator)模式定义 动态地将责任附加到对象上。若要扩展功能,装饰者提供了比继承更加有弹性的替代方案。 需求 咖啡店买饮料,有不同的的基本咖啡,Cappuccino和Latte,然后有各种不同的调料,比如sugar,milk,salt.不同的饮料有不同的价格和描述。  传统设计 定义咖啡类,然后不同调料的不同咖啡继承该类

2016-12-26 15:28:03

Head First-设计模式:观察者模式

观察者模式 定义 定义了一系列对象之间的一对多关系。当一个对象改变新状态,其他依赖者都会受到通知并自动更新。 需求 一个天气信息类,当天气信息发生变化是,会自动运行update()函数,此时,需要及时更新当前信息版,和未来预测版。  传统设计 定义天气信息类,然后直接在update()函数里面做所有的更新操作。   Obs

2016-12-26 15:27:12

Head First-设计模式:策略模式

策略(strategy)模式定义 定义了算法簇,分别封装起来,让他们之间可以相互替换,此模式让算法的变化独立于使用算法的客户。 需求 鸭子类: 不同的鸭子不同外观 不同鸭子有些叫声一样,有些不一样 不同鸭子飞行方式可能不一样 传统设计 定义鸭子超类,其他鸭子继承,并有方法接口,不同鸭子实现接口。

2016-12-26 15:26:16

Head First-设计模式:设计原则和设计评价

设计原则找出应用中可能需要变化的部分,把它们独立起来,不要和那些不需要变化的代码混在一起。 针对接口编程,而不是针对实现编程。 多用组合,少用继承 低耦合高内聚 类应该对扩展开放,对修改关闭 设计评价可复用 可扩充 可维护 低耦合 高内聚

2016-12-26 15:25:35
奖章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!