自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(34)
  • 收藏
  • 关注

原创 Hadoop第十一讲-搜索推荐

案例1:(Search Suggestion)在搜索引擎中打入字的时候会提示常用的搜索,并且显示最常搜索的几个推荐给用户。采用virtual box模拟Linux集群,要是有任务时就在虚拟机中运行这些任务。使用eclipse进行Hadoop的开发前面有讲到这里不再叙述。首先建立一个web项目并且导入struts相关jar包,并且添加相应的过滤器到web.xml中。使得该web项目能够运行。

2015-07-06 12:53:54 796

原创 Hadoop第十讲

Hadoop与关系数据库交换数据文本转换方案(转换为CSV,文本等文件)自写Java程序(用JDBC读关系数据库中的数据用Hadoop的API写入)Sqoop(SQL-to-HDFS工具)厂商提供的解决方案Hadoop-0.20.2下使用Sqoop:                  配置文件                 Sqoop命令选项     

2015-07-02 12:36:26 728

原创 hadoop第九讲

Hadoop流:最简单的M-R具体可以参见Hadoop权威指南的第二章,主要是为了非java程序员方便使用。下面使用的是ruby脚本Hive数据仓库工具,可以把Hadoop的原始结构化数据变成Hive中的表。支持一种与SQL几乎完全相同的语言HiveQL,除了不支持更新、索引和事务,几乎SQL的其他特征都支持。可以看成是SQL到Map-Reduce的映射器。提供shell,JD

2015-07-01 18:11:33 658

原创 Hadoop第八讲

Pig Latin子项目致力于降低hadoop的复杂性。Pig可以看做是hadoop的客户端软件,可以连接到hadoop集群进行数据分析工作。Pig方便不熟悉Java的用户,使用一种较为简便的类似SQL的面向数据流的语言pig latin进行数据处理。Pig latin可以进行排序,过滤 ,求和,分组,关联等操作,还可以自定义函数,这是一种面向数据分析处理的轻量级脚本语言.Pig可以看做是

2015-06-30 18:51:49 626

原创 Hadoop第七讲(2)

什么情况下使用hbase?成熟的数据分析主题,查询模式(查询语句固定)已经确立并且不轻易改变;传统关系数据库已经无法承受的负荷,高速插入,大量读取;适合海量,但同时也是简单的 操作(例如key-value)场景1:浏览历史(列出前5个最近浏览的图书)关系数据库的困难:简单的事情只要上了量就会变得无比的复杂。order by 消耗很多性能。大量发生,但又无法分布式 处理。顾客需要

2015-06-30 12:24:12 562

原创 Hadoop第七讲(1)

HBase的安装:单机模式下载安装包,修改conf/hbase.env.sh,设置环境变量。注意hbase需要和hadoop的版本兼容,一般根据hadoop的版本号,然后用baidu、google搜索一下兼容的版本,最后再去下载相应的版本即可。编辑hbase-site.xml进行配置启动hbase,验证Hmaster已经启动进入shellHBase的安装:伪分布模式(需要和HDFS

2015-06-29 12:44:42 448

原创 Hadoop第六讲

Hadoop第六讲

2015-06-26 18:49:08 560

原创 Merkle Tree(HashTree)

Merkle Tree是基于数据HASH构建的一个树,Merkle Tree的叶子节点的value是数据集合的单元数据或者单元数据hash,Merke Tree非叶子节点value是其所有子节点value的HASH值。Merkle tree可以用来进行大数据的比对,可以快速定位(O(logn))到哪一部分数据不一致,在分布式环境下可以减少数据的传输量。对比两个大数据的副本是否一样,可以这样

2015-06-26 17:12:24 2503

原创 Trie Tree(Prefix Tree)

Trie,又称单词查找树或键树,是一种树形结构,是一种哈希树的变种。典型应用是用于统计和排序大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是:最大限度地减少无谓的字符串比较,查询效率比哈希表高。3个基本性质:根节点不包含字符,除了根节点外每一个节点都只包含一个字符;从根节点到某一个节点,路径上经过的字符连接起来,为该节点对应的字符串;每个节点的所

2015-06-19 10:54:26 582

原创 Hadoop第五讲

Hadoop 的API开发步骤需要将hadoop/contrib/hadoop-0.20.2-eclipse-plugin.jar添加到eplipse的安装目录的plugin目录中,然后重启eclipse即可。在重启eclipse之后需要在preference->Hadoop Map/Reduce选项中设置Hadoop的安装目录即可。                           

2015-06-18 12:55:00 819

原创 Hadoop第四讲

MapReduce的编程模型 如何使用MapReduce使用集群处理几百GB的问文件数据? 首先将数据放到HDFS文件系统中(被均分到不同的节点中),然后使用map操作,则每一个数据节点就会对本地的数据进行计算得到(key, value)的值,这样数据就能够被处理。然后通过shuffle操作(先进行排序,然后合并相同的key后形成的结果value用list表示,使用shuffle是为了减少通信连

2015-06-17 13:04:19 718

原创 Hadoop第三讲

集群测试 1. 进行简单的测试 dfs表示是对分布式文件系统进行操作;-put是将当前系统的目录放到Hadoop系统的文件系统的相应目录中。第二条命令中的字符”\”是多余的 2. 运行wordcount程序,测试上面放进分布式文件系统中的文件,即相当于提交MapReduce的作业,是Java程序。 3. 检查程序运行结果 查看结果文件是在part-文件中,为

2015-06-16 18:01:18 671

原创 Hadoop第一讲

haoop思想之源:Googlegoogle搜索引擎、Gmail,安卓,

2015-06-12 13:05:04 583

原创 Hadoop第二讲

参考资料:Hadoop实战等三种运行模式: 1.单机模式:安装简单,仅仅用于调试 2.伪分布式模式:在单个节点上同时启动namenode,datanode、jobtracker、tasktracker、secondary namenode等5个进程,模拟分布式运行的各个节点。 3. 完全分布式模式:正常的Hadoop集群,有多个节点构成。(至少是3个,一个Master,2个Slaves,保证冗

2015-06-12 13:04:21 551

原创 Search 2D Matrix

SearchA2DMatrix * 方法 1: * 对每一行使用二分法查找 * 每一行的时间复杂度为O(logN),将假设是M*N的矩阵,则时间复杂度为O(M*logN)

2015-04-09 10:24:51 444

转载 前Facebook员工揭秘硅谷公司招人“潜规则”

有好多朋友问硅谷公司招工程师的基本流程. 作为应聘者, 我试过Facebook, Google, Yahoo, Oracle, 均拿过offer; 作为面试人员, 面试过不下于300余人, 清楚大概流程, 做此短文, 希望对于希望去硅谷工作的朋友, 或正在准备面试的朋友, 或正在设计招人流程的创业公司有所启发. 经验有限, 如有毗漏, 请指正.    面试机会在硅谷

2014-11-13 19:48:30 5432

转载 程序员的10大成功面试技巧

我遍览群书,发现关于程序员的面试技巧,好的建议其实并不多。我们也发现,很多很有才华的程序员在面试的时候总是掉链子,这大概是因为他们把大多数时间都用来搞技术开发,而忽略了学习面试技巧的重要性。这何尝不是一种悲剧。有效的面试技巧能让你成功得到工作,即使你对那个领域也并不是非常熟悉。1.给自己写一份非常专业的简历我的建议是,如果你想增加自己的入选机会,那最好还是花点钱制作一份专业的简

2014-11-13 19:39:58 507

原创 正则表达式常见例题

常见例题例1:北美地区的电话号    编码方案:电话号码有一个3位数的区号和一位7位数的号码组成(这个7位数有分成  一个3位的局号和一个4位的路号,局号和路号之间使用连字符分隔) 每位电话号码可以是任意数字,但是区号和局号的第一位数字不能是0或1.实际书写号码是往往会把区号写在括号里面,或者将区号使用连字符和后面的局号连接起来。例如:(555)123-1234或555-123-1234,

2014-11-09 15:23:25 10828 6

原创 正则表达式基础知识02

回溯引用:前后一致匹配回溯引用(backreference)在文本匹配和文本替换操作里非常有用。例子1:匹配HTML中任意一级的标题栏中的内容例如:nihao    模式1:.*?  【注意这里使用懒惰型的*】       但是这里模式不是正确的:例如:abcd 显示不是正确的    模式2:.*?   正确回溯引用匹配:模式的后半部分引用在前半部分中定义的子表达式【允许正

2014-11-08 20:20:50 701

原创 正则表达式基础知识01

使用元字符匹配数字:\d[0-9]\D[^0-9]匹配字母数字\w[0-9a-zA-Z_] 注意:包括下划线\W[^0-9a-zA-Z_]匹配空白字符\s任何空白字符[\f\n\r\t\v]

2014-11-08 20:18:19 941 1

原创 第二节 JVM优化应用以及知识总结

在JVM中,如果98%的时间是用于GC且可用的HeapSize不足2%时将会抛出OOM异常;HeapSize最大不要超过可用物理内存的80%,一般-Xms –Xmx设置为相同,-Xmn设置为1/4的-Xmx。若-Xms、-Xmx设置的大小超过物理内存,则会出现:   ”Error occurred during initialization if VM could not reserve

2014-07-20 17:23:05 765

原创 第一节 垃圾收集机制简介以及简单配置

垃圾收集机制(GC)是JVM用于释放那些不再使用的对象所占用内存的程序和算法。GC并没有写入在java语言定制的标准中,因此并不是所有的JVM都有GC。GC的主要目的就是清除不再使用的对象。垃圾回收的两种方法:1.引用计数引用计数表示一个对象被引用的所有次数,当引用计数为0时,则表示该对象没有被引用,可以将其删除。2.对象引用树目前比较常用的垃圾收集机制是对象引用树,即将对像的

2014-07-20 16:59:36 792

原创 第七讲:解析邮件内容

第七讲:解析邮件内容一、JavaMail解析邮件内容的流程二、解析邮件内容2.1 解析普通邮件内容如果Message.getContentType方法返回的MIME类型为"text/*"则表示邮件内容为文本内容,此时直接调用Message.getContent方法把邮件内容保存了一个String对象中输出给浏览器即可。但是现实邮件中会有HTML格式的邮件内容时,邮件发送程序

2014-05-07 21:04:42 8386 1

原创 第六讲:使用Store查看邮件(2)

第六讲:使用Store查看邮件(2)

2014-05-06 20:23:00 3539 2

原创 第六讲:使用Store查看邮件(1)

第六讲:使用Store查看邮件(1)一、邮件接收的体系结构JavaMail API中定义了一个java.mail.Store类,用于执行邮件的接收任务,该类的实例对象封装了某种邮件接收协议的底层实施细节,应用程序调用这个类的方法就可以获得用户邮箱中的各个邮件夹的信息。JavaMail中的使用Folder对象表示邮件夹,通过Folder对象的方法应用程序进而又可以获得该邮件夹中的所有

2014-05-06 18:56:22 5242 2

原创 第五讲:JAF架构及其在JavaMail中的应用

第五讲:JAF架构及其在JavaMail中的应用

2014-04-26 17:14:22 1187

原创 第四讲:使用Transport类发送邮件(2)

第四讲:使用Transport类发送邮件(2)

2014-04-26 13:49:32 14153

原创 第四讲:使用Transport类发送邮件(1)

第四讲:使用Transport类发送邮件

2014-04-26 11:47:14 9433 1

原创 第三讲:JavaMail中Session类

第三讲:JavaMail中Session类

2014-04-26 10:32:17 9274 1

原创 第二讲:使用JavaMail表示MIME消息(2)

第二讲:使用JavaMail表示MIME消息(2)       在第二讲的第一部分主要讲解了MIME在JavaMail中如何表示以及使用MimeMessage进行创建纯文本和HTML类邮件的讲解。下面将会讲解如何使用MimeBodyPart和MimeMultipart等类创建含有组合消息、附件等较复杂的邮件。一、MimeBodyPart类      javax.mail

2014-04-25 19:35:49 3680

原创 第二讲:使用JavaMail表示MIME消息(1)

第二讲:使用JavaMail表示MIME消息

2014-04-25 17:35:40 4025

原创 MIME邮件组织结构

MIME邮件组织结构一、MIME出现的原因

2014-04-25 15:24:45 2804

原创 第一讲:JavaMail概述

第一讲:JavaMail概述

2014-04-25 15:13:11 1180

原创 常用邮件协议及其命令行使用

SMTP协议(Simple Mail Tranfer Protocol)定义邮件客户端(UA, User Agent)与SMTP服务器之间,以及两台SMTP服务器之间的通信规则。POP3协议(Post Office Protocol)邮局协议,定义了客户端软件与POP3服务器的通信规则。IMAP协议(Internet Message Access Protocol)In

2014-04-25 11:09:38 3430

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除