5 leoe_

尚未进行身份认证

我要认证

暂无相关简介

等级
TA的排名 1w+

Hadoop大数据案例之搜狗五百万数据分析

最近使用了hadoop中的hive、mapreduce以及HBASE对网上的一个搜狗五百万的数进行了一个比较实际的数据分析,适合新手去练习,好处是在接触较大的数据流的时候能碰到平时接触不到的问题,通过这些问题能够对自己有一个较好的提升,为以后接触到实际的大数据项目打一些有效的基础。数据源: 数据说明:搜狗五百万数据,是经过处理后的搜狗搜索引擎生产数据,具有真实性,大数据性,能够较好的满足...

2018-05-22 12:00:05

Hadoop之Hive的安装与配置

环境信息:虚拟机数量:3台操作系统:Ubuntu 14.04实验环境及版本:Hadoop:Hadoop 2.2.0Java:java version "1.7.0_51"Hive:apache-hive-1.2.1MySQL:mysql Ver 14.14 Distrib 5.5.44(x86_64)安装Hive之前首先要确保hadoop集群搭建成功(1)Hive...

2018-05-19 09:19:01

数据结构之链表

表表的简单数组实现:因为在定义表的时候因为表是动态空间所以会估计的大一点,从而浪费了大量的空间。在表的插入和删除的时候需要对表进行大量的遍历,所以一般不采用。表的链表实现:链表由一系列不必在内存中相连的结构组成,每一个结构均含有表元素和指向包含该元素后继元的结构的指针。表头所解决的三个问题:不存在从所给定义出发在表的前面插入元素的真正显性的方法 从表的前面实行删除是以一个...

2018-04-20 16:18:51

Java 对HDFS接口调用

使用HDFS提供的API来对分布式文件系统中的文件进行基本的操作,在linux下是不需要连接的,在windows下连接hdfs有三种方式:Configuration conf = new Configuration();//第一种方式conf.set("fs.defaultFS", "hdfs://10.49.85.152:9000");//第二种设置configuration方式...

2018-03-29 20:06:00

《数据挖掘核心技术揭秘》笔记

原先我对于数据挖掘只停留在了爬虫获取数据,使用工具对数据进行清洗,然后整理汇总出需要的信息的这个层次。看完这本书之后才发现了之前使用爬虫得到数据只能叫做数据获取,真正的数据挖掘远远复杂,在数据挖掘中有着那么多的magic的算法,其中每个单元的知识都需要一本书去好好学习,这里只是简单的介绍下,其中对于上TB数据的处理,在使用了这些算法之后不单单能够得到自己需要的数据因素,还可以做机器学习更深一层的应...

2018-03-26 20:43:24

《自己动手写爬虫》笔记

《自己动手写爬虫》这本书总体介绍了整个网络爬虫由浅入深的知识体系,将爬虫中每个部分分割开来具体的细讲,非常适合新手来入门,由于之前只知道使用爬虫框架,所以一遇到一些错误或者想调整一些爬架内容就无从下手,所以还是将一些基础知识弄明白之后再去使用框架就会得心应手了。书中关于当前的分布式爬虫的内容感觉有点少,感觉随着数据爬取的增大,这部分的使用频率应该会越来越多,还需要多向这个方面了解下。代码的部分占据...

2018-03-26 20:38:42

Hbase java API 的调用例子

1、首先要在项目中导入Hbase依赖的jar包2、修改windows中的 C:\Windows\System32\drivers\etc\hosts10.49.85.152 master10.49.85.182 slaver110.49.85.183 slaver23、Java API import java.io.IOException;impor...

2018-03-15 11:48:55

Hbase分布式搭建之Hbase搭建

在安装之前先介绍下Hbase,Hadoop生态系统中HBase所处位置,实现的功能,解决的问题。HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase是Google Bigtable的开源实现,类似Google Bigtable利用GFS作为其文件存储系统,...

2018-03-15 11:45:40

Hbase分布式搭建之Zookeeper搭建

zookeeper 安装包:https://download.csdn.net/download/leoe_/102922561、解压zooker-3-4-5.tar.gz解压:# tar -zxf zookeeper-3.4.5.tar.gz 更改名字为zookeeper:# mv zookeeper-3.4.5 u-zookeeper2、修改zoo.cfg配置文...

2018-03-15 10:48:44

Hbase分布式搭建之hadoop搭建

一、搭建环境虚拟机数量:3台 操作系统:Ubuntu 14.04 Hadoop:Hadoop 2.2.0 Java:java version “1.7.0_51”需要的安装包: jdk:https://download.csdn.net/download/leoe_/10292237 hadoop 和 zookeeper:https://download.csdn....

2018-03-15 10:36:02

20. Valid Parentheses

Given a string containing just the characters ‘(‘, ‘)’, ‘{‘, ‘}’, ‘[’ and ‘]’, determine if the input string is valid. The brackets must close in the correct order, “()” and “()[]{}” are ...

2018-03-09 21:46:11

387. First Unique Character in a String

Given a string, find the first non-repeating character in it and return it’s index. If it doesn’t exist, return -1.Examples:s = "leetcode"return 0.s = "loveleetcode",return 2.Note:...

2018-03-08 16:40:15

输入一个网址,回车后发生了什么?

本文将更深入的研究当你输入一个网址的时候,后台到底发生了一件件什么样的事~1. 首先嘛,你得在浏览器里输入要网址: 2. 浏览器查找域名的IP地址 导航的第一步是通过访问的域名找出其IP地址。DNS查找过程如下:浏览器缓存 – 浏览器会缓存DNS记录一段时间。有趣的是,操作系统没有告诉浏览器储存DNS记录的时间,这样不同浏览器会储存个自固定的一个时间(2分钟到30分钟不等...

2018-03-07 20:20:53

网页加载慢,你知道几种原因?

记得以前有个培训班的老师过来宣传,他当时问了我们一个问题,“打开一个网页慢,你能说出10个原因么?”,我脑海里立刻就出现了网速慢、电脑卡等原因,但是发现自己能说出的不超过五个,自己还是学web的,GG。今天突然想到了这个问题,就总结下带宽不足,首先想到的就是自己网速的问题,但是一般网速在1M以上的,打开网页一般不会是很慢的。网站服务器的带宽不够的话,当大量用户访问的时候,网页的加载也是很...

2018-03-07 19:55:57

686. Repeated String Match

Given two strings A and B, find the minimum number of times A has to be repeated such that B is a substring of it. If no such solution, return -1. For example, with A = “abcd” and B = “c...

2018-03-06 22:51:54

696.Count Binary Substrings

Give a string s, count the number of non-empty (contiguous) substrings that have the same number of 0’s and 1’s, and all the 0’s and all the 1’s in these substrings are grouped consecutively....

2018-03-06 22:50:25

746.Min Cost Climbing Stairs

On a staircase, the i-th step has some non-negative cost cost[i] assigned (0 indexed). Once you pay the cost, you can either climb one or two steps. You need to find minimum cost to reac...

2018-03-06 22:46:21

628.Maximum Product Of Three Numbers

Given an integer array, find three numbers whose product is maximum and output the maximum product. Note: The length of the given array will be in range [3,104] and all elements are in t...

2018-03-06 22:44:28

169.Majority Element

Given an array of size n, find the majority element. The majority element is the element that appears more than ⌊ n/2 ⌋ times You may assume that the array is non-empty and the majority element alw...

2018-03-06 22:41:25

442.Find All Duplicatesinan Array

Given an array of integers, 1 ≤ a[i] ≤ n (n = size of array), some elements appear twice and others appear once. Find all the elements that appear twice in this array. Could you do it ...

2018-03-06 22:39:19

查看更多

勋章 我的勋章
  • 专栏达人
    专栏达人
    授予成功创建个人博客专栏的用户。专栏中添加五篇以上博文即可点亮!撰写博客专栏浓缩技术精华,专栏达人就是你!
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 分享精英
    分享精英
    成功上传11个资源即可获取