自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

原创 MapReduce--词频统计

  复制一段:a,v,s,adg,gw,q3,fga,a,a,eg,ea,v,s,adg,gw,q3,fga,a,a,eg,ea,v,s,adg,gw,q3,fga,a,a,eg,ea,v,s,adg,gw,q3,fga,a,a,eg,ea,v,s,adg,gw,q3,fga,a,a,eg,ea,v,s,adg,gw,q3,fga,a,a,eg,ea,v,s,adg,gw...

2018-11-11 10:30:54 532

转载 MapReduce——词频统计

 使用hadoop2.7.41,首先准备数据,在网上随便抄了一段文章有一天,一个外来的僧人要到对面村庄去,临行前村民反复叮嘱他说:路途中如若看到路标被风刮倒或被掩埋,要重新树立起来,以免后面的人迷失方向。僧人刚上路时,牢牢记着村民嘱咐,丝毫不敢马虎,只要看到有路牌倒地或有歪斜就马上扶好,深怕不牢固有时还用脚踹踹四周的沙土。但当走了一段路后,僧人就揣摩着距离目的地不会太...

2018-11-09 19:00:15 1467

转载 hive启动失败报错

实测命令可以解决:hive --skiphbasecp --service hiveserver2   转发 环境说明hadoop-2.7.4hive-2.3.2hbase-1.4.2jdk1.8.0_161问题现象原先启动hiveserver2和metastore的两个服务一直运行状况良好,重启这个两个服务后都出现如下异常信息启动命令示例:h...

2018-11-09 17:03:41 1959

原创 hbase 安装配置

第一步:官网查找匹配zookeeper的hbase安装包,下载安装包,我是用的是hbase-1.2.6.1解压到合适位置,我的路径是/opt/modules/ tar -zxf hbase-0.94.6.tar.gz /opt/modules/ 第二步:配置相关的文件(1)配置hbase-env.sh,该文件在/opt/modules/hbase-1.2.6.1/...

2018-08-28 14:37:32 170

原创 ZooKeeper-3.4.13集群管理系统部署

1,下载,          解压缩到 /opt/modules          (路径根据自己的来)2,配置    在conf/zoo_sample.cfg中,把zoo_sample.cfg复制为 -> zoo.cfg    在文件中配置 data 目录:(输入自己的目录,建立data目录)    dataDir=/opt/modules/zookeeper-3.4.13...

2018-08-23 14:05:50 823

原创 搭建Hadoop

大数据环境搭建虚拟机仿真,与物理机设置完全相同一:系统准备1,在虚拟机中最小安装CENT OS7系统 视自己电脑内存大小而定: 虚拟机内存设置1G~2G CPU 1~4核心 硬盘20G~60Gyum install nano : 查看是否安装nano(测试是否有网络)2,设置虚拟机网络 查看虚拟机网络设置,记录网段和网关 禁用IPV6     编辑 /etc/default/grub 在第6行添加...

2018-07-15 16:28:51 192

原创 数据清洗 处理 概述

import pandas as pd                                                       import matplotlib.pyplot as plt                                           df = pd.read_csv("student.csv")#读取student.csv文件     ...

2018-07-05 20:57:53 486

原创 破解idea,了解numpy

Window如何向虚拟机中拷贝文件1. 安装vmtools后可直接共享内存,这样就可以直接粘贴2. 通过xftp一类工具共享文件 编辑文件:viGendit 承载数据 item请求对象 request响应对象 response 引擎   engine蜘蛛   spider管道   pipeline中间件 middleware调度器 scheduler 破解idea(18版):通过网址获得http:...

2018-07-05 13:44:23 737

原创 Scrapy框架

Python:      Tuple  list  set  dict  range  str 分片 [::] 推导      函数: def 函数名称(参数):                 实现函数体      参数种类:               必须参数               默认参数               关键参数               可变参数:tuple  *a...

2018-06-24 12:49:50 162

原创 初窥Scrapy

ScrapyPython开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。 Scrapy运行流程1 引擎访问spider,询问需要处理的URL链接,spider收到请求,将需要处理的URL告诉引擎,然后将URL给引擎处理。...

2018-06-20 13:08:58 238

原创 Python3 XML解析

python有3种方法解析XML:SAX,DOM以及ElemenTree1、SAX(simple API for XML)python标准库包含SAX解析器,SAX用事件驱动模型,通过在解析XML的过程中触发事件并调用用户定义的回调函数来处理XML文件2.DOM(Document Object Model)将XML数据在内存中解析成一个树,通过对树的操作来操作XML。 movies.xml:&lt...

2018-06-18 16:33:49 1201

原创 python3-闭包

闭包&LEGB法则所谓闭包,就是将组成函数的语句和这些语句的执行环境打包在一起时,得到的对象00001. 闭包最重要的使用价值在于:封存函数执行的上下文环境;闭包在其捕捉的执行环境(def语句块所在上下文)中,也遵循LEGB规则逐层查找,直至找到符合要求的变量,或者抛出异常。  运行结果:  def line_conf(a, b):    def line(x):        retur...

2018-06-10 13:20:57 543

原创 第六节 迭代器与生成器

迭代器迭代是Python最强大的功能之一,是访问集合元素的一种方式。迭代器是一个可以记住遍历的位置的对象。迭代器对象从集合的第一个元素开始访问,直到所有的元素被访问完结束。迭代器只能往前不会后退。迭代器有两个基本的方法:iter() 和 next()。 字符串,列表或元组对象都可用于创建迭代器:字符串,列表或元组==>(iterable object)可迭代对象迭代器是一个可以记住遍历的位置...

2018-06-06 15:57:44 155

原创 第五节 继承

       print(sys.getrefcount(s)):测试一个对象有几个引用,需要导入import sys模板        构造方法包括创建对象和初始化对象,在python当中,分为两步执行:先执行__new__方法,然后执行__init__方法;__init__是当实例对象创建完成后被调用的,然后设置对象属性的一些初始值。__new__是在实例创建之前被调用的,因为它的任务就是创建...

2018-06-01 16:01:43 172

原创 python3类和对象

 类的定义和实例化python定义简单类如下。class Car(object):    passc1=Car()   我们定义了一个Car类,其中什么方法也没有实现。C1是我们实力化的类Car,成为了一个对象 可变参数(列表,字典,set),不可变参数(string,number,元组)全局变量(声明在函数外,如果在函数内使用则需要global),局部变量(声明在函数内)可变类型的对象为全局变量...

2018-05-30 17:03:33 301

原创 第三节

Python3 元组Python 的元组与列表类似,不同之处在于元组的元素不能修改。元组使用小括号,列表使用方括号。元组创建很简单,只需要在括号中添加元素,并使用逗号隔开即可。 元组中只包含一个元素时,需要在元素后面添加逗号,否则括号会被当作运算符使用:>>> tup1 = (50)>>> type(tup1)     # 不加逗号,类型为整型<class...

2018-05-25 10:39:36 173

原创 第二节

1.mystr:len(mystr) :字符长度  Mystr.count(“s”):返回有几个字符  Var.count(i):字符串有几个 capitalize(): mystr.capitalize()将字符串的第一个字符转换为大写 Rfind():从右面开始找Find():如果找不到,index()产生异常,find()返回-1Replace(“11”,”22”): 替换字符Startsw...

2018-05-23 16:02:56 349

原创 python第一节

.变量:无需关键字,不需要声明   n=10 2.python是一种强类型语言:每个变量都是一个引用 3.print()换行,不换行:print(,end="") 4.#注释   ’’’ 多行注释  ’’’ 5.数据类型:int,float,bool,complex(真正的值还是1,0,可以进行数字运算),复数   赋值运算:     a=b=c=1,     a,b,c=1,2,"runoob"...

2018-05-19 14:20:57 277

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除