自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(32)
  • 收藏
  • 关注

原创 KAFKA---34

安装kafka版本: kafka_2.11-1.1.0.tgz将kafka解压在opt目录下(opt为hadoop用户下的目录)因为zookeeper.properties注释实在太多,所以我通过grep命令查找到kafka非注释的字符串,并把它追加到 zk.properties中cat zookeeper.properties | grep -v '#'  >> zk.propert...

2018-05-29 11:03:25 178

原创 Flume----33

在具体介绍本文内容之前,先给大家看一下Hadoop业务的整体开发流程:从Hadoop的业务开发流程图中可以看出,在大数据的业务处理过程中,对于数据的采集是十分重要的一步,也是不可避免的一步,从而引出主角—Flume 首先我们介绍Flume(日志收集系统):flume是分布式的日志收集系统,它将各个服务器中的数据收集起来并送到指定的地方去,比如说送到图中的HDFS,简单来说flume就是收集日志的。...

2018-05-28 11:24:12 176

原创 hive-------32

        Hive是基于Hadoop构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop分布式文件系统中的数据,可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行,通过自己的SQL去查询分析需要的内容,这套SQL简称Hive SQL,使不熟悉mapreduce的用户很方便的利用SQL语言查询,...

2018-05-22 11:38:47 322

原创 Hive 分区--------31

访问hive的另外一种方法:进入到apache-hve-2.3.2-bin.tar/bin目录下复制一个ssh通道,在输入    ./beeline -u jdbc:hive2://HIVE与mysql的关系 hive常用命令整理 hive与hdfs整合过程Hive是一个基于hadoop的数据仓库平台。通过hive,我们可以方便地进行ETL的工作。hive定义了一个类似于SQL的查询语言:HQL,...

2018-05-21 11:41:22 774

原创 Linux 装MySQL 和hive------30

在官网里下载mysql在将mysql传过来:在xshell里解压这个文件:查看当前版本安装信息:如果找不到命令,就修改这个文件:将这个里面的5.7和8.0的enabled选项改为1和0(1为开启 0为关闭,如果多个版本为1 ,选择其中最高版本安装):查看那个版本可以使用:...

2018-05-15 14:37:32 268

原创 DataFrame------29

理论:SparkSQL:*SPARK中原生的RDD是没有数据结构的(主要部件:SPARK CORE[是spark的核心;rdd是spark core的核心];Spark SQL;Spark Streaming;MLlib;GraphX)[spark的最底层大部分基于HDFS的,Shark中的数据信息等也是对应HDFS的文件]*对RDD的变换和操作不能采用传统的SQL方法*SparkSQL应运而生并...

2018-05-12 11:19:39 695

原创 Linux---hadoop方法-----28

spark:是一个主要用作数据分析的模块(数据以RDD为主),其中多了有向无环图,能计算最优路径。mapReduce (MR)必须编程完成后才能统一提交执行;只能使用java语言编程RDD:容错性分布数据,SPARK CORE:是spark生态圈的核心,它的任务就是对这些数据进行分布式计算RDD类型:1.并行集合(分布式化的数据对象,类比Python中的list),通过代码直接传一个列表进去,进行...

2018-05-07 17:04:29 108

原创 Linux--hadoop--jupyter-----27

hadoop fs -mkdir -p /user/hadoop  创建一个目录hadoop fs -rm-r /user/hadoop  删除目录hadoop fs -put data.txt  上传文件hadoop fs -cat  data.txt   查看文件exit() 退出source 更新start-dfs.sh 启动hadoop   三个Nodestart-yarn.sh   两个...

2018-05-07 17:00:24 606

原创 Linux_hadoop搭建--------26

前面我们实现了Xshell连接虚拟机,我们接触到了一些命令:cd    返回当前主体目录cd..    返回上一级目录cd/    返回根目录cd  /home    看home下面的用户(所有用户存放在home下)pwd    查看当前所在路径ll    查看该目录下的文件help    查看所有命令cat  文件名   查看文件内容vi  文件名    修改文件(vi编辑文件时,如果后面的文件...

2018-04-23 16:54:00 171

原创 Linux--虚拟机和Xshell----25

首先我们需要下载VMware Workstation Pro(虚拟机),因为虚拟机上面是不能进行复制和粘贴的,使用感觉也不是很好,所以我们在下载一个Xshell进行辅助,进行连接虚拟机,在此上面进行我们的工作。我们先创建虚拟机,我们还要配置静态IP:在虚拟机页面登录root用户,查找ifcfg—ens33这个文件,路径一般都是vi /etc/sysconfig/network-scripts/if...

2018-04-22 11:47:14 261

原创 jquery-easyui------24

jQuery EasyUI是一组基于jQuery的UI插件集合体,而jQuery EasyUI的目标就是帮助web开发者更轻松的打造出功能丰富并且美观的UI界面。开发者不需要编写复杂的javascript,也不需要对css样式有深入的了解,开发者需要了解的只有一些简单的html标签。创建静态文件,现在setting里配置静态文件:在APP创建urls文件,在项目urls中配置:在jQuery Ea...

2018-04-15 18:33:44 167

原创 Django博客发表和Django模板--------23

当项目功能多时,功能分开填写便于管理和维护。因此在写项目时,可以每个APP具有不同的功能。用命令创建APP(快捷键 Crtl+Alt+R):需要在setting.py里将APP写进去:创建完APP后,需要建立urls.py这个文件,用来访问当前APP下views.py里面的函数方法。先在项目urls里配置APPurls路径:views.py    跳转到show页面:show里显示所有博客的信息,...

2018-04-15 12:22:03 1036

原创 Django富文本图片上传------22

文件上传表单格式(views.py)表单样式 HTML富文本文件上传(views.py)HTML里面代码来自ueditor文件,找寻需要的一些js文件跳转页面中的样式清除:然后在url.py里配置路径富文本中文件上传需要配置相应的配置:现在ueditor文件里找到config.json这个文件,复制存放到static里下层位置。在将uecontroller.py这个Python文件存放至blog这...

2018-04-06 15:39:54 1222

原创 Django文件上传-------21

<form><input type="file"/(表示文件上传的控件)></form>  文件上传:就是将本地文件通过网络上传至服务器。通过form表单上传文件:创建upload.html页面:views.py函数:系统时间与文件拼接时strftime()参数:富文本编辑器:使用富文本要下载插件:下载链接:  http://ueditor.baidu.com/...

2018-04-04 13:08:04 182

原创 Django 跳转权限------20

1:session 在服务器端,cookie 在客户端(浏览器)。2:session 默认被存在在服务器的一个文件里(不是内存);在服务端保存session的方法有:内存 数据库 文件,服务器区别session对象,有唯一的ID。3:session是在服务器端保存的一个数据结构,用来跟踪用户的状态,这个数据可以保存在集群,数据库,文件中4:session 的运行依赖 session id,而 se...

2018-04-03 10:18:43 301

原创 Django登录-----19

项目运行:manage.py--->settings.py(读配置)---->urls(根路径文件读取)--->app项目【urls.py--->views.py(控制层读取数据库;页面跳转)--->models.py(实体类,生成数据库的表{注意:实体类必须继承models.Model})】在(views.py)通过继承的models可调用save()方法,使得用户...

2018-03-30 22:45:47 450

原创 Django连接数据库------18

Django项目创建:新建一个项目:File->New Project->Django->location(路径自选)->点开More Settings(在name输入APP名称)->勾选ENABLE DJANGO admin(如不勾,则没有blog文件夹)--->点击create(创建)创建完后的文件(总目录结构 ):urls.py(路径跳转)根路径在最初的u...

2018-03-28 21:27:00 498

原创 PyMySQL连接数据库----17

PyMySQL 是在 Python3.x 版本中用于连接 MySQL 服务器的一个库,Python2中则使用mysqldb。PyMySQL 遵循 Python 数据库 API v2.0 规范,并包含了 pure-Python MySQL 客户端库。PyMySQL 下载地址:https://github.com/PyMySQL/PyMySQL。在cmd中输入或在pycharm中terminal中输入...

2018-03-26 14:18:03 557

原创 视图-备份-------16

1、视图是一张虚拟表:表示一张表的部分数据或多张表的综合数据,其结构和数据是建立在对表的查询基础上。2、视图中不存放数据:数据存放在视图所引用的原始表中。3、一个原始表,根据不同用户的不同需求,可以创建不同视图视图的用途:筛选表中的行,防止未经许可的用户访问敏感数据,降低数据库的复杂程度,将多个物理数据库抽象为一个逻辑数据库。创建视图CREATE VIEW view_name  AS SELE...

2018-03-23 20:59:45 2074

原创 子查询+事务-------15

子查询的功能比表连接功能大SELECT ……FROM 表名  WHERE EXISTS(子查询); 子查询有返回结果:EXISTS查询结果为TRUE 子查询无返回结果:EXISTS查询结果为FALSE,外层查询不执行EXISTS:执行效率高 速度快EXISTS是不相关子查询,如查询不准确,范围扩大,可进行相互关联(就是相关子查询),使其查询条件与执行结果有关联。任何允许使用表达式的地方都可以使...

2018-03-21 21:29:16 377

原创 MySQL 增删改查----14

DB(database):数据库DBS(database  system):数据库系统DBMS(database  manager  system):数据库管理系统数据库的种类及特点1、Oracle(安全性高,处理速度快,产品免费,服务收费)  2、SQL Server(微软的数据库,针对不同用户群体的多个版本,易用性好)  3、db2(IBM公司):关系型数据库(传统类型)4、MySql (...

2018-03-19 16:50:03 437

原创 socket-----13

                 网络编程:实现计算机与计算机的通信TCP:可靠,有状态的,长连接的协议,像打电话一样。UDP:不可靠,无连接,向发短信一样,发送的包的顺序要有编号。HTTP:基于TCP协议,无状态的协议。FTP:文件传输协议。POP3:邮局协议版,是TCP IP协议族中的一员。SMTP:简单邮件传输协议。网络七层协议:物理层:建立 维护 断开 物理连接数据链路层:硬件寻址网络层:...

2018-03-12 18:28:07 325

原创 进程、线程、锁——12

进程:独立的所有子任务的集合。线程:进程中的每个子任务,不能独立存在。线程,进程:目的都是想同时完成任务。注:当进程结束后,线程将无法运行。特点:    进程:独立(内存独占,CPU使用独立)启动进程开销大(速率低),进程之间很难共享数据和数据通信,数据安全性高。    线程:依赖进程(内存共享,CPU使用独立)启动开销小,线程之间共享数据容易,方便通信,线程不安全。python本质是单线程。创建...

2018-03-07 15:52:04 276

原创 XML文件--11

XML:(优点:平台兼容性好)1、标签成对出现(标签可自主定义,可以中文,优选英文)2、区分大小写3、标签要正确嵌套4、第一行头部信息:<?xml version="1.0" encoding="utf-8"?>5、只能有一个根节点6、节点可以有属性7、创建:文件后缀名为xmlDTD:约束XML文件的节点<!DOCTYPE 根节点[                    <...

2018-03-05 12:15:46 143

原创 文件读写-10

Python文件的 读写:以计算机硬盘载体储存在计算机上的信息集合,可以是文本、图片、声音、程序等多类型。程序员的角度:文件只是连续的字节序列,数据的传输常用到字节流,字节流可以是由单个字节或大块数据组成。文件类型:文本文件,二进制文件。方法:input 输入        output 输出open()新建文件fileobject=open(“file.name”“mode”)操作方法(mode...

2018-02-28 15:24:52 148

原创 迭代器09

迭代器:对象需要提供next()方法,它要么返回下一个对象,要么引起一个stopiteration异常*如果对象是迭代器对象,必须使用next()方法迭代器是访问集合(列表,元组,字典,能大量存储大量数据)内元素的一种方式。迭代器对象从集合的第一个元素开始访问,直到所有元素都被访问一遍。for    max    min    sum等使用迭代器协议访问对象迭代器的好处:以一种延迟计算(lazye...

2018-02-28 14:44:23 128

原创 函数、闭包06

(一)默认参数:(缺省参数)缺省参数必须写在后面,可以不指定参数名,但是顺序要保证,否则要指定参数名。默认值如果不传参,则使用默认值。在Python中如果元组里面只有一个元素,元素后面不加逗号,输出的结果就是不是元组。(二)*arge被称为不定长参数(可变参数):1、可变参数允许传入0个或任意个参数,这些可变参数在函数调用时自动 组装为一个tuple(元组)2、在参数*

2018-02-04 20:14:48 126

原创 类和对象的继承05

Java 面对对象  c语言 面向过程类:具有相同的属性和方法的对象的集合对象:万物皆对象语法:class 类名:属性方法定义一个类:方法1__init__(self):系统自调用初始化方法,先生成对象,在调用此方法,再将对象赋值给引用名如果不想在给类名对象的时候赋值,在属性里面使其=None,就可以在创建对象的下面在进行赋值方法2__str__(s

2018-02-04 20:11:06 86

原创 字典元组函数04

a=[1,2,3]b=a 是将a的地址给了b,地址相同。b=a[:]  是将a的值给了b,b重新建立列表,地址不同列表遍历for num in list:print(num)for index in range(0,len(a)):print(a[index])i=0while iprint(a[i])i+=1eval()将元组、字典、列表类型的

2018-01-31 12:41:11 132

原创 字符-列表03

for else  for循环中以break结束,则不进入else,否则当for循环自己结束进入elsefor循环主要是对已知的  while循环主要是未知循环次数字符串单引号和双引号都可以定义字符串    三引号允许一个字符串跨多行在Java中  有字符和字符串之别   单引号叫字符且里面只能有一个Python只有字符串,获取字符串中的单个字符或叫截取字符:mystr

2018-01-29 20:48:45 246

原创 条件判断02

在JavaScript中for循环是   for (var i=0;i在Python中for循环是        for i in range (1,101)       print(i)根据条件判断,执行不同的处理:if 条件:       语句块1     else:      语句块2分成多个连续区间判断: if 条件1: 语句块1el

2018-01-26 21:14:58 120

原创 人生苦短01

人生苦短,我学大蟒蛇。这是非常熟悉的一段话,今天就是我第一次接触Python,他给我的感觉是简洁,自由,简单,相对于JavaScript来说,少了很多符号,让人有点不适应。但步骤相对其说,简略了很多。 我们首先学习了变量,在这里变量无需关键字,没个变量都是引用,定义变量时前面也不需要数据类型;变量命名的规定:由字母、数字、下划线组成;不能以数字开头;不能使用Python关键字;英文字母大小

2018-01-25 08:46:16 206

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除