MguoYang-CSDN博客

原创 KAFKA---34

安装kafka版本： kafka_2.11-1.1.0.tgz将kafka解压在opt目录下（opt为hadoop用户下的目录）因为zookeeper.properties注释实在太多，所以我通过grep命令查找到kafka非注释的字符串，并把它追加到 zk.properties中cat zookeeper.properties | grep -v '#' >> zk.propert...

2018-05-29 11:03:25 178

在具体介绍本文内容之前，先给大家看一下Hadoop业务的整体开发流程：从Hadoop的业务开发流程图中可以看出，在大数据的业务处理过程中，对于数据的采集是十分重要的一步，也是不可避免的一步，从而引出主角—Flume 首先我们介绍Flume（日志收集系统）：flume是分布式的日志收集系统，它将各个服务器中的数据收集起来并送到指定的地方去，比如说送到图中的HDFS，简单来说flume就是收集日志的。...

2018-05-28 11:24:12 176

原创 hive-------32

Hive是基于Hadoop构建的一套数据仓库分析系统，它提供了丰富的SQL查询方式来分析存储在Hadoop分布式文件系统中的数据，可以将结构化的数据文件映射为一张数据库表，并提供完整的SQL查询功能，可以将SQL语句转换为MapReduce任务进行运行，通过自己的SQL去查询分析需要的内容，这套SQL简称Hive SQL,使不熟悉mapreduce的用户很方便的利用SQL语言查询，...

2018-05-22 11:38:47 322

原创 Hive 分区--------31

访问hive的另外一种方法：进入到apache-hve-2.3.2-bin.tar/bin目录下复制一个ssh通道，在输入 ./beeline -u jdbc:hive2://HIVE与mysql的关系 hive常用命令整理 hive与hdfs整合过程Hive是一个基于hadoop的数据仓库平台。通过hive，我们可以方便地进行ETL的工作。hive定义了一个类似于SQL的查询语言：HQL，...

2018-05-21 11:41:22 774

原创 Linux 装MySQL 和hive------30

在官网里下载mysql在将mysql传过来：在xshell里解压这个文件：查看当前版本安装信息：如果找不到命令，就修改这个文件：将这个里面的5.7和8.0的enabled选项改为1和0（1为开启 0为关闭，如果多个版本为1 ，选择其中最高版本安装）：查看那个版本可以使用：...

2018-05-15 14:37:32 268

原创 DataFrame------29

理论：SparkSQL:*SPARK中原生的RDD是没有数据结构的（主要部件：SPARK CORE[是spark的核心；rdd是spark core的核心]；Spark SQL；Spark Streaming；MLlib；GraphX）[spark的最底层大部分基于HDFS的，Shark中的数据信息等也是对应HDFS的文件]*对RDD的变换和操作不能采用传统的SQL方法*SparkSQL应运而生并...

2018-05-12 11:19:39 695

原创 Linux---hadoop方法-----28

spark：是一个主要用作数据分析的模块（数据以RDD为主），其中多了有向无环图，能计算最优路径。mapReduce （MR）必须编程完成后才能统一提交执行；只能使用java语言编程RDD：容错性分布数据，SPARK CORE：是spark生态圈的核心，它的任务就是对这些数据进行分布式计算RDD类型：1.并行集合（分布式化的数据对象，类比Python中的list),通过代码直接传一个列表进去，进行...

2018-05-07 17:04:29 108

原创 Linux--hadoop--jupyter-----27

hadoop fs -mkdir -p /user/hadoop 创建一个目录hadoop fs -rm-r /user/hadoop 删除目录hadoop fs -put data.txt 上传文件hadoop fs -cat data.txt 查看文件exit（）退出source 更新start-dfs.sh 启动hadoop 三个Nodestart-yarn.sh 两个...

2018-05-07 17:00:24 606

原创 Linux_hadoop搭建--------26

前面我们实现了Xshell连接虚拟机，我们接触到了一些命令：cd 返回当前主体目录cd.. 返回上一级目录cd/ 返回根目录cd /home 看home下面的用户（所有用户存放在home下）pwd 查看当前所在路径ll 查看该目录下的文件help 查看所有命令cat 文件名查看文件内容vi 文件名修改文件（vi编辑文件时，如果后面的文件...

2018-04-23 16:54:00 171

原创 Linux--虚拟机和Xshell----25

首先我们需要下载VMware Workstation Pro（虚拟机），因为虚拟机上面是不能进行复制和粘贴的，使用感觉也不是很好，所以我们在下载一个Xshell进行辅助，进行连接虚拟机，在此上面进行我们的工作。我们先创建虚拟机，我们还要配置静态IP：在虚拟机页面登录root用户，查找ifcfg—ens33这个文件，路径一般都是vi /etc/sysconfig/network-scripts/if...

2018-04-22 11:47:14 261

原创 jquery-easyui------24

jQuery EasyUI是一组基于jQuery的UI插件集合体，而jQuery EasyUI的目标就是帮助web开发者更轻松的打造出功能丰富并且美观的UI界面。开发者不需要编写复杂的javascript，也不需要对css样式有深入的了解，开发者需要了解的只有一些简单的html标签。创建静态文件，现在setting里配置静态文件：在APP创建urls文件，在项目urls中配置：在jQuery Ea...

2018-04-15 18:33:44 167

原创 Django博客发表和Django模板--------23

当项目功能多时，功能分开填写便于管理和维护。因此在写项目时，可以每个APP具有不同的功能。用命令创建APP（快捷键 Crtl+Alt+R）：需要在setting.py里将APP写进去：创建完APP后，需要建立urls.py这个文件，用来访问当前APP下views.py里面的函数方法。先在项目urls里配置APPurls路径：views.py 跳转到show页面：show里显示所有博客的信息，...

2018-04-15 12:22:03 1036

原创 Django富文本图片上传------22

文件上传表单格式（views.py）表单样式 HTML富文本文件上传（views.py）HTML里面代码来自ueditor文件，找寻需要的一些js文件跳转页面中的样式清除：然后在url.py里配置路径富文本中文件上传需要配置相应的配置：现在ueditor文件里找到config.json这个文件，复制存放到static里下层位置。在将uecontroller.py这个Python文件存放至blog这...

2018-04-06 15:39:54 1222

原创 Django文件上传-------21

<form><input type="file"/(表示文件上传的控件)></form> 文件上传：就是将本地文件通过网络上传至服务器。通过form表单上传文件：创建upload.html页面：views.py函数：系统时间与文件拼接时strftime（）参数：富文本编辑器：使用富文本要下载插件：下载链接: http://ueditor.baidu.com/...

2018-04-04 13:08:04 182

原创 Django 跳转权限------20

1：session 在服务器端，cookie 在客户端（浏览器）。2：session 默认被存在在服务器的一个文件里（不是内存）；在服务端保存session的方法有：内存数据库文件，服务器区别session对象，有唯一的ID。3：session是在服务器端保存的一个数据结构，用来跟踪用户的状态，这个数据可以保存在集群，数据库，文件中4：session 的运行依赖 session id，而 se...

2018-04-03 10:18:43 301

原创 Django登录-----19

项目运行：manage.py--->settings.py(读配置)---->urls（根路径文件读取）--->app项目【urls.py--->views.py(控制层读取数据库；页面跳转)--->models.py(实体类，生成数据库的表{注意：实体类必须继承models.Model})】在（views.py）通过继承的models可调用save（）方法，使得用户...

2018-03-30 22:45:47 450

原创 Django连接数据库------18

Django项目创建：新建一个项目：File->New Project->Django->location(路径自选)->点开More Settings（在name输入APP名称）->勾选ENABLE DJANGO admin(如不勾，则没有blog文件夹)--->点击create(创建)创建完后的文件（总目录结构）：urls.py（路径跳转）根路径在最初的u...

2018-03-28 21:27:00 498

原创 PyMySQL连接数据库----17

PyMySQL 是在 Python3.x 版本中用于连接 MySQL 服务器的一个库，Python2中则使用mysqldb。PyMySQL 遵循 Python 数据库 API v2.0 规范，并包含了 pure-Python MySQL 客户端库。PyMySQL 下载地址：https://github.com/PyMySQL/PyMySQL。在cmd中输入或在pycharm中terminal中输入...

2018-03-26 14:18:03 557

原创视图-备份-------16

1、视图是一张虚拟表：表示一张表的部分数据或多张表的综合数据，其结构和数据是建立在对表的查询基础上。2、视图中不存放数据：数据存放在视图所引用的原始表中。3、一个原始表，根据不同用户的不同需求，可以创建不同视图视图的用途：筛选表中的行，防止未经许可的用户访问敏感数据，降低数据库的复杂程度，将多个物理数据库抽象为一个逻辑数据库。创建视图CREATE VIEW view_name AS SELE...

2018-03-23 20:59:45 2074

原创子查询+事务-------15

子查询的功能比表连接功能大SELECT ……FROM 表名 WHERE EXISTS（子查询）; 子查询有返回结果：EXISTS查询结果为TRUE 子查询无返回结果：EXISTS查询结果为FALSE，外层查询不执行EXISTS：执行效率高速度快EXISTS是不相关子查询，如查询不准确，范围扩大，可进行相互关联（就是相关子查询），使其查询条件与执行结果有关联。任何允许使用表达式的地方都可以使...

2018-03-21 21:29:16 377

原创 MySQL 增删改查----14

DB（database）：数据库DBS（database system）：数据库系统DBMS(database manager system)：数据库管理系统数据库的种类及特点1、Oracle（安全性高，处理速度快，产品免费，服务收费） 2、SQL Server（微软的数据库,针对不同用户群体的多个版本，易用性好） 3、db2（IBM公司）：关系型数据库（传统类型）4、MySql （...

2018-03-19 16:50:03 437

原创 socket-----13

网络编程：实现计算机与计算机的通信TCP：可靠，有状态的，长连接的协议，像打电话一样。UDP：不可靠，无连接，向发短信一样，发送的包的顺序要有编号。HTTP：基于TCP协议，无状态的协议。FTP：文件传输协议。POP3：邮局协议版，是TCP IP协议族中的一员。SMTP：简单邮件传输协议。网络七层协议：物理层：建立维护断开物理连接数据链路层：硬件寻址网络层：...

2018-03-12 18:28:07 325

原创进程、线程、锁——12

进程：独立的所有子任务的集合。线程：进程中的每个子任务，不能独立存在。线程，进程：目的都是想同时完成任务。注：当进程结束后，线程将无法运行。特点：进程：独立（内存独占，CPU使用独立）启动进程开销大（速率低），进程之间很难共享数据和数据通信，数据安全性高。线程：依赖进程（内存共享，CPU使用独立）启动开销小，线程之间共享数据容易，方便通信，线程不安全。python本质是单线程。创建...

2018-03-07 15:52:04 276

原创 XML文件--11

XML:(优点：平台兼容性好)1、标签成对出现（标签可自主定义，可以中文，优选英文）2、区分大小写3、标签要正确嵌套4、第一行头部信息：<?xml version="1.0" encoding="utf-8"?>5、只能有一个根节点6、节点可以有属性7、创建：文件后缀名为xmlDTD：约束XML文件的节点<!DOCTYPE 根节点[ <...

2018-03-05 12:15:46 143

原创文件读写-10

Python文件的读写：以计算机硬盘载体储存在计算机上的信息集合，可以是文本、图片、声音、程序等多类型。程序员的角度：文件只是连续的字节序列，数据的传输常用到字节流，字节流可以是由单个字节或大块数据组成。文件类型：文本文件，二进制文件。方法：input 输入 output 输出open（）新建文件fileobject=open（“file.name”“mode”）操作方法（mode...

2018-02-28 15:24:52 148

原创迭代器09

迭代器：对象需要提供next()方法，它要么返回下一个对象，要么引起一个stopiteration异常*如果对象是迭代器对象，必须使用next()方法迭代器是访问集合（列表，元组，字典，能大量存储大量数据）内元素的一种方式。迭代器对象从集合的第一个元素开始访问，直到所有元素都被访问一遍。for max min sum等使用迭代器协议访问对象迭代器的好处：以一种延迟计算（lazye...

2018-02-28 14:44:23 128

原创函数、闭包06

（一）默认参数：（缺省参数）缺省参数必须写在后面，可以不指定参数名，但是顺序要保证，否则要指定参数名。默认值如果不传参，则使用默认值。在Python中如果元组里面只有一个元素，元素后面不加逗号，输出的结果就是不是元组。（二）*arge被称为不定长参数（可变参数）：1、可变参数允许传入0个或任意个参数，这些可变参数在函数调用时自动组装为一个tuple（元组）2、在参数*

2018-02-04 20:14:48 126

原创类和对象的继承05

Java 面对对象 c语言面向过程类：具有相同的属性和方法的对象的集合对象：万物皆对象语法：class 类名：属性方法定义一个类：方法1__init__（self）：系统自调用初始化方法，先生成对象，在调用此方法，再将对象赋值给引用名如果不想在给类名对象的时候赋值，在属性里面使其=None，就可以在创建对象的下面在进行赋值方法2__str__(s

2018-02-04 20:11:06 86

原创字典元组函数04

a=[1,2,3]b=a 是将a的地址给了b，地址相同。b=a[:] 是将a的值给了b，b重新建立列表，地址不同列表遍历for num in list:print(num)for index in range(0,len(a)):print(a[index])i=0while iprint(a[i])i+=1eval（）将元组、字典、列表类型的

2018-01-31 12:41:11 132

原创字符-列表03

for else for循环中以break结束，则不进入else，否则当for循环自己结束进入elsefor循环主要是对已知的 while循环主要是未知循环次数字符串单引号和双引号都可以定义字符串三引号允许一个字符串跨多行在Java中有字符和字符串之别单引号叫字符且里面只能有一个Python只有字符串，获取字符串中的单个字符或叫截取字符：mystr

2018-01-29 20:48:45 246

原创条件判断02

在JavaScript中for循环是 for （var i=0;i在Python中for循环是 for i in range （1,101） print（i）根据条件判断，执行不同的处理：if 条件：语句块1 else：语句块2分成多个连续区间判断： if 条件1：语句块1el

2018-01-26 21:14:58 120

原创人生苦短01

人生苦短，我学大蟒蛇。这是非常熟悉的一段话，今天就是我第一次接触Python，他给我的感觉是简洁，自由，简单，相对于JavaScript来说，少了很多符号，让人有点不适应。但步骤相对其说，简略了很多。我们首先学习了变量，在这里变量无需关键字，没个变量都是引用，定义变量时前面也不需要数据类型；变量命名的规定：由字母、数字、下划线组成；不能以数字开头；不能使用Python关键字；英文字母大小

2018-01-25 08:46:16 206

mangguoyang的博客