自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(56)
  • 收藏
  • 关注

转载 归并排序、堆排序等排序方法的思想概述

在这篇文档中将介绍几种排序法,冒泡排序和简单选择排序已经在前面博客中提过,在此不再赘述。排序算法分类:以下是几种排序法的比较:稳定:如果a原本在b前面,而a=b,排序之后a仍然在b的前面。不稳定:如果a原本在b的前面,而a=b,排序之后 a 可能会出现在 b 的后面。时间复杂度:对排序数据的总的操作次数。反映当n变化时,操作次数呈现什么规律。空间复杂度:是指算法在计...

2019-02-21 21:44:13 1083

原创 Spark的基本知识

临近年关将spark近来所学整理一下,若有不足请指正。一、什么是Spark?Spark是由加州大学伯克利分校AMP实验室开源的分布式大规模数据处理通用引擎,具有高吞吐,低延时,通用易扩展,高容错等特点。Spark内部提供了丰富的开发库、提供了多种运行模式,Spark函数式编程语言在Scala中实现。二、Spark的架构?Spark架构示意图:                ...

2019-02-02 15:34:54 607

原创 实时分析Flume-Kafka框架搭建最终将数据在mysql中输出

因为搭建框架比较复杂如果这其中有不足,欢迎提出指正。下面附上实时分析简化框架图帮助理解。把离线分析框架也附上实时分析搭建过程:1.在命令提示符中(Windows+R)找到准备好的SocketTest.java路径,javac SocketTest.java运行后生成SocketTest.class文件(运行前将SocketTest.java中包名删除)将.class文件...

2018-12-27 17:12:33 1025 1

原创 SparkStreaming--小案例2对于爬虫来的数据进行分析

请注意本博客中代码头和尾是固定模式,而lines是需要根据你的数据特点进行切分和整理的,我会附上我的一部分数据供参考,附在文档末尾。1.统计某一时间段输入数据出现次数(时间不断更新)这不是爬虫数据分析是一个热身package Test1226import org.apache.spark.SparkConfimport org.apache.spark.streaming.{Sec...

2018-12-26 19:50:12 803

原创 Java-俄罗斯方块最新完善版

趋于完善版步骤1:package game;import java.awt.image.BufferedImage;public class Cell { private int row; private int col; private BufferedImage image; public Cell(){} public Cell(int row, int col ...

2018-12-25 19:14:21 12731

原创 SparkStreaming例题

取材自官网http://Spark.apache.org案例1:和集群搭配使用package SparkStreamingimport java.io.{BufferedReader, InputStreamReader}import java.net.Socketimport java.nio.charset.StandardCharsetsimport org.apach...

2018-12-25 19:05:11 792

原创 Kafka例题Producer-Consumer模型

Producerpackage broker1221;import org.apache.kafka.clients.producer.KafkaProducer;import org.apache.kafka.clients.producer.Producer;import org.apache.kafka.clients.producer.ProducerRecord;imp...

2018-12-25 19:03:13 213

原创 Scala--Spark将某网站的爬虫记录进行整理

设计思路:1.将ip截取出来(多种方式)用map组成二元组(注意区分map,flatmap)将相同ip出现次数统计出来分析得出爬虫ip2.将多次重复ip且访问密集的设为访问黑名单3.将同一时间访问某网站的ip整理出来package Test1225import org.apache.spark.SparkConfimport org.apache.spark.stream...

2018-12-25 19:00:48 958

原创 python--员工信息表修改

# -*- coding: utf-8 -*-from Emp import Empimport jsonarr = []with open("d://123.txt", "r") as empfile: if empfile.read() != "": empfile.seek(0) arr = json.load(empfile)while ...

2018-12-25 18:48:16 1315

原创 爬虫Spider--爬取贴吧

输入起始页的灵活爬取# - * - coding: UTF-8 - * -"""import urllib2url = "http://www.baidu.com"#IE 9.0 的 User-Agent,包含在 ua_header里ua_header = {"User-Agent" : "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT...

2018-12-25 18:42:38 389

原创 爬虫Spider--爬取京东某产品的评价

本篇博客提供了4种方式,有简略版仅能完成要求却简陋,也有较为完整的方式1.# -*- coding:utf-8 -*-import reimport urllib2import jsonimport sysif sys.getdefaultencoding() != 'utf-8': reload(sys) sys.setdefaultencoding('ut...

2018-12-25 18:39:24 1059

原创 spark的练习题(6)

1.排序:       定义三个文件对文件内容进行排序(数字)package com.hyxy.spark01import org.apache.spark.{SparkConf, SparkContext}object listarray { def main(args: Array[String]): Unit = { val conf = new SparkCon...

2018-12-14 12:52:46 7788 2

原创 Scala一种编程语言

scala安装安装scala去官网下载scala2.11.8(spark使用2.1.2对应scala版本是2.11.8)下载scala-2.11.8.msi(安装)或scala-2.11.8.zip(解压)注意:scala安装目录不能有中文和空格(特殊符号)安装idea下一步。。。。configurens--》plugins--》搜索  “scala”--》inst...

2018-12-14 12:43:24 7213

原创 python--前进快速的编程语言知识点提要

python一般用于人工智能,我在学习它是观看的是百度AI文档,感兴趣的可以看看python11.212.X和3.X    2.X:用户更多一些,稳定,第三方库 python 语法优雅、简洁、快速。。。 python解析器     cpython   jpython  ipython  pipi。。。。。。 python交互式:输入立即得到输出可以重复使用...

2018-12-14 12:35:53 993

原创 Hive是什么

学Hive指路《Hive编程指南》hive:Apache蜂巢™数据仓库软件便于阅读,写作,和管理大型数据集居住在分布式存储使用SQL。结构可以投影到已经存储的数据上。提供了一个命令行工具和JDBC驱动程序来将用户连接到Hive。 存储元数据需要一个关系型数据库(一般是mysql)     一般存储表的模式和分区信息等真正的数据存放到hdfshive只需要安装到一台机器上...

2018-12-14 12:31:47 2565

原创 HBase是什么

HBase这篇文档是按照学习过程总结的是简易版大纲,其中包含的知识点是需要时间和耐心详细琢磨的。Hbase:Apache HBase是一个开源的,分布式的,版本化的非关系数据库,来自谷歌的bigtable,目标:托管非常大的表 - 数十亿行X百万列 - 在商品硬件集群上11.7hbase:传统数据库非关系型数据库hbase权威指南第一章传统行式数据库:数据是...

2018-12-14 12:29:56 537

原创 Hadoop基础知识点汇总简易版

学好hadoop不是一朝一夕的事情此文档简略仅适用于初入门做了解使用,若想深入学习请使用《hadoop权威指南》hadoop模块:Hadoop Common:支持其他Hadoop模块的常用实用程序。Hadoop分布式文件系统(HDFS™):一种分布式文件系统,可提供对应用程序数据的高吞吐量访问。Hadoop YARN:作业调度和集群资源管理的框架。Hadoop MapReduc...

2018-12-14 12:26:22 2564

原创 hadoop的初入门--安装hadoop环境

一、Hadoop的三种模式:1、独立模式或本地模式 (standalone或local mode)简介即默认模式。所谓默认模式,就是安装完jdk及hadoop,配置好相应的环境,即本地模式配置完成。 所有程序都在单个JVM上执行。 使用本地文件系统,而不是分布式文件系统。 无需运行任何守护进程(daemon),hadoop不会启动NameNode、DataNode等守护进程,Map(...

2018-10-29 12:40:36 356

原创 Linux的基础命令和Shell脚本

一、计算机  1、能接收用户输入的指令和数据,经过中央处理器的算术逻辑单元处理,然后会产生或者显示新数据的,就是计算机。   比如,普通商户用的计算器,手机,提款机,汽车导航,桌面电脑,手提电脑等  2、计算机的五大单元:    输入单元:输入设备,键盘,鼠标,扫描仪,触摸屏幕    输出单元:显示器,打印机.....    cpu的控制单元:控制输入单元和输出单元工作...

2018-09-29 21:38:17 1000 1

原创 JSP的基础知识及案例讲解

一、JSP的由来   1、Servlet诞生以来,在系统维护,变更及其预览视图效果时,比较繁琐(HTML部分)。后来,Sun公司推出了JSP来解决这个麻烦。JSP的作用就是将Servlet里的HTML部分抽取出来,单独封装。   2、什么是JSP技术      就是Sun公司提供的服务端动态页面的一个组件规范。      JSP先转成Servlet,再执行。二、JSP编写规范...

2018-09-22 00:49:49 544

原创 servlet--两层CS架构&三层CS架构&BS架构的演变过程--重定向

程序的演变过程:1.单机程序:txt文档,word文档,ppt文档2.两层CS架构      客户端client:      设计用户界面和少量逻辑代码服务端service:  数据库(大量逻辑代码)优点:交互简单缺点:业务逻辑使用数据库编程语言编写在程序移植方面非常差,需要重新编写业务逻辑代码  3.三层CS架构 c:  client,用户界面设计和少量的业务逻辑...

2018-09-22 00:35:46 7627

原创 JDBC基本知识--接口类型,Juint注入,批处理,自增序列,分页查询

一、JDBC的原理1、概念  Java DataBase Connectivity:java数据库连接技术,简称JDBC.    它是使用java语言编写的一套API,为多种关系型数据库提供了统一接口。 同时,也是一个“低级”接口,在其之上可以使用“高级”接口,更方便的连接数据库。 2、目的      为了给程序员提供同一种方式连接不同的数据库      (提供一个与任何数...

2018-09-21 23:37:32 360

原创 分页查询和视图的含义及小案例

分页查询需求:每次查询的记录较大,通常一页显示不下,此时我们可以进行分页查询。关键字:limit用法:limit begin,size;begin:记录的开始行数,偏移量size:每一页最大记录数注意:limit后面可以是一个参数,一个参数时是指每次最大的查询记录数limit size;默认记录数从0开始,而不是1--练习1:查询员工表,查询第一页的数据,每页1...

2018-09-21 20:39:58 614

原创 mysql的连接与关联知识

内连接:只要使用了join on就是内连接。查询效果与等值连接一样。用法:表A[inner] join 表B on 关联条件外连接:在做多张表查询时,我们所需要的数据,除了满足关联条件的数据外,还有不满足关联条件的数据。此时需要使用外连接。会涉及到两个概念:驱动表(主表):除了显示满足条件的数据,还需要显示不满足提哦阿剑的数据表从表(副表):只显示满足关联条件的数据表...

2018-09-08 18:27:29 278

原创 SQL语言--TCL事物控制语言和DCL数据控制语言

SQL语言--TCL事物控制语言有时我们需要使用DML进行批量数据的删除,修改,增加。比如,在一个员工系统里,我们想要删除一个人的信息,除了删除这个人的基本信息外,还应该删除与此人有关的其他信息,如邮箱,地址等等。那么从开始执行到结束,就会构成一个事务。对于事务,我们要保证事务完整性,要么成功,要么撤回。一般情况下,事务要符合四个条件(ACID):原子性(Atomicity):...

2018-09-08 17:20:33 294

原创 SQL之DQL数据查询语言的学习

--SQL之DQL的学习--1、基本查询语句。--格式: select子句  from子句--     select colName[,colName.......]  from  tableName;--练习1:查询员工表emp中的 员工姓名,员工职位,员工入职日期和员工所在部门。select ename,job,hiredate,deptno from emp;--练...

2018-09-08 17:12:38 343

原创 SQL之DQL数据查询语言

第三篇DQL:数据查询语言--select:选择一、基本查询语句:至少要有两个子句。1、select子句和from子句格式1:可以指定字段进行查询   select colName[,colName.....] from tableName格式2:查询整张表:  select * from tableName;通配符*:如果是在select字句中,代替的是所...

2018-09-08 16:59:53 492

原创 SQL之数据定义语言DDL和数据操纵语言DML

SQL语言之DDL:数据定义语言--建表语句:create table tableName(colName Type1,colName Type2......);--练习1:创建表 persons 字段:pid int,pname varchar(20),age int(3),gender char(1)create table persons(pid int,pname varch...

2018-09-08 16:39:13 1069

原创 mysql数据库基础知识--入门必看

第一篇一.数据库的发展史(1)手工管理:藏书阁,图书馆。        优点:分类管理,直观性强        缺点:信息流动慢,不方便(2)文件管理:计算机文件系统,图书管理系统        优点:分类管理,层次分明        缺点: 查找不方便(3)数据库管理:        优点:存取数据非常方便.         缺点:有数据的安全隐患。二...

2018-09-08 16:08:18 27419 2

原创 网络编程--线程和面向对象的应用--Chat聊天室项目

第四篇Chat聊天室项目分析:客户端--多个;服务器--一个客户端聊天界面的设计(1)一个多人信息展示界面(2)个人信息输入界面2.通信逻辑:多个客户端客户端a;客户端b;客户端c;客户端d共同特点:将个人信息发送给服务器,服务器作为信息中转站,将信息发送给所所有客户端。此时:服务器需要保存所有向客户端的输出流,在发送信息时,遍历所有的输出流,进行发送,客户端...

2018-08-31 18:25:41 254

原创 网络编程的套接字使用

第三篇网络编程:java语言中,提供了一套统一的编程接口,很多细节底层化,所以可以进行无痛的网络通信编程。提供Socket套接字技术。常用通信协议:UDP协议:不需要建立链接,相对而言,开销比较小,效率高。TCP/IP协议:在通信之前需要建立链接,通信后需要断开连接。一般会有一个作为服务器端,有一个做客户端。常用方法:static InetAddreass getB...

2018-08-31 18:16:00 276

原创 线程池的案例模拟

案例1:第一个线程输出1,2,3,4,5 第二个线程输出6,7,8,9,10 第三个线程输出11,12,13,14,15 第一个线程输出16,17,18,19,20 第二个线程输出.......... 第三个线程输出........ 直到输入75停止。方法一:package com.hyxy.se.day13;/*作业1: 第一个线程0输出1,2,3...

2018-08-29 23:41:29 1041

原创 同步锁与线程池的奥秘

第二篇同步锁:当多个线程操作临界资源时,可能会出现线程安全隐患问题。临界资源可能是:(1)某一个静态变量(2)某一个实例变量如果想解决这样的问题,需要使用同步操作: 异步操作:多线程的并发操作,相当于各干各的。 前提:有多个线程时同步操作:在并发基础上,同一个方法内两行代码执行时间片段可以不挨着,但是其他线程不能对这两行代码有执行权,保证了代码的原子性。即这...

2018-08-29 23:28:36 770

原创 线程基础

第一篇线程知识Ctrl+Alt+delete 查看进程--进程是一个运行中的程序的实例。Alt+Shift+Z 或Try+补全键----try-catch进程:程序:可以实现多个功能的代码体,也叫软件。程序本身是一个没有生命的实体只有当处理器赋予它生命时(执行)才能称之为活动的实体即进程。进程是操作系统级别的基本单元,通俗讲进程就是操作系统运行的一个任务(一个应用程序运...

2018-08-29 23:22:36 101

原创 对象流的简介

第十一篇对象流:有的时候,我们可能需要将内存中的对象持久化到硬盘上,或者将硬盘中的对象信息读到内存中,这个时候我们需要使用对象输入输出流。    序列化: 是对象转换成一个字节序列的过程,是一个写操作反序列化:   一个字节序列转换成对象的过程 ,是一个读操作 ObjectOutputStream构造器:          ObjectOutputStream(Output...

2018-08-26 22:50:07 4903

原创 io---缓冲流

缓冲流:    BufferedOutputStream:字节缓冲输出流在写数据时,如果一个字节一个字节的写,写的次数明显很多,效率就会变得很低。如何提高效率呢。缓冲输出流的特点是:在流里维护了一个缓冲区,写字节时,先将字节写入缓冲区, 当缓冲区满时,再一次性的将数据写到文件里。这样就降低了写的次数,因此提高了效率。  因此缓冲输出流缺失即时性,可以使用flush方法进行冲刷...

2018-08-26 22:19:43 143

原创 io流--字节流

第十篇IO流:(Input,Output)我们在做项目时,除了自定义的一些数据外,还可能需要从"外界"引入数据,或者将数据导出到"外界"。这时,我们需要I/O操作。外界:指的可能是  键盘,显示器,硬盘,另外一个程序。输入:又叫读入操作,数据时从"外界"流向程序输出:又叫写出操作,数据时从程序流向"外界"流: 就是数据序列, 一经创建成功,就会打开一个通道。所以使用完应该进...

2018-08-26 22:18:47 108

原创 Set集合

第八篇Set集合:特点:无序,不重复。存储时采用了hash算法机制,计算存储位置。HashCode方法:Object是引用类型的父类,提供了hashCode()方法以及equals()方法,因此我们在定义类型时,一般都重写hashCode和equals方法。重写的重要性:equals方法我们用来判断集合中的元素是否重复,hashCode方法我们在使用Set集合时,必须要...

2018-08-21 23:07:54 2828

原创 泛型机制

泛型机制:(1)概念   jdk1.5版本开始使用的新特性,本质是进行"参数化类型",在类,接口,方法的定义上都可以使用,用来指定数据类型名的。   (2)集合在定义时,可以用泛型机制来指定元素的类型,这样编译器在编译期间就可以进行检查元素类型是否匹配,避免了程序在运行时出现过多的错误     (3)集合框架中的所有类型(接口,抽象类,实现类)都是用了泛型机制       (4...

2018-08-21 21:49:14 612

原创 集合的子接口

第六篇复习:一、集合概念:是一个用于存储多个对象的容器(对象).容器内的对象就是元素,元素都是引用类型。PS:容器内存储的都是对象的地址。二、与数组的区别?相同点:都是容器(数据结构),用来存储多个数据的,不同点:数组:可以存储基本数据类型        集合:只能存储引用数据类型三、集合框架中包含多种接口,抽象类,实现类等,用此来满足我们所需要的用于存储数据的数据...

2018-08-21 21:45:41 396

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除