自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(46)
  • 收藏
  • 关注

原创 SparkStreaming

1.SparkStreaming实时流处理2.应用2.1 SparkStreaming监听某个端口依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming_2.11</artifactId> <version>2.4.7</version> </dependency

2021-06-22 19:23:40 194

原创 azkaban安装

1.azkaban:工作流调度器:一个分析工作需要用到多个任务,azkaban可以用将这些任务建立先后顺序和依赖执行;2. azkaban安装:2.1 下载压缩包azkaban-3.84.10.tar.gzgradle-5.6.3-all.zip2.2 解压unzip gradle-5.6.3-all.ziptar azkaban-3.84.10.tar.gz2.3 yun安装gityum install -y git2.4 gradle编译打包(gradle可以编译程序和自动下载依赖

2021-06-22 01:25:21 762 2

原创 DataFrame sql 50题

Dataframe算子:1.连接:join(df2,"col")2.子查询连接:df1 join(df2.算子,"")3.取值(类型转换):filter(x=>x.get(1).toString.toInt>10) filter($"col"<10) where("列判断条件") where(col("col_name")>60)4.比价:equals === < > <= >=5.聚合:groupBy("","") avg("col") sum(

2021-05-26 17:39:41 304

原创 flume

将文件用flume写入hdfs上:开启hdfs–编写conf文件—新建文件夹(源文件文件夹,checkpoint文件夹,data文件夹,hdfs上的目标文件夹)—将源文件导入文件夹内–执行<!--定义flume的三个组件:source,channel,sink-->locale.sources=localeSourcelocale.channels=localeChannellocale.sinks=localeSink<!--设置source的属性:类型,地址,姓名匹配,序

2021-05-26 08:47:49 216

原创 求最短距离--pregel

飞机航班信息字段如下:求随机一个机场到其它所有机场的最短航线:(要点:得到需要的graph即可,其余初始化,pregel为固定格式固定代码)月中第几天,周中第几天,航空公司,飞机注册号,航班号,起飞机场编号,------起飞机场,-------到达机场编号,-------到达机场,--------预计起飞时间,起飞时间,起飞延迟,预计到达时间,到达时间,到达延迟,预计飞行时间,飞行距离---------package graph.etlimport org.apac

2021-05-19 19:25:34 110

原创 数据库连接mysql和java,scala,spark以及hive和spark连接(配置文件取数据)

Java和Scala连接mysql数据库,可以写sql语句,操作数据库里的表,实现增删改查;Spark可以从mysql里读取mysql数据表,或者将数据表写入mysql数据库中;代码如下:scala:要点:加载驱动和获得连接,执行增,查语句,参数传入写一个主类import lianxi3.lianxi4 //lianxi4是lianxi3的object对象中的一个隐式类,其形参为lianxi2类型class lianxi2(){}object lianxi2{ def main (a.

2021-05-19 01:27:16 364

原创 Spark项目1

需求:处理文件test.log数据,得到用户每日留存率环境:idea,mven,scala.spark,mysql文件:2018-09-04T20:27:31+08:00 http://datacenter.bdqn.cn/logs/user?actionBegin=1536150451540& actionClient =Mozilla%2F5.0+%28Windows+NT+10.0%3B+WOW64%29+AppleWebKit%2F537.36+%28KHTML%2C+like

2021-05-18 22:53:17 3007

原创 scala数组函数

object ceshi1 { def main(args: Array[String]): Unit = { var a0=Array(Arraay(1,2,3),Array(3,4,5)) def seqno(m:(Int,Int),n:(Int,Int)):(Int,Int)={ (m._1+n.sum,m._2+n.size) } def combine(m:(Int,Int),n:(Int,Int)):(Int,Int)={ (m._1+n._1,m.

2021-04-30 13:51:36 142

原创 数仓

数据仓库:Data Warehouse,简写成DW。数据库和数据仓库的区别:数据库:传统关系型数据库的应用主要是OLTP(On-Line Transaction Processing),主要是基本的、日常的事务处理,如银行交易。数据仓库:数据仓库的主要应用是OLAP(On-Line Analytical Processing),支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。功能数据库数据仓库数据范围当前状态数据存储历史、完整、反映历史变化数据数据变化

2021-04-28 08:23:51 198

原创 DBeaver安装

下载dbeaver-ce-6.0.0-win32.win32.x86_64.zip解压文件双击dbeaver.exe打开删除左侧两个栏目,点击左上角蓝色的加号选择Apache Hive,下一步输入虚拟机的ip和端口号3306,输入mysql的用户名和密码,点击编辑驱动添加文件hive-jdbc-1.1.0-cdh5.14.2-standalone.jar ,将其他文件都删除,选中该文件,点击确定可以正常打开...

2021-04-01 16:23:21 378

原创 hive加载数据方式,导入导出

hive加载数据方式建表时加载数据(1)location方式,需要提前将本地文件put到hdfs上,而且必须是外部表,否则容易把源文件给删了;create table aa(列名 数据类型) row format delimited fields terminated by ‘;’ location ‘hdfds文件路径’;(2)导入已有表的数据(不用写字段了)create table bb as selecte * from aa;建空表后,加载数据(1)load添加数据(如果原表已

2021-03-31 23:30:38 268

原创 Mapreduce(Java程序编写)

Mapreduce:Map阶段Reduce阶段

2021-03-23 22:27:40 1692

原创 Hadoop高可用集群搭建

1.时区同步(三台虚拟机都要进行)安装–修改ip–启动等待同步yum search ntpyum install -y ntpvi /etc/ntp.conf进入文件内修改对hadoop9/hadoop11/hadoop12分别更改如下:启动ntp: /bin/systemctl start ntpd.service开始同步: ntpstat等待十几分钟,完成同步三台设备都出现如下链接成功的界面,则同步完成,三台虚拟机的时间都相同了2.Zookeeper安装–配置(要添加的几

2021-03-22 18:20:42 222

原创 2021-03-16

EKL安装es安装–打开es-head安装–打开kibana安装–打开es安装解压:tar -zxf elasticsearch-6.2.2.tar.gzmv elasticsearch-6.2.2 es增加用户:useradd espasswd es把es目录及其内容修改为es用户和所属的组:chown es:es -R escd es修改:vi config/elasticsearch.yml最后添加http.cors.enabled: truehtt

2021-03-17 17:26:59 129

原创 ELK

ELK是什么?是一个实施日志分享平台,管理log的ELK组成:Elasticsearch:搜索和分析引擎Logstash:服务器端数据处理管道(负责log数据采集)Kibana:负责图形和图标的可视化ELK日志系统数据流程图:应用服务器(n个)—Broker(如redis,kafka)—Logstash indexer(数据采集)—Elasticsearch(集群分析搜索)—Kabana(可视化)ElasticSearch介绍:一个开源的近实时的分布式的存储、搜索、分析引擎关键:ELK搭建

2021-03-17 17:26:42 122

原创 linux命令

目录操作命令目录间跳转~:查看当前目录的根目录;cd:切换目录cd /:退回系统总目录cd .:代表当前目录cd …:退回上级目录查看目录内容pwd:查看当前目录ls:列出当前目录里的内容ls -a:列出当前目录里的全部文件/文件夹ls -d:列出当前目录里的全部文件ls -l:列出当前目录里的全部文件的详细信息ls -R:递归列出当前目录下的所有文件创建目录mkdir:创建目录mkdir -p:递归创建目录转移目录/文件mv 旧路径 新路径删除目录

2021-03-15 15:05:02 419

原创 shell脚本(变量-流程控制-定时任务)

1.什么是shell脚本:shell处于linux内核与用户之间,是命令编译器;用户写shell命令,交给shell编译成二进制,再传递给内核执行;内核执行完后,返回的二进制结果交给shell,shell翻译成用户可以识别的语言,交给用户;shell脚本是shell命令组成的文本文件。2.shell注释:单行注释:#多行注释::<3.知乎连接:添加链接描述4.变量局部变量(只在当前shell脚本中可用)环境变量(所有shell脚本都可用)shell变量(shell程序设置的特殊变

2021-03-14 19:46:43 397 1

原创 Hadoop安装(伪分布式)

三台虚拟机互信创建3台虚拟机,例如IP地址分别为192.168.236.8,192.168.236.9,192.168.236.10分别更改各自的hostname,拿192.168.236.100(老师的虚拟机)为例,输入hostname,查看自己的hostname,一般是自己的外网地址;输入hostnamectl set-hostname hadoop100,将hostname改成hadoop1003. 将其它虚拟机和自己的hostname添加到hosts文件里(每台虚拟机都要做);输入vi

2021-03-13 22:02:22 1080

原创 maven(idea配置)

maven软件的作用:1.1管理jar和依赖给idea自动导入需要的jar包,而省去了手动一个个jar包去寻找下载导入的过程。管理依赖:比如两个jar包之间的依赖,对数据库驱动的依赖将java编译为class,测试代码是否有问题1.2项目的构建(POM.xml文件)清理(以前编译的东西)编译(编译多个java文件为class文件)测试(同时测试多个程序)报告(生成测试报告)打包(将class,配置文件等放入一个压缩文件中jar或者var)安装(把生成的压缩文件安装到本地库中)maven服务器.

2021-03-11 19:09:36 144

原创 版本管理系统--SVN(subversion)的安装

在linux系统里,在root/software下输入yum install -y subversion回车在root/software下创建文件mkdir /svnData回车输入mkdir /svnData/projects输入svnadmin create /svnData/projects/testSvn查看create命令创建的文件cd /svnData/projects/testSvn/输入ll,查看内容进入conf目录,改三个配置:cd conf/输入ll,出现authz,pa.

2021-03-11 19:09:06 206

原创 idea Java读取配置文件

读取配置文件的原因(更改配置文件参数,而不用改程序代码)在一个目录下见一个记事本,更改后缀为.properties比如:D:/ 1luchangshuai/ 2021/ 3/ 9/ aa.properties内容如下图所示。等号左右两边的内容分别为key和value,类似键值对Java程序代码:package cn.kgc.kb11.util;import java.io.BufferedReader;import java.io.FileInputStream;import

2021-03-09 14:27:47 495

原创 Tomcat安装及配置

Tomcat文件介绍介绍:Windows下安装Tomcat修改配置文件修改环境变量windows下开启Tomcat虚拟机linux安装Tomcat打开虚拟机,MobaXterm远程连接先在linux安装unzip软件--------(yum install -y unzip)将Tomcat的zip压缩包拖入software文件夹下安装Tomcat软件----------(unzip apache-tomcat-8.5.45.zip)进入文件夹“apache-tomcat-8.5.

2021-03-04 18:34:29 409 1

原创 mysql触发器

作用触发器连接两个表,表1进行insert/ updatet/ delete三种操作时,表2会根据触发器定义记录内容;触发器可以比作存储过程。语法创建:delimiter &&(注释:也可以用//,表示语句结束符从;变成&&)create trigger 触发器名字 触发时间 触发事假 on 表名 for each rowbegin触发器内容;end&&delimiter ;(作用是将语句结束符改回;)注意:触发器语句写错了不报错,

2021-03-02 13:55:30 60

原创 mysql事务、索引、视图、备份与恢复

事务语法:set autocommit=0;start transaction;<主体语句>;rollback;(或者commit;)set autocommit=1;以上语句分别为:关闭事务自动开启功能;开始事务;主体语句;返回;(结束事务;)开启事务自动开启功能;事务的四大特征:原子性,一致性,隔离性,持久性;索引语法:创建索引create [unique | fulltext | spatial] index index_name on table_na

2021-03-01 14:15:00 68

原创 mysql查询select语句

语法:select 列名 from 表名 where 表达式distinct去重复语法:select distinct 列名 from 表名;as重命名列,给表起别名(表后的as可以省略)语法:select gradeid as ‘年级’ from 表名 as 别名select直接进行运算,返回运算结果语法:select 1+2+3+4+5 as sum;**rand()**表示随机数;**round(a,n)**表示a数据留取n位小数;**now()**是当前时间,date

2021-02-25 15:03:28 123

原创 Mysql建表、插入、删除、改写

1.关于数据表的操作查看所有表show tables;新建数据表create table[if not exists] 表名(字段名1 列类型[属性][索引][注释],字段名2列类型[属性][索引][注释])engine myisam charset utf8;查看数据表字段信息desc 表名;查看建表语句show create table 表名;查看数据表里的所有数据select * from 表名;2.增往哪个表,哪几列里插入数据,可连续插入多行:insert into

2021-02-24 18:26:10 159

原创 虚拟机安装教程

1. VMware程序安装2. 虚拟机安装创建虚拟机2.1 点击创建新的虚拟机,进入新建虚拟机向导2.2 选择“经典”,下一步2.3 选择“稍后安装”,下一步2.4 选择“Linux(L)”,选择“CentOS 7 64位”,下一步2.5 虚拟机名称“CentOS7”,位置“D:\xuniji\CentOS7”,可以自己选择名称和安装位置,需要至少100G空间。下一步2.6 最大磁盘大小选择20.0GB,选择“将虚拟磁盘拆分成多个文件(M)”,下一步2.7 点击“自定义硬件”,进入硬件属性

2021-02-20 15:43:51 866

原创 Java使用IO操作文件

创建文件已有目录下创建文件:// 已有目录下创建文件:public class TestFile{ public static void main(String []args){ File file=new File("D:/myDoc/new.txt"); //该目录D:/myDoc已存在; try{ file.createNewFile(); //核心就是这一句! }catch(IOException e){ e.printSta

2021-01-29 14:58:36 77

原创 Java-Map和泛型

MapHashMap对象存储的是键值对;遍历方法:EntrySet(); 方法,获取键值对,返回一个Set的对象;keySet(); 方法,获取键值,返回一个Set对象;values();方法,获取value值,返回一个Collection的对象;示例:// HashMap的使用:import java.util.*;public class TestHashMap{ public static void main(String[]args){ HashMap map=new H

2021-01-26 16:56:17 419

原创 Java高级API-List和Set

API是什么Application Programming Interface:应用程序编程接口;Java API是指Java标准类库提供的函数;Android API是指android SDK函数库;网站API是指网站提供的接口,比如登录验证,信息查询,支付等;windows API是指windows操作系统的API.Java集合框架Collection-list-set三个接口的区别Collection接口:元素无序可重复;1.1 list子接口:元素有序可重复;(三种遍历方式

2021-01-25 18:20:08 160

原创 Java面向对象-多态、抽象类、接口

什么是多态?多态是子类对象引用父类类型。向上转型和向下转型向上转型:子类对象指向父类引用// Pet为抽象父类,Dog为子类,Pet中包含抽象方法toHospital();Pet a=new Dog();//子类到父类的转换a.toHospital();//会调用Dog的toHospital()方法,而不是调用父类Pet的方法。(a也无法调用Dog特有的方法了)向下转型:父类引用赋值给子类引用需要先用instanceof判断指向父类引用的子类对象和将要被赋值的引用的类是否存在继承关系

2021-01-20 17:16:41 83 1

原创 Java面向对象-封装与继承

面向对象的三个特征:封装,继承和多态封装:将类的某些信息隐藏在类的内部,不允许外部直接访问,而是通过该类提供的方法对隐藏信息进行写入和读出;封装是通过private来隐藏属性,通过setter来写入(加入限制条件),通过getter来读出;隐藏+写入的话:public class Person{ Private String sex; public void setSex(String sex){ if(sex.equals("男")||sex.equals("女")){ this.sex

2021-01-20 00:01:37 130 7

原创 Java面向对象-认识类与对象

类定义:类是具有相同属性和方法的一组对象的集合;一个.java文件中,只能有一个public类,可以有多个外部类;类的定义:[访问修饰符] class 类名{ }1.访问修饰符是public,private等;2.class是申明类的关键字;3.类名的首字母要大写,类名和.java的文件名一致;public class Leiming{}属性定义:[访问修饰符] 数据类型 属性名;1.属性名可以初始化,否则为默认值(这里的变量为成员变量,如果在方法里的变量为局部变量,局部变量没有

2021-01-14 16:28:24 52

原创 Java基础应用--吃货联盟订餐系统

总体框架流程图Created with Raphaël 2.2.0开始弹出主界面,提示选择输入1~6;输入数字>=6结束跳转到数字n的界面,输入数字0跳回主界面yesno

2021-01-13 18:53:55 682

原创 一维数组-插入元素与选择排序

数组的基本要素标识符–>数组名;数组元素–>值;元素下标:–>从0开始;元素类型–>类型;数组的申明-分配空间-赋值-处理正常情况下:int[]a;a=new int[5];a[0]=8;a[0]=a[0]*10;还可以声明+分配空间:int[]a=new int[5];还可以声明+初始化:int[]a={1,2,3,4,5};还可以声明+初始化:int[]a=new int[]{1,2,3,4,5};//**指定长度就是错的;**还可以

2021-01-11 20:21:57 386 1

原创 Java多重循环

break语句用于while, do while, for循环语句中,可以跳出该循环,执行循环后面的语句;用于switch语句时,可以跳出switch语句;continue用于while, do while, for循环语句中,可以跳过本次循环后面的语句,而执行下一次循环;return语句用于跳出方法,方法后面会讲for二重循环示例用“*”打一个三角形;public class Lianxi{ public static void main(String[]args){ for(int

2021-01-08 23:11:05 59

原创 Java循环语句

循环的四个条件:初始部分,循环条件,循环体,更新循环变量while语句boolean条件语句为true时,执行循环体;i++为i自增加,是boolean表达式的值变化;如果while只有一条语句,可以省略大括号;while(boolean条件){循环体;i++;}do-while语句和while语句相比,do-while会先执行一遍循环体(试点)do{循环体;i++;}while(boolean语句);for语句首先给变量i做定义和初始化,然后判断i的boolean条件语

2021-01-07 14:31:23 74

原创 Java选择语句

1.条件运算符条件?表达式1:表达式2;解释:先计算条件结果,如果是true的话,执行表达式1;如果是false的话,执行表达式2;int min;min=5<7?5:7;System.out.println(min);//表示定义整形变量min,判断5<7的结果,明显是true,所有执行第一个表达式,即将5赋值给min,则输出结果为5;2.if分支语句if或者else里只有1条语句时,可以省略大括号if(表达式1){表达式2;}//表示表达式1的结果为true的话,执

2021-01-06 19:12:41 113

原创 Java变量与数据类型

1.数据类型数据类型大小byte1字节8位short2字节16位int4字节32位long8字节64位float4字节32位浮点数double8字节64位浮点数2.变量申明public class HelloWorld{ public static void main(String[]args){ float a=1f; String b="你好"; char='你好';// float定义变量,赋值后必须加f,否则小数

2021-01-05 15:07:49 88

原创 Java基础知识

Java程序结构public class HelloWorld{ public static void main(String[]args){ System.out.println("HelloWorld"); }}解释:public class:公共类,同一个文件只能有1个公共类,可以有多个类;HelloWorld:是文件名,首字母大写;static:静态的;void:无法返回值的方法;main:主方法;第二行总体叫做:可运行的主方法入口;string:字符串;[]数组;

2021-01-04 14:42:44 44

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除