自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

浪淘沙

把酒祝东风,且共从容。

  • 博客(83)
  • 资源 (3)
  • 收藏
  • 关注

原创 数据同步解决方案

一、实时同步1.使用GoldenGate使用GoldenGate完成MySQL到MySQL的同步 - gegeman - 博客园2.使用MaxWellGitHub - zendesk/maxwell: Maxwell's daemon, a mysql-to-json kafka producerhttps://github.com/zendesk/maxwell3.使用canalGitHub - alibaba/canal: 阿里巴巴 MySQL binlog 增量订阅&消

2022-01-21 17:19:22 958

原创 MaxCompute SQL调优

SQL成本计算=读取IO数据量*SQL复杂度所以,SQL调优可以从两方面入手:①减少数据量;②降低SQL复杂度一、减少数据量1.表分区优化(1)创建分区表(2)分区裁剪、避免全表扫描。(3)分区尽量使用常量、减少分区字段函数使用(4)分区按层级顺序裁剪(5)写入静态分区,优化数据存储;减少动态分区,防止小文件过多。2.列裁剪、条件过滤(1)避免使用select * ,查询需要的列(2)使用LimitN(3)使用条件过滤,pushdown.3.源表合并...

2022-01-05 10:46:19 1337

原创 JDK8新特性

一、接口的默认方法二、Lambda表达式1、Lambda表达式例子2.Lambda表达式语法三、函数式接口1.函数式接口介绍2.四大函数式接口四、方法引用和构造器引用

2021-08-23 21:48:46 119

原创 Mysql编码设置

mysql> show variables like 'collation_%'; mysql> show variables like 'character_set_%';缺省是latin1编码,会导致中文乱码。修改库的编码:mysql> alter database db_name character set utf8;修改表的编码:mysql> ALT...

2019-02-25 12:59:51 405

转载 三种方法解决 Job for network.service failed. See 'systemctl status network.service' and 'journalctl -xn'问题

 Failed to start LSB: Bring up/down networking 问题 1、执行 service network restart 出现以下错误Restarting networ

2019-02-21 20:10:23 11675 3

转载 Redis面试问题

Redis面试问题一、Redis简介  Redis是一个key-vakue存储系统,支持五种存储结构:String,Hash,List,Set,Sorted Set。与memcached一样为了保证效率,将数据储存在内存中。区别的是Redis会周期的把更新的数据写入磁盘或者把修改操作写入追加的文件中,并在此基础上实现了主从同步。二、Redis详细介绍2.1 Redis每种数据类型的使用场景...

2019-02-20 13:16:45 363

原创 RE(正则)和Xpath

正则表达式re匹配中文:[u4e00-u9fa5]是一个计算机科学的概念用于使用单个字符串来描述,匹配符合某个规则的字符串常常用来检索,替换某些模式的文本正则的语法.(点号)表示任意一个字符,除了\n,比如查找所有的一个字符.[]:匹配括号中列举的任意字符,比如[L,Y,0]\d:任意一个数字\D:除了数字都可以\s:表示空格、tab键\S:除了空白符号\w:单词字符...

2018-12-27 20:15:12 1292

原创 大数据面试总结

1.spark面试题:https://blog.csdn.net/wodwl/article/details/833014222.大数据学习题库:http://www.k6k4.com/simple_question/qlist?cat1=43.java面试常见问题https://www.cnblogs.com/java1024/p/7685400.html...

2018-12-27 12:59:30 279

原创 Python3爬虫学习笔记一 (get,post,cookie,proxy,agent)

No.1 第一个python爬虫练习from urllib import request,parseimport chardetif __name__ == '__main__': url = 'https://blog.csdn.net/m0_37355951/article/details/80457159' rsp = request.urlopen(url) ...

2018-12-26 14:09:49 997

原创 hive 窗口分析函数

hive 窗口分析函数0: jdbc:hive2://localhost:10000> select * from t_access;±---------------±--------------------------------±----------------------±-------------±-+| t_access.ip | t_access.u...

2018-12-24 17:20:07 177

原创 数据仓库问题总结

1.在关系模型中,实现“关系中不允许出现相同的元组”的约束是通过 “主键” 完成的。2.在MySql中,concat函数的作用是是将传入的参数连接成为一个字符串,则concat(’aaa’,null,’bbb’)的结果是( NULL)3.关于添加带自增列的数据:自增的列无须显式地添加。如需添加全部字段数据时,仅需表名,可省略全部字段4.YARN支持的调度语义: 请求节点no...

2018-12-03 19:37:31 2440

转载 往gitHub上上传自己的项目

1。首先你得注册一个自己的GitHub账号,注册网址:https://github.com/join有了自己的账号以后,就可以进行登录,开始创建一个新的项目2.创建一个新的项目,填写项目名称,描述3.创建完成之后,跳转到下面的页面,下面红框中的网址要记住,在后面上传代码的时候需要使用4.接下来,我们需要先下载Git,这里最好下载最新版本的Git,安装时如果没有特殊需求,一直下一...

2018-12-02 17:27:27 172

原创 SparkStreaming编程实现

1.产生实时流nc -lk 1234hello hadoop wordhello spark hbasehive hello china​2.MyNetworkWordCount.scalapackage day10import org.apache.log4j.{Level, Logger}import org.apache.spark.SparkConfi...

2018-10-14 21:49:47 251

原创 SparkStreaming学习笔记

一、Spark Streaming基础     1:什么是SparkStreaming?        (*)Spark Streaming是核心Spark API的扩展,可实现可扩展、高吞吐量、可容错的实时数据流处理。数据可以从诸如Kafka,Flume,Kinesis或TCP套接字等众多来源获取,并且可以使用由高级函数(如map,reduce,join和window)开发的复杂算法进...

2018-10-14 21:17:55 242

原创 SparkStreaming_Kafka_Redis整合

1.将kafka  streaming 和 redis整合 实现词频统计   Producer.class  生成数据daokafkapackage day14;/** * 创建一个生产者 生成随机的key 和 字母 * 用于实现实时流统计词频 并 存储到redis */import org.apache.kafka.clients.producer.KafkaProduce...

2018-10-14 20:56:53 1046

原创 Redis学习笔记

优秀文档:https://www.cnblogs.com/bigben0123/p/9115597.html1:redis的简介和特点     Redis是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库,并提供多种语言的API。    (*)前身:Memcached    (*)区别:支持持久化,RDB、AOF        ...

2018-10-14 20:25:33 178

原创 Kafka学习笔记

一、Kafka介绍      1.1简介        Apache Kafka 是分布式发布-订阅消息系统(消息中间件)。它最初由 LinkedIn 公司开发,之后成为 Apache 项目的一部分。Kafka 是一种快速、可扩展的、设计内在就是分布式的,分区的和可复制的提交日志服务。Apache Kafka 与传统消息系统相比,有以下不同:它是分布式系统,易于向外扩展; 它同时...

2018-10-14 19:46:07 336

原创 Flume学习笔记

flume学习笔记 一、什么是Flume?    Apache Flume 是一个从可以收集例如日志,事件等数据资源,并将这些数量庞大的数据从各项数据资源中集中起来存储的工具/服务,或者数集中机制。flume具有高可用,分布式,配置工具,其设计的原理也是基于将数据流,如日志数据从各种网站服务器上汇集起来存储到HDFS,HBase等集中存储器中。二、flume特性    F...

2018-10-14 18:09:11 482

原创 KafKa 代码实现

1.消费者import org.apache.kafka.clients.consumer.ConsumerRecord;import org.apache.kafka.clients.consumer.ConsumerRecords;import org.apache.kafka.clients.consumer.KafkaConsumer;import org.apache....

2018-10-12 23:13:27 1845

原创 SparkCore 编程

1.sparkCore实现wordCount(Idea+scala)import org.apache.spark.{SparkConf, SparkContext}object wordCount { def main(args: Array[String]): Unit = { //设置本地运行 2核 val conf = new SparkConf().se...

2018-10-12 22:01:03 204

原创 Spark工具包

1.ApacheAccessLog解析下列数据194.237.142.21 - - [18/Sep/2013:06:49:18 +0000] "GET /wp-content/uploads/2013/07/rstudio-git3.png HTTP/1.1" 304 0 "-" "Mozilla/4.0 (compatible;)"183.49.46.228 - - [18/Sep/...

2018-10-12 21:52:39 573

原创 spark求最受欢迎的老师的问题

文件内容:http://bigdata.edu360.cn/zhangsanhttp://bigdata.edu360.cn/zhangsanhttp://bigdata.edu360.cn/lisihttp://bigdata.edu360.cn/lisi1.求最受欢迎的老师,不考虑课程类别(然后类似于wordCount)import java.net.URLimpor...

2018-10-12 11:18:39 1034 6

原创 Sprak学习--Maven实现之pom.xml配置

<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://

2018-10-12 10:47:12 147

原创 Spark 实现两表查询(SparkCore和SparkSql)

项目需求:ip.txt:包含ip起始地址,ip结束地址,ip所属省份access.txt:包含ip地址和各种访问数据需求:两表联合查询每个省份的ip数量SparkCore使用广播,将小表广播到executor.对大表的每条数据都到小表中进行查找。package day07import java.sql.DriverManagerimport org.apache....

2018-09-30 11:08:35 3849

原创 SparkSql学习笔记一

一、SparkSql介绍1.简介    Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。    为什么要学习Spark SQL?    我们已经学习了Hive,它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduce的程序的复杂性,由于MapReduce这...

2018-09-30 10:57:13 197

原创 Spark Core 学习笔记

SparkCore学习笔记1:Spark Core:内核,也是Spark中最重要的部分,相当于Mapreduce                SparkCore 和 Mapreduce都是进行离线数据分析                SparkCore的核心:RDD(弹性分布式数据集),由分区组成                2:Spark Sql:相当于Hive       ...

2018-09-29 20:53:09 425

原创 Scala学习笔记

大数据框架(处理海量数据/处理实时流式数据)    一:以hadoop2.X为体系的海量数据处理框架        离线数据分析,往往分析的是N+1的数据        - Mapreduce            并行计算,分而治之            - HDFS(分布式存储数据)            - Yarn(分布式资源管理和任务调度)            缺点: ...

2018-09-27 22:00:50 760

原创 Spark实现排序

question: 用spark对数据进行排序,首先按照颜值的从高到低进行排序,如果颜值相等,在根据年龄的升序排序1.User类继承ordered,并且序列化package cn.edu360.spark.day06import org.apache.log4j.{Level, Logger}import org.apache.spark.rdd.RDDimport org.ap...

2018-09-27 21:22:27 1885

原创 Hbase学习笔记

一、Hbase简介1.什么是Hbase    HBASE是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBASE技术可在廉价PC Server上搭建起大规模结构化存储集群。    HBASE的目标是存储并处理大型的数据,更具体来说是仅需使用普通的硬件配置,就能够处理由成千上万的行和列所组成的大型数据。    HBASE是Google Bigtable的开源实现,但是也有很多不...

2018-09-27 17:47:41 166

原创 ZooKeeper学习

一、Zookeeper概念简介1.zookeeper是为别的分布式应用程序提供协调服务的。2.zookeeper本身就是一个分布式程序,(只要有半数节点存活,就能正常服务。适合奇数节点)3.提供的服务:主从协调,服务器节点动态上下线,统一配置管理,分布式共享锁,同意名称服务。4.底层只有两个服务:          管理(存储,读取)用户程序提交的数据          并...

2018-09-07 21:21:50 194

原创 Hive学习

一、什么是hive?         Hive是基于Hadoop的一个数据仓库工具(离线),可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。特点:可扩展Hive可以自由的扩展集群的规模,一般情况下不需要重启服务。延展性Hive支持用户自定义函数,用户可以根据自己的需求来实现自己的函数。容错良好的容错性,节点出现问题SQL仍可完成执行。二、安装hive...

2018-09-03 18:44:14 314

原创 MapReduce操作实例

 一、wordcount(1)纯本地运行要点:有一个combiner方法,可以在执行完map时调用,从而对数据进行先一步的处理,降低Reduce的IO压力。MapTask.javaimport java.io.IOException;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.L...

2018-08-27 18:49:13 1236

原创 HDFS基本操作

一、hadoop搭建    1、修改主机名    2、ip等    3、主机映射    4、关闭防火墙(两种)    5、ssh免密登录(免密脚本)    6、安装jdk 配置环境变量    7、安装hadoop        配置文件的修改        hadoop-env.sh    JAVA_HOME        core-site.xml    客户端参数    n...

2018-08-21 20:54:02 1251

原创 Shell学习总结

shell编程一、基础指令    1.ls指令        ../    上级目录        ./    当前目录        ls -al                     -l 表示list,一详细列表的形式显示            -a 表示显示所有目录和文件    2.pwd指令    3.cd指令        cd~    回到家目录    4....

2018-08-16 17:13:28 574

原创 Linux学习

一、基础指令    1.ls指令        ../    上级目录        ./    当前目录        ls -al                     -l 表示list,一详细列表的形式显示            -a 表示显示所有目录和文件    2.pwd指令    3.cd指令        cd~    回到家目录    4.midir指令 ...

2018-07-31 23:03:59 410

原创 Springmvc学习总结

1、Springmvc是属于表现层的框架,是Spring框架的一部分。2、创建动态web工程,导入jar包。3、创建Springmvc.xml<?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="h...

2018-07-20 09:46:02 176

原创 Spring学习笔记_2

1.基于aspectj的注解aop操作(会用) 1.1创建对象 <bean id= "user" class="com.edu.nuc.bean.User"></bean> <bean id= "myUser" class="com.edu.nuc.bean.MyUser"></bean> 1.2在配置文件中打开

2018-07-14 18:25:22 132

原创 关于数组的算法

1.将一个正方形数组顺时针旋转90°。package algorithm;/** * * @author hasee * */public class RotageOrderPrint { public static void main(String[] args) { // TODO Auto-generated method stub int[][] arr= new...

2018-07-13 21:03:50 260

原创 桶排序的算法

1.求一个无序数组排好序后,相邻元素差值最大为多少,时间复杂度为O(N)思路:设数组的长度为len,创建三个长度为len+1的(桶)数组。将数组的元素根据大小放在不同的桶中,其中,必定有差值大于一个桶的差存在,故同一个桶中不可能出现差值最大的。三个数组,一个为maxs,一个为mins,一个为hasNum.package algorithm;/** * 求一个无序数组排好序后,相邻元素差值最大为...

2018-07-13 21:00:33 141

原创 关于队列的几个小算法

1、用静态数组实现队列的基本操作    思路 :创建3个变量,start,end,size; size用来查看数组的长度,从而实现添加和删除的长度控制。当添加数据时,如果end=size-1;说明end已经指向最后一位。所以:end = end==size-1 ? 0 : end++;    当删除数据时,若size>0.删除start指向的数据,start = ...

2018-07-13 20:42:42 1835

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除