曼路-CSDN博客

原创数据同步解决方案

一、实时同步1.使用GoldenGate使用GoldenGate完成MySQL到MySQL的同步 - gegeman - 博客园2.使用MaxWellGitHub - zendesk/maxwell: Maxwell's daemon, a mysql-to-json kafka producerhttps://github.com/zendesk/maxwell3.使用canalGitHub - alibaba/canal: 阿里巴巴 MySQL binlog 增量订阅&消

2022-01-21 17:19:22 958

原创 MaxCompute SQL调优

SQL成本计算=读取IO数据量*SQL复杂度所以，SQL调优可以从两方面入手：①减少数据量；②降低SQL复杂度一、减少数据量1.表分区优化（1）创建分区表（2）分区裁剪、避免全表扫描。（3）分区尽量使用常量、减少分区字段函数使用（4）分区按层级顺序裁剪（5）写入静态分区，优化数据存储；减少动态分区，防止小文件过多。2.列裁剪、条件过滤（1）避免使用select * ，查询需要的列（2）使用LimitN(3)使用条件过滤，pushdown.3.源表合并...

2022-01-05 10:46:19 1337

原创 JDK8新特性

一、接口的默认方法二、Lambda表达式1、Lambda表达式例子2.Lambda表达式语法三、函数式接口1.函数式接口介绍2.四大函数式接口四、方法引用和构造器引用

2021-08-23 21:48:46 119

原创 Mysql编码设置

mysql> show variables like 'collation_%'; mysql> show variables like 'character_set_%';缺省是latin1编码，会导致中文乱码。修改库的编码：mysql> alter database db_name character set utf8;修改表的编码：mysql> ALT...

2019-02-25 12:59:51 405

转载三种方法解决 Job for network.service failed. See 'systemctl status network.service' and 'journalctl -xn'问题

&amp;amp;amp;nbsp;Failed to start LSB: Bring up/down networking 问题&amp;amp;amp;nbsp;1、执行&amp;amp;amp;nbsp;service network restart&amp;amp;amp;nbsp;出现以下错误Restarting networ

2019-02-21 20:10:23 11675 3

转载 Redis面试问题

Redis面试问题一、Redis简介 Redis是一个key-vakue存储系统，支持五种存储结构：String,Hash,List,Set,Sorted Set。与memcached一样为了保证效率，将数据储存在内存中。区别的是Redis会周期的把更新的数据写入磁盘或者把修改操作写入追加的文件中，并在此基础上实现了主从同步。二、Redis详细介绍2.1 Redis每种数据类型的使用场景...

2019-02-20 13:16:45 363

原创 RE(正则)和Xpath

正则表达式re匹配中文：[u4e00-u9fa5]是一个计算机科学的概念用于使用单个字符串来描述，匹配符合某个规则的字符串常常用来检索，替换某些模式的文本正则的语法.(点号)表示任意一个字符，除了\n,比如查找所有的一个字符.[]:匹配括号中列举的任意字符，比如[L,Y,0]\d:任意一个数字\D:除了数字都可以\s:表示空格、tab键\S:除了空白符号\w:单词字符...

2018-12-27 20:15:12 1292

原创大数据面试总结

1.spark面试题：https://blog.csdn.net/wodwl/article/details/833014222.大数据学习题库：http://www.k6k4.com/simple_question/qlist?cat1=43.java面试常见问题https://www.cnblogs.com/java1024/p/7685400.html...

2018-12-27 12:59:30 279

原创 Python3爬虫学习笔记一 (get,post,cookie,proxy,agent)

No.1 第一个python爬虫练习from urllib import request,parseimport chardetif __name__ == '__main__': url = 'https://blog.csdn.net/m0_37355951/article/details/80457159' rsp = request.urlopen(url) ...

2018-12-26 14:09:49 997

原创 hive 窗口分析函数

hive 窗口分析函数0: jdbc:hive2://localhost:10000> select * from t_access;±---------------±--------------------------------±----------------------±-------------±-+| t_access.ip | t_access.u...

2018-12-24 17:20:07 177

原创数据仓库问题总结

1.在关系模型中，实现“关系中不允许出现相同的元组”的约束是通过 “主键” 完成的。2.在MySql中，concat函数的作用是是将传入的参数连接成为一个字符串，则concat（’aaa’,null,’bbb’）的结果是（ NULL）3.关于添加带自增列的数据：自增的列无须显式地添加。如需添加全部字段数据时，仅需表名，可省略全部字段4.YARN支持的调度语义: 请求节点no...

2018-12-03 19:37:31 2440

转载往gitHub上上传自己的项目

1。首先你得注册一个自己的GitHub账号，注册网址：https://github.com/join有了自己的账号以后，就可以进行登录，开始创建一个新的项目2.创建一个新的项目，填写项目名称，描述3.创建完成之后，跳转到下面的页面，下面红框中的网址要记住，在后面上传代码的时候需要使用4.接下来，我们需要先下载Git，这里最好下载最新版本的Git，安装时如果没有特殊需求，一直下一...

2018-12-02 17:27:27 172

原创 SparkStreaming编程实现

1.产生实时流nc -lk 1234hello hadoop wordhello spark hbasehive hello china2.MyNetworkWordCount.scalapackage day10import org.apache.log4j.{Level, Logger}import org.apache.spark.SparkConfi...

2018-10-14 21:49:47 251

原创 SparkStreaming学习笔记

一、Spark Streaming基础 1：什么是SparkStreaming？（*）Spark Streaming是核心Spark API的扩展，可实现可扩展、高吞吐量、可容错的实时数据流处理。数据可以从诸如Kafka，Flume，Kinesis或TCP套接字等众多来源获取，并且可以使用由高级函数（如map，reduce，join和window）开发的复杂算法进...

2018-10-14 21:17:55 242

原创 SparkStreaming_Kafka_Redis整合

1.将kafka streaming 和 redis整合实现词频统计 Producer.class 生成数据daokafkapackage day14;/** * 创建一个生产者生成随机的key 和字母 * 用于实现实时流统计词频并存储到redis */import org.apache.kafka.clients.producer.KafkaProduce...

2018-10-14 20:56:53 1046

原创 Redis学习笔记

优秀文档：https://www.cnblogs.com/bigben0123/p/9115597.html1：redis的简介和特点 Redis是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库，并提供多种语言的API。（*）前身：Memcached （*）区别：支持持久化，RDB、AOF ...

2018-10-14 20:25:33 178

原创 Kafka学习笔记

一、Kafka介绍 1.1简介 Apache Kafka 是分布式发布-订阅消息系统（消息中间件）。它最初由 LinkedIn 公司开发，之后成为 Apache 项目的一部分。Kafka 是一种快速、可扩展的、设计内在就是分布式的，分区的和可复制的提交日志服务。Apache Kafka 与传统消息系统相比，有以下不同：它是分布式系统，易于向外扩展；它同时...

2018-10-14 19:46:07 336

原创 Flume学习笔记

flume学习笔记一、什么是Flume？ Apache Flume 是一个从可以收集例如日志，事件等数据资源，并将这些数量庞大的数据从各项数据资源中集中起来存储的工具/服务，或者数集中机制。flume具有高可用，分布式，配置工具，其设计的原理也是基于将数据流，如日志数据从各种网站服务器上汇集起来存储到HDFS，HBase等集中存储器中。二、flume特性 F...

2018-10-14 18:09:11 482

原创 KafKa 代码实现

1.消费者import org.apache.kafka.clients.consumer.ConsumerRecord;import org.apache.kafka.clients.consumer.ConsumerRecords;import org.apache.kafka.clients.consumer.KafkaConsumer;import org.apache....

2018-10-12 23:13:27 1845

原创 SparkCore 编程

1.sparkCore实现wordCount(Idea+scala)import org.apache.spark.{SparkConf, SparkContext}object wordCount { def main(args: Array[String]): Unit = { //设置本地运行 2核 val conf = new SparkConf().se...

2018-10-12 22:01:03 204

原创 Spark工具包

1.ApacheAccessLog解析下列数据194.237.142.21 - - [18/Sep/2013:06:49:18 +0000] "GET /wp-content/uploads/2013/07/rstudio-git3.png HTTP/1.1" 304 0 "-" "Mozilla/4.0 (compatible;)"183.49.46.228 - - [18/Sep/...

2018-10-12 21:52:39 573

原创 spark求最受欢迎的老师的问题

文件内容：http://bigdata.edu360.cn/zhangsanhttp://bigdata.edu360.cn/zhangsanhttp://bigdata.edu360.cn/lisihttp://bigdata.edu360.cn/lisi1.求最受欢迎的老师,不考虑课程类别(然后类似于wordCount)import java.net.URLimpor...

2018-10-12 11:18:39 1034 6

原创 Sprak学习--Maven实现之pom.xml配置

<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://

2018-10-12 10:47:12 147

原创 Spark 实现两表查询(SparkCore和SparkSql)

项目需求：ip.txt:包含ip起始地址，ip结束地址，ip所属省份access.txt:包含ip地址和各种访问数据需求：两表联合查询每个省份的ip数量SparkCore使用广播，将小表广播到executor.对大表的每条数据都到小表中进行查找。package day07import java.sql.DriverManagerimport org.apache....

2018-09-30 11:08:35 3849

原创 SparkSql学习笔记一

一、SparkSql介绍1.简介 Spark SQL是Spark用来处理结构化数据的一个模块，它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。为什么要学习Spark SQL？我们已经学习了Hive，它是将Hive SQL转换成MapReduce然后提交到集群上执行，大大简化了编写MapReduce的程序的复杂性，由于MapReduce这...

2018-09-30 10:57:13 197

原创 Spark Core 学习笔记

SparkCore学习笔记1：Spark Core：内核，也是Spark中最重要的部分，相当于Mapreduce SparkCore 和 Mapreduce都是进行离线数据分析 SparkCore的核心：RDD（弹性分布式数据集），由分区组成 2：Spark Sql：相当于Hive ...

2018-09-29 20:53:09 425

原创 Scala学习笔记

大数据框架（处理海量数据/处理实时流式数据）一：以hadoop2.X为体系的海量数据处理框架离线数据分析，往往分析的是N+1的数据 - Mapreduce 并行计算，分而治之 - HDFS（分布式存储数据） - Yarn（分布式资源管理和任务调度）缺点： ...

2018-09-27 22:00:50 760

原创 Spark实现排序

question：用spark对数据进行排序，首先按照颜值的从高到低进行排序，如果颜值相等，在根据年龄的升序排序1.User类继承ordered，并且序列化package cn.edu360.spark.day06import org.apache.log4j.{Level, Logger}import org.apache.spark.rdd.RDDimport org.ap...

2018-09-27 21:22:27 1885

原创 Hbase学习笔记

一、Hbase简介1.什么是Hbase HBASE是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBASE技术可在廉价PC Server上搭建起大规模结构化存储集群。 HBASE的目标是存储并处理大型的数据，更具体来说是仅需使用普通的硬件配置，就能够处理由成千上万的行和列所组成的大型数据。 HBASE是Google Bigtable的开源实现，但是也有很多不...

2018-09-27 17:47:41 166

原创 ZooKeeper学习

一、Zookeeper概念简介1.zookeeper是为别的分布式应用程序提供协调服务的。2.zookeeper本身就是一个分布式程序，(只要有半数节点存活，就能正常服务。适合奇数节点)3.提供的服务：主从协调，服务器节点动态上下线，统一配置管理，分布式共享锁，同意名称服务。4.底层只有两个服务：管理(存储，读取)用户程序提交的数据并...

2018-09-07 21:21:50 194

原创 Hive学习

一、什么是hive？ Hive是基于Hadoop的一个数据仓库工具(离线)，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。特点：可扩展Hive可以自由的扩展集群的规模，一般情况下不需要重启服务。延展性Hive支持用户自定义函数，用户可以根据自己的需求来实现自己的函数。容错良好的容错性，节点出现问题SQL仍可完成执行。二、安装hive...

2018-09-03 18:44:14 314

原创 MapReduce操作实例

一、wordcount(1)纯本地运行要点：有一个combiner方法，可以在执行完map时调用，从而对数据进行先一步的处理，降低Reduce的IO压力。MapTask.javaimport java.io.IOException;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.L...

2018-08-27 18:49:13 1236

原创 HDFS基本操作

一、hadoop搭建 1、修改主机名 2、ip等 3、主机映射 4、关闭防火墙(两种) 5、ssh免密登录(免密脚本) 6、安装jdk 配置环境变量 7、安装hadoop 配置文件的修改 hadoop-env.sh JAVA_HOME core-site.xml 客户端参数 n...

2018-08-21 20:54:02 1251

原创 Shell学习总结

shell编程一、基础指令 1.ls指令 ../ 上级目录 ./ 当前目录 ls -al -l 表示list,一详细列表的形式显示 -a 表示显示所有目录和文件 2.pwd指令 3.cd指令 cd~ 回到家目录 4....

2018-08-16 17:13:28 574

原创 Linux学习

一、基础指令 1.ls指令 ../ 上级目录 ./ 当前目录 ls -al -l 表示list,一详细列表的形式显示 -a 表示显示所有目录和文件 2.pwd指令 3.cd指令 cd~ 回到家目录 4.midir指令 ...

2018-07-31 23:03:59 410

原创 Springmvc学习总结

1、Springmvc是属于表现层的框架，是Spring框架的一部分。2、创建动态web工程，导入jar包。3、创建Springmvc.xml<?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="h...

2018-07-20 09:46:02 176

原创 Spring学习笔记_2

1.基于aspectj的注解aop操作（会用） 1.1创建对象 <bean id= "user" class="com.edu.nuc.bean.User"></bean> <bean id= "myUser" class="com.edu.nuc.bean.MyUser"></bean> 1.2在配置文件中打开

2018-07-14 18:25:22 132

原创关于数组的算法

1.将一个正方形数组顺时针旋转90°。package algorithm;/** * * @author hasee * */public class RotageOrderPrint { public static void main(String[] args) { // TODO Auto-generated method stub int[][] arr= new...

2018-07-13 21:03:50 260

原创桶排序的算法

1.求一个无序数组排好序后，相邻元素差值最大为多少，时间复杂度为O(N)思路：设数组的长度为len，创建三个长度为len+1的（桶）数组。将数组的元素根据大小放在不同的桶中，其中，必定有差值大于一个桶的差存在，故同一个桶中不可能出现差值最大的。三个数组，一个为maxs,一个为mins，一个为hasNum.package algorithm;/** * 求一个无序数组排好序后，相邻元素差值最大为...

2018-07-13 21:00:33 141

原创关于队列的几个小算法

1、用静态数组实现队列的基本操作思路：创建3个变量，start,end,size; size用来查看数组的长度，从而实现添加和删除的长度控制。当添加数据时，如果end=size-1;说明end已经指向最后一位。所以：end = end==size-1 ? 0 : end++; 当删除数据时，若size>0.删除start指向的数据，start = ...

2018-07-13 20:42:42 1835

mysql-connector-java-5.1.10-bin.jar

MYSQL-jdbc.jr

空空如也