zhuzuwei-CSDN博客

原创 007_centos使用paddlepaddle报错ImportError: /lib64/libstdc++.so.6: version `GLIBCXX_3.4.20‘ not found

在import paddle时报错 ImportError: /lib64/libstdc++.so.6: version `GLIBCXX_3.4.20' not found (required by /home/anaconda38/lib/python3.8/site-packages/paddle/fluid/libpaddle.so)3. 选择版本相同或更高的一个 libstdc++.so，查看其中是否存在GLIBCXX_3.4.20。2. 查看其他位置是否存在libstdc++.so。

2023-07-28 13:23:43 1215

原创 linux部署Python项目，并解决依赖自定义模块报错问题

背景：windows中使用pycharm完成python项目，需在linux部署。

2022-08-08 09:50:38 853 1

转载 RPM命令的--nodeps 和--force参数解释

1.--nodeps就是安装时不检查依赖关系，比如你这个rpm需要A，但是你没装A，这样你的包就装不上，用了--nodeps你就能装上了。2.--force就是强制安装，比如你装过这个rpm的版本1，如果你想装这个rpm的版本2，就需要用--force强制安装。转载自RPM命令的--nodeps 和--force参数解释_xufengzhu的博客-CSDN博客_nodeps...

2022-05-30 15:12:49 4897 1

原创 Linux离线环境安装bzip2

1.下载离线安装包 bzip2-1.0.6-13.el7.x86_64.rpm http://mirror.centos.org/centos/7/os/x86_64/Packages/bzip2-1.0.6-13.el7.x86_64.rpm 2. 上传文件到离线的Linux系统上3.执行命令 rpm -ivh bzip2-1.0.6-13.el7.x86_64.rpm4.执行bzip2 --help测试安装成功...

2022-05-27 13:57:45 3646 2

原创 spark分布式安装

1

2020-10-17 14:36:57 286

原创 sqoop的安装和导入数据到hdfs和hive

一、Sqoop 安装1. 下载sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz2. 通过sftp 从本地传到Linux3. 解压 tar -xzvfsqoop-1.4.7.bin__hadoop-2.6.0.tar.gz4. 配置/etc/profileexport SQOOP_HOME=/usr/local/sqoop-1.4.7export PATH=$PATH:$SQOOP_HOME/bin5. 配置sqoop环境cd/home/hadoop/...

2020-10-11 22:31:03 406

原创 Hive SQL执行mapreduce任务卡在Kill Command

执行 select sid,count(*) as cn from student group by sid;任务一直卡住如下：2020-10-11T14:00:31,407 INFO [main] exec.Task: Kill Command = /usr/local/hadoop-2.7.6/bin/hadoop job -kill job_1602395744321_0002 我的集群部署出错的地方在于hadoop的slaves文件中只配置了2个datanode，而...

2020-10-11 14:52:12 2085

原创 Hive的安装配置

操作系统centOS 6.5Hadoop版本：hadoop 2.7.6JDK版本：JDK 1.8ant版本：ant 1.10.5mysql版本：mysql 5.7一、安装准备1. 从官网下载解压hive的bin压缩文件 , 此处使用的是hive-2.1.1版本2. 通过ftp传输到linux系统，使用tar -xzvf apache-hive-2.1.1-bi...

2020-10-11 14:37:39 389

原创 Flink学习22---window和Time（五）WaterMark延迟触发任务机制

此处举例说明WaterMark可能更容易理解，以EventTimeTumblingWindow为例：如果设置窗口时间大小是10秒，窗口的边界可以是10000-19999；WaterMark延迟2秒，那么当EventTime为21999的数据来到时，会触发计算EventTime为21999之前的所有EventTime在10000-19999之间的数据。即，真实要计算的时间窗口不变，部分迟到的数据会被纳入这个窗口一起计算。如果是多并行的source,则每个分区中都要满足上述条件，才会触发计算

2020-07-14 01:43:10 582

原创 Flink学习21---window和Time（四）会话窗口SessionWindow

输入样例数据如下，SessionWinow会把1588510000-1588515000划分为一个窗口，1588526100-1588535000作为第二个窗口，然后分别对每个窗口中的数据进行计算。package flink.review.datastream.E_Window;import com.demo.flink.countWindow.CountWindow;import com.demo.flink.timeWindow.SessionWindow;import o.

2020-07-13 00:12:26 640

原创 Flink学习20---window和Time（三）TimeTumblingWindw时间滚动窗口

如下代码中，时间滚动窗口的大小是10秒，可知，1588490000至1588499999为一个窗口，本例测试数据可分为两个窗口，输出结果如下。import org.apache.flink.api.common.functions.MapFunction;import org.apache.flink.api.java.tuple.Tuple2;import org.apache.flink.api.java.tuple.Tuple3;import org.apache.fl...

2020-07-12 22:40:28 670

转载 Flink学习19---window和Time（二）Time与watermarks详解

当我们在使用Flink的时候，避免不了要和时间(time)、水位线(watermarks)打交道，理解这些概念是开发分布式流处理应用的基础。那么Flink支持哪些时间语义？Flink是如何处理乱序事件的？什么是水位线？水位线是如何生成的？水位线的传播方式是什么？让我们带着这些问题来开始本文的内容。时间语义基本概念时间是Flink等流处理中最重要的概念之一，在 Flink 中 Time 可以分为三种：Event-Time，Processing-Time 以及 Ingestion-Time，如下图所

2020-07-12 21:48:01 545 1

转载 Flink学习18---window和Time（一）window全面解析

Flink认为Batch是Streaming的一个特例，window就是用来对一个无限的流设置一个有限的集合，从而在有界的数据集上进行操作的一种机制。一、Window简介1.Window根据类型可分为两种： (1) Tumbling Window: 滚动窗口，窗口内数据没有重叠；（2）Sliding Window: 滑动窗口，窗口内数据有重叠。可以根据Time,Count或者自定义划分Window，每种划分又可以分别对应滚动和滑动。2. TimeWindow 根据时间对数...

2020-07-12 21:47:47 1996 1

原创 Flink学习17---容错机制（七）深入理解KeyedState，使用keyedState实现累加功能

直接上代码如下：import org.apache.flink.api.common.functions.MapFunction;import org.apache.flink.api.common.restartstrategy.RestartStrategies;import org.apache.flink.api.java.tuple.Tuple;import org.apache.flink.api.java.tuple.Tuple2;import org.apache.flink.

2020-07-12 18:20:54 513

原创 Flink学习16---容错机制（六）深入理解OperatorState，自定义实现ExactlyOnce多并行Source

FlinkKafkaConsumer内部实现了ExactlyOnce，如果使用自定义多并行Source,也可以借助Operator实现ExactlyOnce。import org.apache.flink.api.common.state.ListState;import org.apache.flink.api.common.state.ListStateDescriptor;import org.apache.flink.api.common.typeinfo.Types;import.

2020-07-12 17:49:59 855

原创 Flink学习15---容错机制（五）checkpoints保存报错 Could not flush and close the file system output stream to hdfs

在保存checkpints的时候，可能会出现保存失败的情况。我遇到的报错如下：Could not flush and close the file system output stream to hdfs:....could only be replicated to 0 nodes instead of minReplication (=1). There are 2 datanode(s) running and no node(s) are excluded in this operation

2020-07-11 01:28:25 1283

原创 Flink学习14---容错机制（四）StateBackend和SavePoint的使用

1. 设置StateBackend 模式，此处以保存到hdfs为例在flink-conf.yaml中设置 state.backend为filesystem；设置state.backend.fs.checkpointdir 即checkpoints的保存路径。也可在程序中指定checkpoints的保存路径。env.setStateBackend(new FsStateBackend("hdfs://192.168.***.***:9000/flink/checkpoints"));注

2020-07-11 01:20:07 1079

原创 Flink学习13---容错机制（三）KeyedState和OperatorState认识

现结合Kafka数据源，利用KeyedState实现累加功能，通过OperatorState记录已读取数据偏移量，并在重启启动时能接着上次的累加次数和偏移量继续计算。

2020-07-09 23:22:02 406

原创 Flink学习12---容错机制（二）重启策略实例

示例代码如下：1. 首先要开启checkpointing, 如 env.enableCheckpointing(5000);2. 选择一种重启策略//固定间隔重启：最多重启五次，重启间隔2000毫秒 env.setRestartStrategy(RestartStrategies.fixedDelayRestart(5,2000));//失败率：failureRate是每个测量时间间隔最大失败次数//第二个参数failureInterval失败率测量的时间间隔; //第..

2020-07-08 00:45:03 496

原创 Flink学习11---容错机制（一）State,CheckPoint 及重启策略简介

Flink的流计算是带状态的计算，为例更好的容错，引入了State和CheckPoint。一、简介1. State一般指一个具体的Task/Operator的状态，State数据默认保持在Java的堆内存中。2. CheckPoint （可以理解为CheckPoint是把State数据持久化存储了），则表示了一个Flink Job在一个特定时刻的一份全局状态快照（可以设置快照生成周期），即包含了所有Task/Operator的状态。# 此处的Task是Flink中执行的基本单位，也有的地方叫

2020-07-08 00:44:19 761 1

原创 Flink学习10---DataStream之Sink简介及RichSinkFunction

功能就是负责把 Flink 处理后的数据输出到外部系统中。一、Flink针对DataStream提供了大量的已经实现的数据下沉（sink）方式，具体有：1. writeAsText(): 将元素以字符串形式逐行写入，这些字符串通过调用每个元素的toString()方法来获取。2. print() / printToErr(): 打印每个元素的toString()方法的值到标准输出或者标准错误输出流中。3. 自定义输出：addSink可以实现把数据输出到第三方存储介质中。Flink通过内置

2020-07-05 23:30:08 6361 1

原创 Flink学习9---DataStream之功能更丰富的Transformation算子RichMapFunction

Flink还提供了功能更丰富的Transformation实现接口。RichFuction除了提供原来MapFuction的方法之外，还提供open, close, getRuntimeContext 和setRuntimeContext方法，这些功能可用于参数化函数（传递参数），创建和完成本地状态，访问广播变量以及访问运行时信息以及有关迭代中的信息。import org.apache.flink.api.common.functions.FilterFunction;import org.

2020-07-05 17:54:38 1895

原创 Flink学习8---DataStream之Transformation算子简介

一、Flink针对DataStream提供了大量的已经实现的算子。1. map: 输入一个元素，返回一个元素，中间可以进行清洗转换等操作。2.FlatMap: 压平，即将嵌套集合转换并平铺成非嵌套集合，可以根据业务需求返回0个、一个或者多个元素。3. Filter: 过滤函数，对传入的数据进行判断，符合条件的数据才会被留下。4.KeyBy: 根据指定的Key进行分组，Key相同的数据会进入同一个分区。用法：（1）DataStream.keyBy("key")指定对象中的具体key字段.

2020-07-05 15:53:14 634

原创 Flink学习6---DataStream之DataSource API (五）RichParallelSourceFunction自定义多并行DataSource

自定义多并行DataSource必须继承 RichParallelSourceFunction 类，并重写run()和cancel()方法。import org.apache.flink.api.java.tuple.Tuple2;import org.apache.flink.streaming.api.functions.source.RichParallelSourceFunction;import java.io.RandomAccessFile;// 这里的泛型Tuple2是该sou

2020-07-05 14:46:08 1374

原创 Flink学习7---DataStream之DataSource API (六）不同数据源及容错性总结

1. Flink提供的这些数据源接口的容错性保证如下表。DataSource 语义保证备注 File Exactly-once 　 Collection Exactly-once 　 Socket At-most-once 　 Kafka Exactly-once 需要使用0.10及以上版本 2. Flink可通过内置的Connector连接器，提供对应的Source支持连接器是否提供Source支持是

2020-07-05 12:27:10 566

原创 Flink学习5---DataStream之DataSource API (四）addSource用法

addSource可以实现读取第三方数据源的数据。1. 此处以读取kafka数据为例（kafka集群安装参考https://blog.csdn.net/zhuzuwei/article/details/107136796）import org.apache.flink.api.common.serialization.SimpleStringSchema;import org.apache.flink.streaming.api.datastream.DataStreamSource;im.

2020-07-05 12:15:16 5722 1

转载 kafka集群的安装和启动

Kafka版本：kafka_2.12-2.1.1.tgz jdk版本：JDK1.8以上版本号解释：Scala版本号：2.12 Kafka版本号：2.1.1Kafka集群安装步骤：1.下载安装包 wget https://mirrors.tuna.tsinghua.edu.cn/apache/kafka/2.1.1/kafka_2.12-2.1.1.tgz2.解压缩 tar -zxvf kafka_2.12-2.1.1 -C /usr/local (-C ...

2020-07-05 11:53:38 901

原创 Flink学习5---DataStream之DataSource API (三）基于集合的fromCollection

fromCollection 可直接从集合中读取数据作为流，由于集合是有界的，所以该数据流有界，读完之后程序会自动退出。是非并行的DataSource，主要用于测试。import org.apache.flink.streaming.api.datastream.DataStreamSource;import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;import java.util.Array

2020-07-04 00:58:20 2969

原创 Flink学习4---DataStream之DataSource API (二）基于文件的readTextFile

readTextFile 接口可读取指定文本文件，遵循TextInputFormat逐行读取规则并返回。（在TextInputFormat中，文本文件中的每一行都是一条记录。值是行的内容，而Key是行的字节偏移量。）import org.apache.flink.streaming.api.datastream.DataStream;import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;pu

2020-07-04 00:50:17 2002

原创 Flink学习3---DataStream之DataSource API (一）基于Socket的SocketTextStream

Flink中非并行的Source包括socketTextStream、fromElements、fromCollection 等，主要用于测试程序。1. socketTextStream 可以从socke端口读取数据流，示例如下：import org.apache.flink.streaming.api.datastream.DataStream;import org.apache.flink.streaming.api.environment.StreamExecutionEnvironmen

2020-07-03 22:51:47 3149

原创 Flink学习2---flink的standalone模式集群安装

Standalone集群模式是Flink自带的，此处仅供学习使用，真正的生产环境还是使用on yarn模式较多。安装步骤如下：（以1.9.1版本为例）1. 下载flink安装包，地址：https://flink.apache.org/downloads.html2. 上传到linux服务器上后解压，并将flink-shaded-hadoop-2-uber-2.7.5-9.0.jar拷贝到flink解压包中的Lib目录下。3. 修改conf目录下的配置文件flink-conf.yaml配置

2020-07-03 22:08:30 3228

原创 Flink学习1---flink简介

基于多易教育的flink入门教程：https://www.bilibili.com/video/BV1ZJ411S7Pm?p=11

2020-07-03 22:08:13 504

原创连接cenOS上的redis

1. redis的关闭和重启1.1 使用ps-ef|grep-iredis 查询redis-server是否在运行找到对应的进程kill掉即可1.2./redis-server命令重启redis数据库2. 进入redis交互界面./redis-cli输入 auth password，如果密码正确会返回ok2.1. 如果报错(error) ERR Client sent AUTH, but no password is set，说明没有配置密码，可以进c...

2020-06-07 19:08:01 165

原创 centOS6安装redis

以安装3.2.9版本为例1. 从网上下载安装文件 redis-3.2.9.tar.gz网址：http://download.redis.io/releases/ ，其中包含了很多历史版本2.通过sftp上传到centOS6.53.解压 tar -xzvfredis-3.2.9.tar.gz 得到redis-3.2.9文件夹4. 进入redis-3.2.9文件夹内，执行make5. 执行make test5.1 安装8.6.3：依次执行以下步骤wget...

2020-06-07 18:59:08 504

原创 centos上zookeeper分布式安装部署

1. 在官网下载zookeeper安装文件,本文安装的版本是3.4.5http://archive.apache.org/dist/zookeeper/2. 下载完成后通过ftp上传到虚拟机，再解压tar -xzvf zookeeper-3.4.5.tar.gz3. 将解压后的文件移动到指定目录中4. 配置相关文件(1) 配置zoo.cfgcp -a zoo_sam...

2020-03-22 23:58:06 432 1

原创 pyspark中部分***ByKey的用法

准备工作import pysparkfrom pyspark import SparkContextfrom pyspark import SparkConfconf=SparkConf().setAppName("lg").setMaster('local[4]')sc=SparkContext.getOrCreate(conf)1.aggregateByKeyaggre...

2020-02-22 17:13:40 1991

原创 pyspark中RDD常用操作

准备工作：import pysparkfrom pyspark import SparkContextfrom pyspark import SparkConfconf=SparkConf().setAppName("lg").setMaster('local[4]') #local[4]表示用4个内核在本地运行 sc=SparkContext.getOrCreate(co...

2020-02-21 17:05:46 3159

原创 centOS7安装mysql及填坑过程

一、安装过程1.安装相关依赖yum -y install make gcc-c++ cmake bison-devel ncurses-devel2.从搜狐镜像获取源码 wget http://mirrors.sohu.com/mysql/MySQL-5.7/mysql-boost-5.7.24.tar.gz tar xvf mysql-boost-5.7.24.ta...

2019-11-23 12:54:15 411

原创 Java中使用ExecutorService和Future对任务运行时间进行限制

详情见实例代码public class CheckTimeOut { public static void main(String[] args) { int threadNum = 5; int timeOut = 6; // 获取线程池 ExecutorService es = Executors.newFixedThreadPool(threadNum); ...

2019-07-25 23:47:21 2227

原创 Java客户端操作HDFS

1. 在Eclipse或者IDEA中新建Maven项目2.设置pom.xml文件，添加hadoop-comm、hadoop-hdfs和jdk.tools依赖<dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-common</artif...

2018-09-03 10:56:10 779

空空如也

空空如也