自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(175)
  • 收藏
  • 关注

原创 007_centos使用paddlepaddle报错ImportError: /lib64/libstdc++.so.6: version `GLIBCXX_3.4.20‘ not found

在import paddle时报错 ImportError: /lib64/libstdc++.so.6: version `GLIBCXX_3.4.20' not found (required by /home/anaconda38/lib/python3.8/site-packages/paddle/fluid/libpaddle.so)3. 选择版本相同或更高的一个 libstdc++.so,查看其中是否存在GLIBCXX_3.4.20。2. 查看其他位置是否存在libstdc++.so。

2023-07-28 13:23:43 1215

原创 linux部署Python项目,并解决依赖自定义模块报错问题

背景:windows中使用pycharm完成python项目,需在linux部署。

2022-08-08 09:50:38 853 1

转载 RPM命令的--nodeps 和--force参数解释

1.--nodeps就是安装时不检查依赖关系,比如你这个rpm需要A,但是你没装A,这样你的包就装不上,用了--nodeps你就能装上了。2.--force就是强制安装,比如你装过这个rpm的版本1,如果你想装这个rpm的版本2,就需要用--force强制安装。转载自RPM命令的--nodeps 和--force参数解释_xufengzhu的博客-CSDN博客_nodeps...

2022-05-30 15:12:49 4897 1

原创 Linux离线环境安装bzip2

1.下载离线安装包 bzip2-1.0.6-13.el7.x86_64.rpm http://mirror.centos.org/centos/7/os/x86_64/Packages/bzip2-1.0.6-13.el7.x86_64.rpm 2. 上传文件到离线的Linux系统上3.执行命令 rpm -ivh bzip2-1.0.6-13.el7.x86_64.rpm4.执行bzip2 --help测试安装成功...

2022-05-27 13:57:45 3646 2

原创 spark分布式安装

1

2020-10-17 14:36:57 286

原创 sqoop的安装和导入数据到hdfs和hive

一、Sqoop 安装1. 下载sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz2. 通过sftp 从本地传到Linux3. 解压 tar -xzvfsqoop-1.4.7.bin__hadoop-2.6.0.tar.gz4. 配置/etc/profileexport SQOOP_HOME=/usr/local/sqoop-1.4.7export PATH=$PATH:$SQOOP_HOME/bin5. 配置sqoop环境cd/home/hadoop/...

2020-10-11 22:31:03 406

原创 Hive SQL执行mapreduce任务卡在Kill Command

执行 select sid,count(*) as cn from student group by sid;任务一直卡住如下:2020-10-11T14:00:31,407 INFO [main] exec.Task: Kill Command = /usr/local/hadoop-2.7.6/bin/hadoop job -kill job_1602395744321_0002 我的集群部署出错的地方在于hadoop的slaves文件中只配置了2个datanode,而...

2020-10-11 14:52:12 2085

原创 Hive的安装配置

操作系统centOS 6.5Hadoop版本:hadoop 2.7.6JDK版本:JDK 1.8ant版本:ant 1.10.5mysql版本:mysql 5.7一、安装准备1. 从官网下载解压hive的bin压缩文件 , 此处使用的是hive-2.1.1版本2. 通过ftp传输到linux系统,使用tar -xzvf apache-hive-2.1.1-bi...

2020-10-11 14:37:39 389

原创 Flink学习22---window和Time(五)WaterMark延迟触发任务机制

此处举例说明WaterMark可能更容易理解,以EventTimeTumblingWindow为例:如果设置窗口时间大小是10秒,窗口的边界可以是10000-19999;WaterMark延迟2秒,那么当EventTime为21999的数据来到时,会触发计算EventTime为21999之前的所有EventTime在10000-19999之间的数据。即,真实要计算的时间窗口不变,部分迟到的数据会被纳入这个窗口一起计算。如果是多并行的source,则每个分区中都要满足上述条件,才会触发计算

2020-07-14 01:43:10 582

原创 Flink学习21---window和Time(四)会话窗口SessionWindow

输入样例数据如下,SessionWinow会把1588510000-1588515000划分为一个窗口,1588526100-1588535000作为第二个窗口,然后分别对每个窗口中的数据进行计算。package flink.review.datastream.E_Window;import com.demo.flink.countWindow.CountWindow;import com.demo.flink.timeWindow.SessionWindow;import o.

2020-07-13 00:12:26 640

原创 Flink学习20---window和Time(三)TimeTumblingWindw时间滚动窗口

如下代码中,时间滚动窗口的大小是10秒,可知,1588490000至1588499999为一个窗口,本例测试数据可分为两个窗口,输出结果如下。import org.apache.flink.api.common.functions.MapFunction;import org.apache.flink.api.java.tuple.Tuple2;import org.apache.flink.api.java.tuple.Tuple3;import org.apache.fl...

2020-07-12 22:40:28 670

转载 Flink学习19---window和Time(二)Time与watermarks详解

当我们在使用Flink的时候,避免不了要和时间(time)、水位线(watermarks)打交道,理解这些概念是开发分布式流处理应用的基础。那么Flink支持哪些时间语义?Flink是如何处理乱序事件的?什么是水位线?水位线是如何生成的?水位线的传播方式是什么?让我们带着这些问题来开始本文的内容。时间语义基本概念时间是Flink等流处理中最重要的概念之一,在 Flink 中 Time 可以分为三种:Event-Time,Processing-Time 以及 Ingestion-Time,如下图所

2020-07-12 21:48:01 545 1

转载 Flink学习18---window和Time(一)window全面解析

Flink认为Batch是Streaming的一个特例,window就是用来对一个无限的流设置一个有限的集合,从而在有界的数据集上进行操作的一种机制。一、Window简介1.Window根据类型可分为两种: (1) Tumbling Window: 滚动窗口,窗口内数据没有重叠;(2)Sliding Window: 滑动窗口,窗口内数据有重叠。可以根据Time,Count或者自定义划分Window,每种划分又可以分别对应滚动和滑动。2. TimeWindow 根据时间对数...

2020-07-12 21:47:47 1996 1

原创 Flink学习17---容错机制(七)深入理解KeyedState,使用keyedState实现累加功能

直接上代码如下:import org.apache.flink.api.common.functions.MapFunction;import org.apache.flink.api.common.restartstrategy.RestartStrategies;import org.apache.flink.api.java.tuple.Tuple;import org.apache.flink.api.java.tuple.Tuple2;import org.apache.flink.

2020-07-12 18:20:54 513

原创 Flink学习16---容错机制(六)深入理解OperatorState,自定义实现ExactlyOnce多并行Source

FlinkKafkaConsumer内部实现了ExactlyOnce,如果使用自定义多并行Source,也可以借助Operator实现ExactlyOnce。import org.apache.flink.api.common.state.ListState;import org.apache.flink.api.common.state.ListStateDescriptor;import org.apache.flink.api.common.typeinfo.Types;import.

2020-07-12 17:49:59 855

原创 Flink学习15---容错机制(五)checkpoints保存报错 Could not flush and close the file system output stream to hdfs

在保存checkpints的时候,可能会出现保存失败的情况。我遇到的报错如下:Could not flush and close the file system output stream to hdfs:....could only be replicated to 0 nodes instead of minReplication (=1). There are 2 datanode(s) running and no node(s) are excluded in this operation

2020-07-11 01:28:25 1283

原创 Flink学习14---容错机制(四)StateBackend和SavePoint的使用

1. 设置StateBackend 模式,此处以保存到hdfs为例在flink-conf.yaml中设置 state.backend为filesystem;设置state.backend.fs.checkpointdir 即checkpoints的保存路径。也可在程序中指定checkpoints的保存路径。env.setStateBackend(new FsStateBackend("hdfs://192.168.***.***:9000/flink/checkpoints"));注

2020-07-11 01:20:07 1079

原创 Flink学习13---容错机制(三)KeyedState和OperatorState认识

现结合Kafka数据源,利用KeyedState实现累加功能,通过OperatorState记录已读取数据偏移量,并在重启启动时能接着上次的累加次数和偏移量继续计算。

2020-07-09 23:22:02 406

原创 Flink学习12---容错机制(二)重启策略实例

示例代码如下:1. 首先要开启checkpointing, 如 env.enableCheckpointing(5000);2. 选择一种重启策略//固定间隔重启:最多重启五次,重启间隔2000毫秒 env.setRestartStrategy(RestartStrategies.fixedDelayRestart(5,2000));//失败率:failureRate是每个测量时间间隔最大失败次数//第二个参数failureInterval失败率测量的时间间隔; //第..

2020-07-08 00:45:03 496

原创 Flink学习11---容错机制(一)State,CheckPoint 及重启策略简介

Flink的流计算是带状态的计算,为例更好的容错,引入了State和CheckPoint。一、简介1. State一般指一个具体的Task/Operator的状态,State数据默认保持在Java的堆内存中。2. CheckPoint (可以理解为CheckPoint是把State数据持久化存储了),则表示了一个Flink Job在一个特定时刻的一份全局状态快照(可以设置快照生成周期),即包含了所有Task/Operator的状态。# 此处的Task是Flink中执行的基本单位,也有的地方叫

2020-07-08 00:44:19 761 1

原创 Flink学习10---DataStream之Sink简介及RichSinkFunction

功能就是负责把 Flink 处理后的数据输出到外部系统中。一、Flink针对DataStream提供了大量的已经实现的数据下沉(sink)方式,具体有:1. writeAsText(): 将元素以字符串形式逐行写入,这些字符串通过调用每个元素的toString()方法来获取。2. print() / printToErr(): 打印每个元素的toString()方法的值到标准输出或者标准错误输出流中。3. 自定义输出:addSink可以实现把数据输出到第三方存储介质中。Flink通过内置

2020-07-05 23:30:08 6361 1

原创 Flink学习9---DataStream之功能更丰富的Transformation算子RichMapFunction

Flink还提供了功能更丰富的Transformation实现接口。RichFuction除了提供原来MapFuction的方法之外,还提供open, close, getRuntimeContext 和setRuntimeContext方法,这些功能可用于参数化函数(传递参数),创建和完成本地状态,访问广播变量以及访问运行时信息以及有关迭代中的信息。import org.apache.flink.api.common.functions.FilterFunction;import org.

2020-07-05 17:54:38 1895

原创 Flink学习8---DataStream之Transformation算子简介

一、Flink针对DataStream提供了大量的已经实现的算子。1. map: 输入一个元素,返回一个元素,中间可以进行清洗转换等操作。2.FlatMap: 压平,即将嵌套集合转换并平铺成非嵌套集合,可以根据业务需求返回0个、一个或者多个元素。3. Filter: 过滤函数,对传入的数据进行判断,符合条件的数据才会被留下。4.KeyBy: 根据指定的Key进行分组,Key相同的数据会进入同一个分区。用法: (1)DataStream.keyBy("key")指定对象中的具体key字段.

2020-07-05 15:53:14 634

原创 Flink学习6---DataStream之DataSource API (五)RichParallelSourceFunction自定义多并行DataSource

自定义多并行DataSource必须继承 RichParallelSourceFunction 类,并重写run()和cancel()方法。import org.apache.flink.api.java.tuple.Tuple2;import org.apache.flink.streaming.api.functions.source.RichParallelSourceFunction;import java.io.RandomAccessFile;// 这里的泛型Tuple2是该sou

2020-07-05 14:46:08 1374

原创 Flink学习7---DataStream之DataSource API (六)不同数据源及容错性总结

1. Flink提供的这些数据源接口的容错性保证如下表。DataSource 语义保证 备注 File Exactly-once   Collection Exactly-once   Socket At-most-once   Kafka Exactly-once 需要使用0.10及以上版本 2. Flink可通过内置的Connector连接器,提供对应的Source支持连接器 是否提供Source支持 是

2020-07-05 12:27:10 566

原创 Flink学习5---DataStream之DataSource API (四)addSource用法

addSource可以实现读取第三方数据源的数据。1. 此处以读取kafka数据为例 (kafka集群安装参考https://blog.csdn.net/zhuzuwei/article/details/107136796)import org.apache.flink.api.common.serialization.SimpleStringSchema;import org.apache.flink.streaming.api.datastream.DataStreamSource;im.

2020-07-05 12:15:16 5722 1

转载 kafka集群的安装和启动

Kafka版本:kafka_2.12-2.1.1.tgz jdk版本:JDK1.8以上版本号解释:Scala版本号:2.12 Kafka版本号:2.1.1Kafka集群安装步骤:1.下载安装包 wget https://mirrors.tuna.tsinghua.edu.cn/apache/kafka/2.1.1/kafka_2.12-2.1.1.tgz2.解压缩 tar -zxvf kafka_2.12-2.1.1 -C /usr/local (-C ...

2020-07-05 11:53:38 901

原创 Flink学习5---DataStream之DataSource API (三)基于集合的fromCollection

fromCollection 可直接从集合中读取数据作为流,由于集合是有界的,所以该数据流有界,读完之后程序会自动退出。是非并行的DataSource,主要用于测试。import org.apache.flink.streaming.api.datastream.DataStreamSource;import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;import java.util.Array

2020-07-04 00:58:20 2969

原创 Flink学习4---DataStream之DataSource API (二)基于文件的readTextFile

readTextFile 接口可读取指定文本文件,遵循TextInputFormat逐行读取规则并返回。(在TextInputFormat中,文本文件中的每一行都是一条记录。 值是行的内容,而Key是行的字节偏移量。)import org.apache.flink.streaming.api.datastream.DataStream;import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;pu

2020-07-04 00:50:17 2002

原创 Flink学习3---DataStream之DataSource API (一)基于Socket的SocketTextStream

Flink中非并行的Source包括socketTextStream、fromElements、fromCollection 等,主要用于测试程序。1. socketTextStream 可以从socke端口读取数据流,示例如下:import org.apache.flink.streaming.api.datastream.DataStream;import org.apache.flink.streaming.api.environment.StreamExecutionEnvironmen

2020-07-03 22:51:47 3149

原创 Flink学习2---flink的standalone模式集群安装

Standalone集群模式是Flink自带的,此处仅供学习使用,真正的生产环境还是使用on yarn模式较多。安装步骤如下:(以1.9.1版本为例)1. 下载flink安装包,地址:https://flink.apache.org/downloads.html2. 上传到linux服务器上后解压,并将flink-shaded-hadoop-2-uber-2.7.5-9.0.jar拷贝到flink解压包中的Lib目录下。3. 修改conf目录下的配置文件flink-conf.yaml配置

2020-07-03 22:08:30 3228

原创 Flink学习1---flink简介

基于多易教育的flink入门教程:https://www.bilibili.com/video/BV1ZJ411S7Pm?p=11

2020-07-03 22:08:13 504

原创 连接cenOS上的redis

1. redis的关闭和重启1.1 使用ps-ef|grep-iredis 查询redis-server是否在运行 找到对应的进程kill掉即可1.2./redis-server命令重启redis数据库2. 进入redis交互界面./redis-cli输入 auth password,如果密码正确会返回ok2.1. 如果报错(error) ERR Client sent AUTH, but no password is set,说明没有配置密码,可以进c...

2020-06-07 19:08:01 165

原创 centOS6安装redis

以安装3.2.9版本为例1. 从网上下载安装文件 redis-3.2.9.tar.gz网址:http://download.redis.io/releases/ ,其中包含了很多历史版本2.通过sftp上传到centOS6.53.解压 tar -xzvfredis-3.2.9.tar.gz 得到redis-3.2.9文件夹4. 进入redis-3.2.9文件夹内,执行make5. 执行make test5.1 安装8.6.3:依次执行以下步骤wget...

2020-06-07 18:59:08 504

原创 centos上zookeeper分布式安装部署

1. 在官网下载zookeeper安装文件,本文安装的版本是3.4.5http://archive.apache.org/dist/zookeeper/2. 下载完成后通过ftp上传到虚拟机,再解压tar -xzvf zookeeper-3.4.5.tar.gz3. 将解压后的文件移动到指定目录中4. 配置相关文件(1) 配置zoo.cfgcp -a zoo_sam...

2020-03-22 23:58:06 432 1

原创 pyspark中部分***ByKey的用法

准备工作import pysparkfrom pyspark import SparkContextfrom pyspark import SparkConfconf=SparkConf().setAppName("lg").setMaster('local[4]')sc=SparkContext.getOrCreate(conf)1.aggregateByKeyaggre...

2020-02-22 17:13:40 1991

原创 pyspark中RDD常用操作

准备工作:import pysparkfrom pyspark import SparkContextfrom pyspark import SparkConfconf=SparkConf().setAppName("lg").setMaster('local[4]') #local[4]表示用4个内核在本地运行 sc=SparkContext.getOrCreate(co...

2020-02-21 17:05:46 3159

原创 centOS7安装mysql及填坑过程

一、安装过程1.安装相关依赖yum -y install make gcc-c++ cmake bison-devel ncurses-devel2.从搜狐镜像获取源码 wget http://mirrors.sohu.com/mysql/MySQL-5.7/mysql-boost-5.7.24.tar.gz tar xvf mysql-boost-5.7.24.ta...

2019-11-23 12:54:15 411

原创 Java中使用ExecutorService和Future对任务运行时间进行限制

详情见实例代码public class CheckTimeOut { public static void main(String[] args) { int threadNum = 5; int timeOut = 6; // 获取线程池 ExecutorService es = Executors.newFixedThreadPool(threadNum); ...

2019-07-25 23:47:21 2227

原创 Java客户端操作HDFS

1. 在Eclipse或者IDEA中新建Maven项目2.设置pom.xml文件,添加hadoop-comm、hadoop-hdfs和jdk.tools依赖<dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-common</artif...

2018-09-03 10:56:10 779

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除