Accelerating-CSDN博客

转载三线性插值(Trilinear Interpolation)详解

三线性插值（trilinear interpolation）主要是用于在一个3D的立方体中，通过给定顶点的数值然后计算立方体中其他点的数值的线性插值方法。

2022-07-23 16:37:52 2638

转载 Ablation study（消融研究、消融学习、消融实验)

消融实验主要就是为了控制变量。比如说你为了提升baseline的性能，给它加了两个模块A,B，加完之后效果果然提高了很多。于是你急急忙忙开始写论文，写到你的贡献，你给了两条：1.模块A，2.模块B。...............

2022-07-22 11:29:50 1562

原创 RuntimeError: “nll_loss_forward_reduce_cuda_kernel_2d_index“ not implemented for ‘Int‘

pytorchnll_loss_forward_reduce_cuda_kernel_2d_index" not implemented for 'Int')

2022-07-17 11:49:26 6915 4

Spider（爬虫）负责处理所有Responses,从中分析提取数据，获取Item字段需要的数据，并将需要跟进的URL提交给引擎，再次进入Scheduler(调度器)。具体一些就是Spider定义了一个特定站点（或一组站点）如何被抓取的类，包括如何执行抓取（即跟踪链接）以及如何从页面中提取结构化数据（即抓取项）。也就是说我们要抓取的网站的链接配置、抓取逻辑、解析逻辑等其实都是在 Spider 中定义的。在实现 Scrapy 爬虫项目时，最核心的类便是 Spider 类了，它定义了如何爬取某个网站的流程和解

2022-07-13 23:57:39 756

转载 Redis 的缓存异常处理 —— 缓存雪崩、缓存击穿、缓存穿透

Redis 的缓存异常处理 —— 缓存雪崩、缓存击穿、缓存穿透1.缓存雪崩2.缓存击穿3.缓存穿透4.数据不一致性在实际应用 Redis 过程中，如果将 Redis 作为数据库的缓存，经常会遇到这几个问题：缓存雪崩、缓存击穿、缓存穿透等。1.缓存雪崩缓存雪崩指的是大量的应用无法在 Redis 缓存中处理，然后大量请求发送到了数据库，导致数据库的压力激增，甚至可能导致数据库崩溃，从而导致整个系统崩溃，引发雪崩一样的连锁效应。而引起缓存雪崩的原因，一般如下：1、缓存中大量 key 同时过期2、Red

2022-01-13 11:26:47 180

转载 Broyden-Fletcher-Goldfarb-Shanno algorithm

Broyden-Fletcher-Goldfarb-Shanno algorithm2-牛顿法求根问题3-牛顿法求函数的驻点4-牛顿法求驻点的本质BFGS算法L-BFGS算法参考Broyden-Fletcher-Goldfarb-Shanno（BFGS）法(BFGS method)是一种拟牛顿法，指用BFGS矩阵作为拟牛顿法中的对称正定迭代矩阵的方法，此法是1970年前后由柏萝登(C.G.Broyden)、弗莱彻(R.Fletcher)、戈德福布(D.Goldfarb)，以及生纳(D.F.Shanno)所

2021-11-24 17:35:15 2340

转载 Nelder Mead SIMPLEX Algorithm

Nelder Mead SIMPLEX Algorithm单纯形算法Nelder-Mead 算法的简单实现最后参考 & 扩展阅读Nelder-Mead (Downhill Simplex Method) 算法最早由 Jone Nelder 和 Roger Mead 于 1965 年提出，是一种基于启发式规则的优化算法，类似常见的遗传算法（Generic Algorithm，GA）和粒子群算法（Particle Swarm Optimization，PSO），通过人为设计的一系列规则，从初始值出发，

2021-11-24 11:29:48 1523 1

转载 Delta Lake

Delta Lake1 重点问题2 什么是Delta Lake3 Delta Lake基本功能4 使用Delta Lake 构建分析管道5 Delta Lake 高级功能QA1 重点问题Delta Lake API 支持哪种类型的写操作？Delta Lake 可以解决哪些需求？快点清理掉被合并掉的小文件，如何设置安全期参数2 什么是Delta Lake整体来看的话，其实就是在数据入hdfs之前多了delta lake这层组件，能够对小文件合并，脏数据处理，api操作上仍旧是sql.存储之大、A

2021-10-29 14:25:04 431

转载 Spark性能优化——数据倾斜-groupByKey导致内存溢出

数据倾斜：shuffle操作时,由于相同key会被分配到同一个reduce端执行,而大部分数据的key值相同,导致部分task处理的数据量过大,分配不均。触发shuffle的常见算子：distinct、groupByKey、reduceByKey、aggregateByKey、join、cogroup、repartition等。查看导致数据倾斜的key的数据分布情况根据执行操作的不同，可以有很多种查看key分布的方式：1、如果是Spark SQL中的group by、join语句导致的数据倾斜，

2021-09-28 13:52:30 1223

转载 Spark代码可读性与性能优化——示例六（groupBy、reduceByKey、aggregateByKey）

Spark代码可读性与性能优化——示例六（GroupBy、ReduceByKey）1. 普通常见优化示例1.1 错误示例 groupByKeyimport org.apache.spark.{SparkConf, SparkContext}object GroupNormal { def main(args: Array[String]): Unit = { val conf = new SparkConf().setAppName("GroupNormal") val sc

2021-09-28 10:37:31 772

转载【TensorFlow2.0】以后我们再也离不开Keras了？

1 Keras概述在TensorFlow2.0中，Keras是一个用于构建和训练深度学习模型的高阶 API。因此如果你正在使用TensorFow2.0，那么使用Keras构建深度学习模型是您的不二选择。在Keras API中总共有如下三大块：在Modules中有构建训练模型各种必备的组件，如激活函数activations、损失函数losses、优化器optimizers等；在Class中有Sequential和Model两个类，它们用来堆叠模型；在Functions中有Input()函数，它用来实例化

2021-09-24 23:15:18 755

原创【TensorFlow2.0】tf.keras.preprocessing.image.ImageDataGenerator#flow_from_diectory

flow_from_diectory是ImageGenerator类下的函数，从函数名，就可以明白其就是从文件夹中读取图像。定义 def flow_from_directory(self, directory, target_size=(256, 256), color_mode='rgb', c

2021-09-24 17:36:05 383

原创【TensorFlow2.0】tf.keras.preprocessing.image.ImageDataGenerator

@keras_export('keras.preprocessing.image.ImageDataGenerator')class ImageDataGenerator(image.ImageDataGenerator): """Generate batches of tensor image data with real-time data augmentation. The data will be looped over (in batches). Args: fea

2021-09-24 17:23:11 564

转载 Spark性能优化指南——高级篇

Spark性能优化指南——高级篇调优概述数据倾斜发生时的现象数据倾斜发生的原理如何定位导致数据倾斜的代码某个task执行特别慢的情况某个task莫名其妙内存溢出的情况查看导致数据倾斜的key的数据分布情况数据倾斜的解决方案解决方案一：使用Hive ETL预处理数据解决方案二：过滤少数导致倾斜的key解决方案三：提高shuffle操作的并行度解决方案四：两阶段聚合（局部聚合+全局聚合）解决方案五：将reduce join转为map join解决方案六：采样倾斜key并分拆join操作解决方案七：使用随机前缀和

2021-09-07 17:17:02 159

转载 Spark性能优化指南——基础篇

Spark性能优化指南——基础篇1. 前言2.开发调优2.0 调优概述2.1 原则一：避免创建重复的RDD2.2 尽可能复用同一个RDD2.3 原则三：对多次使用的RDD进行持久化2.4 原则四：尽量避免使用shuffle类算子2.5 原则五：使用map-side预聚合的shuffle操作2.6 原则六：使用高性能的算子2.7 原则七：广播大变量2.8 原则八：使用Kryo优化序列化性能2.9 原则九：优化数据结构3.资源调优3.0 调优概述3.1 Spark作业基本运行原理DriverStage和Task

2021-09-07 16:22:16 134

转载 Spark技术内幕: Shuffle详解

Spark技术内幕: Shuffle详解通过上面一系列文章，我们知道在集群启动时，在Standalone模式下，Worker会向Master注册，使得Master可以感知进而管理整个集群；Master通过借助ZK，可以简单的实现HA；而应用方通过SparkContext这个与集群的交互接口，在创建SparkContext时就完成了Application的注册，Master为其分配Executor；在应用方创建了RDD并且在这个RDD上进行了很多的Transformation后，触发action，通过DAG

2021-09-07 11:18:53 189

转载 Spark技术内幕：Sort Based Shuffle实现解析

Spark技术内幕：Sort Based Shuffle实现解析spark.shuffle.manager 从hash升级为sortSort BasedShuffle的优势Hash based shuffle和Sort based shufflespark.shuffle.manager 从hash升级为sort在Spark 1.2.0中，Spark Core的一个重要的升级就是将默认的Hash Based Shuffle换成了Sort Based Shuffle，即spark.shuffle.mana

2021-09-07 10:59:51 316

转载 spark选择去重

在spark计算当中，我们日常有些简单需求，比如去重，比如有四列（appid、date、type、platform），我们只需要对appid，date进行去重，另外两列不关注。在spark中，distinct会对所有列执行去重操作，两行比较，只要有个一列有差异，就不算重复。要解决，只对某几列进行去重，可以使用Top N 的思路，也就是先分组，分组后，我们只取row_num=1第一行就可以了。具体实现代码如下：//选出某几列，去掉空值Dataset dataset = input.selec

2021-09-02 15:13:04 1129

转载 spark性能优化-数据倾斜

背景：计算同一品类两两商品的相似度，已有的数据结构：[(cid,int); (pid,int); (features,vector)]，商品数4W，商品对8W，用时8h。分析是由于数据倾斜导致，例如cid1有100个商品，cid2有300个商品，cid3有1000个商品，由于根据分类id，计算商品相似度，cid3的商品对在一个task中，导致所有任务都等待这一个task运行结束。优化方案：1、优化数据通信时间消耗商品特征向量是1024维的向量，大约5K，4W商品共200M，可以将图片的特征向量进行广

2021-08-25 17:23:16 74

原创 PyFlink OverflowError: Python int too large to convert to C long

File "apache_beam/runners/worker/operations.py", line 357, in apache_beam.runners.worker.operations.Operation.output File "apache_beam/runners/worker/operations.py", line 359, in apache_beam.runners.worker.operations.Operation.output File "apache_beam/

2021-07-15 13:29:58 613

转载 Flink教程-flink 1.11 流式数据ORC格式写入file

原文链接：https://blog.csdn.net/zhangjun5965/article/details/107143992/Flink教程-flink 1.11 流式数据ORC格式写入fileStreamingFileSink简介写入orc工厂类向量化操作构造OrcBulkWriterFactory实例讲解构造source构造OrcBulkWriterFactory构造StreamingFileSink在flink中，StreamingFileSink是一个很重要的把流式数据写入文件系统的sin

2021-07-15 13:22:06 1184

原创 pyflink提交执行报错ImportError: No module named pyflink

flink run -t yarn-session -Dyarn.application.id=application_1624931016698_0003 \-p2 \-pyarch xxx.zip \-pyexec xxx.zip/venv/bin/python \-pyfs xxx \-py xxx/Main.pyPyFlink(1.13.1) 提交任务，出现以下错误。Caused by: org.apache.flink.runtime.JobException: Recover

2021-06-29 16:55:05 2432 1

转载 pip 使用国内清华开源镜像源

临时使用pip install -i https://pypi.tuna.tsinghua.edu.cn/simple some-package注意，simple 不能少, 是 https 而不是 http设为默认升级 pip 到最新的版本 (>=10.0.0) 后进行配置：pip install pip -Upip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple如果您到 pip 默认源的网络连

2021-06-23 09:52:07 2048

原创 UnsupportedFileSystemSchemeException: Could not find a file system implementation for scheme ‘s3‘

flink UnsupportedFileSystemSchemeException: Could not find a file system implementation for scheme ‘s3’Caused by: org.apache.flink.core.fs.UnsupportedFileSystemSchemeException: Could not find a file system implementation for scheme 's3'. The scheme is dir

2021-06-21 16:18:55 3449 1

原创 flink遇到NoClassDefFoundError: org/apache/hadoop/yarn/exceptions/YarnException错误

EMR flink1.12.1升级到flink1.13.1，启动yarn-session时，遇到Exception in thread “main” java.lang.NoClassDefFoundError: org/apache/hadoop/yarn/exceptions/YarnException需要在yarn-session.sh 文件中添加或者在环境变量中添加export HADOOP_CLASSPATH=`hadoop classpath`这里选择在环境变量中设置,再启动，异常得

2021-06-21 13:47:20 3737 2

翻译 Apache Flink 1.13.0 正式发布，来看看有哪些新特性

Apache Flink 1.13.0 正式发布，开来看看有哪些新特性一、重要特性被动扩缩容分析应用的性能通过 Savepoint 来切换 State BackendK8s 部署时使用用户指定的 Pod 模式生产可用的 Unaligned Checkpoint机器学习迁移到单独的仓库二、SQL / Table API 进展提高 DataStream API 与 Table API / SQL 的互操作能力SQL Client: 初始化脚本和语句集合（Statement Sets）Hive 查询语法兼容性优

2021-05-21 10:29:32 744 2

原创 Type TIMESTAMP(3) of table field ‘xxx‘ does not match with the physical type TIMESTAMP(6)

Exception in thread “main” org.apache.flink.table.api.ValidationException: Type TIMESTAMP(3) of table field ‘usertime’ does not match with the physical type TIMESTAMP(6) of the ‘usertime’ field of the TableSource return type.这是由于flink与数据库的timestamp字段长度不匹配

2021-04-30 10:39:13 579

转载 pandas中quantile函数浅解

1 分位数（Quantile）分位数（Quantile），亦称分位点，是连续分布函数中的一个点，该点将一个随机变量的概率分布范围分为几个等份的数值点，这个点对应概率p。若概率0<p<1，随机变量X或它的概率分布的分位数Za，是指满足条件p(X≤Za)=α的实数，常用的有中位数（即二分位数）、四分位数、百分位数等。分位数对于实际问题能提供更加全面的分析,无论是线性模型还是非线性模型，分位数回归都是一种很好的工具，它对一般回归模型做了有益的补充。分位数回归是对以古典条件均值模型为基础的最小二乘法

2021-04-23 14:50:12 17017 2

转载 SQL的相关子查询和非相关子查询

SQL的相关子查询和非相关子查询SQL的相关子查询和非相关子查询1相关子查询&非相关子查询概念2 举例说明3 参考1相关子查询&非相关子查询概念子查询：嵌套在其它查询中的查询语句。（又称为内部查询）主查询：包含其它子查询的查询称为主查询。（又称外部查询）子查询分为两类：相关子查询非相关子查询在主查询中，每查询一条记录，需要重新做一次子查询，这种称为相关子查询。在主查询中，子查询只需要执行一次，子查询结果不再变化，供主查询使用，这种查询方式称为非相关子查询。2 举例说明

2021-03-03 11:00:42 1421

转载 [转载]Flink 时间窗口的起始时间

【转载】Flink 时间窗口的起始时间话不多说，直接上手今天的主题，探索一个容易让人忽略和困惑的问题：Flink 时间窗口的起始时间就以最简单的demo为例： timeWindow(Time.seconds(5)) 上述定义一个步长为5s的滚动窗口，就以这个简单的入口进入Flink的源码开始探...

2020-12-22 15:21:09 973

转载 Flink学习之WaterMark

本文转载自https://zhuanlan.zhihu.com/p/939327201、问题的引入：我们在计算流式数据时，往往会用到数据窗口的概念。比如说需要计算每一个五分钟内新增还款的金额，数据是源源不断的流进来的，那么我们就需要考虑以下几个问题：1.五分钟是指哪个时间，数据产生的时间，数据流入系统的时间，还是数据计算的时间。2.分布式系统，由于网络或者其他的外部因素往往数据不能及时的传入到fink系统中，导致数据可能会存在乱序或者延迟到达的问题。3.数据乱序或延迟后，如何保证窗口内

2020-11-16 19:57:05 254

转载从滴滴的Flink CEP引擎说起

从滴滴的Flink CEP引擎说起本文转载自 https://www.cnblogs.com/cx2016/p/11647110.html。CEP业务场景复杂事件处理（Complex Event Process，简称CEP）用来检测无尽数据流中的复杂模式，拥有从不同的数据行中辨识查找模式的能力。模式匹配是复杂事件处理的一个强大援助。例子包括受一系列事件驱动的各种业务流程，例如在安全应用中侦测异常行为；在金融应用中查找价格、交易量和其他行为的模式。其他常见的用途如欺诈检测应用和传感器数据的分析

2020-11-11 10:16:18 937

原创 tensorflow显存不足报错CUBLAS_STATUS_ALLOC_FAILED解决

tensorflow显存不足报错CUBLAS_STATUS_ALLOC_FAILED解决TensorFlow执行，报显存不足错误，如下解决方法通过设定config为使用的显存按需自动增长，避免显存被耗尽，可进行有效的预防显存不足问题。# 定义TensorFlow配置config = tf.ConfigProto()# 配置GPU内存分配方式，按需增长，很关键config.gpu_options.allow_growth = True# 配置可使用的显存比例config.gpu_optio

2020-09-01 00:00:44 935

原创 tf.nn.l2_loss函数

tf.nn.l2_loss函数1.功能2.入参3.返回值示例tf.nn.l2_loss别名tf.compat.v1.nn.l2_loss1.功能tf.nn.l2_loss计算L2损失。out=∑ti22out = \frac{\sum{t^2_i }} 2out=2∑ti22.入参tf.nn.l2_loss( t, name=None)参数含义t元素类型是half, bfloat16, float32, float64之一的张量.name操作的别名

2020-08-25 14:45:48 1200

原创欧氏距离,l2范数,l2-loss,l2正则化

欧式距离,l2范数,l2-loss,l2正则化1.欧氏距离L2范数范数计算公式L1范数L2范数在机器学习方面的区别为什么L2范数可以防止过拟合?3. L2-Loss4. L2正则化正则化L2正则化参考文献1.欧氏距离距离度量（Distance）用于衡量个体在空间上存在的距离，距离越远说明个体间的差异越大。欧氏距离是最常见的距离度量，衡量的是多维空间中各个点之间的绝对距离。欧氏距离又称欧几里得距离或欧几里得度量，它是欧几里得空间中两点间“普通”（即直线）距离。使用这个距离，欧氏空间成为度量空间。相关联的范

2020-08-25 13:51:04 17159

config.tar.gz

空空如也