亚古兽要进化-CSDN博客

原创 FFmpeg：常用命令小笔记

FFmpeg的详细介绍可以查看官网wiki提供的一些信息，这里只是列举具体几种常用的命令一：格式转换#普通封装格式的转换ffmpeg -i input_video.avi output_video.mp4# yuv之间不同格式互转，如果出现花屏现象，注意查看尺寸是否设置正确。ffmpeg -s 1280*720 -pix_fmt yuv444p -i input.yuv -pix_...............

2019-12-18 11:12:28 8963 1

原创常用工具的配置和bash

cd ..是回到上一级目录cd . 是当前目录cd / 是回到根目录cd ~ 回到用户主目录top 查看电脑运行情况，CPU使用率。内存使用情况等ln -s/home/szx/桌面/1111 （在~/11当前文件夹下，建立软连接，执行此命令会在当前文件夹下面产生1111文件夹的软链接）nvidia-smi （查看当前GPU使用情况）nvidia-smi -l xxx ...

2018-11-26 19:26:33 1465 2

原创 vim常用命令介绍与git

简介：对于服务器开发，一般都是通过ssh将本地和服务器端进行指令或者数据互传。面对于没有图形界面的情况下，如果修改程序文件，vim还是比较靠谱的。大的修改在本地，然后上传服务器后再采用vim对程序内容进行小的改动。通过在命令行中键入：vim filename 打开需要修改或者查看的文件,vim filename +n,定位到第n行，这个+号是实际存在的。比如...

2018-11-22 18:03:44 2408

原创常用小功能代码——python

将视频按照一定时间截取图片并且保存，或者说隔几帧保存一下一幅图像。import osimport subprocessdef convert_video_images(source_path, output_path): fileTypes = ['.avi', '.mp4', '.flv', '.mov', '.mkv'] if not os.path.exists(...

2018-08-06 15:58:14 1469 1

原创远程多窗口和Screen用法

在创建screen这个窗口时，会自动生成一个子窗口，也就是说只能在子窗口键入命令。如果当前的screen主窗口只剩下最后一个子窗口，那么这个screen主窗口就会退出。你这边是无法进入的。这样就进入创建的名字为pc-work的窗口下，其实这里和你平时看到的窗口没什么两样。我在当前的子窗口下输入了命令，比如说一个执行程序很长的，不断输出log信息的。平时我都是一个相似的任务会放在一个主窗口，然后这些相似的任务在一个主窗口下分别开不同的子窗口。新建一个子窗口后，当前执行的子窗口就会被覆盖，但是任务继续执行。

2023-12-20 23:00:00 929

原创 grep、sed、awk

三个命令是linux常见的文本处理命令，应用的场景和擅长领域不同。grep：擅长数据查找定位。sed：擅长数据修改（增删改查）通过正则表达式进行变量替换，可以显示满足某些条件的行。配合shell的批处理就会很强大。awk：擅长数据切片，数据格式化，功能复杂。

2023-02-03 01:00:00 775 1

原创 NL-meals、BM3D

常用的高斯滤波或者均值滤波相对都比较简单，即每个窗口的滤波核都是一样的。稍微复杂一些保边滤波如，双边滤波和导向图滤波等。这里介绍几种ffmpeg里面包含的相对比较复杂的滤波算法。计算量不可谓不小。可以通过ffmpeg查看源码实现过程，这里部分使用MATLAB，主要是为了代码的易读性和简易。

2023-02-02 01:00:00 616

原创正则表达式常用匹配

正则表达式

2023-02-01 23:00:00 541

原创贝叶斯优化器

基于github上的一个贝叶斯优化开源项目，其用法在项目的说明中有详细英文记录，这里主要是整理简化，并参考了其他文献来记录一下项目中用的数学函数以及论文中一些单词的说明。原理这篇文章（参考一）从详细说明了该项目的核心思想和过程，包括该过程用到的先验函数和采集函数的介绍。博客和github项目里面都提到了exploration与exploitation这两个单词。可以解释为不确定策略的探索（Exploration）和当前策略的开采(Exploitation)之间进行权衡，也可以理解为explore是在

2022-02-09 20:51:36 2875 2

原创颜色空间和色域映射

一般的设备通常是用RGB的方式来表示颜色，但是随着新的标准和设备的不断更新，出现了在不同色域下的RGB表示方式。比较常见的是bt2020，bt709和bt601等。出现这些原因主要是随着硬件设备的更迭，显示器可以表达了更广的色域。随之而来就带来了一些所谓的看到同一颜色统一的问题，例如在bt2020下的红色RGB=（1,0,0）和bt709下的RGB=（1,0,0）是不一样的红。在BT709的显示器上是无法正常显示符合bt2020的HDR视频，亮度达不到，色彩也达不到。因此就涉及到了色调映射技术...

2021-11-21 20:59:35 9043

原创杜比视界HDR参数

之前已经介绍了基于HDR10和HLG的HDR视频的相关参数，但是由于本身这类视频在市场上属于少数，或者由于设备的不支持都没有正确的观看，更不要提杜比视界这种更高端的玩家了。不过随着iPhone12的推出，由于其支持HLG格式的杜比视界HDR视频拍摄，杜比视界的片源大大增加。这就有点蒙圈了，不是说杜比视界是在PQ转换曲线的基础上使用动态元数据么，HLG是没有元数据的HDR。接下来主要是围绕这些疑问来一步步了解杜比视界（DOLBY VISION, DV）的技术标准。单、双层杜比视界 ...

2021-08-20 21:03:49 10897 1

原创直方图均衡化系列

直方图均衡化,HE:Mat eaualizeHist_GO(Mat src){ int width = src.cols; int height= src.rows; Mat HT_GO = src.clone(); int tmp[256] ={0}; float C[256] = {0.0}; int total = width*height; for (int i=0 ;i<src.rows;i++){ for (

2021-06-24 09:17:31 449 1

原创卷积层和归一化层融合以及ONNX的使用

之前就已经提到过，在神经网络种涉及到归一化的操作中就要特别小心。一方面是训练和推理阶段要有明确的标识来进行区分。否则，就会导致训练和推理的结果相差很大。另一方面就是归一化的方法很多，大致可分为：...

2021-06-11 18:01:18 5107

原创 HDR中HLG与PQ曲线的互转

HDR视频中由于电光转换曲线的不同，技术标准也大致分为了杜比视界、HDR10+、HDR10、HLG等，目前常用的主要是以PQ曲线的HDR10和HLG。这两者之间的区别在HDR视频编码参数中进行过详细的说明。一般的HLG适用于广电（根据用户设备的峰值亮度动态的调整最高显示亮度），PQ适用于数码电脑等（绝对的亮度，如果设备达不到，则进行削峰）。他们之间根据不同的用户选择不同的技术标准。如果知道其中一个技术标准的HDR视频，其实是可以转换为另外一个的。基本概念色彩值(color value)...

2020-11-24 20:09:07 20594 1

原创双边滤波和双边网格

双边滤波双边滤波器也是一种保边滤波器．和导向图滤波器一样，可以达到在平坦区域进行均值（高斯）滤波的效果，在边缘不进行滤波的效果．其原理为一个与空间距离相关的高斯函数与一个灰度距离相关的高斯函数相乘．其中空间距离指的是当前点与中心点的欧式距离。空间域高斯函数其数学形式为：(xi,yi）为当前点位置，（xc,yc）为中心点的位置，sigma为空间域标准差.灰度距离指的是当前点灰度（像素点值）与中心点灰度的差的绝对值。值域高斯函数其数学形式为其中gray(xi,yi)为当前点灰度值，.

2020-11-04 15:13:09 5394 4

原创 HDR图片以及色调映射(ToneMapping)

高动态范围(High-Dynamic Range，简称HDR),相应的,LDR(Low-Dynamic Range),也就是我们常见的8bit存储方式的图片.之前都是在介绍视频方面.但是在高动态图片(HDRI)方面也有一些少量应用, 目前常用的存储格式有三种:OpenEXR、RadianceRGBE、FloatTIFF.OpenEXROpenEXR是由工业光魔（Industrial Light & Magic）开发的一种HDR标准。OpenEXR文件的扩展名为.exr,常...

2020-09-11 21:06:11 15687

原创 C/C++总结

class A{public: void f() const { cout<<" const"<<endl; }};类的成员函数后面加 const，表明这个函数不会对这个类对象的数据成员（准确地说是非静态数据成员）作任何改变。在设计类的时候，一个原则就是对于不改变数据成员的成员函数都要在后面加 const，而对于改变数据...

2020-06-10 20:15:51 853

原创自定义tensorflow的tf.image.resize_bicubic方法

个人感觉tensorflow的resize_image方法有个大坑，这里只是以双三次插值为例对图片进行缩放为例，对比opencv以及PIL算法的不同。之所以说tensorflow的插值算法有些坑，是因为他的resize算法，无论怎么配置，都无法和openc以及pil库提供的插值算法进行对齐，常用的视频编解码工具ffmpeg自带的双三次插值接近PIL效果。另外，三者的结果都不相同，opencv个人感觉最好，图像显得锐化一些；tensorflow也是有锐化效果，但是部分细节丢失严重，更加接近于最近邻...

2020-06-07 17:07:06 2202

原创资源整合ing

一些数据集的整理或者技术博客专栏等链接整合：关于人脸的数据集和GAN算法。1. 涉及到的数据集主要是人脸数据集，但是并没有相应的标注，即不适合人脸检测。2. GAN相关论文的翻译以及github工程链接等3. 相对应的大神在CSDN上的博客地址：https://blog.csdn.net/a312863063http://www.gwylab.com/index.htmlhttp://www.seeprettyface.com/...

2020-05-19 11:15:35 310

原创 C++构造函数、虚函数

一：构造函数基本构造函数：执行过程：1）传参 2）给类数据成员开辟空间 3）执行冒号语法给数据成员初始化 4）执行构造函数括号里面的内容例如：class Base{public:# 冒号语法后面的内容相当于int a = 10;（初始化） Base(int var) : m_Var(var){ }private: int m_...

2020-04-17 20:46:08 1634

原创 HDR视频的编码参数

对于hdr视频的一个ffmpeg编解码命令或者参数在该篇中进行过记录，这里来详细解释一下其中参数的意义。解码因为以mp4等封装格式的视频里面已经包含了相关编解码信息，所以不需要什么复杂参数即可解码成yuv格式的视频。ffmpeg -i input.mp4 -y output.yuv解码后变成了yuv这种纯数据格式，如果涉及到hdr视频的话，相应的元数据metadata...

2020-04-08 20:51:39 19655 7

原创 Markdown 常用命令

结合github上支持的Markdown，命令和在github上的效果一标题‘#空格 + 加标题名字（有些可以不用空格）’以及标题一个# 两级标题## 一次类推code:# 一级标题## 二级标题### 三级标题效果：字体code：**加粗的文字** *倾斜的文字* ***斜体加粗的文字*** ~~加删除线的文字~~ 效果...

2020-02-25 12:55:02 1500

原创 linux下x265和matlab的MatConvNet安装

x265安装首先在网络上下载x265的项目，下载下来的就是源码，需要编译成可执行文件。下载地址有很多，可以选择github和做别人打包好的压缩文件，这里提供后者下载地址，当前是x265_3.2.1版本解压后进入/hx265_3.2.1/build/linux，有两个文件，执行 ./make-Makefiles.bash有可能报错：./make-Make...

2020-01-18 16:23:24 608 1

原创无参考图像质量评估方法：BRISQUE、RankIQA、DIQA详解

常用的图像质量评估（IQA）分为无参考和有参考两种类型。常见的有参考图像质量评估方法有PSNR，SSIM以及VMAF。其中vmaf是针对视频来讲的，在它的评价方法里面添加了一些时域信息，如果应用于单张图片，需要做一些处理，如去除时域信息。有参考意味着图像质量是以参考图为基准。基于参考图像都是高清图像的假设，这些评价方法已经广泛应用于图像压缩以及图像传输、拼接之类的处理后图像的质量，假如这...

2019-12-01 16:46:09 20732 8

原创 linux环境变量配置与系统文件

在Linux下安装新的第三方库时，经常要先配置环境变量从而让我们的编译器能够找到相应的头文件以及库文件。库文件在连接(静态库和共享库)和运行(仅限于使用共享库的程序)时被使用，其搜索路径是在系统中进行设置的。一般Linux系统把/lib和/usr/lib两个目录作为默认的库搜索路径，所以使用这两个目录中的库是不需要进行设置搜索路径即可直接使用。对于处于默认库搜索路径之外的库，需要将库的...

2019-10-19 16:31:29 853

原创图像锐化和边缘检测算子分析与实现

在总结边缘检测算子之前，先记录一个Python函数库的用法Pillow--ImageFilter，该函数集合了常用滤波函数，例如高斯滤波，中值滤波等。它内部帮你处理了由于滤波或者其他操作造成的数值越界等问题，比如说，Pillow的Image类打开的图片都是uint8 类型的，在做完滤波后，有些值超过255，就变成个数，有些值小于0，就会突变成二百多。可以采用cv2.convertScal...

2019-10-07 15:38:00 1864

原创 siamese(孪生) 网络以及迁移学习的应用

孪生,顾名思义,就是长相一样的双胞胎。对于深度学习模型来说就是一种相似性度量网络。表面上画出的网络分为两路，而这两路网络一模一样。因此，同一个输入数据分别输入到两个网络，最后的输出也一样。那么相似的输入，输出也应当很相识。基于这种特性，孪生网络特别适合带有准确标签的样本在整个样本中的比率很小，但整个的数据集的体量又很大的情况。特别是对于现在的深度学习，都是数据驱动型的。如果每个类别的样本太...

2019-09-26 21:05:27 4621 10

原创 OpenVINO的部署和使用

现在几乎每家硬件或互联网公司都推出了自家的机器学习框架，小米的mace、谷歌的TensorFlow、Facebook的Torch等等。今天要介绍的是Inter公司出品的OpenVINO。OpenVINO主要分为Model Optimize和Inference两个部分。第一个就是把不同机器学习平台下训练出来的模型转换成OpenVINO可以是别的xml和bin两个组成的模型。然后执行Inf...

2019-06-22 16:22:03 7197 1

原创 Docker和conda的基本操作与命令

关于docker的基本概念和一些基本使用情况，可以参考GitHub上的这些文章。但是上面有些操作还是太文章话，没有很好的举例子说明，所以对于刚入门的爱好者理解起来有些困难。关于docker的安装，网上有太多的例子，这里就不在叙述。首先由一个名为openvino的框架部署来讲起--openvino，它是因特尔，对，就是制造CPU公司的那家，提供部署机器学习的一个框架，它把caff...

2019-06-15 15:10:12 493

原创 iOS(swift): Core ML的使用

神经网络模型在移动端可以利用CPU加速，但是，如果算法同事那边为了更好的效果在尝试不同的模型，相应的在部署iOS移动端这块就需要不断的修改网络模型。Core ML的出现使部署移动端的任务量可以缩减到最少两行代码。苹果官方给出了如何利用Core ML的demo，并且给出了两个例子。一个是根绝输入相关数据预测房价，另外一个是输入图片给出分类结果（结合了Vision框架）。打开Xco...

2019-05-29 20:52:16 4145 2

原创 iOS：小笔记

一：swift，单例模式以及使用。import Foundation//创建一个单例类class Singleton{// 对于单例实例来说，需要创建一个唯一对外输出实例的方法// 静态变量用static来处理 static let getSingleton = Singleton() func doSomething() { print(...

2019-05-24 14:19:48 338

原创 iOS（swift）：将相册里的资源复制到本地APP

通过UIImagePickerController()，打开相册并选取相册内的资源，其实没什么难度。之前项目中需要将相册内的视频拿到本地APP中，并进行播放。具体思路为本地某个控制器准守UIImagePickerControllerDelegate代理方法，通过一下两个方法即可拿到当前视频的路径，尽管中间有通过264压缩，但是整体功能不受影响。 func ini...

2019-05-06 20:38:18 2265

原创 iOS（swift）：CVPixelBuffer图像格式转换成CMSampleBuffer

手机上可以通过imageView作为图像的载体对一副图像进行显示。另一方面，在iOS端图像处理中，可以通过GPU对图像进行处理和渲染，并且通过metal框架，可以将处理后的图像直接显示在MTKView上。但是如果不做复杂的处理或者更加有利于将处理后的图像与MTKView更好的解耦，如何将图像进行显示了呢？一方面我们可以将CVpixelbuffer的图像数据个是转换成UIImage，另一...

2019-04-23 20:25:07 6719

原创 iOS（swift）：Framework工程调用C或者OC文件方法——关于module.modulemap的使用。

在iOS开发中，常用到的两种语言就是swift和OC了。在APP开发中，swift和OC文件可以通过桥接的方式互相调用。特别是swift语言调用OC时，把OC文件直接拖到工程中，xcode会自动生成桥接文件。但是在编写framework文件时会发现拖动到工程中，不但没有生成桥接文件反而报了错；另一方面，即使是APP的开发，如果想要swift调用C语言文件，也是困难重重。解决此类问题使用...

2019-04-09 20:05:53 6060 1

原创导向图滤波与积分图算法

导向图滤波中需要用到一个滤波窗口W大小内图像的方差和均值的大量计算，而积分图可以快速的对图像内任何矩形所覆盖的像素值的和进行计算，从而使计算时间达到常数级别。积分图对于积分图的概念，该篇文章解释的相当不错，我在这里只是做了一些总结和添加一些没有提到的东西。在积分图像上任意位置(x, y)处的ii(x, y)表示该点左上角所有像素之和，表示如下：从给定图像I从上到下、...

2019-01-27 18:55:09 1278 1

原创主成分分析PCA与奇异值分解SVD在降维中的应用

在数据压缩、冗余和噪音的消除中，PCA是常用的降维方法。其主要是用于减少数据集的维度，同时保证了数据集中使方差贡献最大的特征。因为用到了样本之间的协方差，如果样本数量比较多的时候，其计算量是相当大的。SVD利用PCA求解过程中的特点，可以有效降低这方面的计算量。下面分两个部分对涉及到的PCA和SVD原理进行分析。1.主成分分析PCA: PCA是利用数据里面最主要的部分替代原来...

2019-01-17 20:00:25 707

原创 TensorFlow：将多个pb文件模型合并成一个

由于计算机计算能力的增强和相关AI芯片的产出，深度学习中的神经网络结构也是朝着更深、更宽等方向发展。总之就是相应的网络结构参数越来越多，结构越来越复杂。这样无论对于工作还是学习上，想要训练一个网络变得越来越困难。迁移学习的概念很好的解决了这个问题。在之前的视频场景分类中介绍过，将一张图片输入到一个网络，在具体的分类层的前一层输出的数据可以看成是这张图片的全局特征。我们只需对相应的特征进行处理。因此...

2019-01-05 16:36:54 5677 10

原创利用EM算法对高斯混合模型GMM进行求解

高斯混合模型高斯混合算法GMM和大家比较熟悉的k-Means算法同属聚类算法的一种。在分类或者搜索算法中，我们对一些样本进行聚类后可以对新的数据进行分类。对于k-means算法来讲结果就是一个固定值（是哪一类就是哪一类），而对于GMM算法的结果是一种概率值（属于哪一类的概率是多少）。无论对机器还是人来说，对一个事情进行结果判定，给出概率值要比给出固定值（绝对）要好多的，或者说是结果...

2018-12-11 17:42:35 1321

原创基于Youtube-8M的视频场景分类

简介首先对于视频和图片分类的区别，我的理解就是视频分类多了一些时间信息。另一方面对于视频分类包括的场景和动作这两类视频分类中，感觉时域信息的重要性也不同。动作分类更加注重时域信息这一点。总之，为了在普通的多张空域图像信息上提取时域信息，通常处理方法有：双流卷积（普通图像的空域信息加上几张图片的光流信息）、循环神经网络RCNN（包括主流的LSTM等）、3D卷积等。无论何...

2018-12-07 17:05:08 6599 3

原创人脸检测-MTCNN

简介：人脸检测不同于别的目标检测算法，其实它就是一个二分类问题。如果仅仅从工程角度来讲，用官方或者其他人训练的结果即可。因此在这里只介绍其推理过程，而不再介绍训练过程，训练步骤和数据集的制作可以参考该文章。根据工程目标可以调整一下内部参数来提高其中的检测速度或者最小检测范围。在人脸检测算法中，MTCNN是已知的开源人脸检测算法中相对优秀的算法。该算法主要由3个stage对人脸进行从...

2018-11-01 00:17:38 715