10 AlexInML

尚未进行身份认证

我要认证

专注于机器学习和数据挖掘、个性化推荐、深度学习等领域。 联系方式:AlexInML@outlook.com

等级
TA的排名 2w+

在分布式系统中使用ffmpeg -- python

ffmpeg是常用的用来处理视频的工具,它的功能非常强大,包含了丰富的音视频处理接口,如视频格式转换,音视频分离、添加水印等。出于效率上的考虑,ffmpeg是基于c编写的,所以在使用之前通常需要编译安装。想要在分布式集群上面用ffmpeg,需要在每台机器上安装ffmpeg或者用预先编译好的包。本文将详细介绍如何在分布式集群上使用预先编译好的ffmpeg包。1、imageio-ffmpeg自动...

2019-03-17 19:10:21

深度学习迁移模型BERT详解

2018年google AI组发表的一篇文章BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding在多个自然语言处理问题上取得了很大的提升。      BERT是一个迁移学习模型,在双向深度网络Transformer (https://arxiv.org...

2019-01-01 15:43:25

施密特正交化及QR分解(附实现代码)

施密特正交化      施密特正交化(Gram-Schmidt Orthogonality)是常用的求欧式空间正交基的方法。给定一个线性无关向量组a1,a2,...,ama_1,a_2,...,a_ma1​,a2​,...,am​,经过施密特正交化可以得到一组正交向量组b1,b2,...,bmb_1,b_2,...,b_mb1​,b2​,...,bm​,正交向量组中...

2018-12-26 21:18:55

numpy array转化成base64编码

Base64是网络上最常见的用于传输8Bit字节码的编码方式之一,通常用来在HTTP环境下传递较长的数据。本文介绍opencv 图像、1维或者2维numpy 矩阵转化成base64的方法。这几种方法的思路相同:先把numpy转化成字符串,然后再用base64编码。OpenCV图像转base64      OpenCV图像的数据类型也是numpy 2维数组,...

2018-11-24 16:10:04

TensorFlow restore部分变量

有时候我们需要在Tensorflow中restore图的部分变量,比如我们想把两个已经训练好的子图合并成一个大图;或者我们在训练完一个网络结构后对其进行扩展,并且保留已经训练好的部分不变;又或者要对graph的几个部分交替进行训练。      Tensorflow在restore模型的时候是严格按照变量名的对应关系赋值的。例如在构建的Graph里有个name='...

2018-09-25 22:21:00

python控制台颜色打印

在控制台打印时添加颜色信息,可以更清晰的展示和区分内容。例如重要的信息可以加加粗和下划线,error信息可以用红色下划线表示。本文介绍如何用python在控制台打印添加颜色、下划线、高亮等使得展示的信息更加清晰直观。例如:    在python控制台打印带有颜色、特殊显示方式的字符串,其主要原理是用特殊的字符来标记展示形式:格式:\033[显示方式;前景色...

2018-08-25 23:20:32

tensorflow decode base64 解析图像

Base64是网络上最常见的用于传输字节码的编码方式之一,可用于在HTTP环境下传递较长的信息。如果要通过Http调用tensorflow服务完成图像分类或者检测等任务,就需要用base64来传递图像信息。tensorflow也提供了函数decode_base64来解析图像。tensorflow decode_base64函数的使用方法如下:def base64_decode_im...

2018-06-27 20:32:24

dlib检测人脸landmarks

     人脸landmarks在人脸分析上有很大的作用,可以利用landmarkers进行人脸校正(alignment),也可以通过landmarkers计算五官之间的距离来对人脸建模,判断美丑等。     dlib(http://dlib.net/)提供了很友好的检测人脸landmarkers的接口。下图是一个68个点的landmarkers检测结果,可以通过数字对应到五官,例如27~30是检...

2018-05-12 22:11:38

Vim常用命令和配置

1、Vim常用快捷键:(1)删除:x:删除当前字符   nx:连续向后删除n个字符dd:删除整行ndd:向下删除n行diw:删除光标所在的单词,不包括空白字符daw:删除光标所在的单词,包括空白字符dw:从当前位置删除到下一个单词词首dG:从当前位置到文件末尾的内容全部删除dj:删除一行        d4j:删除4行D:删除到行尾的内容    (2)插入:i:光标之前插入   I:在行首插入a:...

2018-03-28 22:03:33

OpenCV位运算实现图像融合

OpenCV在计算机视觉处理方面提供了很多强大的工具,使用OpenCV可以很容易的对图像进行各种算数运算,本文主要介绍通过位运算把两张图片融合成一张图片,可用于添加水印等。      在网上随意找了两张图,一张是google logo,一张是deep learning图片:      使用OpenCV把google logo作为水印添加到deep learning图上,最终

2018-01-31 22:51:36

tensorflow 轻松实现自己的目标检测

图像分类和目标检测是计算机视觉两大模块。相比于图像分类,目标检测任务更复杂更困难。目标检测不但要检测到具体的目标,还要定位目标的具体位置。不过Tensorflow models上大神们的无私奉献已经使得目标检测模型平民化,只需要按照特定的格式准备好训练数据,就可以轻松训练出自己想要的目标检测模型。本文通过一个例子介绍如何通过Tensorflow models快速构建目标检测模型。准...

2018-01-21 23:00:17

Conda虚拟环境

Conda是一个虚拟环境和软件包管理系统,当需要在一台机器上测试不同配置的python时,可以用conda轻松创建相互隔离的环境。conda管理虚拟环境的常用命令如下:conda虚拟环境:conda create -n envnameconda激活虚拟环境:source activate envnameconda退出虚拟环境:source deactivateconda列出所有

2017-11-11 21:46:23

深度学习目标检测之RPN-based方法

目标检测是机器学习领域很重要也很具有挑战性的一个分支,目标检测需要同时完成图像分割和子图分类两项task,比图像分类更具难度。最近几年,深度学习在图像处理上有很多成功的尝试,而目标检测领域也出现了一些很好的方法。本文主要介绍RPN-based的系列方法,包括R-CNN、Fast-RCNN和Faster-RCNN。    RPN-based(RPN:Region Proposal Network)目

2017-10-07 23:56:39

flask快速搭建tensorflow http服务

tensorflow是目前最受欢迎的deep learning框架之一,在学术界和产业界都有广泛的使用。在如何部署tensorflow模型提供远程调用服务方面官方提供了tensorflow serving框架,详细的介绍可以参考官网资料:https://tensorflow.github.io/serving/。本文主要介绍另一条部署服务的途径:利用flask快速搭建tensorflow http服

2017-08-05 19:13:44

在Spark上进行两个大数据集的匹配

分布式框架Spark把任务划分到各个子节点进行处理,可以有效利用小机器的CPU来处理大规模数据集。但是Spark也存在局限性,在某些问题的处理上会力不从心,例如两个大数据集的匹配。出现这种问题的原因主要是分布式系统的优势在于机器的数量,子节点的CPU和内存通常配置较低。问题描述:如果有两个大数据集A和B,假设A有几千万条数据,B有几百万条数据,需要把B中的每一条数据和A中的每一条数据进行比较。下面

2017-07-09 22:59:52

hadoop命令OutOfMemoryError GC

使用hadoop命令对hdfs文件系统进行操作时(例如getmerge、put等)可能会遇到OutOfMemoryError这样的异常,如下图: 解决方法:增大hadoop client的最大内存占用限制。 命令: export HADOOP_CLIENT_OPTS=”-Xmx10g”,具体是10g还是其他数值可以根据自己机器的具体情况调整。

2017-05-12 15:17:41

HOG(方向梯度直方图)

结合这周看的论文,我对这周研究的Histogram of oriented gradients(HOG)谈谈自己的理解:HOG descriptors 是应用在计算机视觉和图像处理领域,用于目标检测的特征描述器。这项技术是用来计算局部图像梯度的方向信息的统计值。这种方法跟边缘方向直方图(edge orientation histograms)、尺度不变特征变换(scale-invariant fe

2017-04-07 15:43:03

Tensorflow Serving 模型部署和服务

本文转载自:https://zhuanlan.zhihu.com/p/233614132016年,机器学习在 Alpha Go 与李世石的世纪之战后变得更加炙手可热。Google也在今年推出了 TensorFlow Serving 又加了一把火。TensorFlow Serving 是一个用于机器学习模型 serving 的高性能开源库。它可以将训练好的机器学习模型部署到线上,使用 gRPC 作为接

2017-03-31 19:27:23

调用jupyter notebook文件内的函数一种简单方法

python开发环境jupyternotebook良好的交互式和模块化受到很多python开发人员的青睐,但是jupyternotebook是以json格式保存文件内容的,而不是python文件那样的普通格式,所以不能直接被python解析器解析,如何调用.ipynb中的module也成为一个问题。本文介绍一种方法,使得只要在我们的工作目录下放置一个python文件,就可以正常调用其他jupyt

2017-03-28 11:13:39

Tensorflow 数据预读取--Queue

Google开源的深度学习框架Tensorflow在数据预取上做了一些特殊的特征来提高模型训练或者推理的效率,避免在IO上耗费过多的时间。本文通过几个简单例子介绍Tensorflow构建queue常用函数的使用方法。    深度学习训练模型通常是建立在大数据基础上,一般情况下可以把数据都加载到内存避免训练时数据读取IO。但是,当数据占用空间较大,如图片集或者视频集,无法全部载入内存;另一种方式是在

2017-01-25 11:20:39

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!