hanranV-CSDN博客

原创构建 Kubeflow-任务自动化流程管理前篇(一)

KubeFlow——机器学习流水线一. 为何使用- kubeflow现有市场模式面临的问题随着 AI 广泛使用在不同领域的业务中，使商业模式发生改变——降低人力成本、提升自动化率就带来了商业价值。虽然业务价值持续增长，但企业对深度学习的投入也进入了冷静期，如何在有限人力成本的条件下，来最大化算法工程师的效率，成为企业、或是 AI 算法从业人员面临的问题；业务工作流程繁多：数据标注/清洗、模型训练/验证/测试、跨平台的模型转换支持、产品级模型部署/交付.业务算法落地、迭代升级需要人工参与(业

2020-10-08 16:56:50 710 3

原创 Sequential Modeling Enables Scalable Learning for Large Vision Models

本文提出了一种新颖的顺序建模方法，可以在不使用任何语言数据的情况下学习大型视觉模型（LVM）。为此，我们定义了一种通用格式，“视觉句子”，在这种格式中，我们可以表示原始图像和视频以及带注释的数据源，如语义分割和深度重建，而无需超出像素之外的元知识。一旦这种广泛的视觉数据（包含（420）亿个tokens）被表示为序列，就可以训练模型以最小化下一个token预测的交叉熵损失。通过在不同规模的模型架构和数据多样性上进行训练，我们提供了实证证据，表明我们的模型可以有效地扩展。

2023-12-04 16:33:34 986

原创 EUREKA: HUMAN-LEVEL REWARD DESIGN VIACODING LARGE LANGUAGE MODELS

大型语言模型（LLMs）在顺序决策任务中作为高级语义规划器表现出色。然而，利用它们来学习复杂的低级操控任务，例如灵巧的笔旋转，仍然是一个未解决的问题。我们弥补了这一基本差距，并提出了Eureka，这是一个由LLMs驱动的人类水平奖励设计算法。Eureka利用了最新LLMs的卓越能力，如零样本生成、代码编写和上下文中的改进，来执行奖励代码的进化优化。生成的奖励可以通过强化学习用于获取复杂技能。Eureka在没有任何特定任务提示或预定义奖励模板的情况下，生成了优于专家人工设计奖励的奖励函数。

2023-11-30 22:20:45 455

原创 Visual Cropping Improves Zero-Shot QuestionAnswering of Multimodal Large Language Models

多模态大型语言模型（LLMs）最近在视觉问答（VQA）方面取得了令人鼓舞的零射击准确率，这是影响各种下游应用和领域的基本任务。鉴于这些模型广泛使用的巨大潜力，重要的是调查它们在处理不同图像和问题属性方面的限制。在这项工作中，我们研究了多模态LLMs是否能够感知图像中的小细节以及大细节。具体而言，我们展示了它们在回答视觉问题的零射击准确率对问题的视觉主题大小非常敏感，随着大小的增加下降了高达（46％）。此外，我们通过观察到人类的视觉裁剪可以显著减轻它们对大小的敏感性，证明了这种影响是因果关系的。

2023-11-30 16:46:23 120

原创 Large Language Models areVisual Reasoning Coordinators

视觉推理需要多模态感知和对世界的常识性认知。最近，提出了多种视觉-语言模型（VLMs），在各个领域展现了出色的常识性推理能力。然而，如何利用这些互补的 VLMs 的集体力量很少被探索。现有的方法如集成，仍然难以实现这些模型之间所需的高阶通信聚合。在这项工作中，我们提出了 Cola，一种协调多个 VLMs 进行视觉推理的新范式。我们的关键洞察是，一个大型语言模型（LLM）可以通过促进利用它们不同且互补能力的自然语言通信，有效地协调多个 VLMs。

2023-11-30 14:59:51 611

原创 Towards Top-Down Reasoning: An Explainable Multi-Agent Approach for Visual Question Answering

最近，视觉语言模型（VLMs）受到了显著的关注，在各种任务中展现了显著的进步，这些进步是通过利用大量的图像-文本配对数据实现的。然而，现有的 VLMs 通常将视觉问答（VQA）视为感知任务，采用黑盒模型处理，忽视了对同一视觉场景中不同问题之间关系的显式建模。此外，依赖于知识库（KBs）的现有 VQA 方法可能经常遇到来自有限数据的偏见，并在相关信息索引方面面临挑战。

2023-11-30 14:16:41 57

原创 Fully Authentic Visual Question Answering Dataset from Online Communities

视觉问答（VQA）是指关于图像的问题的回答。我们介绍了第一个VQA数据集，其中所有内容都来自真实用例。这个数据集源自在线问答社区论坛，我们称之为VQAonline。我们接着描述了我们的数据集以及它与其他八个VQA数据集的关系。观察到我们数据集中的答案往往更长（例如平均173个词），因此与标准VQA评估指标不兼容，我们接下来分析了六种流行的长文本评估指标中哪些与人类判断最吻合。然后，我们使用最适合的指标来评估六种最先进的视觉与语言基础模型在VQAonline上的表现，并揭示它们最大的挑战所在。

2023-11-29 14:31:22 79

原创 Grounding Answers for Visual Questions Asked by Visually Impaired People

这篇论文的标题是“Grounding Answers for Visual Questions Asked by Visually Impaired People”，作者是Chongyan Chen, Samreen Anjum, 和 Danna Gurari。论文的重点是在视觉问答（VQA）的领域内，引入了一个新的数据集：VizWiz-VQA-Grounding，这是第一个针对视障人士提出的视觉问题，并在视觉上定位答案的数据集。

2023-11-27 10:49:24 88

原创 Weakly Supervised Visual Question Answer Generation

这篇论文提出了一种弱监督的视觉问题答案生成方法，主要研究在对话智能助手和视觉问答（VQA）领域的应用。

2023-11-21 17:52:31 98

原创 LOIS: Looking Out of Instance Semanticsfor Visual Question Answering

视觉问答（VQA）作为一种需要在视觉和语言之间架起桥梁以正确推断答案的多模态任务，已被密集研究。最近的尝试开发了各种基于注意力的模块来解决VQA任务。然而，模型推理的性能在很大程度上受限于用于语义理解的视觉处理。大多数现有的检测方法依赖于边界框，这对VQA模型来说仍然是一个严峻的挑战，即理解图像中物体语义的因果关系并正确推断上下文信息。为此，我们在这项工作中提出了一个不使用边界框的更精细的模型框架，称为“实例外语义观察”（LOIS），以解决这一重要问题。LOIS能够提供更细粒度的特征描述来产生视觉事实。

2023-11-21 11:13:01 61

原创 OCID-Ref: A 3D Robotic Dataset with Embodied Language for Clutter Scene Grounding

为了在工作环境中有效地应用机器人并协助人类，开发和评估视觉接地 (VG) 如何影响被遮挡物体上的机器性能至关重要。然而，当前的 VG 工作仅限于工作环境，例如办公室和仓库，由于空间利用问题，对象通常被遮挡。在我们的工作中，我们提出了一个新颖的 OCID-Ref 数据集，该数据集具有一个引用表达式分割任务和被遮挡对象的引用表达式，为了解决具有挑战性的遮挡问题。 .........

2022-07-05 23:46:59 271 1

原创深度学习-基础镜像发布系列

1、pytorch 基础镜像-From registry.cn-hangzhou.aliyuncs.com/hanran/ai-images:1.10.0-cuda11.3-cudnn8-devel# 中文问题ENV LANG=C.UTF-8 LC_ALL=C.UTF-8# 东八区问题ENV TZ=Asia/ShanghaiRUN ln -snf /usr/share/zoneinfo/$TZ /etc/localtime && echo $TZ > /etc/

2021-12-31 23:59:30 1283

原创机器翻译-基础概念

1、机器翻译机器翻译（machine translation, MT）是用计算机来实现不同语言之间翻译的技术。被翻译的语言通常称为源语言（source language），翻译成的结果语言称为目标语言（target language）。机器翻译即实现从源语言到目标语言转换的过程，是自然语言处理的重要研究领域之一。机器翻译通常使用机器学习技术将大量文本从支持的语言翻译成支持的语言，即将“源”文本从一种语言翻译成另一种“目标”语言。尽管机器翻译技术背后的概念和使用界面相对简单，但其背后的科学

2021-12-31 23:53:37 2637

原创 Docker 系统内部时区修正

Docker容器，内部时间与宿主机器时间校正1. 查看docker内部时间，选择正确的时区 #date [-R] 　　#查看主机时间 #timedatectl #查看主机时区 #tzselect 　 #选择时区，5 选择亚洲 > 9 选择中国时区 -> 1选择北京时间 -> 1 选择Yes2. 修改主机时区 cp /usr/share/zonein...

2019-09-17 21:10:36 702

原创安装 python virtualenv 虚拟环境

1. 工具包安装pip install virtualenv | sudo apt-get install python-virtualenv2. 创建虚拟环境# virtualenv /system_python_bin_path /your_virenv_local_pathvirtualenv -p /usr/bin/python2.7 /usr_local_path# 创建...

2019-07-29 17:22:55 238

原创 Ubuntu Docker 安装——深度学习环境预备

1. docker 安装*建议首先更新 docker 源地址，推荐使用阿里源，官方源(网络可能无法到达)下面的操作系统环境为: Ubuntu 16.04 阿里镜像链接# step 1: 安装必要的一些系统工具sudo apt-get updatesudo apt-get -y install apt-transport-https ca-certificates curl softwar...

2019-07-25 19:08:42 406 1

原创 python opencv-3.0 SIFT/SURF 特征提取与匹配

一、环境准备目前 Opencv 有2.x 和 3.x 版本，两个版本之间的差异主要是一些功能函数被放置到了不同的功能模块，因此大多数情况两个版本的代码并不能通用。建议安装 Anaconda，自行下载相应版本。直接命令安装Opencv3, lake : conda install -c menpo opencv3pip install lake 二、SIFT/SURF 特征提取与匹配# cod

2017-12-27 20:20:42 16275 1

原创 Git 项目免密拉取代码-自动保存账号密码

编辑git文件进入git项目根目录： 1、linux : vi .git/config 于文件末尾添加内容，并保存[credential] helper = store 拉取或提交过一次代码后，会自动保存密码～

2017-12-15 11:20:03 3176

原创 Sublime Text 3 for MAC 快捷键

1、Sublime Text 3是Sublime Text 2的升级版。Sublime Text 是一款流行的文本编辑器软件，有点类似于TextMate，跨平台，可运行在Linux，Windows和Mac OS X。本篇主要针对 MAC环境下的快捷键整理

2017-06-29 18:31:01 1481

原创 Connectionist Temporal Classification (CTC)

RNN模型可以用来对两个序列之间的关系进行建模。但是，传统的RNN，标注序列和输入的序列是一一对应的。

2017-02-11 13:57:03 3123

原创 MAC 安装zsh 后，部分bash 指令失效 conda list pip list 失效

1、问题描述由于ZSH 的代码高亮风格，于是就安装了 MAC 下的 ZSH ，安装完成之后发现，原有的bash 指令还可以用，类似 anaconda 里的命令就不可以用了，如： conda list 、conda install 等。2、解决办法vim ~/.bash_profile , 将失效指令的路径添加进： vim ~/.zshrc 最后：source ~/.zshrc问题解决

2017-01-09 11:04:08 8559 6

原创如何应用卡方检验应用

1、概念入门卡方检验（Chi-Squared Test或 x2x2x^{2} Test是一种统计量的分布在零假设成立时近似服从卡方分布（ x2x2x^{2}分布）的假设检验。在没有其他的限定条件或说明时，卡方检验一般指代的是皮尔森卡方检验。在卡方检验的一般运用中，研究人员将观察量的值划分成若干互斥的分类，并且使用一套理论（或零假设）尝试去说明观察量的值落入不同分类的概率分布的模型。而卡方检验的...

2017-01-05 21:12:11 2931 1

原创 python 远程连接MySQL数据库拉取数据存至本地文件

1.连接数据库 Python MySQL 自行查找相关博客安装。直接上代码：import MySQLDBconn = MySQLDB.conection( ho)

2016-12-30 23:36:03 7520 6

原创 windows 下配置启动 MySQL ，服务无法启动服务没有报告任何错误

1、配置文件将一下内容写入根目录下的 my.ini（my_default.ini）文件中，没有此文件可以创建一个。[mysqld]# Remove leading # and set to the amount of RAM for the most important data# cache in MySQL. Start at 70% of total RAM for dedicated

2016-12-29 15:27:00 14026 4

原创基于点云数据的三维目标识别

1、相关介绍三维空间的点云数据，如常用Kinect深度图像与激光雷达采集的cloud data

2016-11-30 11:46:48 5966 2

原创解压 .solitairetheme8 文件

一、解压方法cp cudnn-8.0-linux-x64-v5.1.solitairetheme8 cudnn-8.0-linux-x64-v5.1.tgztar -xvf cudnn-8.0-linux-x64-v5.1.tgz

2016-10-24 11:43:08 17844 1

原创 Kinect .ply数据读取、可视化

1、工程文件开源项目地址， https://github.com/slashpot/plyloader/tree/master/plyloader2、配置OpenGL工程以来OpenGL做可视化，大家自行百度安装

2016-09-30 11:01:00 2222 1

原创使用 python matplotlib 画矩形

1、绘制矩形python matplotlib 绘制矩形，简单的几行代码就可以实现，简单易懂，方便利用。# -*- coding: utf-8 -*-"""Created on Thu Aug 11 18:12:37 2016@author: Eddy_zheng"""import matplotlib.pyplot as pltimport matplotlib.patches as pa

2016-08-11 18:26:13 42201

原创检测评价函数 intersection-over-union （ IOU ）

1、概念在目标检测的评价体系中，有一个参数叫做 IoU ，简单来讲就是模型产生的目标窗口和原来标记窗口的交叠率。具体我们可以简单的理解为：即检测结果(DetectionResult)与 Ground Truth 的交集比上它们的并集，即为检测的准确率 IoU : IOU=DetectionResult⋂GroundTruthDetectionResult⋃GroundTruthIOU =

2016-08-05 10:28:26 74862 5

原创基于深度学习的目标检测方法

1、目标检测之评价标准在目标检测中，以下几个指标非常重要：（a）识别精度；（b）识别效率；（c）定位准确性; 在目标检测的评价体系中，有一个参数叫做IoU，简单来讲就是模型产生的目标窗口和原来标记窗口的交叠率。在Pascal VOC中，这个值为0.5。而2014年以来出现的MS COCO竞赛规则把这个IoU变成了0.5-1.0之间的综合评价值，也就是说，定位越

2016-08-02 20:19:37 7197

原创 Python-OpenCV:sift(),SURF() 特征提取

1、SIFT、SURF SURF特征是SIFT特征的一个更快的特征提取版，详细请参阅文献[1]。以下将展示python open cv 的 SURF 的特征提取命令，及绘制命令。2、特征提取# -*- coding: utf-8 -*-"""Created on Sun Jun 05 09:31:47 2016@author: Eddy_Zheng"""import cv2# 读取图像im

2016-06-05 10:34:51 19790 1

原创深度学习实战——人脸识别

1准备工作1.1 实战环境windows环境，自行安装深度学习框架 Caffe1.2 数据集准备LFW人脸数据集官网自行下载，速度慢的可在百度云盘地址处下载：：http://blog.csdn.net/Eddy_zheng/article/details/50496194

2016-05-31 22:26:32 3706

原创深度学习系列（3.3）——神经网络结构

1. Neural networks单隐层网络结构：从左侧的第一层，称之为输入层，亦可成之为输入神经元；中间是隐层；到最后输出层。其实每一层也都可以说成是神经元，表示都是同一个意思，说法不一样而已，很多刚接触神经网络的可能会觉得隐层会很难理解，随着理解的深入你就会发现，没你想象的那么难。以上是单隐层的神经元，但是实际应用场景中，往往是含有多隐层的神经网络。如下所示：

2016-04-12 21:29:18 2150 2

原创 windows下在Java中使用xgboost 详细配置教程

1. 资源准备1.1 最新的xgboost4.07 版还没有windows下的编译工程，所以建议大家暂时先使用前一个版本的，官网上已经没有下载地址，下面是下载地址：http://blog.csdn.net/eddy_zheng/article/details/504961941.2 java 环境等自行搭建，jre建议使用1.7。使用VS2013 编译（xgboost JAVA编译，需使用2013

2016-04-03 11:05:06 15171 3

原创深度学习实战——caffe windows 下训练自己的网络模型

1、相关准备1.1 手写数字数据集这篇博客上有.jpg格式的图片下载，附带标签信息，有需要的自行下载，博客附带百度云盘下载地址(手写数字.jpg 格式)：http://blog.csdn.net/eddy_zheng/article/details/504961941.2深度学习框架本实战基于caffe深度学习框架，需自行参考相关博客搭建环境，这里不再对如何搭建环境作介绍。2、数据准备2.1 准备

2016-03-19 16:27:12 8442 14

原创 Python 数据分析：pandas 操作基础篇

基础介绍pandas 是基于 Numpy 构建的含有更高级数据结构和工具的数据分析包类似于 Numpy 的核心是 ndarray，pandas 也是围绕着 Series 和 DataFrame 两个核心数据结构展开的。Series 和 DataFrame 分别对应于一维的序列和二维的表结构。pandas 约定俗成的导入方法如下：from pandas import Series,DataFrame

2016-03-17 11:14:51 8708

原创如何在 visio 2013 中插入数学公式

操作步骤1、mathtype 安装首先你得装个 MathType, 没有装的话，这里分享个mathtype破解版的下载链接，里面自取。2、插入公式操作依次点击: 插入 —> 找到弹出列表中的对象，点击对象 —>表格如下：下方找到 MathType 公式编辑器。

2016-03-01 16:34:18 22096 1

原创 CNN(卷积神经网络)、RNN(循环神经网络)、DNN(深度神经网络)概念区分理解

1、相关知识从广义上来说，NN（或是更美的DNN）确实可以认为包含了CNN、RNN这些具体的变种形式。有很多人认为，它们并没有可比性，或是根本没必要放在一起比较。在实际应用中，所谓的深度神经网络DNN，往往融合了多种已知的结构，包括convolution layer 或是 LSTM 单元。其实，如果我们顺着神经网络技术发展的脉络，就很容易弄清这几种网络结构发明的初衷，和他们之间本质的区别。2、神经网

2016-02-29 10:21:34 100407 11

原创深度学习系列（3.2）——神经网络-sigmoid 神经元

1、weights、bias 参数学习我们希望有一种学习算法，它能够自动地调整网络中的权重因子和偏置。但是，我们怎样才能设计出这样的算法神经网络？可以通过学习来解决一些问题。假如，网络的输入是从扫描的原始像素数据，亦或是手写数字的图像。我们希望通过网络可以自动地学习权重和偏差，使输出从网络正确分类的数字。假设我们对网络上的一些权重（或偏置）做一些小的调整，并且希望网络上权重因子和偏差也仅有较小的

2016-02-27 17:58:52 9440

原创深度学习系列（3.1）——神经网络-感知机（Perceptrons）

1、神经网络的起始——感知器（perceptrons）说到神经网络，先要讲的当然是感知器，感知器在上世纪50年代末和60年代初由科学家 Frank\ Frank Rosenblatt 取得了进展，灵感来自早期由 Warren\ Warren McCulloch\ McCulloch 与沃尔特·皮兹的神经研究工作。如今，越来越多的算法使用人工神经元模型，在许多现代神经网络的研究中，主要

2016-02-20 15:10:01 8813

Dash for Mac 最新激活文件 license / 亲测可用

深度学习-卷积网络python及MATLAB代码实现

空空如也