自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(291)
  • 资源 (1)
  • 收藏
  • 关注

原创 轮腿机器人的PID控制

红色箭头形成闭环控制,保持平衡并有速度。当静态平衡时,就只需要平衡PID,无需无刷电机和速度PID

2023-08-16 17:25:38 1601

原创 轮足机器人硬件总结

本文主要根据“轮腿机器人Hyun”总结的硬件部分。

2023-08-02 16:38:39 2034

原创 人形机器人汇总

第3版Atlas采用电源供电和液压驱动。头上的激光雷达定位器和立体摄像机可以使Atlas规避障碍物、探测地面状况以及完成巡航任务。

2023-07-06 23:09:29 893

翻译 OpenPose-人体姿态估计

本文根据2019年5月《OpenPose: Realtime Multi-Person 2D PoseEstimation using Part Affifinity Fields》翻译总结。不过openpose在2017年就发了。这个是更新版。人体姿态估计面临多种挑战:1)每张图片可能包含未知数量的人,他们出现在不同的未知,也不同的大小尺度;2)人体之间的交互,如接触,产生了复杂的空间预测;3)预测时间随着人的数量增加,增加了在实时场景预测的难度。

2023-07-06 17:18:39 361

原创 自制小强机器人,能看能听能说能画

这个在上面版本基础上增加了图像显示系统、图像识别、手势识别、图像生成。所以硬件增加了显示屏、摄像头。B站视频:【给小强机器人增加了眼睛(深度相机),能看能听能说能画了-哔哩哔哩】

2023-07-05 11:54:39 292

原创 YOLO系列v1-v8

YOLO是Region-free方法,只需要一次扫描,也被称为(1-stage)模型。而Region-based方法方法,如mask-rcnn ,被称为(2-stage)方法。YOLOv1-v3是原作者,v4和v7是一个作者。v5和v8是一个作者,但其缺少论文。

2023-07-03 16:18:40 458

原创 Jetson安装Anaconda(miniforge3)

miniforge集成了Anaconda的核心工具:conda。conda是一个包和环境管理工具。因此,我下载anaconda安装时报下面错误illegal instruction(core dumped),没安装成功,故安装miniforge了。据说anaconda还没完全支持arm芯片架构。

2023-06-24 19:08:46 1277

翻译 VQGAN图像生成(离散化加对抗训练)

我们显示了1)如何使用CNN学习了一个图像成分的语义丰富的词汇表,这部分也就是VQGAN;2)利用transformer在高分辨率图像中有效地对其组成(VQGAN压缩过的图片码书表示)进行建模。整体模型也就如下图,包括两部分,VQGAN和transformer。VQGAN先进行图片的压缩,然后输入到transformer。

2023-06-19 16:18:12 1056

翻译 StyleDrop:生成任意风格的图片

StyleDrop可以生成如下18种不同风格的图片

2023-06-14 17:12:24 368

翻译 Muse:采用mask transformer的图像生成模型

本文根据google research 团队2023年1月的《Muse: Text-To-Image Generation via Masked Generative Transformers 》翻译总结的。图像生成有GAN、扩散(diffusion)、自回归模型等,而Muse采用mask图像的建模方法,非扩散、非自回归。给定从预训练大预言模型(LLM)中提取的文本embedding,Muse是被训练来预测随机mask的图像token。

2023-06-09 17:21:05 974

原创 Python 图形用户界面(GUI)框架有哪些

Tkinter 是 Python 的标准 GUI 库。Python 使用 Tkinter 可以快速的创建 GUI 应用程序。轻量级的跨平台图形用户界面(GUI)开发工具。由于、只要安装好 Python 之后就能 import Tkinter 库、而且 IDLE 也是用 Tkinter 编写而成、对于简单的图形界面 Tkinter 还是能应付自如。Button按钮控件;在程序中显示按钮。Canvas画布控件;显示图形元素如线条或文本多选框控件;用于在程序中提供多项选择框Entry输入控件;

2023-06-08 11:45:59 1028

原创 自己制作智能语音机器人(基于jetson nano)

主要采用jetson上编写python代码实现,支持离线语音唤醒、在线语音识别、大模型智能文档、在线语音合成。

2023-06-08 09:12:52 3865 5

原创 3D打印机分类汇总

当今市面上应用比较多的3D打印机是SLS、SLA、DLP、FDM四种3D打印机,按照用途可分为两类:一类是高精度工业打印机,比如SLA、DLP、SLS;一类是以FDM、SLA(用于工业打印机更多)为主的桌面级3D打印机.工业级3D打印机一般比较大,可以打印的物体也是偏大的,一般用于工业产品的制造,如打印一些零部件和模具。桌面级3D打印机一般比较小,就像普通的打印机一样可以直接放置在桌面上打印物体。更多地应用于日常生活之中,如打印一些小零件或者小玩具。

2023-06-05 17:34:24 1951

翻译 百度UNIMO模型--统一模态理解、跨模态对比学习

我们提出了UNIMO(UNIfied-MOdal ),可以同时使用单模态数据和多模态数据,在理解和生成任务。

2023-05-25 17:28:40 412

原创 似然(likelihood)、极大似然、对数似然、最大后验等

似然(likelihood)、极大似然、对数似然、最大后验等

2023-05-22 11:51:17 2113

翻译 扩散模型(2015年)

本文根据2015年5月的《deep unsupervised learning using nonequilibrium thermodynamics》翻译总结的。本文应该是最早提出扩散模型的文章,然后2020年DDPM对其进行了改进,使得扩散模型大火。时间跨度了5年啊。概率模型一般要在两个冲突的目标间权衡:可追溯(tractability)和灵活性(flexibility)。当模型是可追溯时,其可以被分析评估并容易匹配到数据;但是这些模型不能恰当的描述丰富的数据结构。

2023-05-21 23:11:05 789

原创 视频理解AI模型分类与汇总

人工智能领域视频模型大体也经历了从传统手工特征,到卷积神经网络、3D卷积网络、双流网络、transformer的发展脉络。

2023-05-12 17:29:25 1977

翻译 语音唤醒工具:WeKWS

WeKWS是一个可以投入生产使用、容易构建、易应用的端到端(end-to-end (E2E) )关键词识别工具(Keyword spotting )。Keyword spotting(KWS)指从连续语音流中识别预定义的关键词。唤醒词识别(wake-up word(WuW))是KWS的一种。

2023-04-29 11:31:48 1572

翻译 UNIFORMER-视频模型(3D CNN和transformer结合)

Unifified transFormer (UniFormer) ,集成了3D卷积和transformer,在计算量和准确度之间取得了较好的平衡

2023-04-24 17:35:57 896 1

翻译 stable diffusion(LDM)--图片生成模型

我们模型latent diffusion models (LDMs)是两阶段的。第一部分就是下面左半部分(红色),对图片进行压缩,将图片压缩为隐变量表示(latent),这样可以减少计算复杂度;第二部分还是扩散模型(diffusion与denoising),中间绿色部分。此外引入了cross-attention机制,下图右半部分,方便文本或者图片草稿图等对扩散模型进行施加影响,从而生成我们想要的图片,比如根据文本生成我们想要的图片。

2023-04-20 16:41:55 3473

原创 各种文字生成图片的AIGC模型(openAI、谷歌、stable、Midjourney等)

ERNIE-ViLG , DALL-E ,Cogview , Make-A-Scene , and Parti 、LDM , DALL-E 2 , Imagen等

2023-04-14 23:25:42 6624

原创 linux上ROS 2.0 安装

机器人操作系统,Robot Operating System,简称为ROS。在2022年5月底,迎来了ROS2第一个长期支持版

2023-04-10 21:04:12 612

原创 DALL·E:OpenAI第一代文本生成图片模型

本文根据openAI 2021年2月的《》翻译总结的。原文详见。DALL-E : 论文中没看到这个名字,可能是后起的吧。DALL-E有120亿参数,基于自回归transformer,在2.5亿 图片-文本对上训练的。在人为评价中,90%的时间认为该模型好于以前的模型。DALL-E还没有使用扩散模型使用的dVAE(discrete variational autoencoder离散变分自动编码器)。文中主要和GAN相关模型进行比较,如AttnGAN、DM-GAN、DF-GAM.

2023-04-07 21:58:40 1510

翻译 ERNIE-ViLG 2.0:百度文心一言文本生成图像模型

ERNIE-ViLG 2.0是一个大规模中文-图片扩散模型,百度论文中说该模型是中文该领域内第一个

2023-04-04 22:37:08 2374 2

原创 智能机器人硬件汇总

单片机、芯片、arduino、树莓派、Jetson Nano、esp32、stm32

2023-03-28 17:32:43 1169

原创 GPT-4 介绍

本文根据openAI的2023年3月的《GPT-4 Technical Report 》翻译总结的。原文确实没有GPT-4 具体的模型结构,openAI向盈利组织、非公开方向发展了。也没透露硬件、训练成本、训练数据、训练方法等。不过也透露了一些思想,比如提出了根据模型小的时候,预测模型大的时候的表现。GPT-4开始多模态了,支持图片和文本输入,输出文本。GPT-4模型还是沿用AR模型的思路,transformer模型,在一个文档中预测下一个token。

2023-03-27 21:42:59 4983 12

原创 GTP科普——简单入门资料

入门与了解GPT,包括GPT模型的训练目标函数、模型的基本结构,以及模型基本结构中的文本输入层、多头注意力层、前馈层等

2023-03-27 15:37:33 3715

原创 强化学习的入门

强化学习分为三类,分别为基于价值(Value-Based)的强化学习、基于策略(Policy-Based)的强化学习、演员-评论家(Actor-Critic)强化学习

2023-03-27 15:23:10 1105

原创 读懂ChatGPT需要掌握哪些知识

从词向量到RNN、注意力、Transformer、GPT、ChatGPT等。

2023-03-27 15:09:10 4775

翻译 Codex--GPT的写代码版本

文中提出了3个模型,一个是基于GPT-3在代码上微调来通过文本描述生成代码的Codex模型(非监督学习);一个是进行监督训练,通过文本描述生成代码的Codex-S模型;一个是通过代码生成代码文本描述的Codex-D模型。

2023-03-26 18:44:15 1203

原创 强化学习分类与汇总介绍

强化学习分类与汇总介绍

2023-03-18 15:04:44 7620

原创 tensorflow lite简介-移动设备端机器学习

TensorFlow Lite 是一组工具,可帮助开发者在移动设备、嵌入式设备和 loT 设备上运行模型,以便实现设备端机器学习。

2023-03-03 16:59:17 1760

原创 梯度下降优化器:SGD -> SGDM -> NAG ->AdaGrad -> AdaDelta -> Adam -> Nadam -> AdamW

梯度下降优化器:SGD -> SGDM -> NAG ->AdaGrad -> AdaDelta -> Adam -> Nadam -> AdamW

2023-02-24 17:17:14 2198

原创 麦克风分类汇总

按声电转换原理分为:电动式(动圈式、铝带式),电容式(直流极化式)、压电式(晶体式、陶瓷式)、以及电磁式、碳粒式、半导体式等。

2023-02-21 17:44:46 2925

翻译 Next-ViT: Next Generation Vision Transformer

ResNet倾向于捕获高频信号,而对低频信号较困难。ViT(Swin)倾向于捕获低频信号,忽略高频信号。而Next-ViT同时捕获高低频

2023-02-17 17:45:39 403

原创 状态空间模型与卡尔曼滤波

状态空间模型与卡尔曼滤波、HMM、ARMAX、最小二乘

2023-02-02 18:23:53 3891

原创 几种最小二乘法及python代码:ELS、TLS、RLS

增广最小二乘法Extended Least Squares method、总体最小二乘法Total Least Squares method、递推/递归最小二乘法Recursive Least Squares method、加权最小二乘法

2023-01-29 17:34:38 3823

原创 信息准则:AIC、BIC、FPE、LILC

信息准则方法:AIC、BIC、FPE、LILC

2023-01-17 18:14:51 5308

原创 论文分享-《基于数据驱动多输出 ARMAX 建模的高炉十字测温中心温度》

主要是采用NARMAX模型进行预测,多输入多输出,有5个输出,预测中心五个点位的温度。下面讲的M-ARMAX等同于NARMAX。

2023-01-17 10:08:06 695

翻译 正交最小二乘法求解NARMAX

正交最小二乘法求解NARMAX

2023-01-12 22:29:28 811

dicomutil.py

dicom的python图像处理(dicom转灰度图像函数dicom2array、矢状图找轴状图函数get_t2fse、获取T2系列的中间帧函数get_t2middle)

2020-08-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除