自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

YoungSeng's Blog

人工智能学习

  • 博客(94)
  • 资源 (2)
  • 问答 (1)
  • 收藏
  • 关注

原创 【20231125】文献翻译:GestureDiffuCLIP:带有 CLIP Latents 的手势扩散模型

手势是人们说话时手部和手臂自发的、风格化的动作。它们为语音注入活力,并揭示出思想的独特意象[McNeill 1992]。最近,深度神经网络已被成功应用于根据语音输入合成自然的手势,这有助于创建类人三维化身。然而,基于深度学习的系统往往缺乏可控性,因此在用户控制下合成任意风格化的手势仍然是一项具有挑战性的任务。以往在手势创作中实现风格控制的神经网络系统可分为两类:基于标签的系统和基于范例的系统。基于标签的系统通常是在带有成对风格标签的运动数据上进行训练的。

2023-11-25 23:49:14 989

原创 【20220605】文献翻译:高维数据动态可视化研究综述

例如,在单细胞生物学领域,通常使用t-SNE或UMAP可视化来确认[6]簇的细胞类型身份,整合不同的单细胞数据集[15 - 17],并使用RNA速度测量来计算细胞轨迹[18,19]。对于前面提到的每一个用例,观测者变化之间的距离和DR可视化质量的异质性都存在扭曲,并可能影响最终的解释[10,13,20 - 22]。一般来说,通过这些扭曲,DR可视化可能会导致簇的验证不正确(即低簇或过簇),人工检测或缺乏对簇之间桥接连接的检测,以及人工存在沿元数据轴的观测顺序或丢失。因此,需要有评估DR可视化可靠性的方法。

2023-07-02 17:01:05 369

原创 【20220705】文献翻译——MISA: 多模态情感分析的模态不变和特定表征

多模态情感分析是一个活跃的研究领域,它利用多模态信号对用户生成的视频进行情感理解。处理这一任务的主要方法是开发复杂的融合技术。然而,信号的异质性造成了分布式模态的差距,构成了巨大的挑战。在本文中,我们旨在学习有效的模态表征以帮助融合过程。我们提出了一个新的框架,MISA,它将每个模态投射到两个不同的子空间。第一个子空间是模态不变的,不同模态的表征学习它们的共性并减少模态差距。第二个子空间是模态专用的,它是每个模态所特有的,并捕捉到它们的特征。

2023-07-02 17:00:51 691

原创 【20220819】文献翻译——Deephase:周期性自编码器学习运动相位流形

学习运动空间的时空结构可以对运动数据进行插值,并在不同类型的运动内部和之间产生真实的过渡。在计算机动画和机器学习领域,为运动预测、合成和控制中的各种任务建立运动空间模型,已经有大量的工作被引入。运动空间是一个领域,空间中的每个样本都是从运动捕捉数据中收集的。已经提出了学习连续空间的方法,尽管它们经常受到平滑运动和不良响应性的影响。学习运动空间结构的困难在于数据的稀疏性和空间的高度非线性结构。事实上,运动捕捉数据从根本上来说是稀疏的。

2023-07-02 17:00:04 302

原创 【20220121】Voice conversion

Speech Representation Disentanglement with Adversarial Mutual Information Learning for One-shot Voice Conversion 中间结果

2022-08-09 10:46:55 1457 1

原创 【语音信号处理】3语音信号可视化——prosody

在之前的工作上增加了韵律的相关特征提取,之前可见:【语音信号处理】1语音信号可视化——时域、频域、语谱图、MFCC详细思路与计算、差分安装一下这个库:还有其他的一些,反正缺啥安啥:2. 最终结果...

2022-06-12 14:03:38 1215 1

原创 【20211129】Jupyter Notebook远程服务器配置

kaggle入门pycharm 在服务器上远程运行 Jupyter Notebook总结入门首先在此网站上下载Node.js version 12或者更高并安装,结果如下所示。接下来的部分将详细介绍开发和竞争你的机器人的推荐设置。对于希望使用Python和Jupyter笔记本/Kaggle交互式笔记本的用户,可以随意跳过这一部分,按照教程中的笔记本进行操作为了在服务器中运行,再下载Linux Binaries (x64)的版本(也不需要),参考1、2进行Linux下载安装打开命令行,用以下方式安

2022-06-11 16:57:39 578

原创 【20220605】文献翻译——虚拟现实中的可视化:一个系统的回顾

这里写自定义目录标题

2022-06-11 16:54:43 2045

原创 【20220505】文献翻译9:从视频中学习语音驱动的3D对话手势

Learning Speech-driven 3D Conversational Gestures from Video摘要1 简介2 相关工作3 数据集创建3.1 从视频中创建3D注释3.2 音频特征预处理4 方法4.1 网络结构4.2 训练的细节摘要我们提出了第一个从语音输入中自动联合合成虚拟人物的同步三维对话身体和手势,以及三维面部和头部动画的方法。我们的算法采用了一个CNN架构,该架构克服了(leverages)面部表情和手势之间的内在关联性。对话性身体手势的合成是一个多模式的问题,因为许多类似

2022-05-05 14:51:45 1769 2

原创 【20220429】文献翻译8:对实体对话智能体中手势生成的评估实践的回顾

A Review of Evaluation Practices of Gesture Generation in Embodied Conversational Agents摘要1 简介1.1 人机交互中的手势使用Agents:智能体摘要实体对话智能体(Embodied conversational agents,ECA)产生非语言的表现去补充或增强语言交流,例如与胳膊和手有关的共语手势(基于规则/数据驱动)关于手势生成方法的报告使用了各种评价措施,这阻碍了比较基于22项上身手势ECA研究,

2022-04-29 17:21:27 557

原创 【20220428】文献翻译7:语音驱动模板:用学习到的模板进行共语手势合成

Speech Drives Templates: Co-Speech Gesture Synthesis with Learned Templates摘要1. 简介2. 相关工作3. 方法论3.1 用所学条件补充音频3.2 同语手势生成的评估4. 实验4.1 学习模板的回归4.2 与baselines相比4.3 模板空间可视化4.4 消融实验5 结论附录A:数据集的统计量附录B:额外定量分析结果摘要协同语音手势生成是指合成一个手势序列,不仅看起来真实,而且与输入的语音音频相匹配。我们的方法可以生成一个完

2022-04-28 17:23:35 156

原创 【20220412】文献翻译5:从文本、音频和说话人身份的三要素中生成语音手势

Speech gesture generation from the trimodal context of text, audio, and speaker identity1 简介2 相关工作3 方法3.1 整体架构3.2 语音语境的编码3.3 手势生成器3.4 对抗性计划4 使用 "野外 "视频进行训练4.1 TED手势数据集4.2 训练损失函数5 客观评价指标5.1 Fréchet 手势距离5.2 用合成噪声数据进行实验6 用户研究以验证评价指标7 实验和人类评价7.1 定性结果7.2 与最先进的模

2022-04-26 20:34:32 216

原创 【20000426】文献翻译6:用于对话手势合成的大规模语义和情感多模态数据集

BEAT: A Large-Scale Semantic and Emotional Multi-Modal Dataset for Conversational Gestures SynthesisFig.1. Motion capture (sometimes referred as mo-cap or mocap, for short)

2022-04-26 20:33:19 121

原创 【20220412】文献翻译4:交互中的手势和语言概述

Gestures and speech interact. They are linked in language production and perception, with their interaction contributing to felicitous communication.

2022-04-14 11:32:02 1709

原创 【20220331】自动回复微信机器人——基于pyautogui,取消OCR功能,调用中文预训练模型API

基于pyautogui,取消OCR功能,调用中文预训练模型API,还有笑话+成语+名词解释+智能问答+天气+翻译+问候的功能;还有发一个表情包或者问号的功能,测试效果良好,别生气别骂人!

2022-04-01 11:20:54 3463

原创 数据可视化1——R 语言+pycharm环境配置、 HTML、CSS、JavaScript

Web Programming Language

2022-03-23 10:31:39 234888

原创 【20211216】文献翻译3:回顾2010年至2020年教育领域的人工智能(AI)

A Review of Artificial Intelligence in Education from 2010 to 20201. 简介2. 方法地址:浙江大学、香港中文大学、普利莫斯卡大学、卢布尔雅那大学、俄罗斯喀山联邦大学、北得克萨斯州大学、安徽建筑大学、安徽新华学院本研究对研究进行了内容分析,旨在披露人工智能(AI)如何应用于教育领域,并探索人工智能在教育领域的潜在研究趋势和挑战。从2010年至2020年社会科学引文索引数据库的教育和教育研究类别中共选取了100篇论文,包括63篇经验性论文(

2021-12-26 19:37:39 809

原创 【20211215】神经机器翻译

Google创新能力引言谷歌作为全球互联网行业领袖的科技巨头,引领了行业科技创新发展。谷歌是美国访问量最大的多平台网站之一,其战略和最新技术不断抢占制高点:1998年成立之初以搜索业务起家;2005年推出谷歌地图;2007年推出安卓手机操作系统;2015年推出DeepMind开发的AlphaGo;2019年推出sycamore处理器,宣布了量子霸权。下面我们从企业的研发投入、研发布局,来看看谷歌在创新上投入的精力,并将其与国内的百度对比。企业研发投入与研发强度企业的研发投入活跃程度是决定企业科技创

2021-12-20 15:31:32 1140

原创 【20211206】文献翻译2:什么构成了一个好的说话人视频生成?调查和基准

What comprises a good talking-head video generation?: A Survey and Benchmark摘要1. 简介2 什么构成了一个好的说话人视频生成?2.1 维护身份2.2 视觉质量2.3 唇部同步化2.4 自然-自发运动3 视听体裁的回顾3.1 没有头部运动的视频3.2 带有自发运动的视频3.3 有明显头部移动的视频3.4 基准数据预占有协议3.5 基准数据集属性分布4 评价指标4.1 维护身份4.2 视觉质量4.3 语义层面的唇语同步化4.4 自发运

2021-12-08 12:02:02 316

原创 【20211205】文献翻译1:深度视听学习概述

Deep Audio-Visual Learning: A Survey

2021-12-06 21:48:28 219

原创 【20211124】安装 Pycharm 专业版 + 远程开发

Pycharm1. 下载专业版Pycharm2. 远程开发1. 下载专业版Pycharm下载地址下载2021.2.1版本的,参考此网站2. 远程开发41m 9s (- 4m 34s) (45000 90%) 3.587842m 5s (- 3m 39s) (46000 92%) 3.568443m 3s (- 2m 44s) (47000 94%) 3.585544m 1s (- 1m 50s) (48000 96%) 3.470044m 59s (- 0m 55s) (49000 98%

2021-11-26 21:17:00 1664

原创 【20211124】安装 Vscode + 远程开发

Vscode1. Vscode 安装(1)下载并安装(2)配置A. 安装中文B. 运行代码2. 远程开发总结目前使用Pycharm写代码再到服务器上运行,始终感觉修改代码非常不方便,刚刚突然知道有远程开发这个操作,然后一查PyCharm还需要专业版(虽然可以学生申请,但审核总是需要时间的),从之放弃PyCharm启用Vscode了。1. Vscode 安装(1)下载并安装下载链接选择System Installer 64bit的下载并安装详细信息:Visual Studio Code-x64-1

2021-11-24 21:36:59 2030

原创 【20211013】安装 Torch

Torch 安装下载官网查看 win 10 的cuda版本参考此百度经验

2021-10-22 15:25:46 2147

原创 【20211005】Praat 基本用法

Praat 使用及语音信号处理算法基础任务一:声学参数任务二:发音与听觉感知利用 Praat 完成如下任务,熟悉 Praat 的基本操作,利用 Praat 对语音信号的基频、时长、谱参数等进行分析,对语音信号的基频、时长、谱参数等有进一步理解。下载地址参考手册任务一:声学参数加载“GuoL/40004.wav”音频,在此基础上进行以下操作并回答如下问题:显示和查看波形waveform、语谱图spectrogram、音强intensity、基音轮廓pitch contour、共振峰 forman

2021-10-13 09:10:57 17639 1

原创 【20210927】安装git和torch,kaggle竞赛提交

大数据机器学习kaggle竞赛竞赛网址baseline首先下载数据集并解压 ,共1.50 GB(别解压,上传到服务器只能是一个文件…还得再压缩一次)上传到服务器,并解压服务器的:>> git --versiongit version 2.32.0笔记本上安装git:git version 2.33.0.windows.2linux删除一个目录:rm -r /testpycharm github 上传可见此和此:查看状态:git status解压:u

2021-09-28 20:38:11 612 1

原创 【20210923】选择感兴趣的研究方向?

语音相关的会议Session分析1. ICPR2. INTERSPEECH3. APSIPA ASC4. ISCSLP5. SLT6. ICASSP - CCF B7. ICME - CCF B小结1. ICPRInternational Conference on Pattern Recognition 国际模式识别会议官网Artificial intelligence, Machine Learning for Pattern Analysis-人工智能,模式分析的机器学习Compute

2021-09-23 23:32:05 538

原创 【20210920】HMM入门

隐马尔可夫模型 Hidden Markov Model1.本文参考的视频链接首先要知道什么式序列(Series),什么是集合(Set)时间序列模型 Discrete Dynamic Model: Hidden Markov ModelP(Xt∣Xt−1,Xt−2….X1)=P(Xt∣Xt−1)(1)\begin{aligned}& P\left(X_{t} | X_{t-1}, X_{t-2} \ldots . X_{1}\right) \\=& P\left(X_{t} \m

2021-09-22 22:01:49 1101

原创 【20210916】GMM入门

文献阅读作业:隐马尔可夫模型

2021-09-20 20:18:16 648 2

原创 【20210919】LaTex入门:overleaf使用

overleaf在线编辑Latex1. 使用overleaf2. 一些问题小结1. 使用overleaf2. 一些问题overleaf官网首先注册一下上传模板编译报错:解决办法:Select “menu” – “Compiler” – “XeLatex”.Compiled again, successfully.模板感觉太复杂了,而且还是两栏,这里直接新建空白项目,默认空白项目如下:\documentclass{article}\usepackage[utf8]{inpute

2021-09-19 21:53:55 6416 2

原创 【20210910】让实验室服务器在Anaconda环境运行本地python代码

从零开始配置服务器的python环境可以查看服务器的Linux版本:cat /proc/versionLinux version 5.11.13-arch1-1 (linux@archlinux) (gcc (GCC) 10.2.0, GNU ld (GNU Binutils) 2.36.1) #1 SMP PREEMPT Sat, 10 Apr 2021 20:47:14 +0000Pycharm Linux官方下载地址Anaconda Linux官方下载地址,下载得到Anaconda3-2

2021-09-13 23:48:54 842 11

原创 【20210906】让实验室服务器运行本地python代码

从零开始配置实验室电脑的python环境1. 电脑信息2. 电脑环境配置(1)Pycharm(2)anaconda(3) 配置Anaconda+pycharm环境3. 服务器环境配置小结在实验室刚刚装好的DELL电脑,设备规格:Vostro 3890-China HDD Protection,希望配置好python的Anaconda+pycharm环境,并在服务器上完成相关配置1. 电脑信息处理器:11th Gen Intel® Core™ i5-11400 @ 2.60GHz 2.59 GHz

2021-09-06 23:33:05 2868 1

原创 【PyTorch】14 AI艺术家:神经网络风格迁移

风格迁移 Style Transfer1、数据集2、原理简介3、用Pytorch实现风格迁移4、结果展示5、全部代码小结详细可参考此CSDN1、数据集使用COCO数据集,官方网站点此,下载点此,共13.5GB,82783张图片2、原理简介风格迁移分为两类,一类为风格图片(毕加索、梵高…),一类是内容图片,通常来自现实世界中本文主要介绍Fast Neural Style,关于Neural Style可见pytorch官方教程效果逼真的风格迁移图片有两个要求,一是要生成的图片在内容、细节上和输入的

2021-06-25 00:02:36 1716 3

原创 【PyTorch】13 Image Caption:让神经网络看图讲故事

图像描述1、数据集获取2、文本数据处理3、图像数据处理1、数据集获取数据来自:AI challenger 2017 图像描述数据集百度网盘: https://pan.baidu.com/s/1g1XaPKzNvOurH9M44p1qrw 提取码: bag3这里由于原训练集太大,这里仅使用验证集ai_challenger_caption_validation_20170910.zip,解压一下2、文本数据处理图像中文描述比赛的数据分为两部分,一是30000张图片,二是对应的描述caption_va

2021-06-23 17:26:58 2462 3

原创 【图像信号处理】1 视频与图像情绪分类

@TOCFER(Facial Expression Recognition),人脸表情识别情绪标注:包含恐惧…情感标注:积极,消极,中性MELD:来源于老友记,多人对话形式,是EmotionLines老友记部分的多模态扩充(文本+视频)。1433段对话,共13708句。标注了7类情绪:Neutral, Happiness, Surprise, Sadness, Anger, Disgust, Fear和3类情感:Positive, Negative, Neutral,非中性情绪占比53%。 MELD

2021-05-12 17:04:38 468

原创 【NLP】文献翻译5——用自我监督的多任务学习学习特定模式的表征,用于多模态情感分析

Learning Modality-Specific Representations with Self-Supervised Multi-Task Learning for Multimodal Sentiment Analysis摘要1. 介绍2. 相关工作2.1 多模态情感分析2.2 Transformer and BERT2.3 多任务学习3. 方法论3.1 任务设定文献信息:标题:用自我监督的多任务学习学习特定模式的表征,用于多模态情感分析作者:Wenmeng Yu, Hua Xu, Z

2021-04-17 21:15:11 1052

原创 【NLP】文献翻译4——CH-SIMS:中文多模态情感分析数据集与细粒度的模态注释

CH-SIMS: A Chinese Multimodal Sentiment Analysis Dataset with Fine-grained Annotations of Modality摘要1. 介绍2. 相关工作2.1 多模态数据集2.2 多模态情感分析2.3 多任务学习3. CH-SIMS 数据集3.1 数据获取3.2 标注3.3 特征提取4. 多模式多任务学习框架4.1 单模态子网4.2 特征融合网络4.3 优化目标5. 实验5.1 基准5.2 实验的细节5.3 结果和讨论5.3.1 与

2021-04-17 14:41:56 10072 14

原创 【语音信号处理】2语音信号实践——LSTM(hidden、output)、Attention、语音可视化

语音关于class torch.utils.data.Dataset官方文档,

2021-04-16 23:18:01 1264 3

原创 【语音信号处理】1语音信号可视化——时域、频域、语谱图、MFCC详细思路与计算、差分

@TOC1. 数据获取数据集来自:中国科学院自动化所的CASIA汉语情感语料库——共包括四个专业最佳人,六种情绪生气(怒),高兴(高兴) ),害怕(fear),悲伤(sad),其他(surprise)和中性(neutral),共9600句不同最佳。其中300句是相同文本的,也就是说对相同的文本赋以不同的情感来阅读,这些语料可以利用对比分析不同的情感状态下的声学和韵律表现;另外100句是不同文本的,这些文本从字面意思就可以修剪其情感归属,以便录音人更准确地表现出情感,但完整的CASIA数据集是收费的,

2021-04-14 15:11:06 11397 4

原创 【PyTorch】12 生成对抗网络实战——用GAN生成动漫头像

一篇简书里有下载地址

2021-04-13 22:39:27 8523 13

原创 【DL】6 GAN入门1——基本思想(Generator、Discriminator)、条件生成、无监督生成(直接转换、投射到公共空间)

GAN 11. Introduction of Generative Adversarial Network (GAN)1.1 GAN的基本思想1.2 GAN作为结构化学习1.3 Generator可以自己学习吗?1.4 鉴别器能生成吗?1.5 一点理论总结1. Introduction of Generative Adversarial Network (GAN)在无监督学习方面有哪些最新的和潜在的突破?在深度学习方面,最近有哪些潜在的突破?各种各样的GAN,GAN的种类实在太多了,英文字母太

2021-04-11 12:01:59 6917

VS串口通讯

VS2015串口通讯 开发一个简单的上位机界面程序,实现上位机与下位机串口通信,从而对下位机进行程序升级。 win10系统; VS2015社区版(免费);Comm

2018-08-25

opencv指定矩形区域并跟踪

opencv指定矩形区域并进行跟踪,可以暂停,此Demo显示了基于均值漂移的追踪(tracking)技术请用鼠标框选一个有颜色的物体,对它进行追踪操作操作说明:用鼠标框选对象来初始化跟踪

2018-03-25

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除