创造沉浸式多感官体验：Meta开源结合六种类型数据的AI模型

Meta博客文章中的一张图显示了不同类型的数据，例如火车的图片、火车鸣笛的音频以及关于火车三维形状的深度信息。

ImageBind将多种数据流联系在一起，包括文本、音频、视觉数据、深度信息、温度和运动读数。

·ImageBind是第一个将六种类型的数据结合到一个单一的嵌入空间的模型。该模型包括的六种数据是：视觉（图像和视频形式）、热力（红外图像）、文本、音频、深度信息和运动读数。

·其他可以被添加到未来模型中的感官输入流包括“触摸、讲话、气味和大脑fMRI（功能性磁共振成像）信号”。这项研究“使机器距离人类同时、全面和直接从许多不同形式信息中学习的能力更近了一步”。

当地时间5月9日，Meta公司公布了一个新的开源人工智能模型ImageBind，将多种数据流联系在一起，包括文本、音频、视觉数据、温度和运动读数等。

这个模型目前只是研究项目，没有直接的消费者用户或实际应用，但它指出了生成式人工智能系统的未来，可以创造沉浸式多感官体验，并表明在OpenAI和谷歌等竞争对手变得越来越神秘的时候，Meta继续对外分享人工智能研究。

ImageBind将多种数据流联系在一起，包括文本、音频、视觉数据、深度信息、温度和运动读数。

这项研究的核心概念是将多种类型的数据连接起来，形成一个单一的多维指数。这个想法可能看起来有点抽象，但正是这个概念支撑着最近生成式人工智能的蓬勃发展。

例如，像DALL-E、Stable Diffusion和Midjourney这样的人工智能图像生成器都依赖于在训练阶段将文本和图像联系在一起的系统。它们在视觉数据中寻找模式，同时将这些信息与图像的描述联系起来，使这些系统能够按照用户的文字输入生成图片。许多以同样方式生成视频或音频的人工智能工具也是如此。

Meta公司说，ImageBind是第一个将六种类型的数据结合到一个单一的嵌入空间的模型。该模型包括的六种数据是：视觉（图像和视频形式）、热力（红外图像）、文本、音频、深度信息，以及最有趣的——由惯性测量单元或IMU产生的运动读数。（IMU存在于手机和智能手表中，用于一系列任务，比如将手机从横向切换到纵向、区分不同类型的身体活动）。

Meta博客文章中的一张图显示了不同类型的数据，例如火车的图片、火车鸣笛的音频以及关于火车三维形状的深度信息。

Meta的想法是，未来的人工智能系统将能够以目前人工智能系统对文本输入的相同方式交叉引用这些数据。例如，想象一下，一个未来的虚拟现实设备不仅能产生音频和视觉输入，还能产生物理层面上的环境和运动。你可能会要求它模拟一次漫长的海上航行，它不仅会把你放在一艘船上，背景是海浪的声音，还有你脚下甲板的摇晃和空气中的凉风。

去年Meta公司展示了一个人工智能模型，可以从文本描述中生成短小而模糊的视频。像ImageBind这样的工作显示了该系统的未来版本如何纳入其他数据流，如生成音频以匹配视频输出。

在博文中，Meta公司指出，其他可以被添加到未来模型中的感官输入流包括“触摸、讲话、气味和大脑fMRI（功能性磁共振成像）信号”。它还称这项研究“使机器距离人类同时、全面和直接从许多不同形式信息中学习的能力更近了一步”。

对于行业观察者来说，这项研究也很有趣，因为Meta公司正在开放底层模型，这是人工智能世界中越来越受关注的做法。

反对开源者，比如ChatGPT的开发机构OpenAI，称这种做法对创作者有害，因为对手可以复制其作品，而且可能有潜在的危险，让恶意行为者利用最先进的人工智能模型。倡导者回应说，开放源代码允许第三方仔细检查系统的缺陷，并改善一些缺陷。

到目前为止，Meta一直坚定地站在开源阵营中，尽管也遇到一些问题，例如其最新的语言模型LLaMA今年早些时候在网上被泄露。Meta在人工智能方面缺乏商业成就，没有可以与必应（Bing）、Bard或ChatGPT匹敌的聊天机器人，这使得开源成为可能。

创造沉浸式多感官体验：Meta开源结合六种类型数据的AI模型

联系我们

微信扫一扫关注我们

世界狼疮日｜盘点常见严重并发症狼疮性肾炎新兴治疗方案

潮涌｜AI制药走向成熟，数据共享亟待破局

相关推荐

联系我们

微信扫一扫关注我们