Marigold 一种基于AI的文本转 3D模型的方法

136 0 0

去年，人们多次尝试使用人工智能根据简单的文本输入创建3D打印模型，但结果各不相同。最著名的例子之一来自 LumaAI，您可能还记得今年早些时候 OpenAI 的这个项目。

在本文中，我们将介绍另一种基于 AI 的文本转 3D 方法，这次使用名为“Marigold”的程序，根据其网站，该程序“重新利用基于扩散的图像生成器进行单眼深度估计”。因为生成 AI 艺术是一回事，但赋予其 3D 打印所需的实际深度则是完全不同的游戏。但 Marigold 的创造者似乎就是这样做的。

什么是Marigold？
Marigold由苏黎世联邦理工学院的研究人员设计，其功能是从 2D 图像生成深度信息。Marigold 源自稳定扩散框架，利用合成数据进行微调，使其能够有效地将知识转移到不熟悉的数据中。这种方法使得 Marigold 在该领域超越了之前领先的方法 LeRes。

源数据和 Marigold 深度信息重叠。（图片来源：Marigold）

该模型的功能取决于对稳定扩散设置的 U-Net 组件的微调。该过程涉及使用原始稳定扩散 VAE 将图像和深度编码到潜在空间中，然后相对于深度潜在代码优化扩散目标。一个值得注意的方面是修改了 U-Net 的第一层以接受级联潜在代码，从而增强了深度估计能力。

在推理过程中，Marigold 将输入图像编码为潜在代码，然后与深度潜在代码连接。这种组合是通过经过修改、微调的 U-Net 进行处理的。经过几次去噪迭代后，深度潜在值被解码为图像，对其通道进行平均以得出最终的深度估计。

比较研究表明，与其他最先进的仿射不变深度估计器相比，Marigold 在室内和室外环境中都具有优越的性能。这一点尤其值得注意，因为 Marigold 在没有事先接触真实深度样本的情况下就获得了这些结果。为了全面了解 Marigold 的方法和基准，详细的论文提供了深入的（无双关语）信息。

因此，由于 Marigold 是图像转 3D 解决方案，这意味着您可以使用 AI 生成的图像作为源。这正是一位 Reddit 用户所做的事情，如下所示。

DallE 转 3D
使用 Bing 上的 DallE 文本到图像人工智能，Redditor“ fredandlunchbox ”输入提示，生成挂在墙上的具有现代功能的塑料相框的图像。

DallE 输出了您可以在下面看到的图像。

达尔E概念。（图片来源：u/fredandlunchbox）

Reddit 用户使用 Marigold 创建深度图，然后在 Cinema4D 中渲染深度图，然后在 Blender 和 Fusion360 中进行一些额外的手动整理。模型完成后，他将其导出为 STL 并打印出来。从 DallE 文本提示到最终打印的整个过程在 24 小时内完成，您可以在下图中看到最终的打印部分。

最终的 3D 打印版本。（图片来源：u/fredandlunchbox）

Reddit 用户指出，该过程不是自动的，但 Marigold 的创建者最近宣布了一项更新，“允许用户生成可供打印的防水 STL”。

这到底有多严密还有待观察，但这听起来像是在假期期间尝试的一些有趣的事情。