Sora来了！文字秒变视频，附技术细节

原创云原生AI百宝箱云原生AI百宝箱 2024年12月10日 12:05 河南

🎉 期待已久的重磅产品终于来了！OpenAI的Sora正式开放，带着革命性的AI视频生成技术，突破性地从文本生成高质量视频。无论你是ChatGPT Plus还是Pro会员，现在都能在Sora官网（sora.com）体验这项神奇的技术，直接把脑海中的创意变成生动的视频！🚀

1. 文本变视频，极致创意呈现 无需专业设备，Sora让你通过简单的文字描述生成1080p、最多20秒的视频，支持横屏、竖屏、正方形等多种尺寸，让视频内容呈现更加灵活！
2. 速度加快，体验飞跃 新版Sora Turbo，速度提升10倍！从2月的初版到如今，Sora Turbo为你带来更加流畅的生成体验，快速打造高分辨率视频。
3. 自定义创作，精准控制每一帧 提供故事板（Storyboard）功能，支持对每个画面精准控制。不仅可以上传图片或视频素材进行生成，还能通过文本输入调整每个分镜，创造独一无二的视觉效果！
4. 强大的Remix与Blend功能 想要修改已有视频？只需用Remix功能描述想要的调整，快速修改、调整内容，无需重新生成。Blend功能则能将两个视频无缝融合，轻松创造独特的过渡效果！

只需是ChatGPT Plus或Pro会员，你就能获得每月生成50个视频的权益（480p分辨率），Pro用户更能体验1080p、20秒视频，支持5条并发生成，且无水印下载。体验完美创作，还能从Sora的社区中看到其他用户的最新创意，轻松找到灵感。如下，体验在 Sora 中混合两个视频。

，时长00:12

来看科技博主MKBHD放出的实测效果：

Sora Turbo生成地标建筑物已是手拿把掐。高分辨率视频的效果令人印象深刻。

一些非写实的镜头表现也很nice。

OpenAI已做足准备，每个生成的视频都会带有C2PA元数据，确保视频来源透明，此外，默认水印功能有效避免滥用风险。

通过Sora，你可以创作故事、分享观点、展示创意，探索视频生成的无限可能。虽然Sora的物理引擎仍有待提升，但在不要求精确物理表现的场景下，效果已非常震撼！🎬

目前，Sora并未开放给团队用户、教育机构以及18岁以下用户，但OpenAI正在持续优化，预计未来几个月将进一步开放，包括向欧洲等地区扩展。

云原生AI百宝箱

行万里路，此处相逢，共话云原生AI之道。偶逗趣事，明月清风，与君同坐。

78篇原创内容

公众号

现在就登录Sora官网，立即体验，带上你的创意，一起开启视频生成的新纪元吧！谁说文字和视频不能完美结合？💡

[1] Sora体验地址: https://sora.com/

随着Sora正式版的发布，OpenAI同时也放出了Sora系统卡（System Card），提供了该模型背后的技术细节。感兴趣的开发者和研究者可以深入了解Sora如何运作、如何突破技术瓶颈、以及它如何逐步推动人工智能向通用人工智能（AGI）迈进。

1. Sora：一款创造性工具的背后技术

Sora基于OpenAI在视觉生成领域的前沿技术，建立在DALL·E和GPT模型的基础上。作为一种扩散模型，Sora通过从噪声开始并逐步去噪的方式生成视频。它的核心创新在于使用Transformer架构，这使得模型具备了强大的扩展性和生成能力。

与传统的视频生成技术不同，Sora不仅仅处理单一的静态图像或视频片段，它能够从多种输入源生成全新的动态内容——从文本到图像、再到现有视频的延伸。借助OpenAI在语言模型中使用的重描述（recaptioning）技术，Sora能够精准理解并按照文本指令生成对应的高质量视频内容。

2. 模型核心：视频生成的创新突破

Sora的强大之处在于它能够理解和模拟现实世界。在生成视频时，它能够处理多帧视频数据，在保持主体一致性的同时确保画面流畅，即便主体暂时离开画面，也能准确保持其位置和运动轨迹。这种能力解决了传统视频生成中，短暂丢失主体导致画面不自然的挑战。

此外，Sora还可以处理图像到视频的转换。通过输入一张静态图像，Sora能够理解其中的细节，并将其转换成动态画面，甚至可以添加运动效果，如风吹草动、人物行走等。更重要的是，它还能够扩展现有的视频，为视频生成额外的场景或填补缺失的帧，从而实现更长时间的无缝视频生成。

3. 强大的数据支持与训练方法

Sora的训练依赖于海量的视觉数据，涵盖了公开数据集、专有数据以及人工数据。与大型语言模型（LLM）类似，Sora利用了视觉patch这一创新数据表示方法，将视频数据转化为较低维度的潜在空间，经过分解和转化，模型得以生成高质量的视频内容。

OpenAI还与多个数据合作伙伴（如Shutterstock、Pond5等）共同开发专有数据集，以提高Sora在视频生成时的准确度和创作多样性。这种基于合作伙伴的专有数据使得Sora在创作上具备了更多的可能性和灵活性，能够针对不同的应用场景生成多种类型的视频。

4. 安全性与使用规范：防滥用的严格措施

OpenAI非常重视Sora的安全性和道德使用问题。在发布的系统卡中，OpenAI明确表示，所有由Sora生成的视频都将附带C2PA元数据，确保生成内容的可追溯性和透明度。此外，默认情况下，Sora生成的视频会加上水印（Pro用户可以选择关闭），以避免滥用。

特别是在对待深度伪造（deepfakes）和不良内容的生成时，OpenAI采取了多重防护措施。针对具有高风险的内容（如成人内容或非法视频），Sora会进行严格筛查，并且所有生成的视频都会经过技术审核，防止产生有害的数字内容。

🔗 点击查看完整Sora系统卡

[1] Sora系统卡: https://openai.com/index/sora-system-card/

END

➤ 往期精彩回顾