首页 前端知识 Sora来了!文字秒变视频,附技术细节

Sora来了!文字秒变视频,附技术细节

2025-03-18 12:03:01 前端知识 前端哥 886 121 我要收藏

Sora来了!文字秒变视频,附技术细节

原创 云原生AI百宝箱 云原生AI百宝箱 2024年12月10日 12:05 河南

🎉 期待已久的重磅产品终于来了!OpenAI的Sora正式开放,带着革命性的AI视频生成技术,突破性地从文本生成高质量视频。无论你是ChatGPT Plus还是Pro会员,现在都能在Sora官网(sora.com)体验这项神奇的技术,直接把脑海中的创意变成生动的视频!🚀

图片

Sora的黑科技亮点

  1. 1. 文本变视频,极致创意呈现 无需专业设备,Sora让你通过简单的文字描述生成1080p、最多20秒的视频,支持横屏、竖屏、正方形等多种尺寸,让视频内容呈现更加灵活!

  2. 2. 速度加快,体验飞跃 新版Sora Turbo,速度提升10倍!从2月的初版到如今,Sora Turbo为你带来更加流畅的生成体验,快速打造高分辨率视频。

  3. 3. 自定义创作,精准控制每一帧 提供故事板(Storyboard)功能,支持对每个画面精准控制。不仅可以上传图片或视频素材进行生成,还能通过文本输入调整每个分镜,创造独一无二的视觉效果!

  4. 4. 强大的Remix与Blend功能 想要修改已有视频?只需用Remix功能描述想要的调整,快速修改、调整内容,无需重新生成。Blend功能则能将两个视频无缝融合,轻松创造独特的过渡效果!

怎么用?

只需是ChatGPT Plus或Pro会员,你就能获得每月生成50个视频的权益(480p分辨率),Pro用户更能体验1080p、20秒视频,支持5条并发生成,且无水印下载。体验完美创作,还能从Sora的社区中看到其他用户的最新创意,轻松找到灵感。如下,体验在 Sora 中混合 两个视频 。 

,时长00:12

来看科技博主MKBHD放出的实测效果:

Sora Turbo生成地标建筑物已是手拿把掐。高分辨率视频的效果令人印象深刻。

图片

一些非写实的镜头表现也很nice。

图片

如何避免滥用?

OpenAI已做足准备,每个生成的视频都会带有C2PA元数据,确保视频来源透明,此外,默认水印功能有效避免滥用风险。

Sora的无限可能

通过Sora,你可以创作故事、分享观点、展示创意,探索视频生成的无限可能。虽然Sora的物理引擎仍有待提升,但在不要求精确物理表现的场景下,效果已非常震撼!🎬

未来计划

目前,Sora并未开放给团队用户、教育机构以及18岁以下用户,但OpenAI正在持续优化,预计未来几个月将进一步开放,包括向欧洲等地区扩展。

云原生AI百宝箱

行万里路,此处相逢,共话云原生AI之道。 偶逗趣事,明月清风,与君同坐。

78篇原创内容

公众号

体验

现在就登录Sora官网,立即体验,带上你的创意,一起开启视频生成的新纪元吧!谁说文字和视频不能完美结合?💡

Sora体验地址

[1] Sora体验地址: https://sora.com/

Sora技术细节

随着Sora正式版的发布,OpenAI同时也放出了Sora系统卡(System Card),提供了该模型背后的技术细节。感兴趣的开发者和研究者可以深入了解Sora如何运作、如何突破技术瓶颈、以及它如何逐步推动人工智能向通用人工智能(AGI)迈进。

1. Sora:一款创造性工具的背后技术

Sora基于OpenAI在视觉生成领域的前沿技术,建立在DALL·E和GPT模型的基础上。作为一种扩散模型,Sora通过从噪声开始并逐步去噪的方式生成视频。它的核心创新在于使用Transformer架构,这使得模型具备了强大的扩展性和生成能力。

与传统的视频生成技术不同,Sora不仅仅处理单一的静态图像或视频片段,它能够从多种输入源生成全新的动态内容——从文本到图像、再到现有视频的延伸。借助OpenAI在语言模型中使用的重描述(recaptioning)技术,Sora能够精准理解并按照文本指令生成对应的高质量视频内容。

2. 模型核心:视频生成的创新突破

Sora的强大之处在于它能够理解和模拟现实世界。在生成视频时,它能够处理多帧视频数据,在保持主体一致性的同时确保画面流畅,即便主体暂时离开画面,也能准确保持其位置和运动轨迹。这种能力解决了传统视频生成中,短暂丢失主体导致画面不自然的挑战。

此外,Sora还可以处理图像到视频的转换。通过输入一张静态图像,Sora能够理解其中的细节,并将其转换成动态画面,甚至可以添加运动效果,如风吹草动、人物行走等。更重要的是,它还能够扩展现有的视频,为视频生成额外的场景或填补缺失的帧,从而实现更长时间的无缝视频生成。

3. 强大的数据支持与训练方法

Sora的训练依赖于海量的视觉数据,涵盖了公开数据集、专有数据以及人工数据。与大型语言模型(LLM)类似,Sora利用了视觉patch这一创新数据表示方法,将视频数据转化为较低维度的潜在空间,经过分解和转化,模型得以生成高质量的视频内容。

OpenAI还与多个数据合作伙伴(如Shutterstock、Pond5等)共同开发专有数据集,以提高Sora在视频生成时的准确度和创作多样性。这种基于合作伙伴的专有数据使得Sora在创作上具备了更多的可能性和灵活性,能够针对不同的应用场景生成多种类型的视频。

4. 安全性与使用规范:防滥用的严格措施

OpenAI非常重视Sora的安全性和道德使用问题。在发布的系统卡中,OpenAI明确表示,所有由Sora生成的视频都将附带C2PA元数据,确保生成内容的可追溯性和透明度。此外,默认情况下,Sora生成的视频会加上水印(Pro用户可以选择关闭),以避免滥用。

特别是在对待深度伪造(deepfakes)和不良内容的生成时,OpenAI采取了多重防护措施。针对具有高风险的内容(如成人内容或非法视频),Sora会进行严格筛查,并且所有生成的视频都会经过技术审核,防止产生有害的数字内容。

🔗 点击查看完整Sora系统卡

[1] Sora系统卡: https://openai.com/index/sora-system-card/

END

➤  往期精彩回顾

图片

  • 【智算101】为什么用好大模型,离不开"向量数据库"呢

  • 【智算101】理解单、双、多精度计算,提升科学计算效率

  • 【智算101】词嵌入神通广大,文本分析/情感分析/知识图谱应有尽有

  • 用AI学习AI:一键打造个人AI智库,高效办公不是梦

  • 【智算101】算力基础:模型参数与显存占用计算方法

  • 大模型哪家强,拉出来比一比就知道

  • 【智算101】AI for Science,让科学研究变得更酷!

  • 【智算101】算力狂飙!10万卡GPU集群背后的硬核技术详解

  • 【智算101】大模型时代:打工、创业,还是读博

  • 必备的8个AI神器,工作效率提升300%

  • 【智算101】大模型时代:一切数据Token化

  • 【智算101】一文收藏|大模型技术全景图表

  • 大模型部署不再难,手把手教你选对推理工具!

  • 【智算101】文本转图像魔法:Stable Diffusion 详解

  • CNN Explainer 通过交互式可视化学习卷积神经网络

  • 从“聪明工具”到“万能助手”:全景解读AI Agents生态版图

转载请注明出处或者链接地址:https://www.qianduange.cn//article/24008.html
标签
评论
发布的文章
大家推荐的文章
会员中心 联系我 留言建议 回顶部
复制成功!