Sora来了!文字秒变视频,附技术细节
原创 云原生AI百宝箱 云原生AI百宝箱 2024年12月10日 12:05 河南
🎉 期待已久的重磅产品终于来了!OpenAI的Sora正式开放,带着革命性的AI视频生成技术,突破性地从文本生成高质量视频。无论你是ChatGPT Plus还是Pro会员,现在都能在Sora官网(sora.com)体验这项神奇的技术,直接把脑海中的创意变成生动的视频!🚀
Sora的黑科技亮点
-
1. 文本变视频,极致创意呈现 无需专业设备,Sora让你通过简单的文字描述生成1080p、最多20秒的视频,支持横屏、竖屏、正方形等多种尺寸,让视频内容呈现更加灵活!
-
2. 速度加快,体验飞跃 新版Sora Turbo,速度提升10倍!从2月的初版到如今,Sora Turbo为你带来更加流畅的生成体验,快速打造高分辨率视频。
-
3. 自定义创作,精准控制每一帧 提供故事板(Storyboard)功能,支持对每个画面精准控制。不仅可以上传图片或视频素材进行生成,还能通过文本输入调整每个分镜,创造独一无二的视觉效果!
-
4. 强大的Remix与Blend功能 想要修改已有视频?只需用Remix功能描述想要的调整,快速修改、调整内容,无需重新生成。Blend功能则能将两个视频无缝融合,轻松创造独特的过渡效果!
怎么用?
只需是ChatGPT Plus或Pro会员,你就能获得每月生成50个视频的权益(480p分辨率),Pro用户更能体验1080p、20秒视频,支持5条并发生成,且无水印下载。体验完美创作,还能从Sora的社区中看到其他用户的最新创意,轻松找到灵感。如下,体验在 Sora 中混合 两个视频 。
,时长00:12
来看科技博主MKBHD放出的实测效果:
Sora Turbo生成地标建筑物已是手拿把掐。高分辨率视频的效果令人印象深刻。
一些非写实的镜头表现也很nice。
如何避免滥用?
OpenAI已做足准备,每个生成的视频都会带有C2PA元数据,确保视频来源透明,此外,默认水印功能有效避免滥用风险。
Sora的无限可能
通过Sora,你可以创作故事、分享观点、展示创意,探索视频生成的无限可能。虽然Sora的物理引擎仍有待提升,但在不要求精确物理表现的场景下,效果已非常震撼!🎬
未来计划
目前,Sora并未开放给团队用户、教育机构以及18岁以下用户,但OpenAI正在持续优化,预计未来几个月将进一步开放,包括向欧洲等地区扩展。
云原生AI百宝箱
行万里路,此处相逢,共话云原生AI之道。 偶逗趣事,明月清风,与君同坐。
78篇原创内容
公众号
体验
现在就登录Sora官网,立即体验,带上你的创意,一起开启视频生成的新纪元吧!谁说文字和视频不能完美结合?💡
Sora体验地址
[1]
Sora体验地址: https://sora.com/
Sora技术细节
随着Sora正式版的发布,OpenAI同时也放出了Sora系统卡(System Card),提供了该模型背后的技术细节。感兴趣的开发者和研究者可以深入了解Sora如何运作、如何突破技术瓶颈、以及它如何逐步推动人工智能向通用人工智能(AGI)迈进。
1. Sora:一款创造性工具的背后技术
Sora基于OpenAI在视觉生成领域的前沿技术,建立在DALL·E和GPT模型的基础上。作为一种扩散模型,Sora通过从噪声开始并逐步去噪的方式生成视频。它的核心创新在于使用Transformer架构,这使得模型具备了强大的扩展性和生成能力。
与传统的视频生成技术不同,Sora不仅仅处理单一的静态图像或视频片段,它能够从多种输入源生成全新的动态内容——从文本到图像、再到现有视频的延伸。借助OpenAI在语言模型中使用的重描述(recaptioning)技术,Sora能够精准理解并按照文本指令生成对应的高质量视频内容。
2. 模型核心:视频生成的创新突破
Sora的强大之处在于它能够理解和模拟现实世界。在生成视频时,它能够处理多帧视频数据,在保持主体一致性的同时确保画面流畅,即便主体暂时离开画面,也能准确保持其位置和运动轨迹。这种能力解决了传统视频生成中,短暂丢失主体导致画面不自然的挑战。
此外,Sora还可以处理图像到视频的转换。通过输入一张静态图像,Sora能够理解其中的细节,并将其转换成动态画面,甚至可以添加运动效果,如风吹草动、人物行走等。更重要的是,它还能够扩展现有的视频,为视频生成额外的场景或填补缺失的帧,从而实现更长时间的无缝视频生成。
3. 强大的数据支持与训练方法
Sora的训练依赖于海量的视觉数据,涵盖了公开数据集、专有数据以及人工数据。与大型语言模型(LLM)类似,Sora利用了视觉patch这一创新数据表示方法,将视频数据转化为较低维度的潜在空间,经过分解和转化,模型得以生成高质量的视频内容。
OpenAI还与多个数据合作伙伴(如Shutterstock、Pond5等)共同开发专有数据集,以提高Sora在视频生成时的准确度和创作多样性。这种基于合作伙伴的专有数据使得Sora在创作上具备了更多的可能性和灵活性,能够针对不同的应用场景生成多种类型的视频。
4. 安全性与使用规范:防滥用的严格措施
OpenAI非常重视Sora的安全性和道德使用问题。在发布的系统卡中,OpenAI明确表示,所有由Sora生成的视频都将附带C2PA元数据,确保生成内容的可追溯性和透明度。此外,默认情况下,Sora生成的视频会加上水印(Pro用户可以选择关闭),以避免滥用。
特别是在对待深度伪造(deepfakes)和不良内容的生成时,OpenAI采取了多重防护措施。针对具有高风险的内容(如成人内容或非法视频),Sora会进行严格筛查,并且所有生成的视频都会经过技术审核,防止产生有害的数字内容。
🔗 点击查看完整Sora系统卡
[1]
Sora系统卡: https://openai.com/index/sora-system-card/
END
➤ 往期精彩回顾
-
【智算101】为什么用好大模型,离不开"向量数据库"呢
-
【智算101】理解单、双、多精度计算,提升科学计算效率
-
【智算101】词嵌入神通广大,文本分析/情感分析/知识图谱应有尽有
-
用AI学习AI:一键打造个人AI智库,高效办公不是梦
-
【智算101】算力基础:模型参数与显存占用计算方法
-
大模型哪家强,拉出来比一比就知道
-
【智算101】AI for Science,让科学研究变得更酷!
-
【智算101】算力狂飙!10万卡GPU集群背后的硬核技术详解
-
【智算101】大模型时代:打工、创业,还是读博
-
必备的8个AI神器,工作效率提升300%
-
【智算101】大模型时代:一切数据Token化
-
【智算101】一文收藏|大模型技术全景图表
-
大模型部署不再难,手把手教你选对推理工具!
-
【智算101】文本转图像魔法:Stable Diffusion 详解
-
CNN Explainer 通过交互式可视化学习卷积神经网络
-
从“聪明工具”到“万能助手”:全景解读AI Agents生态版图