产生的视频是否始终符合物理定律?匹兹堡大学
日期:2025-05-21 10:33 浏览:

产生的视频是否始终符合物理定律?匹兹堡大学团队的新作品:PHYT2V:如果没有模型培训,它也可以使实际现实更快2.3次!
本文由匹兹堡大学智能系统实验室的研究团队完成。第一作者是匹兹堡大学医生的一年级学生Xue Qiyao。视频(T2V)生成的当前技术正在从扩大关注的阶段向推理阶段的视觉和模型量表的质量发展,该阶段更加专注于物理一致性和现实推理。作为建模现实世界的基本知识系统,物理定律是实现高质量视频的主要障碍。在真正的物理动态中,对大型模型的理解和遵守的提高已成为促进T2V技术实施的成功方向。促进对T2V属的研究tion driven by physical consistency, a research team from the University of Pittsburgh proposed the phyt2v framework and systematically explained the basic mechanism of the latest paper, accepted by CVPR 2025. Paper Title: Phyt2V: LLM-GUIDED ITERATIVE Self-Refinement for the Piya-Grounded text-to-video consisting of text-to-video consisting of text-video developed: https://arxiv.org/abs/2412.00596 This method does not rely on the model of retraining or large-scale external data, but rather identifies chain that justification chain and self-preservation of large language models to perform many cycles of physical similarity of PAExamining and optimizing the teaching texts, thus effectively enhancing the overall general and ability of the generation of major T2V models to real physical scenarios.该框架可以在任何现有的T2V模型中广泛使用,并且可以在没有用户的Manu -Manu介入的情况下实现全自动T2V增强。因此,它的着陆很低Hreshold和出色的暴力行为,并在实际应用中具有广泛的应用前景。近年来,通过文本到视频生成技术(T2V)进行了重大的发展,基于出现的变压器爆炸模型,诸如Sora,Pika和Cogvideox之类的模型。这些模型可以产生复杂而现实的情况。然而,尽管有高质量的单帧视频,但当前的T2V模型符合现实世界的看法和物理政策的巨大缺点。例如,他们无法正确处理对象的数量,材料特性,动态流体,重力,运动,碰撞和原因。现有的方法使T2V生成内容更符合主要具有以下限制的物理策略,尤其是在处理不在分发中的情况(OOD)时不受培训数据涵盖的情况:数据驱动方法的限制:大多数现有的METHODS由数据驱动,并依赖于大型T2V。但是,它高度取决于数据集的数量,质量和差异。由于在培训期间没有明确嵌入物理政策,因此在未涵盖培训数据的分配以外的地区的总体能力有限,一代一代的质量将大大降低。各种各样的现实情况都进一步限制了这些模型的大学。注射物理知识方法的局限性:还有一些研究尝试使用现有的3D发动机(例如搅拌器,Unity3D,False)或数学模型将物理知识附加到T2V模型上。但是这些方法通常受到固定的物理类别和模式的限制,例如预定的对象和运动,并且同样缺乏灵活性。现有提示改进方法的局限性:尽管一些研究表明,提示的细化将提高视频范围的质量在提示分发的提示下,许多现有的提示增强方法仅确定生成的视频偏离世界和物理策略的真实知识的程度,以及当前增强尖端是否有效地改善了物理现实。额外输入方法的局限性:一些方法试图通过提供其他输入模式来评论T2V模型。但是它引入了很多过多的计算开销,并且缺乏灵活性。为了实现匹兹堡大学的研究人员,为了实现T2V的一般物理真实产生。 PHYT2V不是扩展并发症模型的数据集或架构,而是通过将通风世界和物理策略的知识嵌入文本线索中,以扩大外部域域中现有T2V模型的生成能力。为了防止不明确的主动工程,PHYT2V的主要思想是启用thewoug链T2V提示过程中的HT(COT)和逐步推理。通过应用逐步指南和自我修复,请确保T2V模型符合界面的适当物理动力和界面的一致性。它的主要贡献是:不需要进一步改变训练结构或模型,而是通过结合LLM的能力和回溯能力来进行癫痫发作的周期旋转,从而显着提高了现有T2V模型在一致性的物理活动中的性能。 ATHIS方法可以推广适用于各种体系结构和培训背景的T2V模型,尤其是在分配线索中增强的强大影响。简介方法PHYT2V使用训练有素的大型语言模型(LLM),例如Chatgpt-4O,以促进小屋的识别和回溯。这种推理是在谨慎的方式上进行的,每个周期都会自动纠正T2V信号并开发视频,包括在三个步骤中:步骤1:确定LLM研究用户的物理政策和基本内容,并捕获应显示的内容以及视频中应遵循的物理政策。此步骤将提供对任务的详细描述,而小的示例数为小。 LLM输出描述了物理策略,但不提供公式。消融研究表明,需要此步骤。步骤2:首先确定提示和视频之间的语义不匹配,使用视频字幕模型(例如tarsier)将生成的视频的语义内容转换为文本。 LLM使用COT推理来评估视频字幕与当前T2V提示之间的不匹配。之所以使用视频字幕,是因为COT方法更适合单模式数据处理,强调分解条纹和逐步推理。可以通过将视频内容转换为文本,可以在文本字段中执行COT和回溯推理。消融sTudies已确认,此步骤对于识别与期望不符的视频详细信息至关重要。步骤3:开发固定的提示。 LLM使用备份提示符,通过合并步骤1中记录的物理策略并解决步骤2中获得的不匹配来纠正当前的T2V提示。回溯推理有助于从较高的抽象级别获得问题。此步骤的直接结构还包括对任务,示例和当前任务信息的描述。此外,还提供了前一个校正动机周期中的评论量(例如,使用VideoCon-Gysys Issers评估器的标记)指导LLM采取不同的理解途径。固定的T2V提示将再次用作新用户提示,以在T2V模型中生成视频,从而启动新的固定型。这种迭代校正一直持续到产生的视频质量令人满意或视频质量的改进为止。整个公关OCES通常会占据很多周期,大多数改进发生在前两次旋转中,而3-4个周期通常就足够了。与现有的提示改进方法相比,PHYT2V的优点是,PHYT2V的主要贡献是研究当前生成的视频与基于不匹配和相关物理知识的直接和校正的语义不匹配,而许多先前的方法改善或更改提示。 PHYT2V的主要优点包括:无训练,插头和游戏:无需更改任何T2V模型结构或其他训练数据,这些数据可以直接增强物理一致性 - 相同的IBTHE T2V模型。及时校正具有封闭循环的反馈:不仅会更改直接文本,还可以根据真正生成的结果的语义偏见反馈执行目标优化。强大的跨域多功能性:在许多物理情况下表现出色(固体,流体,重力,运动等)在共同的情况下,具有广泛的灵活性。实验研究人员将PHYT2V应用于基于变压器扩散的几种开放资源T2V模型,包括Cogvideox 2B 5B,OpenSora和VideoCraCrafter。该评论使用录像带和Phygenbench,这是强调物理和合规定律的两个及时基准数据集,并且使用Videocon-Physics评估器来衡量生成的物理正态性视频。实验结果表明,PHYT2V显着提高了文本驱动器本身并具有现实世界政策的粘附水平。在COGVIDEOX-5B模型中,这种改进最为重要,PC的增加高达2.2倍,高达2.3倍。其他模型也有显着改善。迭代校正过程很快转换,通常3-4个旋转就足够了。 phyt2v显着领导了现有的提示改进方法例如Chatgpt 4或直接降低至少35%。消融研究证实了PHYT2V流中步骤1(物理理解规则)和步骤2(理解不匹配)的必要性。该模型的大小还将影响phyt2v的性能,并且phyt2v在较大的模型上的性能更好。摘要摘要,Phyt2v是T2V代T2V的小说概述。通过结合COT推理和回溯线索,系统的PHYT2V系统地纠正了T2V提示,以确保生成的视频符合现实世界的物理,而无需对其他条件进行重新培训或依赖的其他模型。这项工作在开发T2V模型方面迈出了重要的一步,该模型可以更好地理解物理世界并制作更现实的视频。