开云sports 视频也能“读心术”?香港城市大学和快手蚁合推出能估量并生成改日事件的AI系统

开云体育官方网站 - KAIYUN

热点资讯

开云app下载你的位置：开云体育官方网站 - KAIYUN > 开云app下载 >

发布日期：2026-02-19 15:21 点击次数：141

这项由香港城市大学的程俊豪、廖晶教诲与快手科技团队的侯亮、陶昕等东说念主蚁合完成的征询，于2025年11月发表在打算机视觉边界的顶级会议上，论文编号为arXiv:2511.16669v1。有利思意思深入了解的读者不错通过该编号查询完整论文。

当你正在学习怎么打领带，却在某个要道卡住了，这时若是有东说念主能准确估量你下一步该作念什么，并用视频直不雅地演示给你看，那该多好。这恰是这项独创性征询要科罚的问题。征询团队开发了一个名为VANS的东说念主工智能系统，它不仅能结识你现时在作念什么，还能估量接下来会发生什么，更进攻的是，它能用视频的方式直不雅地"回应"你的问题。

昔日，当咱们问AI"接下来会发生什么"时，得到的泛泛是翰墨描写。但翰墨常常无法完整抒发复杂的动作和空间关系。就像你很难仅凭翰墨描写学会骑自行车一样，好多妙技和学问需要视觉演示才能确凿掌合手。这个AI系统的冲破在于，它能将估量收尾弯曲为动态视频，让谜底变得直不雅易懂。

征询团队靠近的最大挑战是怎么让两个不同的AI模子协同职责：一个负责结识和推理（视觉谈话模子），另一个负责生成视频（视频生成模子）。这就像让一个善于念念考的玄学家与一个擅长绘图的艺术家合作完成一件作品。玄学家随机深入念念考问题的本质，但无法将念念考收尾可视化；艺术家能创造好意思妙的视觉作品，但可能无法准确结识复杂的详尽倡导。

为了科罚这个问题，征询团队瞎想了一种名为"蚁合GRPO"的磨砺战术。这种战术分为两个阶段进行优化。第一阶段专注于让"玄学家"（结识模子）学会用"艺术家"（视频生成模子）随机结识的谈话来抒发念念想。第二阶段则让"艺术家"学会诚实地将"玄学家"的想法弯曲为视觉作品。通过这种分阶段的调解磨砺，两个模子逐步学会了默契配合。

为了磨砺和测试这个系统，征询团队构建了一个包含10万个样本的数据集VANS-Data-100K。这个数据集包含了万般场景：从教东说念主作念菜的门径性任务，到估量故事情节发展的创意性任务。每个样本王人包含输入视频、接洽问题和对应的视频谜底，为AI系统提供了丰富的学习素材。

一、让AI学会"看懂"复杂情境

当你不雅看一段制作纸风车的视频时，随机简陋判断现时进行到哪个要道，下一步应该作念什么。但对AI来说，这个看似肤浅的过程本质上需要复杂的推理才气。AI需要识别视频中的物体、结识动作的含义、掌合手制作过程的逻辑司法，最终作念出准确估量。

VANS系统的中枢在于将这个复杂过程认识为两个彼此配合的部分。第一个部分是视觉谈话模子，它就像一个教训丰富的憨厚，随机不雅察学生确现时气象，结识学生提议的问题，然后念念考应该给出什么样的带领。这个模子不仅要结识视频内容，还要证实用户的具体问题进行针对性念念考。

比如说，当系统看到用户正在包饺子，也曾擀好了面皮并放上了馅料，此时用户问"下一步何如办"，系统需要勾通视觉信息和问题结识，推断出用户需要学习封口技巧，然青年景相应的翰墨描写行动视频生成的带领。

第二个部分是视频生成模子，它像一位本事深湛的动画师，随机证实翰墨描写创造出传神的动态场景。但这个"动画师"不可肤浅地按照翰墨创作，还要确保生成的视频在视觉上与输入视频保持一语气性。不绝包饺子的例子，生成的视频中饺子皮的神志、厚度、周围环境王人应该与输入视频保持一致，这么用户才会嗅觉这是天然的下一步动作。

这种瞎想的玄妙之处在于各司其职又密切配合。视觉谈话模子专注于结识和推理，视频生成模子专注于视觉抒发，但两者必须在统一个"频说念"上职责，才能产生令东说念主称心的收尾。

二、冲破性的"蚁合调优"磨砺方法

传统的AI磨砺方法泛泛是区别磨砺两个模子，然后肤浅地将它们运动起来使用。这就像磨砺一个翻译官和一个演员区别掌合手各自妙技，然后让他们临时合作饰演。天然各自王人很专科，但枯竭默契配合，泛泛出现翻译官的指令演员无法准照实施的情况。

征询团队提议的蚁合GRPO方法澈底改变了这种磨砺模式。这种方法的中枢念念想是让两个模子在磨砺过程中彼此感知对方的才气和为止，巩固建立起深度的互助关系。通盘过程分为两个悉心瞎想的阶段。

第一阶段被称为"可视化友好的视觉谈话模子调优"。在这个阶段，视频生成模子保持不变，专注磨砺视觉谈话模子。但磨砺的宗旨不单是是生谚语义正确的翰墨描写，还要确保这些描写随机被视频生成模子准确结识和实施。系统会评估视觉谈话模子生成的每个翰墨描写，不仅看其语义准确性，还会本质让视频生成模子证实这个描写生成视频，然后评估视频质料。

这就像磨砺一个导演不仅要会写脚本，还要确保写出的脚本演员随机竣工上演。若是脚本写得信口雌黄但演员无法结识或实施，那就不是好脚本。通过这种磨砺方式，视觉谈话模子逐步学会了用视频生成模子"听得懂"的谈话来抒发想法。

第二阶段是"坎坷文诚实的视频生成模子适配"。此时，经过第一阶段磨砺的视觉谈话模子被固定下来行动"锚点"，开始磨砺视频生成模子。视频生成模子的任务是证实视觉谈话模子提供的描写，生成既适当语义条件又与输入视频在视觉上保持连贯的新视频。

这个阶段的磨砺独特防范两个方面：语义一致性和视觉连贯性。语义一致性确保生成的视频准确抒发了翰墨描写的内容，而视觉连贯性确保新视频看起来像是输入视频的天然延续，而不是倏得切换到十足不同的场景。

通过这种两阶段的蚁合磨砺，两个模子建立起了深度的互助关系。视觉谈话模子学会了辩论视频生成的可行性来组织谈话，视频生成模子学会了在结识语义的基础上保持视觉连贯性。

三、10万样本数据集的悉心构建

为了让AI系统学会处理万般复杂场景，征询团队构建了一个范畴广博且质料极高的磨砺数据集。这个名为VANS-Data-100K的数据集包含了10万个悉心挑选和标注的样本，每个样本王人包含输入视频、用户问题和对应的视频谜底。

数据集的构建过程就像谋齐整个内容丰富的百科全书。征询团队从多个来源集结原始视频素材，包括教学视频、生涯记载片断、短剧等万般类型的内容。然后通过智能化的处理过程，将这些长视频分割成挑升念念风趣的片断，确保每个片断王人包含完整的动作或事件。

在门径性任务方面，数据集包含了多半的教学场景，比如烹调、手工制作、妙技学习等。这些场景泛泛有明确的要道司法和因果关系，AI需要结识现时进行到哪一步，然后估量下一步的具体操作。征询团队独特注爱重频质料，确保每个动作王人明晰可见，布景环境信息完整，这么AI才能学会准确识别和师法。

在估量性任务方面，数据集涵盖了万般日常场景和故事情节，磨砺AI结识更复杂的因果关系和情境变化。比如一个东说念主正在准备出门，证实他的动作和周围环境，AI需要估量他接下来可能作念什么。这类任务莫得固定的法度谜底，需要AI具备更强的推理才气和创造性。

为了确保数据质料，征询团队开发了一套严格的筛选和标注过程。他们使用AI助手自动生成开始的问答对，然后通过东说念主工查抄确保问题合理、谜底准确。每个样本王人经过多轮质料适度，确保输入视频、问题和谜底之间有明确的逻辑关系。

四、在竟然场景中的优异弘扬

为了考据VANS系统的本质后果，征询团队瞎想了全面的测试实验。他们将VANS与现时开拔点进的其他AI系统进行对比，测试内容包括门径性任务和估量性任务两大类，涵盖了翰墨准确性和视频质料等多个维度。

在门径性任务测试中，VANS展现出了显贵的上风。迎面对"怎么不绝制作鸡肉帕尔马干酪"这么的问题时，其他系统常常只可给出肤浅的翰墨描写，或者生成的视频与输入场景脱节。而VANS随机准确识别现时制作程度，结识用户的具体需求，然青年景与输入视频格调一致、要道准确的带领视频。

在一个典型的测试案例中，输入视频露馅用户也曾煎好了裹面包屑的鸡肉，正在淋番茄酱。其他AI系统有的建议将鸡肉从锅中取出装盘，有的建议烘烤，但王人莫得准确把合手制作的具体气象。VANS则正确识别出下一步应该撒奶酪，并生成了一个明晰展示撒奶酪动作的视频，kaiyun sports奶酪的神志、撒法王人与竟然制作过程高度一致。

在估量性任务中，VANS雷同弘扬出色。面对"若是这个东说念主很浮躁，他会作念什么"这么的盛开性问题，系统需要勾通视频中的视觉印迹和情境信息，作念出合理的忖度。VANS不仅随机结识情境的复杂性，还能生成适当逻辑的后续情节，展现出令东说念主印象深刻的推理才气。

量化测试收尾露馅，VANS在统统主要评估方针上王人认识优于对比系统。在翰墨描写的准确性方面，VANS的得分比最强的对比系统逾越约30%。在视频质料方面，VANS生成的视频不仅视觉后果更佳，与输入视频的连贯性也更强。

独特值得精通的是，蚁合GRPO磨砺战术的后果终点认识。与仅使用基础磨砺方法的版块比拟，选拔蚁合磨砺的VANS在各项方针上王人有显贵升迁，充分评释了这种创新磨砺方法的价值。

五、深入的时刻分析和考据实验

为了深入结识VANS系统的职责机制，征询团队进行了详备的消融实验。这些实验就像大夫给病东说念主作念全面查抄一样，一一测试系统各个组件的作用，确保每个瞎想王人有明确的价值。

{jz:field.toptypename/}

征询团队最初考据了蚁合磨砺联系于寂寥磨砺的上风。他们比较了三种不同的磨砺战术：仅磨砺视觉谈话模子、仅磨砺视频生成模子、以及蚁合磨砺两个模子。收尾露馅，只好蚁合磨砺才能确凿科罚两个模子之间的调解问题。仅磨砺其中一个模子常常导致生成的翰墨描写与视频内容不匹配，或者视频质料下落。

接着，征询团队测试了两阶段磨砺战术的必要性。他们尝试了将两个阶段合并为一次性磨砺，但发现这么作念会导致磨砺不结识，系统难以管理到最优气象。这就像同期学习两种十足不同的妙技，常常会彼此烦嚣，影响学习后果。分阶段磨砺让每个模子随机专注地掌合手我方的中枢才气，然后再学习与对方的配合。

在奖励机制的瞎想上，征询团队也进行了精良的分析。他们测试了移除不同奖励因素对系统性能的影响。收尾露馅，每个奖励因素王人有其独到的作用。翰墨准确性奖励确保语义正确，视频质料奖励保证视觉后果，语义一致性奖励驻守生成的视频偏离翰墨描写。移除任何一个因素王人会导致相应方面的性能下落。

征询团队还通过东说念主工评估进一步考据了系统的实用性。他们邀请30位评估者对不同系统生成的视频进行评分，评估维度包括语义正确性、视觉连贯性和举座称心度。收尾露馅，VANS在统统维度上王人获取了最高分，独特是在举座称心度方面，平均得分达到4.8分（满分5分），显贵高于其他系统。

六、宽阔的诓骗出息和时刻拓展

VANS系统展现出的才气远不啻科罚单一问题，它开启了视频AI诓骗的全新可能性。在莳植培训边界，这项时刻不错改换性地改变妙技学习方式。传统的视频教程是静态的，无法针对学习者的具体程度提供个性化带领。而VANS随机证实学习者现时的操作气象，及时生成下一步的带领视频，就像有一位教训丰富的憨厚在身边随时提供匡助。

在工业培训中，VANS不错诓骗于复杂斥地的操作带领。当工东说念主在安设分娩线上碰到问题时，只需拍摄现时气象的视频并提议问题，系统就能生成具体的操作带领。这种个性化、情境化的带领比传统的操作手册愈加直不雅灵验，能显贵提高培训服从和职责质料。

征询团队还发现，VANS具备处理多种改日可能性的才气。迎面对统一个输入场景时，系统不错证实不同的问题设定生成不同的后续视频。比如看到一个东说念主准备出门的场景，若是问"若是天气很冷他会作念什么"，系统可能生成穿厚外衣的视频；若是问"若是他要去负责时局"，则可能生成换正装的视频。这万般种性展示了系统的纯真性和创造性。

在创意内容制作方面，VANS为视频创作家提供了全新的器具。创作家不错拍摄一段来源，然后通过不同的问题指点系统生成多种不同的故事发展标的，快速探索创意可能性。这不仅提高了创作服从，还可能激勉出出东说念主意象的创意火花。

时刻层面上，VANS还展现出了精真金不怕火的泛化才气。天然主要针对视频场景磨砺，但系统也能处理静态图像输入，将单张图片结识为静态视频片断，然青年景相应的动态后续内容。这种跨模态的稳健才气标明了时刻架构的隆重性和潜在的彭胀空间。

七、靠近的挑战和改日发展标的

尽管VANS系统展现出了令东说念主印象深刻的才气，但征询团队也憨厚地指出了现时时刻靠近的挑战和为止。最初是打算资源的需求。蚁合磨砺两个大型AI模子需要多半的打算才气和磨砺时候，这在一定程度上为止了时刻的普及和诓骗。面前的磨砺过程需要高性能的GPU集群援助，正常征询机构可能难以承担接洽资本。

在时刻精度方面，天然VANS在大多数场景下弘扬优秀，但在处理独特复杂或邋遢的情境时仍可能出现判断失实。比如当输入视频中存在多个可能的发展标的时，系统有时会弃取相对保守或常见的估量，而不是最适当具体情境的弃取。这反应了AI系统在复杂推理方面仍有升迁空间。

数据质料的依赖性是另一个进攻挑战。VANS的性能很大程度上取决于磨砺数据的质料和万般性。天然征询团队构建了10万样本的数据集，但联系于现实寰宇的复杂性，这个范畴仍显不及。独特是在处理特定边界或文化布景的内容时，系统可能因为磨砺数据的局限性而弘扬欠安。

在本质诓骗中，系统还靠近及时性的挑战。现时的VANS系统在生成视频谜底时需要几十秒的处理时候，这关于需要即时反馈的诓骗场景来说还不够空想。天然这个速率也曾比一些竞争系统更快，但距离确凿的及时交互还有差距。

诡秘和安全问题也谢绝疏远。由于系统需要处理用户的视频输入，怎么保护用户诡秘、驻守坏心使用成为进攻辩论因素。独特是在莳植和工业诓骗中，用户上传的视频可能包含敏锐信息，需要建立完善的诡秘保护机制。

征询团队提议了几个进攻的改日发展标的。最初是时刻服从的升迁，通过模子压缩、推理优化等方法缩短打算需求，使时刻更容易部署和使用。其次是扩大数据集范畴和万般性，独特是加多不同文化布景、荒谬边界的磨砺样本，提高系统的通用性和稳健性。

在时刻创新方面，征询团队正在探索更高效的磨砺战术，但愿随机在保持性能的同期显贵减少磨砺时候和资源蹧跶。他们也在征询怎么让系统具备更强的坎坷文结识才气，随机处理更长的视频序列和更复杂的任务链。

说到底，VANS系统代表了AI时刻发展的一个进攻里程碑。它不仅科罚了视频结识和生成的时刻挑战，更进攻的是独创了一种全新的东说念主机交互模式。通过将复杂的估量任务弯曲为直不雅的视频谜底，这项时刻让AI变得愈加实用和迫临生涯。

归根结底，这项征询的价值不仅在于时刻冲破自己，更在于它为咱们展示了AI时刻劳动东说念主类的新可能性。当AI随机像教训丰富的憨厚一样，证实咱们的具体情况提供个性化的视觉带领时，学习和职责的方式王人将发生深刻改变。

天然面前的时刻还存在一些为止，但征询团队的创新念念路和杀青方法为通盘边界指明了发展标的。跟着打算才气的升迁、数据资源的丰富和算法的束缚优化，咱们有原理期待这项时刻在不久的将来随机走进千门万户，为东说念主们的学习、职责和生涯带来更多便利。

关于有利思意思深入了解这项时刻的读者，不错通过论文编号arXiv:2511.16669v1查询完整的时刻细节和实验数据。这项由香港城市大学和快手科技蚁合完成的征询，无疑将在AI视频结识和生成边界产生深切影响。

Q&A

Q1：VANS是什么？

A：VANS是由香港城市大学和快手科技蚁合开发的AI系统，它随机不雅看视频并结识用户的问题，然后估量接下来会发生什么事件，并用视频的模式直不雅地回应问题。比如你在学作念菜时卡住了，它就能生成下一步操作的带领视频。

Q2：VANS与传统AI视频系统有什么区别？

A：传统AI系统泛泛只可生成翰墨回应或者肤浅的视频延续，而VANS随机证实具体问题进行推理，然青年景针对性的视频谜底。它勾通了视觉结识和视频生成两种才气，能提供更个性化、更直不雅的带领。

Q3：VANS时刻面前不错使用了吗？

A：面前VANS还处于征询阶段，主要在学术实验环境中使用。天然时刻也曾相当熟识，但要成为正常用户不错使用的家具，还需要科罚打算服从、资本适度等工程化问题。征询团队正在野着本质诓骗的标的接力。

上一篇：开云体育官方网站小米汽车提前三月揭晓SU7改款：助用户充分比拟体验，保留中控物理按键

下一篇：开云sports 工业智能利企数字转型惠民