天津电机维修_天津进口电机维修_天津特种电机维修_天津发电机维修天津电机维修_天津进口电机维修_天津特种电机维修_天津发电机维修

中国首个Sora级视频大模型Vidu发布 生数科技与清华联合推出

中国首个Sora级视频大模型Vidu发布 生数科技与清华联合推出

4月27日,在中关村论坛未来人工(gōng)智(zhì)能先锋(fēng)论坛上(shàng),生数(shù)科技联合清(qīng)华大学正式发布中国首个(gè)长时长、高一致性、高动态性视频大模型——Vidu。该模型采(cǎi)用团队原创的Diffusion与Transformer融(róng)合的(de)架构U-ViT,支持(chí)一键生成长达16秒、分辨 率高达(dá)1080P的高清(qīng)视频内(nèi)容。Vidu不(bù)仅能够模拟真实(shí)物理世界(jiè),还拥 有丰富想象力,具备多镜头生成(chéng)、时空一致性高等特(tè)点。Vidu是自Sora发布之后全球率先(xiān)取得重大突破的视频大模型,性(xìng)能全面对(duì)标国际顶尖水平,并在(zài)加速迭代提升中。

与Sora一 致,Vidu能够根据提供的中国首个Sora级视频大模型Vidu发布 生数科技与清华联合推出文本描述直接(jiē)生成 长达16秒的高(gāo)质量视频。除(chú)了(le)在时长方面的突破外,Vidu在视频效果(guǒ)方面(miàn)实现显著提升,主要体现(xiàn)在几个方面:第 一、模拟(nǐ)真(zhēn)实物理世(shì)界:能(néng)够生成细节复杂的场景,且符合真实的物理规律,例如合(hé)理的光影(yǐng)效果、细腻的人物表(biǎo)情等(děng);第二、具有丰富想象力:能够 生成真实世界不存在的虚构画面,创造出具有(yǒu)深度和复杂性的超现实主义(yì)内容;第三、多镜头语言:能中国首个Sora级视频大模型Vidu发布 生数科技与清华联合推出够生成(chéng)复杂的动态(tài)镜头,不再局(jú)限于(yú)简单的推(tuī)、拉、移等固定镜头,而是能够围绕统一主(zhǔ)体在(zài)一段画面里(lǐ)就(jiù)实现远景、近景、中景、特写等不同 镜头的切(qiè)换,包(bāo)括能直接生成长镜(jìng)头、追焦、转(zhuǎn)场等效果,给视频 注入镜头语(yǔ)言;第四、时空一致性高:在16秒的时长上保持连贯流畅,随着镜头的移动,人物(wù)和场景在(zài)时间、空间中能(néng)够保持一致;第五、理(lǐ)解中国(guó)元素:能够生成特有(yǒu)的中国元素(sù),例如熊(xióng)猫、龙等。

值得一提的是,短片中的片段(duàn)都是从头到(dào)尾连续生成,没有明显的插帧现象,从这种“一(yī)镜到底”的表现能够推(tuī)测出,Vidu采用(yòng)的是“一步到位”的(de)生成方式,与Sora一样(yàng),文本到视(shì)频的转换是直接且连续的,在(zài)底层算法实(shí)现上是(shì)基于单一模型完全端到(dào)端生成,不涉及中间的插帧和其他多(duō)步骤的(de)处理。 

Vidu的快速突破源(yuán)自于团队在(zài)贝叶斯(sī)机器学习和多模(mó)态 大模型的长期(qī)积累和多项原 创性成果 。其核心技术U-ViT架构由团队于2022年9月提出,早于Sora采用的(de)DiT架构,是全球首个Diffusion与Transformer融合的(de)架构,完(wán)全由团队自主研发。

2023年3月,团队(duì)开源全球首个基于U-ViT架构的(de)多模态扩散大模型(xíng)UniDiffuser,在全球范围内率先完成融合架构的大规模(mó)可扩展性(xìng)(Scaling Law)验证。UniDiffuser是(shì)在大规模图文数(shù)据集LAION-5B上训练出的近10亿参数量模型,支持图文模态间的任意生成(chéng)和转换。在架构上,UniDiffuser比同样(yàng)DiT架(jià)构(gòu)的Stable Diffusion 3领先了一年。

自今年2月Sora发布推出后,团队基(jī)于对U-ViT架构的深入理解以及长期积累的工程与数(shù)据经验,在短短两个月进一步突破长视频表示与处理关(guān)键技术,研发推出Vidu视频(pín)大模型,显著提(tí)升(shēng)视(s中国首个Sora级视频大模型Vidu发布 生数科技与清华联合推出hì)频的连贯性与动态性。

从图文任务的统一到融合视频能力,作为通用视觉模型(xíng),Vidu能够支持生成更加(jiā)多(duō)样化、更长时长的视频内容,同时面向未来(lái),灵(líng)活(huó)架构也将能够兼容更广泛的模态,进一步拓展多模态通(tōng)用能力的边界。

Vidu的问世,不仅是U-ViT融合架构在(zài)大规模视觉任务中的 又(yòu)一次成功(gōng)验证,也代表(biǎo)了生数科技在多模(mó)态原生(shēng)大模型领域的持续创新能力和领先性(xìng)。同时生数科技表(biǎo)示,大模型的突破是一个多维度、跨领(lǐng)域的综合性过程,需要技术与产(chǎn)业应用的深度融合。生数科技正式推(tuī)出“Vidu大模型合作伙伴 计划”,希望产业链(liàn)上下游企业、研究机构能(néng)一起加入,共同构建合作生态。

校对:廖胜超

未经允许不得转载:天津电机维修_天津进口电机维修_天津特种电机维修_天津发电机维修 中国首个Sora级视频大模型Vidu发布 生数科技与清华联合推出

评论

5+2=