阿里达摩院低沉上线文本生成视频大模型能够试玩！AI开端卷视频了！

返回列表

日期: 2025-03-08

上个月初，文言君说过，阿里达摩院正在研制类ChatGPT的对话机器人，其时已开放给公司内职工测验。

就在昨日，阿里达摩院低沉地在魔搭社区（ModelScope）放出了“文本生成视频大模型”。魔搭，是达摩院在上一年11月推出的开源模型渠道。

依据官方介绍，现在这个模型，由文本特征提取、文本特征到视频隐空间分散模型、视频隐空间到视频视觉空间这3个子网络组成，全体模型参数约17亿。支撑英文输入。分散模型选用Unet3D结构，经过从纯高斯噪声视频中，迭代去噪的进程，完成视频生成的功用。

文言君方才试了一把。输入提示词：A panda eating bamboo on a rock，等了差不多77秒，收到一段2秒钟的视频。感受一下~

假如换成中文：一只大熊猫坐在岩石上吃竹子，出来的成果便是一只类似于猫咪的小动物。公然，现在还不支撑中文。

从试玩的成果来看，现在能生成的视频长度多在2-4秒，生成等候时刻从20多秒到1分多钟不等。

达摩院的这个发布，也在国内外的交际渠道上招引了一波尝鲜的网友。由于玩的人太多，有微博网友说，连刷20次都没挤进去。

别的，今日清晨，总部在纽约的人工智能草创公司Runway也发布了一种从文本到视频转化的AI模型Gen-2。

上个月，这家曾参加创立Stable Diffusion的公司推出过模型Gen-1，能经过文本提示或参阅图画指定的风格，将现有视频转化为新视频。

从命名上就能看出，Gen-2是Gen-1的升级版，能从零开端产出视频。现在，咱们只能够看到Runway共享出来的一些演示片段。依据该公司的说法，未来几周会供给广泛拜访试用。

早在上一年，谷歌和Meta都展现了各安闲文本转视频上的测验，使用AI生成泰迪熊洗碗和在湖上泛舟等视频。但这两家公司都没有宣告将有关技能推进到研讨阶段以外的方案。

文本生成视频，最理想的作用便是用户给出提示词，体系主动生成任何风格的对应视频。

不过，从现在此类模型生成视频的等待时刻，画面的实在度、清晰度以及长度等各方面来看，间隔产出令人满意的视频还有很大间隔。

事实上，与图画修改比较，视频修改是一个更有挑战性的范畴。扎克伯格此前就在推特上说过，AI模型能从生成静态像素，发展到猜测每个像素跟着时刻推移产生的改变，这在技能上已经是一个打破。

当然了，或许用不了多久，AI就会处理现存的这些缺点。将来，哪怕彻底不明白视频制造的人，也能上手做视频，且可能是批量产出。

特别声明：以上内容(如有图片或视频亦包含在内)为自媒体渠道“网易号”用户上传并发布，本渠道仅供给信息存储服务。

东北雨姐闪现五台山！穿5000元外套，走路霸气，多人伴随阵仗大

杨毅馋哭!美国杨毅获ESPN5年1亿超级顶薪,比绝大多数NBA球员都高

要对泽连斯基“下手”？美方密会乌反对派！泽连斯基：要参加北约、欧盟！特朗普最新表态，欧盟26国发声！普京：俄不会向任何人屈从

北控加时险胜浙江：余嘉豪25+24 里勒46+8+8约克48+10+11+10三分

15分大逆转！深圳男篮险胜江苏，贺希宁30+9周鹏19+4，威姆斯万能

《编码物候》展览开幕北京年代美术馆以科学艺术解读数字与生物交错的世界节律

西部数据退出SSD商场将要点转向硬盘 SanDisk 接收NAND事务

苹果发布新款MacBook Air：新增天蓝色+M4芯片价格7999元起

河南夏粮收购有序推进确保颗粒归仓

上一篇:如有50万NBA杯奖金怎么正确地处理？JR-史密斯：纵情浪费不必规划

下一篇:麦琳直播状况低沉内敛吸金力强