当前位置: 首页 > 新闻资讯 >

李飞飞对计算机视觉的愿景:World Labs 正为机器提供 3D 空间智

发布者:[db:作者]
来源:[db:来源] 日期:2024-12-23 17:14 浏览()
斯坦福年夜学教学李飞飞曾经在 AI 汗青上博得了本人的位置。她在深度进修反动中施展了主要感化,多年来尽力创立?ImageNet?数据集跟比赛,挑衅 AI 体系辨认 1000 个种别的物体跟植物。2012 年,一个名为 AlexNet 的神经收集在 AI 研讨界惹起了震撼,它的机能远远超越了全部其余范例的模子,并博得了 ImageNet 竞赛。从当时起,神经收集开端起飞,由互联网上当初供给的大批收费练习数据跟供给史无前例的盘算才能的?GPU?供给支撑。本文援用地点:在 ImageNet 问世后的 13 年里,盘算机视觉研讨职员控制了工具辨认技巧,并转向图像跟视频天生。Li 是斯坦福年夜学以工资本的 AI 研讨所?(HAI) 的结合开创人,并持续冲破盘算机视觉的界线。就在往年,她开办了一家始创公司?World Labs,天生用户能够摸索的 3D 场景。World Labs 努力于为 AI 供给“空间智能”,即天生 3D 天下、在 3D 天下中停止推理跟交互的才能。Li 昨天在年夜型 AI 集会?NeurIPS?上宣布了对于她对呆板视觉的愿景的主题报告,并在报告前接收了?IEEE Spectrum?的独家采访。你为什么将报告的标题定为“Ascending the Ladder of Visual Intelligence”?李飞飞:我以为智能存在差别水平的庞杂水平跟庞杂水平是直觉的。在报告中,我想转达如许一种感到,即在从前多少十年中,尤其是从前 10 多年的深度进修反动中,咱们学到的视觉智能令人叹为不雅止。咱们越来越有才能应用这项技巧。我还遭到了 Judea Pearl 的 “因果门路” [在他 2020 年的书?The Book of Why] 的启示。该报告另有一个副题目,“从看到到做”。这是人们不敷观赏的货色:视觉与互动跟办事亲密相干,无论是对植物仍是对 AI 代办都是如斯。这与言语南辕北辙。从基本上说,言语是一种用于转达主意的交换东西。在我看来,这些长短常互补但同样深入的智能形式。你的意思是咱们天性地对某些气象做出反映吗?李:我说的不只仅是直觉。假如你看一下感知的退化跟植物智能的退化,它们就曾经严密交错在一同了。每当咱们可能从情况中获取更多信息时,退化的力气就会推进才能跟智能向前开展。假如你感到不到情况,你与天下的关联就十分主动;你能否吃或被吃是一种十分主动的行动。然而,一旦你可能经由过程感知从情况中获取线索,退化压力就会真正增添,从而推进智能向前开展。你以为这就是咱们创立越来越深刻的呆板智能的方法吗?经由过程容许呆板感知更多的情况?李:我不晓得“深”是不是我会用的描述词。我以为咱们正在发明更多功效。我以为它变得越来越庞杂,功效越来越强盛。我以为,处理空间智能成绩是迈向片面智能的基本跟要害步调,这是相对准确的。我看过 World Labs 的演示。你为什么想要研讨空间智能并构建这些 3D 天下?李:我以为空间智能是视觉智能的开展偏向。假如咱们当真地处理视觉成绩并将其与举动接洽起来,那么有一个十分简略、不言而喻的现实:天下是 3D 的。咱们不是生涯在一个平整的天下里。咱们的物理代办,无论它们是呆板人仍是装备,都将生涯在 3D 天下中。乃至虚构天下也变得越来越 3D。假如你与艺术家、游戏开辟职员、计划师、建造师、大夫攀谈,即便他们在虚构天下中任务,此中年夜局部都是 3D 的。假如你花点时光意识到这个简略而深入的现实,那么毫无疑难,破解 3D 智能成绩是基本。我很猎奇 World Labs 中的场景怎样坚持物体的长久性并合乎物理定律。这感到像是向前迈出的令人高兴的一步,由于像 Sora 如许的视频天生东西依然在探索这些货色。李:一旦你尊敬天下的 3D 性,良多事件都是很天然的。比方,在咱们宣布在交际媒体上的一个视频中,篮球被放入场景中。由于它是 3D 的,以是它容许你领有这种才能。假如场景只是 2D 天生的像素,篮球将无处可去。或许,就像在 Sora 中一样,它可能会去某个处所,但随后消散了。?在实验推进这项技巧向前开展的进程中,你面对的最年夜技巧挑衅是什么?李:?不人处理这个成绩,对吧?这十分十分艰苦。你能够看到 [在 World Labs 演示视频中] 咱们拍摄了一幅梵高的画作,并以分歧的作风天生了缭绕它的全部场景:艺术作风、照明,乃至谁人社区会有什么样的建造。假如你转过身来,它酿成了摩天年夜楼,那将完整不压服力,对吧?并且它必需是 3D 的。你必需导航到它。以是这不只仅是像素。你能谈谈你用来练习它的数据吗?李:?很多多少。你能否在盘算累赘方面面对技巧挑衅?李:?这是大批的盘算。这是大众部分无奈蒙受的盘算范例。这就是我很愉快能休假的局部起因,以私营部分的方法做这件事。这也是我始终提倡大众部分盘算拜访的局部起因,由于我本人的教训夸大了在资本充分的情形下停止翻新的主要性。付与大众部分权利是件坏事,由于它平日更受鼓励于为了本身而取得常识,为人类的好处而取得常识。李:?常识发明须要资本支撑,对吗?在伽利略时期,这是让地理学家观察新天体的最佳千里镜。是胡锐意识到缩小镜能够酿成显微镜跟发明的细胞。每当有新的技巧东西呈现时,它都市辅助人们追求常识。当初,在 AI 时期,技巧东西波及盘算跟数据。咱们必需意识到大众部分的这一点。你盼望在联邦层面采用什么办法来供给资本?李:?这是 Stanford HAI 在从前五年中的任务。咱们始终在与国会、参议院、白宫、行业跟其余年夜学配合,以创立 NAIRR,即国度 AI 研讨资本。假设咱们能够让 AI 体系真正懂得 3D 天下,那会给咱们带来什么?李:它将为人们开释大批的发明力跟出产力。我盼望以更高效的方法计划我的屋子。我晓得良多医学用处都波及懂得一个十分特别的 3D 天下,即人体。咱们老是在念叨人类将发明呆板人来辅助咱们的将来,但呆板人在 3D 天下中导航,而且它们须要空间智能作为年夜脑的一局部。咱们还探讨了虚构天下,这些天下将容许人们观赏处所、进修观点或文娱。这些应用 3D 技巧,尤其是混杂能源车,咱们称之为 AR [加强事实]。我很想戴着一副眼镜走过国度公园,它能为我供给有关树木、小径跟云的信息。我也想经由过程空间智能的辅助放学习差别的技巧。什么样的技巧?李:?我糟糕的例子是,假如我在高速公路上爆胎了,我该怎样办?当初,我翻开了一个“怎样调换轮胎”的视频。然而,假如我能戴上眼镜,看看我的车产生了什么,而后在领导下实现这个进程,那就太酷了。但这是一个糟糕的例子。你能够斟酌烹调,你能够斟酌雕琢——风趣的事件。你以为咱们在有生之年能走多远?李:?哦,我以为这将在咱们的有生之年产生,由于技巧提高的速率真的很快。你曾经看到了从前 10 年带来的所有。这相对预示着接上去会产生什么。   申明:新浪网独家稿件,未经受权制止转载。 -->
分享到