兔子的基于网页的'大型行动模型'代理将于10月1日抵达r1

兔子r1是2024年初必不可少的小工具,但当公司的广泛承诺未能兑现时,它的魅力很快消失了。首席执行官李杰斯承认,“第一天,我们的期望值设置得太高了”,但也表示,下周即将到来的更新将最终在网络上释放备受推崇的大型行动模型。

尽管怀疑论者可能(毫无疑问地)认为这太少太迟了,或者是又一个打破旧目标的行为,但兔子构建一个面向各种平台的网络和移动应用程序代理的抱负仍然具有根本性价值,尽管这在很大程度上还是一种理论上的价值。

在接受TechCrunch采访时,李杰斯表示,过去六个月过去了,公司不断更新、修复错误、改善响应时间,并添加一些小功能。但尽管对r1进行了16次无线更新,它仍然基本上限制于与LLM进行交互或访问七种特定服务之一,如Uber和Spotify。

他说:“那是第一个LLM版,是根据从数据劳工收集的记录进行训练的,但并不是通用的 —— 它只连接到那些服务。”是否符合他们称之为LLM的标准在这一点上基本上已经无关紧要;无论模型是什么,它都没有提供兔子在首次亮相时详细描述的功能。

图片来源:兔子

一般性基于网页的代理

但兔子准备发布第一个通用版本,也就是说不针对任何应用程序或界面的LLM,李杰斯向我展示了。

这个版本是一个基于网页的代理,可以推理出执行任何普通任务的步骤,比如购买音乐会门票、注册网站,甚至玩在线游戏。“我们的目标非常明确:到9月底,您的r1将会突然做更多的事情。它应该支持您可以在任何网站上做的任何事情,”李杰斯说。(公司后来提供了10月1日的最终日期。)

在给定任务时,它首先将该任务分解为步骤,然后通过分析屏幕上所见的内容来开始执行这些步骤:按钮、字段、图像,而不管其位置或外观如何。然后根据其对网站工作方式的一般了解与适当元素进行交互。

我(通过远程操作的李杰斯)让它注册一个电影节的新网站。每隔几秒钟执行一次动作,它在谷歌上搜索域名注册商,选择一个(我认为是一个赞助商的),将电影节放入域名框中,并从结果列表中选择“filmfestival2023.com”售价14美元。严格来说,我并没有给它任何限制,比如“用于2025年”或“恐怖电影节”或其他任何东西。

同样,当李杰斯让它搜索并购买r1时,它迅速找到了eBay,在那里有数十个出售。对于用户来说可能是一个好结果,但对于向媒体介绍的公司创始人而言并非如此!他笑了笑,然后又给了命令,要求只能从官方网站购买。代理成功了。

接下来,他让它玩Dictionary.com的每日单词游戏。由于需要一些提示工程(模型发现它可以通过点击“结束游戏”快速完成),但它成功完成了任务。

但它使用哪个浏览器呢?李杰斯表示,它使用云中的一个全新、干净的浏览器,但他们正在开发本地版本,比如Chrome扩展程序,这样您就可以使用现有的会话,而不必登录到您的服务中。至于用户有理由(且正确地)对提供全部凭据的公司持谨慎态度,代理并不配备这些凭证。李杰斯建议,未来可能会私下调用一个独立的小型语言模型以执行登录操作。鉴于这一领域的新颖性,这是一个开放问题,如何工作可能还是未知的。

兔子网站内应用程序中的用户界面分析示例。
图片来源:兔子

仍在学习中

演示向我展示了一些事情。首先,如果我们对公司及其开发人员给予怀疑的好处,认为这不全是一场精心策划的骗局(正如一些人所认为的那样),似乎这是一个可工作的通用性基于网页的代理。即使不是第一个,它也肯定是第一个容易供消费者获得的。

李杰斯说:“有一些公司在做垂直领域,比如Excel或法律文件,但我相信这是为消费者打造的第一个通用代理。”他说:“这个想法是,您可以说可以通过网站完成的任何事情。我们将首先为网站推出通用代理,然后是应用程序。”

其次,它显示了提示工程仍然非常必要。您如何提出请求可能很容易成为成功和失败的分水岭,这可能不是普通消费者能容忍的事情。

李杰斯警告说,这是一个“游乐场版本”,还没有最终版本,尽管它是一个完全功能的通用网页代理,但仍然有许多方面需要改进。例如,他说:“这个模型足够聪明以安排计划,但不够聪明以跳过步骤。”它不会“学到”用户不喜欢在eBay上购买电子产品,或者应该在搜索后向下滚动以避免一堵堵的赞助结果。

用户数据不会被用于改善模型 —— 尚未。李杰斯将其归因于这个系统基本上没有评估方法,所以很难量化地说是否已经取得了改进。不过,“教学模式”也即将推出,这样您就可以向其展示如何执行特定类型的任务。

有趣的是,公司还在开发一款可以与文字处理器、音乐播放器和当然是浏览器等应用程序进行交互的桌面代理。虽然这仍处于早期阶段,但正在运作。“您甚至都不需要输入目的地,它会尝试使用计算机。只要有一个界面,它都可以操控。”

第三,仍没有“杀手级应用程序”,或至少没有明显的。该代理令人印象深刻,但我个人对它的利用价值很小,不幸的是,每天都要坐在浏览器前八个小时。几乎可以肯定有一些很棒的应用程序,但没有一个能让基于浏览器的自动化代理的效用像机器人吸尘器那样明显。

为什么不是一个应用程序,再一次?

我提出了对整个兔子商业模式的常见反对意见,基本上就是“这可以做成一个应用程序。”

李杰斯显然听过这个批评很多次,他对自己的回答很有信心。

“如果您做个简单的算术,这是毫无意义的,”他说。“是的,从技术上讲,这是可行的,但你会在第一天就惹怒苹果和谷歌。他们永远不会让这比Siri或Gemini更好。就像没有又没有苹果情报会比谷歌东西更好,反之亦然。而且他们要拿走30%的收入!如果一开始我们只构建了一个应用程序,我们永远不会有这样的动力。”

兔子r1的使用。手模:《华盛顿邮报》的克里斯·韦拉兹科。
图片来源:泰克克朗奇

兔子提出的基本观点是,可以有第三方人工智能或设备访问和操作您的所有其他服务,从它们之外,就像您一样。“跨平台,通用代理系统,”李杰斯如此称之。他说:“我们将控制每个用户界面,网站是一个很好的开始。然后我们会去Windows,到MacOS,到手机。”

顺便说一下:“我们从未说过我们将来永远不会建造手机。”这是否与他们最初的“更小、更简单”的设备理论相抵触?也许,也许不。

与此同时,他们正在努力开始履行今年年初所作的承诺。新模型将会在本周晚些时候对任何r1所有者可用,OTA更新将随之推出。届时还将提供如何调用它的说明。李杰斯通过他特有的轻描淡写警告有期望的用户。

“我们正在设定正确的期望。它并不完美,”他说。“这只是人类迄今为止取得的最好成就。”