openai可以做什么

2025-04-2110:59:24常识分享0

近日,OpenAI在当地时间周四发布了一款新的自主智能体——Operator。继本月推出Tasks功能后,OpenAI在AI智能体领域迈出了更实质性的步伐。

据OpenAI介绍,Operator能够代替用户执行基于网页的各类操作,如浏览、输入、点击以及滚动网页等。作为OpenAI早期研发的智能体之一,Operator目前仍处于研究预览版本阶段,但其功能已经引起了广泛关注。特别是ChatGPT Pro会员现在可以体验到这一功能。

在长达20多分钟的介绍视频中,OpenAI详细展示了Operator如何轻松应对各种复杂的网页任务。例如,Operator可以预定餐厅座位、搜索物品并加入购物车,甚至帮助用户订购外卖。当遇到无法预定的情况时,Operator会智能地询问用户是否需要更改时间。

从视频中可以看出,Operator的操作界面与ChatGPT界面颇为相似,用户只需在对话框中向Operator发出指令即可。OpenAI透露,支撑Operator的是其CUA(计算机代理使用)模型。这一模型结合了GPT-4o的视觉能力和高级推理能力,能够与用户的图形界面进行交互,执行如“看到”屏幕上的按钮、菜单和文本等操作。

在保障安全和隐私方面,Operator在执行任务时,用户始终保持对过程的控制。当涉及到敏感信息如支付信息时,Operator会要求用户接管,并不会收集用户输入的信息。Operator还能拒绝一些有害的请求。未来,OpenAI计划开放CUA的使用接口,以便开发人员构建自己的智能体。

目前,使用Operator的用户仍有限制,ChatGPT Pro会员需支付每月200美元的费用。但OpenAI已表示计划向ChatGPT Plus、Team以及企业用户开放使用。这一发展也得到了OpenAI高层的肯定。总裁Greg Brockman在社交媒体上表示2025年将是智能体的时代。

智能体的研发不仅是OpenAI的焦点,也引起了其他企业的关注。在国内,智谱AI是最早布局智能体的企业之一。他们发布了PC端智能体GLM-PC并开始邀请测试。最近,该智能体还推出了“深度思考”模式,增加了逻辑推理和代码生成的功能。

智谱华章总裁王绍兰认为,2025年AI领域的两大发展方向之一就是智能体技术。他表示:“现在手机APP的操作方式仍需依赖人的方式,想象一下大模型能熟练使用工具对行业的影响。”