全球热消息:90%的人类败北!你能代表人类考赢ChatGPT-4吗?

3月15日,美国当地时间周二,人工智能研究公司OpenAI发布了新一代大型语言模型GPT-4,这是支持ChatGPT和新必应等应用程序的最新AI大型语言模型。


(相关资料图)

在功能上,GPT-4主要实现了几个方面的提升:更聪明,做题水平越来越好;支持图像输入,拥有强大的识图能力,但目前只限内部测试;更长的上下文,文字输入限制提升至2.5万字;回答准确性显著提高,更安全,有害信息更少。

据了解,已经订阅了ChatGPT Plus的用户将直接获得GPT-4的访问权限;开发者访问GPT-4 API需要加入OpenAI的候补名单。

功能实现多方面提升

OpenAI在当天的声明中称,GPT-4的诞生,是OpenAI在放大深度学习方面努力的最新里程碑。尽管GPT-4在许多真实世界场景中的能力依然不如人类,但在许多专业和学术标准领域,已经达到了人类的水准。

OpenAI称,GPT-4与上一代GPT-3.5相比,在日常的对话中所体现出的差别并不大,但是在各项标准化考试中,GPT-4的表现明显优于上一代,它的得分高于88%的应试者。例如,GPT-4在模拟律师考试的成绩在考生中排名前10%左右,相比之下,GPT-3.5 的得分在倒数 10% 左右;在美国高校入学考试(SAT)阅读考试中排名前7%左右,数学考试中排名前11%左右。

据官方介绍,GPT-4是一个多模态大型语言模型,即支持图像和文本输入,以文本形式输出;扩写能力增强,能处理超过25000个单词的文本;更具创造力,并且能够处理更细微的指令。

具体来看,GPT-4的创造性和协作性表现为它可以与用户一起生成、编辑和迭代创意和技术写作任务,例如创作歌曲、编写剧本或学习用户的写作风格。

其次,GPT-4能处理长达25000字的文本,允许使用长格式内容创建、扩展对话以及文档搜索和分析等。例如,大部分时候,用户只需要丢给它一个链接,后者就可以总结出其中的内容,而GPT-3.5 只能分析一小段。

据科创板日报消息,有网友测试GPT-4能力时发现,其不仅可以有条理地分析柱状图并回答图形背后的统计学意义,而且即便用户只是在餐巾纸上画了个简单界面,GPT-4就能直接搞出一个可运行的网站。

此外,GPT-4还可以接受文字和图像输入,输出文字。

OpenAI演示了向GPT-4输入一张鸡蛋、面粉的图片,提出“用图片中的东西可以做出什么?”的问题,GPT-4的回复是:“用这些食材,可以做出许多不同的食物”,并列举出煎蛋卷、煎饼、华夫饼等一系列结果。这意味着GPT-4融合了图片识别的能力,并且通过对所识别图片的理解,结合了自身的逻辑能力,给出合理的解答。

仍会提供错误答案

OpenAI高管们表示,GPT-4跨文本和图像的“多模式”使其在“高级推理能力”方面远超过ChatGPT,但由于担心功能被滥用,公司推迟发布GPT-4的图像描述功能,GPT-4支持的ChatGPT Plus服务订阅用户也只能用文本功能。

OpenAI政策研究员桑迪尼·阿加瓦尔(Sandhini Agarwal)称,公司之所以还没发布这一功能,是为了更好地了解潜在风险;OpenAI发言人尼科·费利克斯(Niko Felix)则表示,OpenAI正计划“实施保障措施,防止图像中的个人信息被识别”。

人工智能语言模型经常会提供错误答案,而且这些模型在使用网络上的信息和图像接受训练时,也学会了模仿人类偏见。OpenAI方面承认,GPT-4仍会有“产生幻觉”、出现无稽之谈、延续社会偏见,以及提供糟糕建议等惯常错误。

OpenAI研究人员在一份技术报告中写道,“随着GPT-4和类似的人工智能系统被广泛采纳”,它们“会强化固有见解”。

OpenAI前研究员、开源人工智能公司Hugging Face政策总监艾琳·索莱曼(Irene Solaiman)认为,这种技术进展的速度需要全社会对潜在问题及时做出反应。

“作为社会一员,我们已经可以在一些不应该由模型造成的危害方面达成广泛共识,但许多伤害是微妙的,主要影响的是少数群体。”她补充说,那些有害的偏见“不能成为人工智能性能的次要考虑因素。”

“科学家正尝试运用一些技术手段避免这些具有潜在风险的事件发生。”G20青年企业家联盟中国理事会青年委员杜雨在接受媒体采访时表示,通过改善数据集,增加更多的限制性条件以及对模型进行微调,可以使得人工智能减少对于有害内容的学习,从而降低人工智能本身的危险性。甚至我们可以“教会”人工智能如何更尊重他人,减少判断当中的偏见,更好地和人类相处。借鉴强化学习思想(RLHF)方法就是减少人工智能生成危害性内容的典型措施,ChatGPT就是采用这种方式训练的。

数据学习对中国企业是巨大挑战

GPT-4新模型将提供给ChatGPT的付费用户,也将作为API的一部分提供,允许程序员将AI集成到他们的应用程序中。OpenAI将对750字左右的指令信息收费3美分,对750字左右的响应信息收费6美分。

OpenAI介绍称,摩根士丹利正在使用GPT-4来组织数据,电子支付公司Stripe正在测试GPT-4是否有助于打击欺诈。OpenAI合作伙伴微软方面表示,必应的AI聊天机器人使用GPT-4模型。

网易科技报道称,按照 OpenAI 工程师们的说法,GPT-4的训练在去年8月就已经完成,剩下的时间都在进行微调提升,以及最重要的是去除危险内容生成的工作。这意味着,OpenAI 内部技术比大家想象中要领先外界更多年。更可怕的是,OpenAI还一口气开放了API接口和相关论文,这让中国的ChatGPT们还怎么追?

北京衔远科技创始人周伯文在跟经纬创投的相关对话中提出,一方面我们需要有自己的大模型,但另一方面可能要先从垂直领域开始。“我的观点是,先通过垂直领域的模型,去学会大模型是怎样工作的,在场景上怎么跟大模型互动,获取更多数据,形成垂直领域的数据飞轮,再去看商业模式该如何展开;等到把垂直领域做好之后,才是去思考大模型该怎么做的时候。”

英诺天使基金合伙人王晟曾在接受上述媒体采访时坦言,我一直对外面讲,只学中文的中文大模型是不懂中文的,GPT-3里只有极少数数据是中国数据,但她说中文已经说得非常好了。这说明人类语言本身就是一个符号系统,虽然表面上语言不一样,但内部蕴含的知识与知识之间的关系是一样的,语言大模型一定是对全世界人类的知识、各个语言的知识进行学习和收集最终产生的效果。这意味着,如果想做出很牛的中文大模型,也必须全球性地学习知识、学习数据,这对中国企业是一个巨大的挑战。

周伯文还表示,我坚信中国最终肯定会有自己的通用大模型,只是这个道路不一定是要完全模仿OpenAI。OpenAI之前有很长一段时间都是非常艰难的,无论是技术层面的障碍与瓶颈,还是算力、数据上的窘境。同时,大公司则受到更多来自责任方面的压力,以及类似对自家搜索业务的影响等因素,举棋不定是可以理解的,这并不是件容易的事情。

关键词: