全球热消息：90%的人类败北！你能代表人类考赢ChatGPT-4吗？

3月15日，美国当地时间周二，人工智能研究公司OpenAI发布了新一代大型语言模型GPT-4，这是支持ChatGPT和新必应等应用程序的最新AI大型语言模型。

(相关资料图)

在功能上，GPT-4主要实现了几个方面的提升：更聪明，做题水平越来越好；支持图像输入，拥有强大的识图能力，但目前只限内部测试；更长的上下文，文字输入限制提升至2.5万字；回答准确性显著提高，更安全，有害信息更少。

据了解，已经订阅了ChatGPT Plus的用户将直接获得GPT-4的访问权限；开发者访问GPT-4 API需要加入OpenAI的候补名单。

功能实现多方面提升

OpenAI在当天的声明中称，GPT-4的诞生，是OpenAI在放大深度学习方面努力的最新里程碑。尽管GPT-4在许多真实世界场景中的能力依然不如人类，但在许多专业和学术标准领域，已经达到了人类的水准。

OpenAI称，GPT-4与上一代GPT-3.5相比，在日常的对话中所体现出的差别并不大，但是在各项标准化考试中，GPT-4的表现明显优于上一代，它的得分高于88%的应试者。例如，GPT-4在模拟律师考试的成绩在考生中排名前10%左右，相比之下，GPT-3.5 的得分在倒数 10% 左右；在美国高校入学考试（SAT）阅读考试中排名前7%左右，数学考试中排名前11%左右。

据官方介绍，GPT-4是一个多模态大型语言模型，即支持图像和文本输入，以文本形式输出；扩写能力增强，能处理超过25000个单词的文本；更具创造力，并且能够处理更细微的指令。

具体来看，GPT-4的创造性和协作性表现为它可以与用户一起生成、编辑和迭代创意和技术写作任务，例如创作歌曲、编写剧本或学习用户的写作风格。

其次，GPT-4能处理长达25000字的文本，允许使用长格式内容创建、扩展对话以及文档搜索和分析等。例如，大部分时候，用户只需要丢给它一个链接，后者就可以总结出其中的内容，而GPT-3.5 只能分析一小段。

据科创板日报消息，有网友测试GPT-4能力时发现，其不仅可以有条理地分析柱状图并回答图形背后的统计学意义，而且即便用户只是在餐巾纸上画了个简单界面，GPT-4就能直接搞出一个可运行的网站。

此外，GPT-4还可以接受文字和图像输入，输出文字。

OpenAI演示了向GPT-4输入一张鸡蛋、面粉的图片，提出“用图片中的东西可以做出什么？”的问题，GPT-4的回复是：“用这些食材，可以做出许多不同的食物”，并列举出煎蛋卷、煎饼、华夫饼等一系列结果。这意味着GPT-4融合了图片识别的能力，并且通过对所识别图片的理解，结合了自身的逻辑能力，给出合理的解答。

仍会提供错误答案

OpenAI高管们表示，GPT-4跨文本和图像的“多模式”使其在“高级推理能力”方面远超过ChatGPT，但由于担心功能被滥用，公司推迟发布GPT-4的图像描述功能，GPT-4支持的ChatGPT Plus服务订阅用户也只能用文本功能。

OpenAI政策研究员桑迪尼·阿加瓦尔（Sandhini Agarwal）称，公司之所以还没发布这一功能，是为了更好地了解潜在风险；OpenAI发言人尼科·费利克斯(Niko Felix)则表示，OpenAI正计划“实施保障措施，防止图像中的个人信息被识别”。

人工智能语言模型经常会提供错误答案，而且这些模型在使用网络上的信息和图像接受训练时，也学会了模仿人类偏见。OpenAI方面承认，GPT-4仍会有“产生幻觉”、出现无稽之谈、延续社会偏见，以及提供糟糕建议等惯常错误。

OpenAI研究人员在一份技术报告中写道，“随着GPT-4和类似的人工智能系统被广泛采纳”，它们“会强化固有见解”。

OpenAI前研究员、开源人工智能公司Hugging Face政策总监艾琳·索莱曼(Irene Solaiman)认为，这种技术进展的速度需要全社会对潜在问题及时做出反应。

“作为社会一员，我们已经可以在一些不应该由模型造成的危害方面达成广泛共识，但许多伤害是微妙的，主要影响的是少数群体。”她补充说，那些有害的偏见“不能成为人工智能性能的次要考虑因素。”

“科学家正尝试运用一些技术手段避免这些具有潜在风险的事件发生。”G20青年企业家联盟中国理事会青年委员杜雨在接受媒体采访时表示，通过改善数据集，增加更多的限制性条件以及对模型进行微调，可以使得人工智能减少对于有害内容的学习，从而降低人工智能本身的危险性。甚至我们可以“教会”人工智能如何更尊重他人，减少判断当中的偏见，更好地和人类相处。借鉴强化学习思想（RLHF）方法就是减少人工智能生成危害性内容的典型措施，ChatGPT就是采用这种方式训练的。

数据学习对中国企业是巨大挑战

GPT-4新模型将提供给ChatGPT的付费用户，也将作为API的一部分提供，允许程序员将AI集成到他们的应用程序中。OpenAI将对750字左右的指令信息收费3美分，对750字左右的响应信息收费6美分。

OpenAI介绍称，摩根士丹利正在使用GPT-4来组织数据，电子支付公司Stripe正在测试GPT-4是否有助于打击欺诈。OpenAI合作伙伴微软方面表示，必应的AI聊天机器人使用GPT-4模型。

网易科技报道称，按照 OpenAI 工程师们的说法，GPT-4的训练在去年8月就已经完成，剩下的时间都在进行微调提升，以及最重要的是去除危险内容生成的工作。这意味着，OpenAI 内部技术比大家想象中要领先外界更多年。更可怕的是，OpenAI还一口气开放了API接口和相关论文，这让中国的ChatGPT们还怎么追？

北京衔远科技创始人周伯文在跟经纬创投的相关对话中提出，一方面我们需要有自己的大模型，但另一方面可能要先从垂直领域开始。“我的观点是，先通过垂直领域的模型，去学会大模型是怎样工作的，在场景上怎么跟大模型互动，获取更多数据，形成垂直领域的数据飞轮，再去看商业模式该如何展开；等到把垂直领域做好之后，才是去思考大模型该怎么做的时候。”

英诺天使基金合伙人王晟曾在接受上述媒体采访时坦言，我一直对外面讲，只学中文的中文大模型是不懂中文的，GPT-3里只有极少数数据是中国数据，但她说中文已经说得非常好了。这说明人类语言本身就是一个符号系统，虽然表面上语言不一样，但内部蕴含的知识与知识之间的关系是一样的，语言大模型一定是对全世界人类的知识、各个语言的知识进行学习和收集最终产生的效果。这意味着，如果想做出很牛的中文大模型，也必须全球性地学习知识、学习数据，这对中国企业是一个巨大的挑战。

周伯文还表示，我坚信中国最终肯定会有自己的通用大模型，只是这个道路不一定是要完全模仿OpenAI。OpenAI之前有很长一段时间都是非常艰难的，无论是技术层面的障碍与瓶颈，还是算力、数据上的窘境。同时，大公司则受到更多来自责任方面的压力，以及类似对自家搜索业务的影响等因素，举棋不定是可以理解的，这并不是件容易的事情。

关键词：

全球热消息：90%的人类败北！你能代表人类考赢ChatGPT-4吗？

相关推荐

热点图集