扬帆创投微信小程序
更聚焦的出海投融资平台
精准高效领先的融资对接服务
微信扫一扫进入小程序

全球著名开源大模型平台DeepSeek开源了R1的最新版本0528,但目前未对该版本进行说明。

摘要

在Live CodeBench平台测试中,新版R1的性能可媲美OpenAI的o3模型高版本,且风格与o3相似。

新版本的DeepSeek R1在编程方面表现出色,能够构建整洁的代码和可运行的测试用例,甚至优于其他模型。

新版R1能够像o3一样纠正自己的思维链(CoT),并能创造性地构建世界观,这是之前版本做不到的。

有观点认为DeepSeek可能原本计划将新版R1作为R2发布,但鉴于产品性能已领先,可能决定以新的R1版本发布,引发了对R2发布时间的猜测。

今天凌晨,全球著名开源大模型平台DeepSeek开源了R1最新0528版本

DeepSeek目前没有对该版本进行任何说明,又只是“悄悄”地开放了模型。估计很快会放出模型卡介绍更多功能。

图片

开源地址:https://huggingface.co/deepseek-ai/DeepSeek-R1-0528/tree/main

但已经有网友迫不及待的对新版R1进行测试,在著名代码测试平台Live CodeBench中显示,其性能可以媲美OpenAI最新的o3模型高版本。

图片

也有网友对新版R1的风格进行了测试,几乎和OpenAIo3差不多。

R1-05-28具有 o3-2.5 专业风格的响应。箭头/星号的使用与 o3 风格非常一致,结尾处 “why it works”的表述更具说服力。

尽管 OpenAI付出了努力,但DeepSeek依然出色地完成了这一点。如果这就是 o3 水平,那么 R2 将会有多智能呢?

图片

Hyperbolic Labs联合创始人兼首席执行官表示,新版R1仍然是唯一能回答9.99.11哪个最大的模型。

图片

 

知名AI评论、分享人Haider表示,大师兄DeepSeek又回来了~

新版本的 DeepSeek R1 在编程方面简直令人难以置信。

我进行了一项编程挑战,要求模型构建一个单词评分系统。模型短暂推理后,给了我两个文件:整洁的代码和可运行的测试用例。两者第一次运行就完美通过。

此前只有 o3 模型能做到这一点,但现在没有其他模型能做到了。这是我在这项任务中测试过的最佳模型。

图片

我一直在测试它,它非常智能,但现在似乎思考时间更长了。

图片

如果这能被其他基准测试证实,我可以想象原本DeekSeek是想把新版R1作为R2发布的,但鉴于最近发布的产品已经远远领先,若再用 R2 这个标签可能会让人失望。

因此,他们可能决定将其作为新的 R1 版本发布。那么唯一的问题就是,我们还要等多久才能看到真正的 R2 呢。

图片

新的 DeepSeek R1实际上相当不错。它现在能够像 o3一样纠正自己的思维链(CoT),并能像Claude一样创造性地构建世界观。这在之前的R1版本中是做不到的。

图片

看到新版R1的编程能力这么好,我很震惊。用同样的提示测试了最新的Opus 4,结果 Opus 4 只是稍好一点。这太可怕了……

图片

原文链接:点击前往 >

文章作者:AIGC开放社区

版权申明:文章来源于AIGC开放社区。该文观点仅代表作者本人,扬帆出海平台仅提供信息存储空间服务,不代表扬帆出海官方立场。因本文所引起的纠纷和损失扬帆出海均不承担侵权行为的连带责任,如若转载请联系原文作者。 更多资讯关注扬帆出海官网:https://www.yfchuhai.com/

{{likeNum}}

好文章,需要你的鼓励

请前往扬帆出海小程序完成个人认证
认证通过后即可申请入驻
扫码添加小助手
微信扫描二维码,添加小助手
微信号:yfch24
扫码添加小助手
微信扫描二维码,添加小助手
微信号:yfch24
APP
小程序
微信公众号
微信小程序
扬帆出海APP
扬帆出海APP
微信
公众号
微信公众号
关注扬帆出海
专注服务互联网出海!
出海人
社群
微信公众号
扫码进群
与10万+出海人同行!