发布日期:2025-03-07 05:07 点击次数:116
2 月 16 号ayx爱游戏第一品牌,马斯克在 X 上发布了一条自家 Grok 3 模子的发布预报。
并配文"地球上最机灵的 AI "要来了。
北京技术 2025 年 2 月 18 日中午,马斯克如约指导着 xAI 的工程师和揣度团队开启了 Grok 3 的首发直播。
此次发布会主要分为三个部分,先容了 Grok 3 在检会上比 Grok 2 多参加了 10 倍的野心资源,解锁了更坚定的野心才智,展示了基于 Grok 3 的 AI Agent,展现了 xAI 团队在自主智能体畛域的最新进展。
各项才智一骑绝尘
"咱们相当闲适简略推出 Grok3,咱们以为,在很短的技术内,它的功能比 Grok2 坚定一个数目级。这要归功于一支弗成念念议的团队的辛劳使命,我很红运能与这么一支优秀的团队互助。"马斯克在发布会上说说念。
马斯克还显现,Grok 3 由 Colossus 超等野神思检会完成,这台野神思是在短短八个月内建成的,搭载了 10 万颗英伟达 H100 GPU,提供了朝上 2 亿 GPU 小时的野心资源——是 Grok 2 的 10 倍。
据 xAI 团队先容,xAI 最启动搭建这个 10 万 GPU 集群用了 122 天,后续拓展到 20 万 GPU 集群仅用了 92 天。权贵的算力升迁让 Grok 3 简略更高效地处理深广数据集,裁减检会技术。立时他们便晒出了一组和 ChatGPT 的数据对比图,并暗示天然 Grok 起步较晚,但在 MMLU 得分上以超快地速率追上了 ChatGPT。
而况 Grok3 在 LMSYS(大模子竞技场)中的名次亦然一骑绝尘。
其中 Grok-3 和 Grok-3 mini 在多方面性能上齐朝上或忘形 Gemini、DeepSeek 和 ChatGPT 等敌手。
发布会列出的数据炫耀,Grok-3 和 Grok-3 mini 在数学、科学和编程的基准测试中,瓦解卓越了所有主流模子,包括 GPT-4、Claude 3.5 Sonnet、DeepSeek-V3 和 Gemini-2 Pro 等。
而 Grok-3 Reasoning Beta 和 Grok-3 mini Reasoning 这两个版块,则凭借坚定的推理才智,卓越了像 DeepSeek-R1 和 OpenAI o3 mini 等推理模子。
此外,xAI 团队还现场演示了一个任务,条件 Grok-3 在现场生成一段对于天际辐照的 3D 动画代码。在大致两分钟的念念考后,Grok 3 生成了可径直运行的 Python 代码,得胜展示了不错运行的 3D 动画。
除此以外团队还条件 Gork-3 制作一款类似于俄罗斯方块和对持迷阵的游戏。在 Grok-3 念念考了数分钟后,给出了谜底。
终末,xAI 团队演示了一个全新的产物,基于 Grok 3 的搜索引擎 —— DeepSearch 。
它不仅简略搜索网页并查找现存府上,还能"推测用户的真实意图"并进行念念考。通过交叉对比多个信息源,它简略确保"复返最准确的谜底"。
Grok 3 搅拌 AI 大模子风景
直播律例后,不少网友纷繁发声。
AI 大牛卡帕西转头了一下我方的"先行版"使用体验:
领先 Grok 3 的"念念考"功能相当先进,简略出色地处分复杂问题,如创建《卡坦岛》格调的棋盘游戏网页。比较之下,其他顶级模子(如 DeepSeek-R1、Gemini 2.0 Flash Thinking、Claude)未能处分一样问题。除此以外,Grok 3 也能尝试处分如黎曼假定等繁重。
其次 Grok 3 还具备类似"深度揣度"的搜索功能,简略提供高质地的揣度问题谜底。举例,它简略回复 Apple 新品发布、Palantir 股价上升等问题。但在某些情况下,它会非常地产生幻觉(如非常的 URL 或不准确的事实)。
终末在测试一些粗略的"陷坑"问题时,Grok 3 瓦解精采,简略正确回复一些逻辑谜题。但在幽默和说念德问题方面,它仍然存在一些问题,如生成肖似见笑和对复杂伦理问题过于明锐等。
但总的来说 Grok 3 合座瓦解接近 OpenAI 的 o1-pro 模子,并略优于 DeepSeek-R1 和 Gemini 2.0 Flash Thinking。
Imarena.ai 官方更是在过程测试后发文称:
Grok-3 是首个冲突 1400 分的模子,在所有类别中名依次一,这是一个越来越难以完毕的里程碑。
更有网友直呼:Grok 3 可能是试验寰宇中在物理层面处理得最佳的基础大言语模子了!天然也有网友在测试之后,以为 Grok 3 在编程方面并不是很擅长。
值得一提的是,Grok 3 第一批获取走访权限的东说念主将领先从 X 上的 Premium+ 订阅者启动,而平凡用户何时能用上,他们也并不默契。
但基于网友们对 Grok 3 驳斥不一的评价,雷峰网不禁推测,这被 "钞才智" 大力渲染砸出来的的 " no.1 " 在权限全面放开之后会不会口碑南北极回转,亦或是依旧好评如潮,稳坐 AI 大模子王座?
技术还早,让枪弹再飞一会。
参考采集:https://x.com/i/broadcasts/1gqGvjeBljOGB?t=SX_aTsBoXc07lfSR_Aw8AQ&s=09ayx爱游戏第一品牌
IT 之家 11 月 26 日音讯,月之暗面于 11 月 16 日发布了新一代数学推理模子 k0-math,官方当天晓喻基于该模子的 Kimi 数学版上线。 在 Kimi 网页版中,选拔侧边栏的"眼镜"图标,即可使用基于 k0-math 模子的 Kimi 数学版,官方称后续会推脱手机版。 官方暗示,数学公式保举使用 LaTeX 活动,不错截图或拍照给 Kimi 惯例版,让 Kimi 把图片转为 LaTeX 活动,然后复制题目给 Kimi 数学版即可。 IT 之家获悉,在中考、高考、捕快以及包含...
IT 之家 11 月 26 日音讯,月之暗面于 11 月 16 日发布了新一代数学推理模子 k0-math,官方当天晓喻基于该模子的 Kimi 数学版上线。 在 Kimi 网页版中,选拔侧边栏的"眼镜...
2024 年 11 月 26 日,华为在深圳举办了名为"华为 Mate 品牌盛典"的新品发布会,施展发布了 Mate 70、Mate 70 Pro、Mate 70 Pro+、Mate 70 RS 非小...
【CNMO 科技音问】据央广网报说念ayx爱游戏官方网站,近日,浩荡车主反馈在购买车险时,被一些企业以"东说念主保"、"祥瑞"等正规保障公司的款式倾销所谓的"统筹险",导致事故后无法赔付,企业失联,车...
戒之馆山茶花润唇膏-蔼然忻悦呵护唇部肌肤 戒之馆山茶花润唇膏,是一款专为油性肌肤而配制的唇部顾问居品。它接受蔼然的配方,粗略有用地呵护唇部肌肤,为您带来忻悦滋补的使用体验。不管是清冷的冬季如故干燥的夏...