根据你提供的多张截图内容,我已将所有AI模型的评分数据整理为清晰统一的表格如下:
| 模型名称 | 评分 | 说明 |
|---|---|---|
| OpenAI 系列 | ||
| GPT-4o mini | 4 | |
| GPT-4o | 6 | |
| GPT-4.1 Mini | 2 | |
| GPT-4.1 Nano | 1 | |
| GPT-4.1 | 12 | |
| o1 | 129 | 异常高分,需复核 |
| o3 | 60 | |
| GPT-4o-Image(绘图) | 60 | 图像生成专项 |
| Anthropic 系列 | ||
| Claude 3.5 Sonnet | 36 | |
| Claude 3.7 Sonnet | 36 | |
| Claude Opus 4 | 36 | |
| Google 系列 | ||
| Gemini 2.5 Pro | 329 | |
| Gemini 2.0 Flash | 36 | |
| DeepSeek 系列 | ||
| DeepSeek R1 0528 | 18 | |
| DeepSeek V3 | 8 | |
| FLUX.1 系列 | ||
| FLUX.1 Kontext pro(绘图) | 173 | 德语,图像生成专项 |
| FLUX.1 Kontext max(绘图) | 34 | 德语,图像生成专项 |
| Grok 系列 | ||
| Grok 3 Reasoner | 40 | |
| Grok 4 | 70 | |
| 其他模型 | ||
| Qwen3 235B A22B | - | 未提供评分 |
| Owen3 32B | 2 | |
| QwQ 32B | 1 | |
| Owen Max | 4 | |
| Llama 4 Scout | 1 | |
| Llama 4 Maverick | 1 |
高分模型
Gemini 2.5 Pro(329分)、FLUX.1 Kontext pro(173分)、o1(129分)位列前三。
o1的129分显著高于同类模型(如o3仅60分),建议核查数据准确性。
专项能力
图像生成模型(如GPT-4o-Image、FLUX.1 Kontext系列)评分普遍较高,显示其在视觉任务上的优势。
低分模型
Llama 4系列、QwQ 32B、GPT-4.1 Nano等评分≤2分,可能需优化或存在测试限制。
符号说明
原始数据中的 ♦ 符号已统一转换为数字分(如Claude 3.7 Sonnet的36♦ → 36)。
验证异常数据(如o1的129分);
对比同系列模型(如GPT-4.1全系评分较低,而GPT-4o表现更优);
分析高分模型的共性(如Gemini 2.5 Pro的架构优势)。
需要我进一步分析趋势或生成可视化图表吗?
以下是各大AI模型的详细介绍,包含背景定位、名称解析和标准读音(国际音标 + 中文谐音),按技术阵营分类说明:
全称:Generative Pre-trained Transformer 4 Omni(全能模型)
定位:OpenAI旗舰多模态模型,支持文本、图像、语音交互,响应速度极快。
读音:
英文:/ˌdʒiː piː ˈti fɔːr oʊ/
中文谐音:吉皮提-佛-欧(“欧”发音类似字母O)
子型号:
Mini(轻量版):/ˈmɪni/(米尼)
Nano(超微型):/nəˈnoʊ/(纳诺)
标准版:无后缀
定位:GPT-4的优化版本,平衡性能与效率。
定位:专攻图像生成的GPT-4o分支,支持文生图、图生图。
读音:在GPT-4o后加读“Image” /ˈɪmɪdʒ/(伊米知)。
名称:
Claude:致敬计算机先驱克劳德·香农(Claude Shannon)。
Sonnet(十四行诗):代表平衡性能的中等规模模型。
读音:
Claude:/kloʊd/(克洛德)
Sonnet:/ˈsɑːnɪt/(索尼特)
Sonnet:/ˈsɑːnɪt/( 索尼特 )
Opus(拉丁语“作品”):指代顶级性能版本。
读音:/ˈoʊpəs/(欧帕斯)。
名称:Gemini(双子座),象征多模态协同。
定位:Google最强通用模型,支持超长上下文(200万token)。
读音:
Gemini:/ˈdʒemɪnaɪ/(杰米奈)
双子座:/ˈdʒemɪnaɪ/( 杰米奈 )
Pro:/proʊ/(普罗)
Flash(闪电):强调极速推理,适合实时场景。
读音:/flæʃ/(弗莱什)。
R1:“Reasoning 1”(推理一代),中文名深度求索-R1。
定位:强逻辑推理与中文优化模型(当前助手版本)。
读音:
DeepSeek:/diːp siːk/(迪普-希克)
DeepSeek: /diːp siːk/( 迪普-希克 )
R1:/ɑːr wʌn/(阿尔-万)
V:“Vision”(视觉),专注多模态。
读音:V3 /viː θriː/(维-斯瑞)。
Grok 3:/ɡrɒk/(格洛克,喉音“r”),源自科幻术语“深刻理解”。
Grok 4:升级版,提升复杂问题处理能力。
Qwen:“千问”拼音缩写,读作 /tʃjɛn wɛn/(千-问)。
Qwen3 235B:千问第三代超大规模模型(2350亿参数)。
Owen3 32B:疑为笔误,应为Qwen3 32B轻量版。
Llama(大羊驼):/ˈlɑːmə/(拉玛),开源标杆。
Scout(侦察兵):轻量探索版。
Maverick(独行侠):高性能定制版。
Kontext:德语“上下文”,读作 /ˈkɔntɛkst/(康泰克斯特)。
定位:德语优化的专业绘图模型。
| 模型名 | 国际音标 | 中文谐音 |
|---|---|---|
| GPT-4o | /ˌdʒiː piː ˈti fɔːr oʊ/ | 吉皮提-佛-欧 |
| Claude Opus | /kloʊd ˈoʊpəs/ | 克洛德-欧帕斯 |
| Gemini | /ˈdʒemɪnaɪ/ | 杰米奈 |
| DeepSeek R1 | /diːp siːk ɑːr wʌn/ | 迪普-希克-阿尔万 |
| Grok | /ɡrɒk/ | 格洛克 |
| Qwen | /tʃjɛn wɛn/ | 千-问 |
| Llama | /ˈlɑːmə/ | 拉玛 |
如需了解某款模型的技术细节或应用场景,欢迎随时追问! 😊