OpenAI推出GPT-4o图像生成功能，记者实测：效果震撼，中文理解能力待提升_实时追踪

转自：扬子晚报

北京时间3月26日凌晨，美国开放人工智能研究中心（OpenAI）宣布正式推出GPT-4o图像生成功能。记者通过亲身体验，深度感受了这一功能的震撼效果。

OpenAI官方推文

据 OpenAI 介绍，GPT-4o 图像生成功能具备四大核心优势：精准文本渲染、严格指令遵循、深度知识调用及创意拓展能力。为验证其实际表现，记者进行了多组实测。在测试“生成一张带有‘扬子晚报/紫牛新闻’字样的照片”时，GPT-4o精准还原了英文部分内容，但对于中文字符的识别能力有待提升。整个过程耗时约 30 秒，生成速度远超预期。

记者实测文本渲染能力

在另一项测试中，记者尝试通过多轮对话优化图像。首先要求生成“一只老虎，戴着黑色墨镜”，GPT-4o迅速呈现了细节丰富的画面。老虎的毛发纹理清晰可见，透过墨镜能看到老虎的眼睛细节。随后，记者进一步输入指令“给这个老虎戴上侦探帽，并生成游戏场景”，新生成的图像不仅完美实现了场景变化，还保持了主体特征的一致性，展现了强大的上下文连贯性。

记者实测多轮对话能力

针对复杂场景的处理能力，记者以“设计一个包含12个不同物体的4x3网格图，每个物体需准确呈现指定特征”进行测试。GPT-4o成功应对了这一挑战，从蓝色星星、红色三角形到彩虹闪电，细节精准度令人惊叹。但可能是对中文理解能力不足，生成图案中存在指令缺失的情况。

记者实测复杂场景处理能力

在实用性测试中，记者尝试生成专业场景图像。例如，要求“制作一份传统中式风格的餐厅菜单，包含毛血旺和酸菜鱼的菜品描述”。GPT-4o生成的菜单不仅文字排版优雅，插画风格与菜品完美契合，整体视觉效果令人满意。此外，生成科学示意图的能力同样出色。记者输入指令“绘制牛顿棱镜实验的示意图”，模型迅速输出了结构清晰的教学图像。

记者实测专业场景能力

通过记者实际测试，证实了OpenAI官方提出的目前模型存在的一些局限性。如当处理大尺寸图像时，模型偶有裁剪不当的情况。非拉丁语系文本的语义理解和渲染效果仍有提升空间，小尺寸或高细节文字的清晰度也存在一定损失。此外，对图像特定部分的编辑请求有时会意外影响其他元素。

尽管存在这些不足，GPT-4o 图像生成功能的革新性依然显著。其精准的文本渲染能力、对复杂指令的高遵循度，以及多轮对话中的一致性表现，为创意设计、教育教学、游戏开发等领域提供了强大工具。正如OpenAI首席执行官萨姆・奥尔特曼（Sam Altman）所言，这一功能的推出标志着 “创作自由的新高点”，用户将借此释放更多视觉创意潜能。

目前，GPT-4o图像生成功能已面向ChatGPT的所有Plus、Pro、Team及免费用户开放，企业版与教育版即将接入。开发者未来几周内可通过 API 调用该功能，进一步拓展其应用场景。

扬子晚报/紫牛新闻见习记者马斌

校对盛媛媛

纵观资讯

OpenAI推出GPT-4o图像生成功能，记者实测：效果震撼，中文理解能力待提升

热门标签

热门排行

最新更新

友情链接