纵观资讯 纵观资讯

当前位置: 首页 » 实时追踪 »

OpenAI推出GPT-4o图像生成功能,记者实测:效果震撼,中文理解能力待提升

转自:扬子晚报

北京时间3月26日凌晨,美国开放人工智能研究中心(OpenAI)宣布正式推出GPT-4o图像生成功能。记者通过亲身体验,深度感受了这一功能的震撼效果。

OpenAI官方推文

据 OpenAI 介绍,GPT-4o 图像生成功能具备四大核心优势:精准文本渲染、严格指令遵循、深度知识调用及创意拓展能力。为验证其实际表现,记者进行了多组实测。在测试“生成一张带有‘扬子晚报/紫牛新闻’字样的照片”时,GPT-4o精准还原了英文部分内容,但对于中文字符的识别能力有待提升。整个过程耗时约 30 秒,生成速度远超预期。

记者实测文本渲染能力

在另一项测试中,记者尝试通过多轮对话优化图像。首先要求生成“一只老虎,戴着黑色墨镜”,GPT-4o迅速呈现了细节丰富的画面。老虎的毛发纹理清晰可见,透过墨镜能看到老虎的眼睛细节。随后,记者进一步输入指令“给这个老虎戴上侦探帽,并生成游戏场景”,新生成的图像不仅完美实现了场景变化,还保持了主体特征的一致性,展现了强大的上下文连贯性。

记者实测多轮对话能力

针对复杂场景的处理能力,记者以“设计一个包含12个不同物体的4x3网格图,每个物体需准确呈现指定特征”进行测试。GPT-4o成功应对了这一挑战,从蓝色星星、红色三角形到彩虹闪电,细节精准度令人惊叹。但可能是对中文理解能力不足,生成图案中存在指令缺失的情况。

记者实测复杂场景处理能力

在实用性测试中,记者尝试生成专业场景图像。例如,要求“制作一份传统中式风格的餐厅菜单,包含毛血旺和酸菜鱼的菜品描述”。GPT-4o生成的菜单不仅文字排版优雅,插画风格与菜品完美契合,整体视觉效果令人满意。此外,生成科学示意图的能力同样出色。记者输入指令“绘制牛顿棱镜实验的示意图”,模型迅速输出了结构清晰的教学图像。

记者实测专业场景能力

通过记者实际测试,证实了OpenAI官方提出的目前模型存在的一些局限性。如当处理大尺寸图像时,模型偶有裁剪不当的情况。非拉丁语系文本的语义理解和渲染效果仍有提升空间,小尺寸或高细节文字的清晰度也存在一定损失。此外,对图像特定部分的编辑请求有时会意外影响其他元素。

尽管存在这些不足,GPT-4o 图像生成功能的革新性依然显著。其精准的文本渲染能力、对复杂指令的高遵循度,以及多轮对话中的一致性表现,为创意设计、教育教学、游戏开发等领域提供了强大工具。正如OpenAI首席执行官萨姆・奥尔特曼(Sam Altman)所言,这一功能的推出标志着 “创作自由的新高点”,用户将借此释放更多视觉创意潜能。

目前,GPT-4o图像生成功能已面向ChatGPT的所有Plus、Pro、Team及免费用户开放,企业版与教育版即将接入。开发者未来几周内可通过 API 调用该功能,进一步拓展其应用场景。

扬子晚报/紫牛新闻见习记者 马斌

校对 盛媛媛

未经允许不得转载: 纵观资讯 » OpenAI推出GPT-4o图像生成功能,记者实测:效果震撼,中文理解能力待提升