蚂蚁集团：让AI助手变得更"听话"的神奇配方——动态目标边距让机器人学会分辨好坏建议

在我们日常使用ChatGPT、文心一言等AI助手时，你是否想过一个问题：这些机器人是如何学会给出"好"回答而避免"坏"回答的？就像教育孩子一样，我们需要告诉AI什么是对的，什么是错的。然而，现实中的"对错"往往并不是非黑即白的，有时候答案的好坏就像在灰色地带中摸索。最近，来自蚂蚁集团、上海数据科学重点实验室和新加坡国立大学的研究团队，发表了一项突破性研究，为这个难题提供了一个巧妙的解决方案。

这项研究由蚂蚁集团的孙洁、伍俊康等研究人员领导，于2025年6月发表。有兴趣深入了解的读者可以通过GitHub仓库（https://github.com/sunjie279/gammaPO）获取完整的研究代码和详细资料。研究团队面临的核心挑战就像训练一位厨师：当食客给出的评价模糊不清时，厨师该如何改进自己的手艺？