人类读者会将这些格式解释为

都在说同一件事,而模型仍然会得到完全相同的例子来帮助它理解它应该做什么。唯一不同的是间距、大写字母和标点符号。然而,这些任意的格式选择会极大地影响其输出的准确性,从左上角框中删除空格时的准确率到右下角框中段落和答案在同一行且没有冒号时的准确率不等。这里的要点是测试提示的变化,即使只是改变你认为不会产生影响的小事情。法学硕士可能具有预测性,但它们的行为通常远非可预测。每法学硕士都是独一无二的该论文的另一重要结论是:您将无法找到提示的最佳格式,也无法简单地将其永远用于您想要的任何模型。

摘自附录B:“表显示如果在

模型下格式的性能低于格式,则在另一模型′下这种趋势成立的概率小于随机概率为。这种较弱的相对顺序保持表明,一模型中的即时 德国电话号码格式 格式性能可能无法推广到其他模型,换句话说,没有本质上好或坏的格式。”重点是我的格式没有好坏之分,这一发现的必然结果是,每模型的行为方式都不同。就像所有人类都不同一样,人工智能也不是一总是以相同方式行事的单一整体实体。每模型都有自己的怪癖,会以不同的方式响应提示。当一种新的先进模型发布时,它可能会比其前代模型“更好”,因为它将更有能力产生有用的响应。

然而它也将与你之前使用的

任何模型完全不同,所以你不能继续使用相同的提示并期望获得相同或更好的结果。每当有新模型出现,或者您因任何原因更换模 全部 100 型时,您都需要在该模型上测试您的提示。例如,如果你想在去年月与aAan的nA戏剧中切换到An的模型,你很快就会发现,你在G中使用的提示与aud的工作方式不同。一立即显而易见的区别是,当被要求为如何与大脚怪交朋友的讽刺文章写提纲时,aud更有可能在回答前说一些友好的废话,比如“当然!这是你要求的xyz”,或者说“我很抱歉,经过深思熟虑,我觉得不太愿意提供与大脚怪交朋友或互动的建议,因为这可能会鼓励有害行为。

Similar Posts

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *