反复尝试表现最佳的提示变

然后,我体,看看能否进一步改善结果,并重复同样的过程。一遍又一遍。一遍又一遍,一遍又一遍。结果最后,我测试了种不同的提示、模型和温度。其中一些的结果如下表所示。电子表格显示了测试不同提示变化的结果n=第一提示:随着我进一步迭代,您可以看到结果越来越好绿色更多,红色更少。这就是测试如此重要的原因。您可以在多维度上做出真正的改进,这意味着当您在多案例上运行这些提示时可以节省大量时间。B列到列都是关于新大纲比我们之前生成的大纲短多少。

列显示每提示或在某些情况下

是提示链运行的时间,这大约是我们的客户在应用中需要等待的时间。G列显示有多少新大纲包含不应该包含的部分,例如“案例研究”。一致性很重要在多输入我的情况是上测试提示非常重要的主要原因是每次输入都会有不同 台湾电话号 的表现。当我们查看新大纲比旧大纲短多少时,这一点对我们来说非常重要。中位数减少B列是不言自明的,但如果我们只看这指标,我们就不会了解到提示变化在输入中的一致性。查看最小减少量列也很重要,因为这显示了最坏的情况:每提示变化实际上都导致至少一篇测试文章的大纲比原来的大纲更长。

对于提示最坏的情况意味着得到

的大纲比我们最初使用当前提示得到的大纲长两倍多。另一方面,对于提示,最坏的情况明显更好,新大纲仅比原始大纲长。最大减少量D列没有用颜色编码,因为我的目标不是特定的百分比减少量,不过号提示的减少量可能 全部 100 太高了。对于了解提示行为的一致性,更重要的是最小减少量和最大减少量之间的差距:列。该数字越低,该提示的输出就越一致,这正是我们想要的。在运行时两主要因素影响了运行时间F列:正在使用的法学硕士提示的数量,即是单提示还是提示链提示的长度也会影响运行时间,但其影响程度远小于这两因素。

 

Similar Posts

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *