正确答案是:A、B、C。
专业分析如下:
A: 在指令中添加防御性语句,明确期望的行为。
这种方法可以有效地引导模型理解用户的意图,减少误解,从而提高模型对 adversarial prompting 攻击的抵抗力。
B: 参数化提示组件,将指令和输入分开处理。
这种方法通过将指令和输入分开处理,可以更好地管理和控制模型的行为,减少恶意提示的影响。
C: 使用引用和附加格式化选项,如 JSON 编码和 Markdown 标题,以增加鲁棒性。
这种方法利用格式化选项来增加输入的结构性和可读性,从而提高模型的鲁棒性,减少对 adversarial prompting 攻击的敏感性。
D: 使用 fine-tuned 模型或 k-shot prompt,避免使用 instruction-based models。
虽然 fine-tuned 模型和 k-shot prompt 可以在某些情况下提高模型的性能,但它们并不是专门针对 adversarial prompting 攻击的防御措施。因此,这一选项不完全正确。
综上所述,A、B、C 是关于防御 adversarial prompting 攻击的正确方法。