Beschreibung

[2305.18290] Direct Preference Optimization: Your Language Model is Secretly a Reward Model

Links und Ressourcen

Tags

Community

  • @jonas.kaiser
  • @dblp
@jonas.kaisers Tags hervorgehoben