Beliebiger Eintrag,

Direct Preference Optimization: Your Language Model is Secretly a Reward Model

R. Rafailov, A. Sharma, E. Mitchell, S. Ermon, C. Manning, und C. Finn.
(2023)

Metadaten

BibTeX-Schlüssel: rafailov2023direct
Eintragstyp: misc
Jahr: 2023
eprint: 2305.18290
archiveprefix: arXiv
primaryclass: cs.LG

Tags

Nutzer

Kommentare und Rezensionenanzeigen / verbergen

Bitte melden Sie sich an um selbst Rezensionen oder Kommentare zu erstellen.

Zitieren Sie diese Publikation

Suchen auf