Hintergrund | heise: Studie: Große KI-Modelle greifen unter "Stress" auf Erpressung zurück

sascha@fedinaut.de · 7 months ago

Hintergrund | heise: Studie: Große KI-Modelle greifen unter "Stress" auf Erpressung zurück

cronenthal · 7 months ago

Es ist wichtig zu verstehen, dass diese LLMs nur einen Haufen statistisch wahrscheinlicher Tokens ausgeben. Die menschlichen Nutzer interpretieren einen Sinn in diesem Output. Jedwede Diskussion um die “Intentionen” solcher Modelle ist komplett verfehlt und irreführend.

tbones@social.tchncs.de · 7 months ago

@cronenthal Wenn das LLM nun in einer Vielzahl von Fällen während des Trainings gesehen hat, das diese Art der Rückfrage erfolgreich ist, wird es diese Rückfragen an Nutzer mit einem statistisch höheren Gewicht versehen und dementsprechend öfter auswählen (meine Laieninterpretation).

cronenthal · edit-2 7 months ago

Nicht ganz. Das LLM versucht gar nicht, “erfolgreich” zu sein, es hat einfach keine Intention. In den Daten sind mit den Inputs einfach entsprechende Outputs näher verknüpft. Wer also “Stress” prompted wird dann “Täuschung” als Antwort erhalten. Das LLM versucht aber nichts zu erreichen, das ist einfach Unsinn.

Hintergrund | heise: Studie: Große KI-Modelle greifen unter "Stress" auf Erpressung zurück

Hintergrund | heise: Studie: Große KI-Modelle greifen unter "Stress" auf Erpressung zurück

Hintergrund | heise: Studie: Große KI-Modelle greifen unter “Stress” auf Erpressung zurück