ChatGPT im Stack Overflow-Test: Viele Fehler, aber sympathischer

Chatbots im Praxis-Einsatz. Wie gut sind die Antworten von ChatGPT verglichen mit Coding-Plattform Stack Overflow? Eine Studie der Purdue University kommt zu teils unerwarteten Ergebnissen.

Der generative KI-Chatbot ChatGPT von OpenAI ist laut Forschenden der Purdue University nur bedingt als Antwortgeber für Programmierfragen geeignet. Bei der Erstellung von Code-Fragmenten für Software-Vorhaben lieferte das Tool in Tests nur beschränkt hilfreiche Ergebnisse.

Für die Studie wurden Antworten auf 517 Software-Fragen auf dem Software-Portal Stack Overflow (von menschlichen Teilnehmer:innen) mit den von ChatGPT generierten Ergebnissen verglichen. Parallel dazu wurden User befragt, welche der Antworten – die menschlichen oder die Chatbot-Antworten – sie präferierten (Samia Kabir, David N. Udo-Imeh, Bonan Kou, Tianyi Zhang, „Who Answers It Better? An In-Depth Analysis of ChatGPT and Stack Overflow Answers to Software Engineering Qestions“).

Ernüchternde Testergebnisse

Die Ergebnisse der Testreihe sind laut der Studie nicht berauschend, denn der Chatbot hat mit 48 Prozent nur etwas weniger als die Hälfte der gestellten Fragen korrekt beantwortet. 77% der Antworten werden von den Forschenden außerdem als „verbose“, also zu ausschweifend bzw. irrelevant, eingestuft.

Von ChatGPT generierte Lösungen für Programmieraufgaben seien also weiterhin mit Vorsicht zu genießen, so die Forscher – gründliche Fehlerkorrektur sei erforderlich: „These findings underscore the need for meticulous error correction in ChatGPT while also raising awareness among users about the potential risks associated with seemingly accurate answers.“ Das Fehler-Problem sowie die Befürchtung schädlicher Auswirkungen führte übrigens zu einem temporären Bann von ChatGPT-generierten Antworten auf Stack Overflow.

Der Chatbot ist oft sympathischer

Punkte sammeln kann ChatGPT allerdings auf der emotionalen Ebene: Die Tonalität der Antworten ist tendenziell formaler, analytischer und weniger negativ, so die Forscher. Schließlich gibt ChatGPT auch bei simpelsten Anfänger-Fragen geduldig (wenn auch nicht immer optimal) Antwort, während auf Stack Overflow zu einfache Fragestellungen manchmal auf Reaktionen wie „bereits beantwortet“ oder „zu allgemein formuliert“ stoßen können – was die Qualität des Contents hoch halten soll, aber wohl eher demotivierend wirkt.

Einen Pluspunkt kassiert ChatGPT auch in Sachen Verständlichkeit: Der Bot sei zu 65 Prozent verständlich und die Antworten gut lesbar, so das Forscherteam der Purdue University. Alles in allem gaben in 39 Prozent der Fälle die User an, die ChatGPT-Antwort gegenüber denen auf Stack Overflow zu bevorzugen. (pte/red)

Ernüchternde Testergebnisse

Der Chatbot ist oft sympathischer

Weitere Meldungen:

Neu in Business:

Neu in Finanz:

Neu in Recht:

Neu in Steuer:

Neu in Bildung/Uni:

Neu in Personalia:

Neu in Motor:

Neu in Nova:

Neu in Tools: