In einem IQ-Test hat Claude 3 als erste KI überhaupt die magische 100er-Marke geknackt.
Mit einem Ergebnis von 101 liegt es damit sogar leicht über dem menschlichen Durchschnitt.
Aber was genau wurde da eigentlich getestet? Und was sagen die Ergebnisse wirklich aus?
Stell dir vor, du unterhältst dich mit einem Chatbot und merkst plötzlich: Moment mal, der ist ja richtig clever!
Genau das ist gerade mit Claude 3 passiert, dem neuesten Sprachmodell von Anthropic.
Beschreibung der Methodik und des Testaufbaus
Der KI-Experte Maxim Lott hat verschiedene Sprachmodelle – darunter auch Claude 3 – einen speziellen IQ-Test absolvieren lassen:
- Es handelte sich um einen verbalen Test im Stil des norwegischen Mensa-Tests mit 35 Fragen.
- Die Fragen wurden so detailliert beschrieben, dass auch ein blinder Mensch die Muster theoretisch hätte zeichnen können.
- Jedes Modell absolvierte den Test zweimal, um die Ergebnisvarianz zu reduzieren.
- Aus der durchschnittlichen Anzahl richtiger Antworten wurde dann der geschätzte IQ-Wert abgeleitet.
Claude 3 schlägt die Konkurrenz
Und hier sind die beeindruckenden Resultate:
- Claude 3 erreichte im IQ-Test mit durchschnittlich 19,5 von 35 richtigen Antworten einen Wert von 101.
- Auf Platz 2 folgte ChatGPT-4 mit einem IQ von 85 (13 richtige Antworten).
- Bing Copilot kam auf 79 IQ-Punkte (11 richtige Antworten).
- Googles Gemini-Modelle erreichten 77-77,5 IQ-Punkte.
- Ältere Modelle wie Claude 1, Claude 2, GPT-3.5 und Grok lagen deutlich unter 85.
Claude 3 hat also nicht nur alle anderen getesteten KI-Systeme übertroffen, sondern auch den menschlichen Durchschnitts-IQ von 100 geknackt. Ein echter Meilenstein!
Stärken und Schwächen von Claude 3
Doch wo genau lagen die Stärken und Schwächen von Claude 3 in diesem Test?
- Bei den einfacheren Fragen bis Nummer 18 schnitt es hervorragend ab.
- Komplexere Muster ab Frage 19 bereiteten dann zunehmend Probleme.
- Insgesamt überzeugte Claude 3 aber mit korrektem logischen Denken.
- Fehler entstanden eher durch ungenaues „Lesen“ der verbal beschriebenen Bilder.
- Der Leistungssprung gegenüber den Vorgängern Claude 1 und 2 war mit 18-19 IQ-Punkten enorm.
Fazit: Claude 3 hat im IQ-Test beeindruckende Fähigkeiten im Mustererkennen und logischen Schlussfolgern gezeigt. Mit einem geschätzten IQ von 101 übertraf es nicht nur alle Konkurrenten, sondern auch den menschlichen Durchschnitt.
Dennoch gibt es gerade bei sehr komplexen Aufgaben noch Luft nach oben. Der rasante Leistungsanstieg gegenüber den Vorgängermodellen lässt aber erahnen, wie schnell sich KI weiterentwickelt.
Ich bin gespannt, was die Zukunft bringt! Was meint ihr – werden KI-Systeme schon bald schlauer sein als wir Menschen? Lasst es mich in den Kommentaren wissen!