Unsere Erfahrungen mit Devin AI: Ein Blick auf den autonomen KI-Softwareingenieur

Einleitung
Willkommen zu meinem Erfahrungsbericht über Devin AI, den autonomen KI-Softwareingenieur. Zusammen mit meinem Team haben wir Devin auf Herz und Nieren geprüft – und dabei allerhand Witziges, Lehrreiches und teils auch Skurriles erlebt.
In diesem Blogbeitrag teile ich unsere Erfahrungen, Ergebnisse und Learnings mit euch. Ob Devin schon jetzt das Zeug zum Alleskönner hat oder ob wir am Ende doch noch einen menschlichen Coder brauchen, erfahrt ihr in den nächsten Zeilen.
Was ist Devin eigentlich?
Devin ist ein autonomer KI-Softwareingenieur, entwickelt von Cognition. Sein großes Versprechen: den kompletten Softwareentwicklungsprozess zu revolutionieren. Das Ganze funktioniert, indem Devin:
- Komplexe Aufgaben wie Codierung, Debugging und Testing eigenständig durchführt.
- Proaktiv mit Entwicklern interagiert und dabei Feedback einholt und integriert.
- In einer sicheren Umgebung agiert, wodurch er reale Tools wie Shell, Code-Editor und Browser nutzen kann.
- Git-Integration beherrscht – er erstellt Commits, Pull Requests und führt sogar Shell-Commands eigenständig aus.
Kurz: Devin versucht, einen menschlichen Entwickler im Workflow zu imitieren. Klingt vielversprechend, oder? Wie wir herausgefunden haben, ist die Realität aber häufig etwas weniger glamourös – dafür umso lustiger.
Unser Test: Erste Eindrücke
Als wir Devin das erste Mal in unser Team integriert haben, war die Begeisterung groß.
Die Ernüchterung ließ aber nicht lange auf sich warten. Zwar hat Devin einige Aufgaben rasant umgesetzt und teilweise sehr komplexe Ideen eingebracht, auf die wir niemals gekommen wären. Aber Devin vergisst schon mal Dateien bei seinen Commits, verhaspelt sich in falschen Imports und produziert Code, welcher zwar theoretisch funktioniert, aber auch nur theoretisch.
Trotzdem war die Begeisterung groß: Wenn Devin etwas richtig macht, dann schnell und oft sogar besser als erwartet.

Unsere Testprojekte – ein Blick ins Detail
1. Migration eines alten PHP-Projekts in reines HTML und Flask
Unser erstes großes Testprojekt mit Devin war die Migration eines alten PHP-Projekts (Webseite + PDF-Generierung) hin zu einer HTML/Flask-API-Lösung.
- Das Positive: Devin hat sich bemüht, den alten Code zu analysieren und daraus eigenständig ein neues Projekt zu stricken.
- Die Herausforderungen:
- Im Browser zu testen war extrem kostenintensiv (dazu später mehr unter „Was kostet Devin?“).
- Devin hing stark am alten PHP-Code – ganz nach dem Motto Never change a running system versuchte er vehement PHP eigene Funktionen in Python nachzubauen.
- Die PDF-Generierung war... sagen wir mal „experimentell“. Layouts wurden wild durcheinandergewürfelt.
2. Image-Tag-Generierung
Ein weiteres Testprojekt war die Generierung von Title/Meta-Tags mit KI. Devin schrieb hier teils urkomischen Code. Problem war hier wohl eher auch der Input da es nur Bilder und Keywords zu Bayern gab. Aber seht selbst:
def _create_title_prefix(self, keyword: str) -> str:
"""Create an appropriate German title prefix based on keyword type."""
keyword_lower = keyword.lower()
# Check for compound words first
if "volksfest" in keyword_lower or "volksfeste" in keyword_lower:
return "Authentisches"
elif "festzelt" in keyword_lower:
return "Bayerisches"
elif "fest" in keyword_lower: # Generic fest check last
return "Traditionelles"
return ""
Was eigentlich eine KI erledigen sollte versuchte Devin mit IF's und ELSE's.
Naja so falsch war es ja dann eigentlich gar nicht...
Das Fazit: Devin brauch strikte Anweisungen und klare Inputs.
3. Angular Single-Page Application (SPA) & Flask API
Wir wollten Devin zeigen, was es heißt, ein vollständiges Frontend mit Angular zu erstellen und dieses mittels einer Flask API einzubinden. Der Plan: Devin setzt die Angular-App von Grund auf auf und verknüpft sie anschließend mit den Flask-Endpunkten.
- Anfangs lief alles ziemlich gut. Devin legte motiviert los und wirkte äußerst produktiv – bis sich dann die ersten NPM-Paket-Probleme samt Versionskonflikten bemerkbar machten.
- Anschließend erfand er munter neue Routen, Parameter und Codezeilen, als gäbe es kein Morgen. Kreativität kann man ihm jedenfalls nicht absprechen.
- Irgendwann verhakte er sich in endlosen „git diff“-Schleifen. In einem halb-ernsten Moment drohte ich ihm, dass er bald wieder schlafen geschickt wird, wenn er nicht aufhört.
Für ein paar Minuten war sogar Ruhe – bis Devin sich urplötzlich entschloss, in die Welt der Hexadezimaldarstellung einzutauchen:ubuntu@devin-box:~/repos/frontend$ xxd src/app/components/dashboard/dashboard.commponent.html | grep -A 5 -B 5 "Start Date" 00000800: 6964 207d 7d29 0d0a 2020 2020 2020 2020 id .. 00000810: 2020 2020 3c2f 6f70 7469 6f6e 3e0d 0a20 on.. 00000820: 2020 2020 2020 2020 203c 2f73 656c 6563 00000840: 763e 0d0a 0d0a 2020 2020 2020 2020 3c21 v>.... .. 00000870: 636c 6173 733d 2263 6f6c 2d73 6d2d 3620 class="col-sm-6 00000880: 636f 6c2d 6d64 2d33 223e 0d0a 2020 2020 col-md-3">..
- Byte für Byte arbeitete sich Devin durch den Code. Nun mussten wir aber wirklich etwas unternehmen. Nach mehreren versuchen Devins „Memory“ zurückzusetzen und neue Sessions oder Repositories zu erstellen, war schließlich Schluss.
Spätestens an dieser Stelle mussten wir wieder richtig programmieren. Trotzdem war das Grundgerüst durchaus brauchbar – man musste lediglich etwas aufräumen, nachbessern und dem Code einen gründlichen Frühjahrsputz verpassen.
Ein KI-Kollege mit Schwächen und Potenzial
Devin hat uns gelehrt, dass ein autonomer KI-Softwareingenieur definitiv kein 1:1-Ersatz für menschliche Entwickler ist. Er ist eher so etwas wie ein besonders eifriger Praktikant oder ein Freelancer, der nervige Aufgaben gerne übernimmt, solange die Anweisungen superpräzise sind.
Einer der größten Pluspunkte: Er ist extrem schnell, wenn es um weniger komplexe Aufgaben geht. Und er sprudelt vor Ideen – manchmal zu viele und zu komplex.
Er ist sehr gut darin eine solide Grundlage zu schaffen. Was Test-Coverage und Clean Code angeht könnten sich die meisten Entwickler eine Scheibe abschneiden
Die Nachteile:
- Devin produziert (noch) zu viele Leichtsinnsfehler.
- Er verhält sich manchmal unberechenbar, wenn die Prompts nicht genau genug sind.
- Größere Projekte bringen ihn ins Stolpern. Eine komplexe Anwendung alleine zu bauen ist für ihn noch zu viel.
Was kostet Devin überhaupt?
Zurzeit kostet Devin 500 USD pro Monat, was 500 sogenannte ACUs beinhaltet. Diese ACUs sind Tokens, die auf der verwendeten Rechenleistung und Laufzeit basieren.
Wer also plant, Devin permanent im Browser herumspringen zu lassen oder zahlreiche Testcases generieren zu lassen, sollte seine ACUs im Auge behalten – sonst wird es schnell teuer. Wir haben zum Beispiel bei der Browser-Integration ordentlich ACUs verheizt.
Wahrscheinlich einer der gründe warum Devin so oft wie möglich Testcases schreibt.
Slack-Integration
Eines der Features, das wir leider kaum testen konnten, ist die Slack-Integration. In der Theorie kann man Devin dort kleine Aufgaben zuweisen, woraufhin er unmittelbar loslegen soll. Leider haben unsere Experimente im Angular-Projekt (und Devins Hang, im Hexdump-Modus zu verharren) unsere gesamte Aufmerksamkeit beansprucht – und so blieb Slack weitgehend außen vor.
Fazit: Warum Devin (noch) kein Programmierer ist
Nach knapp 300 ACUs sind wir zu dem Schluss gekommen, dass Devin durchaus eine nützliche Unterstützung sein kann. Devin ist wie ein übermotivierter Praktikant: Er hat großes Potenzial, muss aber eng betreut werden.
Jedoch sollte man sich von der Vorstellung verabschieden, dass Devin sofort ein ganzes Entwicklerteam ersetzt. Im Gegenteil: Eine Person, die gute Prompts verfassen kann und selbst programmieren kann, ist zwingend notwendig, damit Devin einen echten Mehrwert liefert. Sonst versinkt er schnell in verwirrendem Code, erfundenen Importen und verschwendeten ACUs.
Meine Empfehlung: Setzt Devin als zusätzliche Ressource ein, ähnlich wie einen Freelancer. Gebt ihm klare, strukturierte Aufgaben und testet früh und oft. So reduziert ihr den Frust und spart ACUs.
Ausblick
Wir hoffen, dass wir Devin bald wieder einsetzen können. Die Idee, einen KI-Entwickler direkt in unseren Alltag zu integrieren, ist definitiv spannend. Und wer weiß: Vielleicht wird Devin schon bald ein unverzichtbares Mitglied im Team.
Für alle Interessierten: Consultee AI arbeitet weiter an KI- und Softwareprojekten. Wir lieben es, neue Technologien auf Herz und Nieren zu testen. Gerne helfen wir auch euch bei euren Projekten – ob mit oder ohne Devin.
KI LeistungenHäufig gestellte Fragen (FAQ)
Devin ist ein autonomer KI-Softwareingenieur, entwickelt von Cognition. Er kann komplexe Aufgaben wie Codierung, Debugging und Testing eigenständig ausführen, mit Entwicklern interagieren und unterstützt durch automatisierte Workflows.
Obwohl Devin komplexe Projekte schnell angehen kann, macht er noch viele Leichtsinnsfehler und benötigt klare Prompts. Ohne menschliche Experten, die Code kontrollieren und sinnvolle Anweisungen geben, läuft er schnell in Probleme.
Devin kostet derzeit 500 USD pro Monat, was 500 ACUs beinhaltet. ACUs sind wie Tokens und werden anhand der genutzten Rechenleistung und Laufzeit berechnet.
Devin arbeitet sehr schnell, kann repetitive Aufgaben automatisieren und gibt oft hilfreiche Denkanstöße für komplexe Probleme. Gerade wenn es um das Abdecken vieler Testfälle oder das Strukturieren größerer Codeblöcke geht, ist Devin eine große Unterstützung.
Devin wurde von Cognition entwickelt, einem Unternehmen, das sich auf KI-Softwarelösungen spezialisiert hat. Cognition arbeitet an verschiedenen Projekten im Bereich der künstlichen Intelligenz und Automatisierung.