Welche KI erstellt die coolste Webseite? GPT 5.2 vs Gemini 3.0 Pro vs Opus 4.5 vs bolt.new vs v0 vs Lovable
Einleitung
Als meinen ersten Schritt in der Entwicklung von Smartphone-Apps entwickle ich eine sehr einfache App namens „Sumineko“ (Ecken-Katze), mit der man Katzenvideos endlos und zufällig in einer Bildschirmecke „nebenbei ansehen“ kann.
Sumineko (in Entwicklung)
Um diese App im offiziellen Store zu registrieren, muss ich eine Datenschutzrichtlinie im Web bereitstellen. Da ich das ohnehin machen muss, habe ich beschlossen, gleich eine Landing Page (LP) für diese App zu erstellen.
In diesem Artikel lasse ich das Grundgerüst der LP von repräsentativen LLMs und KI-Coding-Diensten erstellen und vergleiche die Ergebnisse nach eigenem Ermessen und subjektiv.
Vorstellung der Teilnehmer
| Teilnehmer | Merkmale |
| v0(v0 Agent) | Das Agenten-Tool von Vercel. Unterstützt durchgängig vom Prompt bis zur UI-Implementierung und dem Debugging. |
| bolt.new (Claude Sonnet 4.5) | Ein browserbasierter Claude-Agent. Erstellt Next.js-Apps effizient im Dialogformat. |
| Lovable | Ein Builder, der mehrere KI-Modelle unterstützt. React+Supabase-Apps können intuitiv generiert und bearbeitet werden. |
| Gemini 3.0 Pro | Googles neuestes Hochleistungsmodell. Erstellt schnell raffinierte Webseiten durch multimodale Eingabe. |
| Opus 4.5 | Anthropics stärkstes Modell. Nutzt langen Kontext für sorgfältiges Design komplexer Web-Apps. |
| GPT 5.2 | Das neueste Modell von OpenAI. Im Vergleich zu GPT-5.1 eine 1,8-fach höhere Rate an „korrekten Antworten“, stark verbesserte „Code-Genauigkeit“ und 30 % weniger Halluzinationen. |
WARNING
Hinweis zur Gleichbehandlung
Reine LLMs (Gemini 3.0 Pro, Opus 4.5, GPT 5.2) und Entwicklungssysteme mit integrierten LLMs (bolt.new, v0, Lovable) haben unterschiedliche Systemarchitekturen. In diesem Artikel werden sie jedoch der Einfachheit halber gleichgestellt, mit dem Ziel, die Qualität der Webseiten-Generierung bei identischen Prompts subjektiv zu vergleichen. Bitte beachten Sie daher, dass dieses Experiment keinen Anspruch auf wissenschaftliche Strenge erhebt.
Prompts
Ich habe die folgenden zwei Muster vorbereitet, um die Improvisationsfähigkeit sowie die Fähigkeit zur treuen Umsetzung von Anforderungen locker zu überprüfen.
Muster mit Minimalvorgaben (Omakase): Enthält nur die notwendigsten Anforderungen.
Muster mit detaillierten Instruktionen: Enthält vergleichsweise detaillierte Anforderungen.
Muster mit Minimalvorgaben
Ein Muster, bei dem hauptsächlich ein kurzer Überblick über „Sumineko“ und die erforderlichen Abschnitte gegeben werden, während Design und Wortlaut der KI überlassen bleiben.
Muster mit detaillierten Instruktionen
Ein Muster für „Kontrollfreaks“, das zusätzlich zum Überblick über „Sumineko“ und den erforderlichen Abschnitten auch detaillierte Strukturen pro Abschnitt, Wortlaut und Designaspekte wie Farbgebung vorgibt.
Zusammenfassung der Ergebnisse
NOTE
Obwohl responsive Anpassungen vorgenommen wurden, behandelt dieser Artikel nur die Desktop-Ansicht.
Muster mit Minimalvorgaben
v0
bolt.new
Lovable
Gemini 3.0 Pro
Opus 4.5
GPT 5.2
Muster mit detaillierten Instruktionen
v0
bolt.new
Lovable
Gemini 3.0 Pro
Opus 4.5
GPT 5.2
Detaillierte Betrachtung der einzelnen Ergebnisse
v0 (v0 Agent)
Minimal-Prompt
Das Muster mit Minimalvorgaben hat ein sehr klassisches UI-Design mit äußerst zurückhaltender Farbgebung, was im Guten wie im Schlechten einen sehr „sicheren“ Eindruck macht.
Da Bilder, Videos und Icons nur Platzhalter sind, wirkt die Schlichtheit vielleicht noch stärker.
Würde man echte Materialien einfügen, könnte diese Schlichtheit genau die richtige Balance sein, um Screenshots und Videos hervorzuheben.
Prompt mit detaillierten Instruktionen
Das Muster mit detaillierten Instruktionen hält sich treu an die Vorgaben des Prompts, ist aber insgesamt ebenfalls zurückhaltend im Design.
Es gibt keine fett gedruckten Texte zur Betonung, und der Eindruck ist – positiv wie negativ – eher flach, kaum anders als beim Minimal-Muster.
bolt.new (Claude Sonnet 4.5)
Minimal-Prompt
Das Muster mit Minimalvorgaben verwendet ein Design und eine Farbgebung auf Basis von Orange, was weich und lebendig wirkt. Der Blick wird natürlich auf die orangefarbenen Texte und Bilder gelenkt, was einen raffinierten Eindruck hinterlässt.
Werbetext, der ohne Scrollen sichtbar ist
Ein kleines Detail, aber im HERO-Bereich – also dem Bereich, der ohne Scrollen sichtbar ist – befindet sich ein Element mit dem Text „Experience the magic“, das Interesse weckt. Solche unaufdringlichen Werbeelemente sind ein guter Kniff, um die Absprungrate zu senken.
Allerdings wirkten das Smartphone-Design im HERO-Bereich und die Elemente im Sammlungs-Bereich (trotz Platzhaltern) irgendwie altbacken, billig und amateurhaft.
Prompt mit detaillierten Instruktionen
Beim Muster mit detaillierten Instruktionen ist bolt zwar sehr treu zum Prompt, aber diese Treue scheint die Stärken von bolt eher zu unterdrücken.
Es ist insgesamt keineswegs schlecht, aber im Vergleich zum Minimal-Muster wirkt es zu eintönig.
Das liegt nicht an bolt, sondern daran, dass sich das niedrige Niveau meines Prompts direkt im Ergebnis widerspiegelt.
Lovable
Minimal-Prompt
Beim Muster mit Minimalvorgaben fällt als Erstes die Katzenillustration mit dem völlig entstellten Gesicht auf.
Entstellte Katze 1
Entstellte Katze 2
Da ich kein Material bereitgestellt habe, wurde freundlicherweise welches generiert, aber das surreale Design, das aussieht wie von einem Kindergartenkind gemalt, bringt einen unweigerlich zum Lachen.
Da dies aber nur Platzhalter sind, und man diese entstellten Katzen ignoriert, ist das Design der anderen Teile gar nicht schlecht: Katzen im Hintergrund verstreut und wichtige Teile mit braunen oder orangen Akzentfarben hervorgehoben.
Prompt mit detaillierten Instruktionen
Das Muster mit detaillierten Instruktionen hält sich sehr genau an die Vorgaben, zeigt aber überall Einfallsreichtum: Wichtige Texte sind fett gedruckt, eine zur App passende weiche Schriftart wird verwendet, und der PiP-Start-Button ist in einem Orange hervorgehoben, das im Prompt nicht explizit verlangt wurde.
Weiche Schriftart passend zur App
Button, der sich gut vom Hintergrund abhebt
Gemini 3.0 Pro
Minimal-Prompt
Das Muster mit Minimalvorgaben ist im Guten wie im Schlechten frei von Spielereien. Das Design und die Farbgebung wirken insgesamt straff, eher wie eine Business-App oder ein Tool als eine entspannende App.
Es ist nur ein Vorurteil, aber die Richtung wirkt typisch für Google.
Die Designrichtung passt zwar offensichtlich nicht zur App, aber wenn man das beiseitelässt, ist die Qualität insgesamt sehr hoch.
Es wirkt wie „nach dem Webdesign-Lehrbuch erstellt“, ohne Macken, sodass man ihm Aufgaben beruhigt anvertrauen kann.
Darstellung von PiP
Darstellung des Browsers
Ein Detail, aber die Reproduktion der Platzhalter-Illustrationen für PiP und Browser ist ebenfalls hochwertig.
Das ist ein kleiner, aber feiner Punkt, da man sich das Endergebnis gut vorstellen kann.
Prompt mit detaillierten Instruktionen
Das Muster mit detaillierten Instruktionen ist wie bei den anderen KIs den Anweisungen treu und leidet unter dem niedrigen Niveau der Designvorgaben im Prompt. Aber es gibt feine Details: Das Smartphone-Bild und das Sammlungsbild sind leicht geneigt, was als improvisiertes Designelement Bewegung reinbringt und einen sehr schönen Akzent setzt.
Geneigtes Smartphone
Geneigtes Sammlungsbild
Außerdem ist die Katze, die unauffällig im Footer läuft, sehr schick.
Katze, die auf dem Footer läuft
Opus 4.5
Minimal-Prompt
Das Muster mit Minimalvorgaben hat ein insgesamt helles, buntes und niedliches Design, das das Thema „entspannende Katzen-App“ gut widerspiegelt.
Der Header hat ein modernes Design mit Transparenz und ist sehr stilvoll.
Buntes und einheitliches Design
Mit verstreuten Icons im Hintergrund, Farbverläufen in den Überschriften und einer vielfältigen Farbpalette wirkt das Design verspielt, aber dennoch konsistent und nicht zusammengewürfelt.
Prompt mit detaillierten Instruktionen
Im Vergleich zum Minimal-Muster hat das Muster mit detaillierten Instruktionen die Stärken von Opus 4.5 komplett zunichtegemacht und führte zu einem schlagartig langweiligen Design.
Ähnlich wie bei bolt scheint sich hier das niedrige Niveau des Prompts direkt im Ergebnis niedergeschlagen zu haben.
GPT 5.2
Minimal-Prompt
Beim Muster mit Minimalvorgaben ähnelt die Design- und Farbrichtung Opus, mit bunten Farbverläufen als Akzente an verschiedenen Stellen und einer hellen Atmosphäre.
Wenn ein Laie wie ich solche vielfältigen Verläufe verwendet, wirkt es oft billig, aber hier scheint es schön und gut abgestimmt zu sein.
Andere Modelle verwendeten Emojis oder Fotos von Katzen als Platzhalter, aber GPT 5.2 verzichtet darauf gänzlich.
Außerdem zeigt sich im HERO-Bereich ein deutlicher Unterschied zu anderen Modellen.
HERO-Bereich
Der gesamte HERO-Bereich ist als Kartenelement dargestellt, und das Smartphone-Bild ist quadratisch statt hochkant.
Allerdings ragen Elemente am unteren Rand des Smartphone-Bildschirms heraus, und die Zeile mit den Download-Links ist auf gleicher Ebene wie der App-Werbetext platziert, was unübersichtlich wirkt. Selbst als Design-Laie empfinde ich hier eine gewisse Unstimmigkeit.
Prompt mit detaillierten Instruktionen
Das Muster mit detaillierten Instruktionen führte wie bei Opus und bolt zu einem langweiligen Design.
Wie bereits mehrfach erwähnt, ist dies wohl ein Zeichen dafür, dass es sich – im Guten wie im Schlechten – treu an den Prompt hält.
Während Lovable jedoch Orange als Akzentfarbe hinzufügte, eine zur App passende weiche Schriftart wählte und Gemini Elemente absichtlich neigte, waren bei GPT 5.2 keinerlei solcher kreativen Einfälle zu sehen.
Subjektives und voreingenommenes Fazit und Zusammenfassung
Mein KI-Ranking
Basierend auf den Ergebnissen habe ich die KIs in der Reihenfolge sortiert, die mir am besten gefallen hat, inklusive Begründung.
Übrigens bin ich in Sachen Design ein blutiger Anfänger ohne Fachwissen, daher basiert die Bewertung rein auf der Intuition und dem Empfinden eines Laien.
| # | Teilnehmer | Grund |
| 1. Platz | Gemini 3.0 Pro | Egal ob grobe oder detaillierte Anweisungen, ich spüre in beiden Fällen eine gestalterische Raffinesse und Stabilität. Da ich das stärkste Gefühl hatte, dass Gemini im Durchschnitt überdurchschnittliche Ergebnisse liefert, ist es auf Platz 1. |
| 2. Platz | Opus 4.5 | Beim Minimal-Prompt wurde der Zweck der App hervorragend interpretiert und in hoher Qualität im Design umgesetzt. Ich merkte jedoch, dass Vorsicht geboten ist: Bei schlechter Prompt-Qualität sinkt die Qualität des Ergebnisses drastischer als bei Gemini. |
| 3. Platz | GPT 5.2 | Insgesamt hohe Qualität und viel Potenzial, aber das Design des HERO-Bereichs im Minimal-Muster bereitete mir etwas Sorge. |
| 4. Platz | bolt.new (Sonnet 4.5) | Neben dem billigen Eindruck einiger Elemente im Minimal-Muster gilt Ähnliches wie bei Opus 4.5: Die Improvisationsfähigkeit ist hoch, aber ich hatte das Gefühl, dass je nach Prompt die Stärken von bolt zunichtegemacht werden können, weshalb Vorsicht geboten ist. Daher Platz 4. |
| 4. Platz | Lovable | Die entstellten Katzengesichter stören doch sehr. Es sind zwar nur temporäre Platzhalter, die man vielleicht ignorieren sollte, aber wenn die Platzhalterbilder zu schlecht sind, fällt es schwer, sich das Endergebnis vorzustellen, weshalb ich persönlich Punkte abziehen muss. Der detaillierte Prompt lieferte jedoch eine Qualität, die sich vor anderen KIs nicht verstecken muss. |
| 5. Platz | v0 (v0 Agent) | Insgesamt sicher, unauffällig und langweilig. Die Improvisationsfähigkeit ist gering, und ich hatte das Gefühl, dass es stark vom niedrigen Niveau des Prompt Engineerings des Nutzers beeinflusst wird. Wer hohe Ansprüche an das Design hat, muss hier wohl sehr vorsichtig sein. Da ich das Tool früher eine Zeit lang gerne genutzt habe, ist das etwas enttäuschend. |
Dass Gemini 3.0 Pro alles bauen kann und toll ist, war kürzlich ein Thema in den sozialen Medien, aber auch im Designbereich ist es hervorragend – Hut ab.
Bisher habe ich hauptsächlich Claude Code (Max Plan) und Cursor verwendet, aber das Ergebnis hat mich stark dazu gebracht, einen Wechsel zu Antigravity in Erwägung zu ziehen.
Wer kein Designtalent hat, sollte sich im Prompt zurückhalten
Wie sicherlich jeder anhand der Ergebnisse bemerkt hat, zeigten einige Modelle beim Muster mit detaillierten Instruktionen zwar Ansätze von Einfallsreichtum, aber im Grunde entstanden langweilige und unscheinbare Ergebnisse.
Insbesondere die Beschränkung der Farbgebung auf Brauntöne passend zur App-Themenfarbe scheint das monotone Design noch verstärkt zu haben.
Da KIs im Guten wie im Schlechten grundsätzlich treu den Anweisungen folgen, ist das wohl nur natürlich, aber Leute ohne Designgespür sollten sich nicht übernehmen und versuchen, das Design im Prompt bis ins Detail festzulegen.
Wenn man Bereiche, von denen man wenig versteht, bis zu einem gewissen Grad der KI überlässt, wird diese wahrscheinlich basierend auf Best Practices in diesem Bereich entscheiden.
Zwar entsteht dann oft ein „Das habe ich schon mal irgendwo gesehen“-Gefühl, aber das schien mir immer noch viel besser zu sein, als wenn ein Laie wild daran herumpfuscht.
Die wahre Hölle beginnt erst jetzt
Die hier gezeigten Ergebnisse sind nur der Startpunkt. Darauf aufbauend ist ein Prozess notwendig, in dem man Richtung und Details immer wieder mit der KI abgleicht, um sich der idealen UI/UX anzunähern.
In meinem Fall dauert dieser Prozess besonders lange, da ich trotz mangelndem Talent eine seltsame Obsession für UI habe.
Betrachtet man dies, sind Faktoren wie die kurze Denkzeit der KI (kurze Trial-and-Error-Zyklen), eine niedrige Bug-Rate und die Fähigkeit, die Absicht der Anweisungen genau zu erfassen und in die Implementierung umzusetzen, viel wichtiger als das allererste Ergebnis.
Unter diesem Gesichtspunkt würde die Rangliste wahrscheinlich ganz anders aussehen als oben aufgeführt.
Es ist also zweifellos voreilig, nur anhand dieser Ergebnisse über Gut und Schlecht zu urteilen. Probieren Sie es daher bitte nur als Referenz auch selbst aus.
