MidJourney V5.2 vs. V6 Alpha: Wir testen die Unterschiede

0
1

MidJourney hat die Alpha-Version seines V6-Modells herausgebracht und es gibt viele versprochene Verbesserungen gegenüber V5.2. Wir schauen uns an, was auf dem Papier besser ist, und testen es im Vergleich zum älteren Modell.

Was ist neu in V6? ?

Zweifellos ist bei V6 unter der Haube viel passiert, aber MidJourney hat die wichtigsten Features in einem offiziellen Discord-Thread hervorgehoben. Beachten Sie, dass Sie Mitglied des MidJourney Discord sein müssen, um den betreffenden Beitrag anzuzeigen. Dies sind die wichtigsten Änderungen:

  • Genauere sofortige Einhaltung.
  • Längere Eingabeaufforderungen.
  • Verbesserte Kohärenz und Modellkenntnis.
  • Verbesserte Bildaufforderung und Neumischung.
  • Geringe Fähigkeit zum Zeichnen von Texten (ähnlich dem neuen DALL-E-Modell).
  • Verbesserte Upscaler mit sowohl „subtilen“ als auch „subtilen“ Eigenschaften. und „kreativ“ Modi.

Kurz gesagt, V6 bringt MidJourney näher an die beeindruckenden neuen Fähigkeiten des Konkurrenztools DALL-E 3 heran, aber hier möchten wir sehen, wie viel besser es ist als das V5.2-Modell, das zum Zeitpunkt des Schreibens die Standardeinstellung war.

Wenn Sie ein MidJourney-Abonnent sind und die neue V6-Alpha-Version ausprobieren möchten, geben Sie einfach /settings in Discord ein und wählen Sie dann V6 aus dem Modellmenü, das nach dem Senden des Befehls erscheint.< /p>

Sofortige Einhaltung

Als erstes möchte ich testen, wie gut sich das neue Modell an die Aufforderung hält. In der Vergangenheit betrachtete MidJourney Details in der Eingabeaufforderung eher als vage Vorschläge denn als Anweisungen. Hier ist also eine Eingabeaufforderung mit sehr detaillierten Anweisungen.

Zeichnen Sie einen Marktplatz in einer futuristischen Stadt. Links im Bild ist eine Frau mit einem Einkaufskorb im linken Arm zu sehen. Rechts ist ein Straßenmarktstand. Hinter dem Stand steht ein Roboter, der Obst verkauft. Der Roboter ist lila und er hält einen Apfel in seinem ausgestreckten rechten Arm.

Für jedes Modell habe ich das Bild ausgewählt, das meiner Aufforderung am ehesten entspricht. Hier ist das Beste, was V5.2 hervorgebracht hat.

Sydney Louw Butler/How-To Geek/MidJourney

Hier ist das Beste, was V6 hervorgebracht hat.

Sydney Louw Butler/How-To Geek/MidJourney

Während V5.2 im Allgemeinen alle Elemente enthält, die ich angefordert habe, sind sie im Verhältnis zum Rahmen oder zueinander überhaupt nicht korrekt angeordnet. Der einzige wirkliche Fehler, den V6 hier gemacht hat, besteht darin, den Apfel in den linken Arm des Roboters und den Einkaufskorb in den rechten Arm des Mädchens zu stecken. Am wichtigsten ist vielleicht, dass alle von V6 generierten Bilder viel kohärenter sind als die von V5.2 erstellten Bilder, die hier keinen Sinn für Rahmen oder Ausgewogenheit haben und sich einfach irgendwie zusammengefügt anfühlen.

Text in Bilder einfügen

Wie DALL-E 3 bietet MidJourney V6 die Möglichkeit, Text richtig in ein Bild zu integrieren. Sie müssen lediglich den Text in Ihrer Eingabeaufforderung durch Anführungszeichen trennen. Hier ist die Eingabeaufforderung, die wir verwendet haben:

Eine Stofffahne mit der Aufschrift „How To Geek“ darauf.

Ich füge hier alle vier Versuche beider Modelle ein, um zu zeigen, dass V6 darin noch nicht perfekt ist, aber keines der V5.2-Bilder kommt auch nur annähernd an den richtigen Text heran .

Sydney Louw Butler/How-To Geek/MidJourney

Mit V6 war es jedoch beim ersten Versuch zu 75 % erfolgreich, und Sie können deutlich sehen, dass der Text ordnungsgemäß in das Bild integriert und nicht nur überlagert wurde.

Sydney Louw Butler/How-To Geek/MidJourney

Künstlerische Qualität

Während wir mehr oder weniger objektiv testen können, wie gut V6 einer Aufforderung folgen oder Text integrieren kann, ist die künstlerische Qualität viel schwieriger zu bestimmen. Bei meinem Vergleich der MidJourney-Modelle V1 bis V5.2 wurde deutlich, dass die KI mit jedem neuen Modell „einfallsreicher“ wurde. aus Mangel an einem besseren Wort. Komposition und Detailgenauigkeit haben sich ebenfalls drastisch verbessert, und ehrlich gesagt war V5.2 immer noch die beste, wenn es um künstlerisches Flair ging, wie ich bemerkte, als ich MidJourney mit DALL-E 3 verglich.

Ich denke, dass dies am besten dem Urteil jedes einzelnen Lesers überlassen bleibt, und deshalb hier ein paar Bildpaare, mit V5.2 links und V6 rechts.

< Figure> Sydney Louw Butler/How-To Geek/MidJourney

Aufforderung: Eine epische und wunderschöne Fantasy-Szene eines Elfendorfes, in dem die Elfen ihren Geschäften nachgehen. Machen Sie daraus ein Ölgemälde

Sydney Louw Butler /How-To Geek/MidJourney

Eingabeaufforderung: Eine futuristische Straßenszene mit Außerirdischen, Robotern und Menschen, die alle in derselben Stadt leben. Machen Sie es im Stil eines digitalen Speedpaintings.

Sydney Louw Butler/How-To Geek /MidJourney

Eingabeaufforderung: Ein Naturfoto von Bergen, vom Strand aus gesehen, mit einem großen sichtbaren Mond am Himmel.

Es ist (vorerst) nur ein Alpha

Es ist wirklich wichtig zu bedenken, dass MidJourney V6 zum Zeitpunkt des Schreibens noch nicht fertig ist. Dies ist ein neues Modell, das von Grund auf trainiert wurde, jedoch mit den Lehren aus früheren Modellen. In V6 fehlen immer noch einige der großartigen Mehrwerte, die Sie in V5.2 finden, wie z. B. die Möglichkeit, das Bild zu schwenken.

Klar ist, dass Sie alle Ihnen bekannten schnellen technischen Tricks anwenden können Für MidJourney ist V5.2 immer noch perfekt in der Lage, atemberaubende und brauchbare Bilder zu erstellen. Zu diesem Zeitpunkt kann es nicht schaden, das V6-Alpha-Modell auszuprobieren, um zu sehen, ob es mit Ihren Eingabeaufforderungen bessere Ergebnisse liefert, aber halten Sie auch V5.2 griffbereit.