Kathrin Federer
- Apr 14, 2023
- 4 min read

Midjourney: Verständnis für Sprachen und kulturelle Nuancen?

Künstliche Intelligenz auf dem Prüfstand: Wie gut meistert Midjourney Sprach- und Kulturunterschiede?

In der Welt der künstlichen Intelligenz (KI) stoße ich immer wieder auf erstaunliche Entwicklungen, die unsere tägliche Kommunikation und Interaktion beeinflussen. Eine solche Innovation ist Midjourney, ein KI-gestütztes Tool, das Bilder auf Grundlage von Textprompts generieren kann. In diesem Blogbeitrag möchte ich untersuchen, ob Midjourney auch andere Sprachen versteht und ob es Unterschiede in den generierten Bildern gibt, abhängig von der verwendeten Sprache. Als Übersetzungstool für diesen Vergleich habe ich DeepL gewählt, da es meiner Meinung nach der beste verfügbare Übersetzer ist.

Mehrsprachigkeit bei Midjourney

Zunächst einmal möchte ich betonen, dass Midjourney in der Tat mehrere Sprachen versteht. Die KI-Entwickler haben das Tool so gestaltet, dass es in der Lage ist, Textprompts in verschiedenen Sprachen zu erkennen und entsprechend darauf zu reagieren. Die Frage, die ich mir stelle, ist, ob die generierten Bilder bei Verwendung von verschiedenen Sprachen unterschiedlich ausfallen.

Um diese Frage zu beantworten, habe ich einen Test (mit Version 4) durchgeführt, bei dem ich Textprompts in verschiedenen Sprachen eingegeben habe. Als Beispiel habe ich den einfachen englischen Satz "a beautiful sunset over the ocean" genommen und diesen Satz mit DeepL in mehrere Sprachen übersetzt. Hier sind vier der übersetzten Sätze:

Deutsch: "ein wunderschöner Sonnenuntergang über dem Ozean"
Spanisch: "una hermosa puesta de sol sobre el océano"
Französisch: "un magnifique coucher de soleil sur l'océan"
Chinesisch: "美丽的海上日落"
Japanisch: "海に沈む美しい夕日"

AI Bild mit dem deutschen Prompt. — Deutsch: "ein wunderschöner Sonnenuntergang über dem Ozean" (4er-Grid)

Vergleich der generierten Bilder

Ich habe die verschiedenen übersetzten Textprompts in Midjourney eingegeben, um zu sehen, welche Bilder generiert werden. Die Ergebnisse waren erstaunlich. Obwohl es ziemlich viele Ähnlichkeiten in den Bildern gab, zeigten sie auch Unterschiede, die vermutlich auf kulturelle und sprachliche Nuancen zurückzuführen sind.

Englisch: "a beautiful sunset over the ocean" (4er-Grid)

Es ist erstaunlich zu sehen, wie die KI die kulturellen und sprachlichen Unterschiede zwischen den verschiedenen Sprachen erkennt und in den generierten Bildern widerspiegelt.

Ein interessanter Aspekt, den ich festgestellt habe, ist, dass die generierten Bilder in gewisser Weise auch von der Qualität der Übersetzung abhängig sind. In meinem Test habe ich festgestellt, dass DeepL ziemlich präzise Übersetzungen liefert, was zu ähnlichen Bildern in verschiedenen Sprachen führte.

Sprachunterschiede von Midjourney v.l.n.r.: Französich, Spanisch, Japanisch, Chinesisch (4er-Grid)

Die Qualität der Übersetzung spielt eine entscheidende Rolle bei der Generierung von Bildern in Midjourney, da es darauf angewiesen ist, die Bedeutung der Textprompts in verschiedenen Sprachen genau zu erfassen.

Komplexe Textprompts: Midjourney und die Herausforderung vielschichtiger Szenarien

Um die unterschiedlichen Interpretationen von Midjourney bei komplexen Textprompts besser zu analysieren und zu verstehen, habe ich mich entschieden, einen weiteren Vergleich mit einem anspruchsvolleren Szenario durchzuführen. Dazu habe ich einen detaillierten und facettenreichen Textprompt gewählt, der verschiedene Elemente miteinander verbindet und dadurch eine grössere Herausforderung für die KI darstellt: "full close up of a daisy in extreme love with detail, covered with water drops, clean white petals, well-lit, photo realistic, vibrant muted color palette, high color contrast, intricate details, black background, avarice photovoque still life, Luxury photo, Elena Korshak style, Maria Sibylla Merian style painting, macro photo, National Geographic photo, extremely detailed background, 8k, photorealistic resolution, hdr, high octane rendering Cinematic lighting, ultra high definition, artstation, Smooth, sharp focus, Photorealism, 8k, Full HD, 3d, unreal engine, hyperreal, surreal art, digital art, world made by light, soft lighting, dynamic composition, 8k, photorealistic resolution, hdr, high octane rendering Cinematic lighting, Realistic Detail, Depth of field, 8k, Full HD, 3d, Super resolution, octane render, award winning photo, shot on Canon DSLR, f/2.8 Long exposure, 25mm --ar 4:5"

Hier die Ergebnisse:

V.l.n.r.: Englisch, Niederländisch, Griechisch,Türkisch (4er-Grid)

Wenn man die Ergebnisse nun anschaut, sind die Bilder, die mit dem englischen und niederländischen Prompt generiert wurden, relativ ähnlich und entsprechen einem anzunehmenden Resultat aufgrund der Aufforderung an Midjourney. Hingegen fallen die Ergebnisse von Türkisch und Griechisch komplett aus dem Rahmen und haben rein gar nichts mehr mit dem ursprünglichen Prompt gemein. Sie entsprechen somit auch nicht dem erwarteten Resultat, sondern erinnern eher an Zeitungsausschnitte, Medienberichte oder Social-Media-Posts.

Liegt es an der Übersetzung oder an Midjourney, dass die Ergebnisse von Griechisch und Türkisch überhaupt nichts mehr mit dem ursprünglichen Prompt zu tun haben?

Jetzt stellt sich die Frage: Liegt es an der Übersetzung oder an Midjourney, dass die Ergebnisse von Griechisch und Türkisch überhaupt nichts mehr mit dem ursprünglichen Prompt zu tun haben?

Um diese Frage zu beantworten, wäre es wichtig, die Qualität der Übersetzungen zu überprüfen und mögliche sprachliche oder kulturelle Unterschiede zu berücksichtigen, die bei der Interpretation des Textprompts eine Rolle spielen könnten. Eine Möglichkeit wäre, die Übersetzungen von Türkisch und Griechisch mit anderen Übersetzungsdiensten zu vergleichen oder von Muttersprachlern überprüfen zu lassen.

Ein weiterer Faktor könnte sein, dass Midjourney möglicherweise Schwierigkeiten hat, die Bedeutung des komplexen Textprompts in bestimmten Sprachen zu erfassen. Es ist denkbar, dass die KI bei einigen Sprachen besser in der Lage ist, komplexe Szenarien zu interpretieren und entsprechende Bilder zu generieren, während sie bei anderen Sprachen an ihre Grenzen stösst.

Fazit

Insgesamt zeigt meine Untersuchung, dass Midjourney in der Lage ist, verschiedene Sprachen zu verstehen und darauf zu reagieren. Es gibt jedoch Unterschiede in den generierten Bildern, die möglicherweise auf kulturelle und sprachliche Nuancen zurückzuführen sind. Die Qualität der Übersetzung spielt dabei aber auch eine Rolle, da die KI darauf angewiesen ist, die Bedeutung der Textprompts in verschiedenen Sprachen genau zu erfassen.

Interessant könnte es sein, sich auf die Sprache zu konzentrieren, in der man den grössten Wortschatz hat, um die gewünschten Ergebnisse zu erzielen. Alternativ kann man auch die Sprache wählen, in der die generierten Bilder dem gewünschten Endresultat am nächsten kommen. Für letzteres wäre es jedoch notwendig, mehrere Tests für verschiedene Genres durchzuführen, um fundierte Schlussfolgerungen ziehen zu können.

Das Potenzial von Midjourney, kulturelle Unterschiede in Bildern abzubilden, ist interessant, doch es bleibt abzuwarten, wie gut diese KI in Zukunft mit immer komplexeren sprachlichen und kulturellen Herausforderungen umgehen kann.