In der letzten Woche veröffentlichte Apple sein neues Open Source KI-Modell MGIE, womit Bilder basierend auf Anweisungen des Benutzers bearbeitet werden können.
Es werden multimodale Großsprachmodelle genutzt, um Benutzerbefehle zu interpretieren und Manipulationen auf Pixelebene durchzuführen. Das Modell ist dazu in der Lage verschiedene Methoden zu verarbeiten, wie eine Änderung im Photoshop-Stil, eine Bildoptimierung oder die örtliche Bearbeitung.
Apples KI-Modell MGIE für Bildbearbeitung
Apples neues Open Source KI-Modell MGIE verändert Bilder auf Grundlage von Texteingaben und wurde vergangene Woche veröffentlicht.
Die Bezeichnung MGIE bedeutet MLLM-Guided Image Editing, die multimodale Großsprachemodelle (MLLMs) nutzt, um Benutzerbefehle zu interpretieren und Manipulationen auf Pixelebene durchzuführen, berichtete Patentlyapple kürzlich.
Von dem KI-Modell können verschiedene Bearbeitungsmethoden verarbeitet werden, wie zum Beispiel eine Bildoptimierung oder Änderungn bestimmter Bildelemente im Stil von Photoshop.
Wie MGIE entwickelt wurde
Entwickelt wurde MGIE in Zusammenarbeit mit Forschern der University of California in Santa Barbara. Die Vorstellung des Modells erfolgte in einem Dokument auf der International Conference on Learning Representations (ICLR) 2024 und ist eine der bekanntesten Events für KI-Forschung.
Das Dokument beschreibt die Wirksamkeit von MGIE bezüglich der Optimierung automatischer Metriken und der menschlichen Bewertung. Mit dem KI-Modell werden Apples wachsende Fähigkeiten in der KI-Forschung-, und Entwicklung hervorgehoben.
In den letzten Jahren erweiterte der Technologiekonzern seine Fähigkeiten zum maschinellen Lernen und MGIE ist eines der Ergebnisse dieser Forschungsarbeit, die verblüffend ist. Der Anwender könnte mit der MGIE-KI seine kreativen Aufgaben verbessern.