Microsoft KI erkennt Bilder und Gerüche

Die KI-Technologie ist den Kinderschuhen entwachsen. KI kann Bilder bearbeiten und erstellen, Texte generieren, Kundenfragen beantworten und vieles mehr. Talkshows und Politiker beschäftigen sich kritisch mit KI-Systemen wie ChatGPT. Microsoft hat bereits im März dieses Jahres mit der Vorstellung von der KI-Technologie Kosmos-1 für Furore gesorgt.
Ein Astronaut schwebt durchs Weltall. Ein Sinnbild für Kosmos-1, die neue Microsoft KI.
© lexaarts
Erstellt von Dietmar :ago

TenMedia ist ein etabliertes IT-Dienstleistungsunternehmen im Herzen Berlins. Aus dem Zentrum der Hauptstadt heraus entwickeln wir Individualsoftware für den gesamten deutschsprachigen Raum. Darüber hinaus bieten wir Maintenance zu fairen Konditionen. Server Monitoring, Softwarewartung, Maintenance und Support und mehr.

Kosmos-1: Wie kann die KI Bilder und Gerüche zuordnen?

Kosmos-1 ist eine Software aus dem Bereich Künstliche Intelligenz. Es handelt sich um ein sogenanntes multimodales großes Sprachmodell (MLLM) mit visuellen und sprachlichen Fertigkeiten.

Das Ziel von Kosmos-1 besteht darin, die Fähigkeiten von KI-Systemen zu erweitern, indem sie Input unterschiedlicher Darstellungs- und Wahrnehmungsarten erkennen können. Darüber hinaus können sie den Kontext des Inputs erfassen. Einzelne Modalitäten umfassen zum Beispiel:

  • geschriebenen Text
  • mündliche Rede
  • Bilder
  • Klänge
  • haptische Eindrücke
  • motorische Bewegungen im Raum

Auch das Interpretieren olfaktorischer Eindrücke (als das Riechen) ist eine Modalität, die im Machine Learning erforscht wird. Kosmos-1 verknüpft dabei jeweils zwei dieser Modalitäten, also zum Beispiel Sprache und Bildebene und die kontextuelle Verknüpfung zwischen beiden

Somit kann die Microsoft KI Bilder nicht nur erstellen, bearbeiten oder nach bestimmten Kriterien analysieren. Kosmos-1 ist theoretisch in der Lage, die Inhalte eines Bildes zu interpretieren.

Was ist das Ziel der neuen KI-Technologie?

Das Konzept von Kosmos-1 besteht darin, eine Art Weltmodell zu erstellen. Hierbei sollen verschiedene Informationen aus unterschiedlichen Modalitäten miteinander verknüpft werden, um ein besseres Verständnis für die Welt im Allgemeinen zu erlangen. Das Ziel ist es, eine KI-Anwendung zu schaffen, die in der Lage ist, komplexe Zusammenhänge zu verstehen und in die befähigt ist, Aufgaben auszuführen, die ein hohes Maß an Multitasking erfordern.

Wie wird die KI trainiert?

Das Software-Unternehmen Microsoft hat die multimodalen KI-Systeme nicht erfunden, forscht allerdings intensiv auf diesem Terrain. Zwar ist der Konzern am Software-Entwickler OpenAI beteiligt, der u.a. ChatGPT aus der Taufe gehoben hat, setzt aber Wert darauf, dass Kosmos-1 ausschließlich ein Microsoft-Projekt sei.

Die KI-Entwickler bei Microsoft haben Kosmos-1 trainiert, um Bildrätsel zu lösen, bildlich dargestellten Text zu erkennen, visuelle Intelligenztests zu bestehen und natürliche Sprachanweisungen zu befolgen. Die Trainingsdaten bestehen zum Teil aus multimodalen Datenbibliotheken wie Textcorpora, Wort-Bild-Paaren und Material, das eine Kombination aus Text und Bild darstellt. Um mit der KI die Erkennung der Bilder zu trainieren, kommen u.a. LAION-Datensätze zum Einsatz, wobei

Textseitig fanden Auszüge aus der Textbasis The Pile Verwendung sowie Daten aus dem bei MLLM üblichen Common Crawl aus dem Internet.

Was ist der Common Crawl?

Der Common Crawl ist ein Projekt, das im Jahr 2008 ins Leben gerufen wurde, um einen öffentlich zugänglichen Datensatz von Webinhalten zu erstellen. Ziel war es, eine Sammlung von Webseiten zu schaffen, die für alle zugänglich und durchsuchbar sind. Seitdem ist der Common Crawl zu einem wichtigen Tool für Entwickler von KI-Technologien und KI-Systemen geworden.

Der Datensatz enthält Milliarden von Webseiten und ist somit eine der größten verfügbaren Sammlungen von Webinhalten. Diese Daten können von Entwicklern genutzt werden, um KI-Systeme und KI-Algorithmen zu trainieren. Durch die Verwendung von Machine-Learning-Technologien können KI-Systeme lernen, Muster in den Daten zu erkennen und so automatisierte Entscheidungen treffen.

Das Common Crawl-Projekt bietet eine breite Palette von Daten, die für viele verschiedene Anwendungen genutzt werden können. Dazu gehören beispielsweise die Erstellung von Suchmaschinen, die Analyse von Trends in der Gesellschaft und die Vorhersage von Ereignissen. Die Nutzung des Common Crawl ermöglicht es Entwicklern, ihre KI-Technologien und KI-Systeme schneller zu entwickeln und zu verbessern.

Es ist jedoch wichtig zu beachten, dass der Common Crawl ein unstrukturierter Datensatz ist, was bedeutet, dass es schwierig sein kann, relevante Informationen zu finden. Es erfordert daher eine gewisse Expertise und Fähigkeiten in der Datenanalyse, um die Informationen zu nutzen und zu verstehen.

KI kann Bilder interpretieren, schwächelt aber im Bereich Logik

Das Team von Microsoft testete das vortrainierte Modell von Kosmos-1 in Bezug auf die volle Bandbreite seiner Fähigkeiten. Gute Ergebnisse erzielte die neue KI-Technologie u.a. in folgenden Disziplinen:

  • Klassifizieren von Bildern
  • Labeln von Bildern
  • Beantwortung von Fragen zu Bildinhalten
  • automatisierte, optische Texterkennung sowie
  • Spracherzeugung

Dabei stellten die Entwickler fest, dass die KI-Anwendung beim sogenannten Raven’s Progressive Reasoning (RPR) nur mäßige Ergebnisse erzielte. Beim RPR handelt es sich im Prinzip um einen visuellen IQ-Test. Die Probanden müssen hierbei Folgen von Formen logisch sinnvoll vervollständigen.

Kosmos-1 erfüllte diese Aufgabe nur in 22 Prozent der Fälle richtig. Laut einem offiziellen Paper von Microsoft sind die Entwickler derzeit dabei, die Ursachen für das bescheidene Abschneiden auf diesem Anwendungsgebiet zu evaluieren.

Multimodalität in der Praxis – Wie kann die neue KI-Technologie eingesetzt werden?

Multimodale KI-Systeme finden immer mehr Einsatzmöglichkeiten. Zum Beispiel in folgenden Segmenten:

  • Medizin
  • Robotik
  • Unterhaltungsbranche

Ein Beispiel für den Einsatz dieser modernen KI-Technologie ist die medizinische Bildgebung, bei der multimodale KI-Systeme eingesetzt werden, um Bilder aus verschiedenen Modalitäten wie Röntgen, CT-Scans und MRT-Scans zu interpretieren und zu diagnostizieren.

Ein weiteres Beispiel ist die Robotik, bei der multimodale KI-Systeme eingesetzt werden, um Roboter mit einer Vielzahl von Sensoren und Aktuatoren auszustatten. Dadurch soll eine bessere Wahrnehmung und Interaktion mit ihrer Umgebung ermöglicht werden. Multimodale KI-Systeme werden auch in der Fahrzeugindustrie eingesetzt, um selbstfahrende Autos mit einer Vielzahl von Sensoren und Kameras auszustatten, um die Umgebung des Fahrzeugs zu erfassen und Hindernisse zu erkennen.

In der Unterhaltungsbranche finden multimodale KI-Systeme ebenfalls Anwendung, z.B. in der Erstellung von 3D-Modellen und animierten Filmen. Auch bei der Erstellung von Videospielen werden multimodale KI-Systeme eingesetzt, um realistischere und immersivere Erfahrungen zu schaffen.

Multimodale Entwicklung ist mehr als der KI Bilder zu füttern

Trotz der großen Fortschritte in der KI-Technologie stehen Entwickler und Forscher noch vor immensen Herausforderungen bei der Entwicklung und Implementierung von multimodalen KI-Systemen. Die Integration von verschiedenen Modalitäten erfordert oft eine höhere Rechenleistung und mehr Trainingsdaten, was zu längeren Trainingszeiten und höheren Kosten führen kann. Auch die Erstellung von Trainingsdaten kann schwieriger sein, da die manuellen Labeling- und Annotation-Aufgaben komplexer werden.

Daher bedarf es einer engen Zusammenarbeit zwischen Forschung und Entwickler-Teams, um die KI-Technologie weiter zu verbessern und ihre Anwendungsmöglichkeiten zu erweitern

In jedem Fall ist es spannend, die Entwicklung von multimodalen KI-Systemen zu verfolgen und zu sehen, wie sie sich in Zukunft weiterentwickeln und welche neuen Anwendungsbereiche erschlossen werden.

Ihr habt Bock auf mehr interessante News rund um die Themen IT und Innovation? Hört doch mal in unseren Podcast rein oder abonniert unseren Newsletter. Er bietet euch alle 14 Tage ein Konzentrat aus den aktuellsten Meldungen aus den Bereichen Digitalisierung, Start-ups und Cyber Security.