von Patrick Große
•
21. Mai 2024
OpenAI hat am Montag sein neues Flaggschiff-Modell vorgestellt, das sie GPT-4o nennen – das „o“ steht für „omni“, was auf die Fähigkeit des Modells hinweist, Text, Sprache und Video zu verarbeiten. GPT-4o wird in den nächsten Wochen schrittweise in den Produkten des Unternehmens eingeführt. Laut OpenAI-CTO Mira Murati bietet GPT-4o eine Intelligenz auf dem Niveau des aktuellen Modells GPT-4, verbessert jedoch die Fähigkeiten von GPT-4 in mehreren Modalitäten und Medien. „GPT-4o kann in Sprache, Text und Bild logisch schlussfolgern“, sagte Murati während einer Live-Präsentation in den Büros von OpenAI in San Francisco. „Und das ist unglaublich wichtig, weil wir die Zukunft der Interaktion zwischen uns und Maschinen gestalten.“ Die Neuerungen von GPT-4o im Überblick GPT-4o verbessert das Erlebnis im KI-gestützten Chatbot ChatGPT erheblich. Die Plattform bot schon lange einen Sprachmodus, der die Antworten des Chatbots mittels eines Text-zu-Sprache-Modells transkribierte. GPT-4o verstärkt dies jedoch, indem es den Nutzer:innen ermöglicht, mit ChatGPT mehr wie mit einem Assistenten zu interagieren. Nutzer:innen können ChatGPT beispielsweise eine Frage stellen und ChatGPT während der Antwort unterbrechen. Das Modell liefert laut OpenAI „in Echtzeit“ Reaktionsfähigkeit und kann sogar auf Nuancen in der Stimme einer/s Nutzer:in reagieren, indem es Stimmen in „einer Reihe verschiedener emotionaler Stile“ (einschließlich Gesang) generiert. GPT-4o verbessert auch die visuellen Fähigkeiten von ChatGPT. Angesichts eines Live-Videos oder eines Desktop-Bildschirms kann ChatGPT jetzt schnell dazugehörige Fragen beantworten, von Themen wie „Was passiert in diesem Softwarecode?“ bis hin zu „Welche Marke zeigt das Hemd dieser Person?“. Diese Funktionen werden sich in Zukunft weiterentwickeln. Während GPT-4o heute ein Bild eines Menüs in einer anderen Sprache betrachten und übersetzen kann, könnte das Modell in Zukunft ChatGPT ermöglichen, beispielsweise ein Live-Sportspiel „anzusehen“ und die Regeln zu erklären. Auch das Übersetzen von rund 50 Sprachen ist in Echtzeit möglich. Ankündigungen bei Google Auf der Google I/O 2024 wurden zahlreiche neue KI-Produkte und -Dienste vorgestellt, die sich auf verschiedene Anwendungen und Bereiche erstrecken. Hier sind die Hauptneuerungen: Video-KI Veo: Diese KI kann Full-HD-Videos (1080p) generieren, die länger als eine Minute sind. Veo versteht Kameraeinstellungen und erzeugt konsistente und kohärente Videos. Erste Künstler können Veo über VideoFX testen. Project Astra: Google bündelt hier seine Arbeit an KI-Agenten, die die Welt verstehen, sich Dinge merken und handeln können. Diese Agenten basieren auf Gemini und sind für verschiedene Aufgaben spezialisiert. Sie sollen zukünftig über Smartphones oder Brillen zugänglich sein. Sie können sehen und hören und in Echzeit Fragen zur Umgebung beantworten, ähnlich wie der neue Sprachassistent von OpenAI. AI Overview: AI kommt noch stärker in die Google-Suche. Diese Funktion bietet automatisch generierte Zusammenfassungen oberhalb der Google Suchergebnisse an. Die Funktion kombiniert die Fähigkeiten des Gemini-Modells mit Googles Suchsystemen und soll bis Ende des Jahres aus der Testphase in den normalen Betrieb übergehen. Lyria: Eine generative Musik-KI, die künftig alle Musikdienste in der Music AI Sandbox zusammenführen wird. SynthID: Ein digitales Wasserzeichen, das in Bilder, Audio, Text und Video eingebettet werden kann. Visuelle Suche: Eine Erweiterung von Google Lens, bei der man Fragen zu einem Video stellen kann, indem man ein Element umkreist. Diese Funktion ist vergleichbar mit neuen Funktionen von OpenAIs ChatGPT, bei denen man über die Kamera und per Sprache interagieren kann. Insgesamt zeigt Google auf der I/O 2024 einen starken Fokus auf die Integration von KI in verschiedene Produkte und Dienste, um Nutzern effizientere und vielseitigere Werkzeuge zur Verfügung zu stellen. Verfügbarkeit und Zugänglichkeit GPT-4o ist ab sofort in der kostenlosen Stufe von ChatGPT und für Abonnent:innen der Premium-ChatGPT Plus- und Team-Pläne mit „5-fach höheren“ Nachrichtenlimits verfügbar. (OpenAI merkt an, dass ChatGPT automatisch auf GPT-3.5, ein älteres und weniger leistungsfähiges Modell, umschaltet, wenn Nutzer:innen das Nachrichtenlimit erreichen.) Das verbesserte ChatGPT-Spracherlebnis, das von GPT-4o unterstützt wird, wird in etwa einem Monat in der Alpha-Version für Plus-Nutzer:innen verfügbar sein. Viele Expert:innen argumentieren, dass OpenAI in dieser Woche das KI-Rennen gewonnen hat, denn die meisten vorgestellten Produkte von Google sollen erst im Laufe des Jahres verfügbar sein, während die neuen ChatGPT-Features bereits heute oder in den kommenden Wochen veröffentlicht werden. Relevanz für den Journalismus Für Journalist:innen bietet GPT-4o eine Reihe spannender Möglichkeiten. Die Fähigkeit, Sprach-, Text- und Bildinhalte nahtlos zu verarbeiten, kann die Recherchearbeit erheblich beschleunigen. Reporter:innen könnten beispielsweise Sprachaufnahmen direkt transkribieren und analysieren lassen, während sie gleichzeitig relevante Bilder interpretieren und beschreiben lassen. Die Multimodalität ermöglicht es auch, komplexe Geschichten, die verschiedene Medienformate umfassen, effizienter zu erstellen und zu überprüfen. Die verbesserte Sprachfunktion könnte zudem die Interaktion mit digitalen Assistenten revolutionieren, indem sie eine natürlichere und flüssigere Kommunikation ermöglicht. Dies kann besonders nützlich sein, um schnell Informationen zu sammeln, Fakten zu überprüfen oder Inhalte zu redigieren, während man unterwegs ist. Schließlich eröffnet die Multilingualität von GPT-4o neue Perspektiven für den internationalen Journalismus. Mit der Fähigkeit, in etwa 50 Sprachen effizient zu arbeiten, können Journalist:innen Inhalte in verschiedenen Sprachen schneller übersetzen und analysieren, was die Berichterstattung über globale Ereignisse erleichtert. Bemerkenswert ist, das OpenAI viele nützliche Funktionen bald allen Nutzer:innen zugänglich machen wird, also auch den Personen ohne Plus-Abonnement. Dann wird es für alle möglich sein, auf das Internet zuzugreifen, Daten zu analysieren und Grafiken zu erstellen oder Fotos und Dateien hochzuladen und zu analysieren. Außerdem wird OpenAI GPTs und den dazugehörigen Store für alle zugänglich machen. Sobald alle Funktionen zugänglich sind, werde ich hier einen Praxistext veröffentlichen. Mit dem Zugang zu GPTs für alle werde ich mich in Zukunft außerdem stärker mit GPTs für Journalist:innen beschäftigen.