Background: Neues bei OpenAI und Google

21. Mai 2024

___STEADY_PAYWALL___

OpenAI hat am Montag sein neues Flaggschiff-Modell vorgestellt, das sie GPT-4o nennen – das „o“ steht für „omni“, was auf die Fähigkeit des Modells hinweist, Text, Sprache und Video zu verarbeiten. GPT-4o wird in den nächsten Wochen schrittweise in den Produkten des Unternehmens eingeführt.

Laut OpenAI-CTO Mira Murati bietet GPT-4o eine Intelligenz auf dem Niveau des aktuellen Modells GPT-4, verbessert jedoch die Fähigkeiten von GPT-4 in mehreren Modalitäten und Medien. „GPT-4o kann in Sprache, Text und Bild logisch schlussfolgern“, sagte Murati während einer Live-Präsentation in den Büros von OpenAI in San Francisco. „Und das ist unglaublich wichtig, weil wir die Zukunft der Interaktion zwischen uns und Maschinen gestalten.“

Die Neuerungen von GPT-4o im Überblick

GPT-4o verbessert das Erlebnis im KI-gestützten Chatbot ChatGPT erheblich. Die Plattform bot schon lange einen Sprachmodus, der die Antworten des Chatbots mittels eines Text-zu-Sprache-Modells transkribierte. GPT-4o verstärkt dies jedoch, indem es den Nutzer:innen ermöglicht, mit ChatGPT mehr wie mit einem Assistenten zu interagieren. Nutzer:innen können ChatGPT beispielsweise eine Frage stellen und ChatGPT während der Antwort unterbrechen. Das Modell liefert laut OpenAI „in Echtzeit“ Reaktionsfähigkeit und kann sogar auf Nuancen in der Stimme einer/s Nutzer:in reagieren, indem es Stimmen in „einer Reihe verschiedener emotionaler Stile“ (einschließlich Gesang) generiert.

GPT-4o verbessert auch die visuellen Fähigkeiten von ChatGPT. Angesichts eines Live-Videos oder eines Desktop-Bildschirms kann ChatGPT jetzt schnell dazugehörige Fragen beantworten, von Themen wie „Was passiert in diesem Softwarecode?“ bis hin zu „Welche Marke zeigt das Hemd dieser Person?“. Diese Funktionen werden sich in Zukunft weiterentwickeln. Während GPT-4o heute ein Bild eines Menüs in einer anderen Sprache betrachten und übersetzen kann, könnte das Modell in Zukunft ChatGPT ermöglichen, beispielsweise ein Live-Sportspiel „anzusehen“ und die Regeln zu erklären. Auch das Übersetzen von rund 50 Sprachen ist in Echtzeit möglich.

Ankündigungen bei Google

Auf der Google I/O 2024 wurden zahlreiche neue KI-Produkte und -Dienste vorgestellt, die sich auf verschiedene Anwendungen und Bereiche erstrecken. Hier sind die Hauptneuerungen:

Video-KI Veo: Diese KI kann Full-HD-Videos (1080p) generieren, die länger als eine Minute sind. Veo versteht Kameraeinstellungen und erzeugt konsistente und kohärente Videos. Erste Künstler können Veo über VideoFX testen.

Project Astra: Google bündelt hier seine Arbeit an KI-Agenten, die die Welt verstehen, sich Dinge merken und handeln können. Diese Agenten basieren auf Gemini und sind für verschiedene Aufgaben spezialisiert. Sie sollen zukünftig über Smartphones oder Brillen zugänglich sein. Sie können sehen und hören und in Echzeit Fragen zur Umgebung beantworten, ähnlich wie der neue Sprachassistent von OpenAI.

AI Overview: AI kommt noch stärker in die Google-Suche. Diese Funktion bietet automatisch generierte Zusammenfassungen oberhalb der Google Suchergebnisse an. Die Funktion kombiniert die Fähigkeiten des Gemini-Modells mit Googles Suchsystemen und soll bis Ende des Jahres aus der Testphase in den normalen Betrieb übergehen.

Lyria: Eine generative Musik-KI, die künftig alle Musikdienste in der Music AI Sandbox zusammenführen wird.

SynthID: Ein digitales Wasserzeichen, das in Bilder, Audio, Text und Video eingebettet werden kann.

Visuelle Suche: Eine Erweiterung von Google Lens, bei der man Fragen zu einem Video stellen kann, indem man ein Element umkreist. Diese Funktion ist vergleichbar mit neuen Funktionen von OpenAIs ChatGPT, bei denen man über die Kamera und per Sprache interagieren kann.

Insgesamt zeigt Google auf der I/O 2024 einen starken Fokus auf die Integration von KI in verschiedene Produkte und Dienste, um Nutzern effizientere und vielseitigere Werkzeuge zur Verfügung zu stellen.

Verfügbarkeit und Zugänglichkeit

GPT-4o ist ab sofort in der kostenlosen Stufe von ChatGPT und für Abonnent:innen der Premium-ChatGPT Plus- und Team-Pläne mit „5-fach höheren“ Nachrichtenlimits verfügbar. (OpenAI merkt an, dass ChatGPT automatisch auf GPT-3.5, ein älteres und weniger leistungsfähiges Modell, umschaltet, wenn Nutzer:innen das Nachrichtenlimit erreichen.) Das verbesserte ChatGPT-Spracherlebnis, das von GPT-4o unterstützt wird, wird in etwa einem Monat in der Alpha-Version für Plus-Nutzer:innen verfügbar sein.

Viele Expert:innen argumentieren, dass OpenAI in dieser Woche das KI-Rennen gewonnen hat, denn die meisten vorgestellten Produkte von Google sollen erst im Laufe des Jahres verfügbar sein, während die neuen ChatGPT-Features bereits heute oder in den kommenden Wochen veröffentlicht werden.

Relevanz für den Journalismus

Für Journalist:innen bietet GPT-4o eine Reihe spannender Möglichkeiten. Die Fähigkeit, Sprach-, Text- und Bildinhalte nahtlos zu verarbeiten, kann die Recherchearbeit erheblich beschleunigen. Reporter:innen könnten beispielsweise Sprachaufnahmen direkt transkribieren und analysieren lassen, während sie gleichzeitig relevante Bilder interpretieren und beschreiben lassen. Die Multimodalität ermöglicht es auch, komplexe Geschichten, die verschiedene Medienformate umfassen, effizienter zu erstellen und zu überprüfen.

Die verbesserte Sprachfunktion könnte zudem die Interaktion mit digitalen Assistenten revolutionieren, indem sie eine natürlichere und flüssigere Kommunikation ermöglicht. Dies kann besonders nützlich sein, um schnell Informationen zu sammeln, Fakten zu überprüfen oder Inhalte zu redigieren, während man unterwegs ist.

Schließlich eröffnet die Multilingualität von GPT-4o neue Perspektiven für den internationalen Journalismus. Mit der Fähigkeit, in etwa 50 Sprachen effizient zu arbeiten, können Journalist:innen Inhalte in verschiedenen Sprachen schneller übersetzen und analysieren, was die Berichterstattung über globale Ereignisse erleichtert.

Bemerkenswert ist, das OpenAI viele nützliche Funktionen bald allen Nutzer:innen zugänglich machen wird, also auch den Personen ohne Plus-Abonnement. Dann wird es für alle möglich sein, auf das Internet zuzugreifen, Daten zu analysieren und Grafiken zu erstellen oder Fotos und Dateien hochzuladen und zu analysieren. Außerdem wird OpenAI GPTs und den dazugehörigen Store für alle zugänglich machen.

Sobald alle Funktionen zugänglich sind, werde ich hier einen Praxistext veröffentlichen. Mit dem Zugang zu GPTs für alle werde ich mich in Zukunft außerdem stärker mit GPTs für Journalist:innen beschäftigen.

Mehr Infos von OpenAI Mehr Infos von Google

< Älterer Beitrag

Neuerer Beitrag >

Newsletter abonnieren

Prompt-Tipp: Foto-Exkurs: Seed bei der Bilderstellung

von Patrick Große • 5. Juli 2024

Heute möchte ich nochmal einen Exkurs in den Bereich der Bilderstellung wagen. Ein Bereich, der natürlich mit Vorsicht zu genießen ist, vor allem im Journalismus. Die Nutzung von KI-Bildern ist irreführend und sollte nur mit entsprechendem Transparenzhinweis in Medien genutzt werden. Auf der anderen Seite steht die Diskussion, ob KI-Kunst wirklich Kunst ist. Dennoch gibt es viele, die sich zuhause privat mit der Erstellung von KI-Bildern befassen. Das ist mittlerweile mit zahlreichen Tools möglich: Midjourney, ChatGPT-Plus oder der erweiterten Version von Copilot, die viele Medienunternehmen inzwischen nutzen. Wie ein perfekter Prompt zur Bilderstellung aussieht, haben vor uns vor einiger Zeit bereits angeschaut. Doch wer mit KI-Bildern bereits experimentiert hat, wird merken, ein und derselbe Prompt produzieren über die Zeit andere Ergebnisse. Der Stil eines Bildes lässt sich über einfaches Prompten kaum halten. Hier kommt der sogenannte Seed (dt. Samen) in Spiel. Jedes von KI erstellte Bild kommt nämlich einen Seed, also eine einzigartige Nummer, mit dem das System das Bild erkennt. Durch die Nennung des Seeds können auch weitere Bilder in der Zukunft wieder im gleichen Stil erstellt werden. Mein Beispiel-Prompt: “Du bist Zeichner für Kinderbücher. Bitte erstelle ein Bild von einem Hasen, der gemeinsam mit einem Bär, einer Eule und einer Schnecke im Wald wohnt. Das Bild sollte eine ansprechende Zeichnung sein, die in einem Buch für Kinder von 2-5 Jahren erscheint.” Das Ergebnis:

Background: Medien melden Plagiatsverdacht bei Perplexity

von Patrick Große • 5. Juli 2024

In der Welt der Künstlichen Intelligenz gibt es derzeit heiße Diskussionen über die Grenze zwischen fairer Nutzung und Plagiat. Im Mittelpunkt steht Perplexity AI, ein Startup, das eine Suchmaschine mit einem Sprachmodell kombiniert, um detaillierte Antworten zu liefern. Anders als andere KI-Modelle trainiert Perplexity keine eigenen, sondern nutzt bestehende Modelle und sammelt Informationen aus dem Internet. Vorwürfe gegen Perplexity AI Im Juni 2023 wurde Perplexity vorgeworfen, unethisch zu handeln. Das Medium Forbes beschuldigte das Startup, einen seiner Artikel plagiiert zu haben, und Wired warf Perplexity vor, seine Website und andere unerlaubt zu scrapen. Diese Vorwürfe werfen ein Schlaglicht auf die komplexen rechtlichen und ethischen Fragen, die mit der Nutzung von KI im Journalismus verbunden sind. Das Problem mit dem Web-Scraping Wired berichtete, dass Perplexity das Robots Exclusion Protocol ignorierte, das Websites davor schützen soll, von Web-Crawlern durchforstet zu werden. Eine Untersuchung ergab, dass eine mit Perplexity verbundene IP-Adresse Inhalte von Websites sammelte, die für Bots gesperrt sind. Web-Scraping bedeutet, dass automatisierte Software das Internet durchforstet, um Informationen zu sammeln. Suchmaschinen wie Google tun dies, um Webseiten in Suchergebnissen anzuzeigen. Aber viele Verlage wollen nicht, dass ihre Inhalte für den Aufbau von KI-Datensätzen genutzt werden. Plagiat oder faire Nutzung? Wired und Forbes beschuldigten Perplexity auch des Plagiats. Wired stellte fest, dass der Perplexity-Chatbot einen ihrer Artikel fast wortwörtlich zusammenfasste. Forbes berichtete Ähnliches und kritisierte, dass Perplexity Inhalte von verschiedenen Nachrichtenquellen nutzte, ohne diese ausreichend zu kennzeichnen. Perplexity vergleicht seine Zusammenfassungen mit journalistischer Praxis, bei der Fakten aus verschiedenen Quellen genutzt werden. Zukunftsaussichten und Lösungen KI-Unternehmen wie OpenAI haben Vereinbarungen mit Nachrichtenverlagen getroffen, um deren Inhalte nutzen zu dürfen. Diese Abkommen ermöglichen den Verlagen, von der KI-generierten Nutzung ihrer Inhalte zu profitieren. Perplexity plant nun ähnliche Abkommen und möchte Verlagen durch Werbeeinnahmen einen Anteil zukommen lassen. Perplexity-CEO Aravind Srinivas erklärte, dass das Unternehmen die Quellen in Zukunft prominenter zitieren werde. Allerdings gebe es technische Herausforderungen, da KI-Modelle wie ChatGPT und Perplexity manchmal fehlerhafte oder erfundene Links generieren, was die Zuverlässigkeit der Zitate beeinträchtigen kann.

Prompt-Tipp: KI am Limit: Analyse vieler Dokumente

von Patrick Große • 20. Juni 2024

Der heutige "Prompt-Tipp" ist ein Erfahrungsbericht über meine Arbeit mit Künstlicher Intelligenz, der zur Abwechslung einmal keinen spezifischen Prompt für die journalistische Arbeit bietet. In der vergangenen Woche hatte ich die Gelegenheit, als "Mechaniker" an der KI-Werkstatt von MDR next in Leipzig teilzunehmen. An dieser Stelle noch einmal vielen Dank für die Einladung. Dort konnten Redakteur:innen vorbeikommen, um ihre konkreten KI-Herausforderungen zu besprechen und auszuprobieren. Zwei Kolleg:innen kamen mit dem Ziel, KI zu nutzen, um die verschiedenen Wahlprogramme zur kommenden Landtagswahl in Sachsen zu analysieren. Der MDR testet derzeit ein internes GPT-Tool, ähnlich wie der SWR, in einer ersten Testphase. Dieses Tool basiert auf den Fähigkeiten von ChatGPT-4. Es lag daher nahe, diese Herausforderung mit ChatGPT anzugehen. Unser Ansatz war folgender: Download der Parteiprogramme in einen lokalen Ordner und Benennung nach dem gleichen Schema, z.B. “Partei_Wahlprogramm_Sachsen”. Hochladen aller Wahlprogramme in das Interface von ChatGPT. Formulierung eines Basis-Prompts, um die Aufgabe an die KI zu definieren. Unser erster Basis-Prompt sah so aus: “Du bist Journalist und führst politische Faktenchecks und Analysen zu Wahlprogrammen für die kommende Landtagswahl im Bundesland Sachsen durch. Deine Aufgabe ist es, die Wahlprogramme der relevanten Parteien nach bestimmten Kriterien zu analysieren. Deine Aufgaben umfassen: Durchsuchen der Wahlprogramme nach den wichtigsten Punkten. Vergleich dieser Punkte mit den Wahlprogrammen anderer Parteien. Analyse nach vorgegebenen Themenkomplexen (z.B. Wirtschaft, Bildung, Umwelt). Auswertung nach bestimmten Kriterien (z.B. Umsetzbarkeit, Konkretheit). Wichtige Hinweise: Gib zu jeder analysierten Aussage die exakte Quelle mit Wahlprogramm und Seitenzahl an. Agiere neutral und faktengetreu, ohne eigene Interpretationen vorzunehmen. Ergebnisse: Erstelle eine tabellarische Übersicht mit allen relevanten Textstellen, einschließlich Seitenzahl und Wahlprogramm. Anbei findest du die verschiedenen Wahlprogramme. Bitte nutze ausschließlich diese Dokumente für deine Analyse.” Die KI startete anschließend sofort die Analyse und wählte dabei zufällige Themenfelder: Bildung Energie Familie und Demografie Wirtschaft Innere Sicherheit Das Tool erklärte nicht, warum es bestimmte Themenfelder wählte. Es wäre wertvoller gewesen, zunächst einen allgemeinen Überblick über alle Wahlprogramme zu erhalten. Während bei der ersten Partei die Seitenzahlen der Textstellen im Wahlprogramm zuverlässig angegeben wurden, erschien bei späteren Parteien lediglich ein "X" als Platzhalter für die Seitenzahl.