Blog Layout

Prompt-Tipp: KI am Limit: Analyse vieler Dokumente

20. Juni 2024

Der heutige "Prompt-Tipp" ist ein Erfahrungsbericht über meine Arbeit mit Künstlicher Intelligenz, der zur Abwechslung einmal keinen spezifischen Prompt für die journalistische Arbeit bietet.


In der vergangenen Woche hatte ich die Gelegenheit, als "Mechaniker" an der KI-Werkstatt von MDR next in Leipzig teilzunehmen. An dieser Stelle noch einmal vielen Dank für die Einladung. Dort konnten Redakteur:innen vorbeikommen, um ihre konkreten KI-Herausforderungen zu besprechen und auszuprobieren.


Zwei Kolleg:innen kamen mit dem Ziel, KI zu nutzen, um die verschiedenen Wahlprogramme zur kommenden Landtagswahl in Sachsen zu analysieren. Der MDR testet derzeit ein internes GPT-Tool, ähnlich wie der SWR, in einer ersten Testphase. Dieses Tool basiert auf den Fähigkeiten von ChatGPT-4. Es lag daher nahe, diese Herausforderung mit ChatGPT anzugehen.


Unser Ansatz war folgender:

  1. Download der Parteiprogramme in einen lokalen Ordner und Benennung nach dem gleichen Schema, z.B. “Partei_Wahlprogramm_Sachsen”.
  2. Hochladen aller Wahlprogramme in das Interface von ChatGPT.
  3. Formulierung eines Basis-Prompts, um die Aufgabe an die KI zu definieren.


Unser erster Basis-Prompt sah so aus:


“Du bist Journalist und führst politische Faktenchecks und Analysen zu Wahlprogrammen für die kommende Landtagswahl im Bundesland Sachsen durch. Deine Aufgabe ist es, die Wahlprogramme der relevanten Parteien nach bestimmten Kriterien zu analysieren.


Deine Aufgaben umfassen:

  1. Durchsuchen der Wahlprogramme nach den wichtigsten Punkten.
  2. Vergleich dieser Punkte mit den Wahlprogrammen anderer Parteien.
  3. Analyse nach vorgegebenen Themenkomplexen (z.B. Wirtschaft, Bildung, Umwelt).
  4. Auswertung nach bestimmten Kriterien (z.B. Umsetzbarkeit, Konkretheit).


Wichtige Hinweise:

  • Gib zu jeder analysierten Aussage die exakte Quelle mit Wahlprogramm und Seitenzahl an.
  • Agiere neutral und faktengetreu, ohne eigene Interpretationen vorzunehmen.


Ergebnisse:

  • Erstelle eine tabellarische Übersicht mit allen relevanten Textstellen, einschließlich Seitenzahl und Wahlprogramm.


Anbei findest du die verschiedenen Wahlprogramme. Bitte nutze ausschließlich diese Dokumente für deine Analyse.”


Die KI startete anschließend sofort die Analyse und wählte dabei zufällige Themenfelder:

  1. Bildung
  2. Energie
  3. Familie und Demografie
  4. Wirtschaft
  5. Innere Sicherheit


Das Tool erklärte nicht, warum es bestimmte Themenfelder wählte. Es wäre wertvoller gewesen, zunächst einen allgemeinen Überblick über alle Wahlprogramme zu erhalten.


Während bei der ersten Partei die Seitenzahlen der Textstellen im Wahlprogramm zuverlässig angegeben wurden, erschien bei späteren Parteien lediglich ein "X" als Platzhalter für die Seitenzahl.

Chatverlauf nachlesen

Okay, anscheinend war der ursprüngliche Ansatz zu komplex für die KI. Daher reduzierten wir die Komplexität des Prompts durch zwei Änderungen: Wir baten die KI, schrittweise vorzugehen, also ein Parteiprogramm nach dem anderen zu analysieren. Zunächst fragten wir nach einer allgemeinen Analyse der Hauptthemen pro Partei, anstatt die KI selbst Themen auswählen zu lassen.


“Bitte analysiere die Dokumente unabhängig voneinander und arbeite die verschiedenen Fokusthemen der Parteien heraus. Nutze nicht die zuvor genannten Themen.”


Das funktionierte besser. Die verschiedenen Hauptthemen pro Partei wurden gut herausgearbeitet. Allerdings trat während der Analyse weiterhin das Problem auf, dass statt der korrekten Seitenzahlen das "X" genannt wurde.


Ein weiteres Problem war, dass die KI dem "Bündnis Sahra Wagenknecht" (BSW) einen neuen, erfundenen Namen gab: "Bündnis Sachsen Weiterdenken".


Obwohl wir die KI mehrmals baten, die korrekten Seitenzahlen zu nennen, stimmten diese nur zu Beginn der Analyse. Später lagen sie entweder 1-2 Seiten daneben oder es wurden die Seitenzahlen der Wahlprogramme verwechselt.


Daraufhin testeten wir den Fokus auf ein spezifisches Themengebiet: Bildung. Dabei gingen wir Schritt für Schritt vor. Zunächst luden wir nur ein Wahlprogramm hoch und werteten es mit folgendem Prompt aus:


“Du bist Journalist und führst politische Faktenchecks und Analysen zu Wahlprogrammen für die kommende Landtagswahl im Bundesland Sachsen durch.


Deine Aufgabe ist es, Wahlprogramme der relevanten Parteien nach dem Themenkomplex Bildung zu analysieren.


Deine Aufgabe: Durchsuchen das Wahlprogramm des Bündnis Sahra Wagenknecht (BSW) nach den wichtigsten Punkten im Bereich Bildung.


Wichtige Hinweise:

Gib zu jeder analysierten Aussage die exakte Quelle im Wahlprogramm und Seitenzahl an. Agiere neutral und faktengetreu, ohne eigene Interpretationen vorzunehmen.


Ergebnisse:

Erstelle eine tabellarische Übersicht mit allen relevanten Textstellen, einschließlich Seitenzahl im Wahlprogramm.


Anbei findest du das Wahlprogramm des BSW. Bitte nutze ausschließlich dieses Dokument für deine Analyse.”


Das Ergebnis sah gut aus: Textstellen und Seitenzahlen stimmten und waren tabellarisch dargestellt (Oberthema - Textstelle - Seitenzahl). Nun baten wir die KI, genau das Gleiche mit dem Wahlprogramm der Linken zu machen.


Das Ergebnis war inhaltlich korrekt, doch die KI wählte eine andere Tabellenform (Textstelle - Seitenzahl). Wir baten das Tool, die Ergebnisse in der gleichen Form wie zuvor beim BSW darzustellen. Das klappte dann auf Anhieb.

Chatverlauf nachlesen

Trotz mehrmaliger Analyse der entsprechenden PDF-Datei änderte die KI den Namen des BSW erst nach einem Hinweis von uns.


Auch nach mehreren Hinweisen waren die Seitenzahlen oft falsch, obwohl die Textstellen korrekt waren. Besonders mysteriös war ein Fall, in dem das Tool auf Seitenzahlen verwies, die in dem Dokument gar nicht vorkamen. Es handelte sich um Seitenzahlen eines anderen Dokuments, das in diesem Chat nicht hochgeladen wurde und das die KI folglich nicht kennen sollte.


Abschließend einige Tipps zum Umgang mit großen Datenmengen:

  1. Schritt für Schritt vorgehen: Ein Parteiprogramm nach dem anderen analysieren und einen Themenfokus nach dem anderen setzen.
  2. Arbeit mit Doc-Dateien: In unserem Test klappte die Nennung von Seitenzahlen besser mit Word-Dokumenten als mit PDFs. Allerdings liegen die meisten Parteiprogramme nicht als Doc-Dateien vor.
  3. KI nur als Assistent nutzen: Die KI kann nicht die komplette Analyse zuverlässig übernehmen, aber sie kann einen ersten Überblick über Kernthemen und Vergleiche geben.
  4. Nach Möglichkeit nur zwei Dokumente miteinander vergleichen: Bei drei oder mehr Dokumenten wird es oft zu komplex.

Ich bin sehr froh, dass wir in dieser Challenge schnell an die Grenzen der KI gestoßen sind. So wird deutlich, dass diese Tools zwar großartige Assistenten sind und unsere Arbeit erleichtern können, aber die ausgegebenen Informationen sollten wir nicht für bare Münze nehmen.

von Patrick Große 5. Juli 2024
Heute möchte ich nochmal einen Exkurs in den Bereich der Bilderstellung wagen. Ein Bereich, der natürlich mit Vorsicht zu genießen ist, vor allem im Journalismus. Die Nutzung von KI-Bildern ist irreführend und sollte nur mit entsprechendem Transparenzhinweis in Medien genutzt werden. Auf der anderen Seite steht die Diskussion, ob KI-Kunst wirklich Kunst ist. Dennoch gibt es viele, die sich zuhause privat mit der Erstellung von KI-Bildern befassen. Das ist mittlerweile mit zahlreichen Tools möglich: Midjourney, ChatGPT-Plus oder der erweiterten Version von Copilot, die viele Medienunternehmen inzwischen nutzen. Wie ein perfekter Prompt zur Bilderstellung aussieht, haben vor uns vor einiger Zeit bereits angeschaut. Doch wer mit KI-Bildern bereits experimentiert hat, wird merken, ein und derselbe Prompt produzieren über die Zeit andere Ergebnisse. Der Stil eines Bildes lässt sich über einfaches Prompten kaum halten. Hier kommt der sogenannte Seed (dt. Samen) in Spiel. Jedes von KI erstellte Bild kommt nämlich einen Seed, also eine einzigartige Nummer, mit dem das System das Bild erkennt. Durch die Nennung des Seeds können auch weitere Bilder in der Zukunft wieder im gleichen Stil erstellt werden. Mein Beispiel-Prompt: “Du bist Zeichner für Kinderbücher. Bitte erstelle ein Bild von einem Hasen, der gemeinsam mit einem Bär, einer Eule und einer Schnecke im Wald wohnt. Das Bild sollte eine ansprechende Zeichnung sein, die in einem Buch für Kinder von 2-5 Jahren erscheint.” Das Ergebnis: 
von Patrick Große 5. Juli 2024
In der Welt der Künstlichen Intelligenz gibt es derzeit heiße Diskussionen über die Grenze zwischen fairer Nutzung und Plagiat. Im Mittelpunkt steht Perplexity AI, ein Startup, das eine Suchmaschine mit einem Sprachmodell kombiniert, um detaillierte Antworten zu liefern. Anders als andere KI-Modelle trainiert Perplexity keine eigenen, sondern nutzt bestehende Modelle und sammelt Informationen aus dem Internet. Vorwürfe gegen Perplexity AI Im Juni 2023 wurde Perplexity vorgeworfen, unethisch zu handeln. Das Medium Forbes beschuldigte das Startup, einen seiner Artikel plagiiert zu haben, und Wired warf Perplexity vor, seine Website und andere unerlaubt zu scrapen. Diese Vorwürfe werfen ein Schlaglicht auf die komplexen rechtlichen und ethischen Fragen, die mit der Nutzung von KI im Journalismus verbunden sind. Das Problem mit dem Web-Scraping Wired berichtete, dass Perplexity das Robots Exclusion Protocol ignorierte, das Websites davor schützen soll, von Web-Crawlern durchforstet zu werden. Eine Untersuchung ergab, dass eine mit Perplexity verbundene IP-Adresse Inhalte von Websites sammelte, die für Bots gesperrt sind. Web-Scraping bedeutet, dass automatisierte Software das Internet durchforstet, um Informationen zu sammeln. Suchmaschinen wie Google tun dies, um Webseiten in Suchergebnissen anzuzeigen. Aber viele Verlage wollen nicht, dass ihre Inhalte für den Aufbau von KI-Datensätzen genutzt werden. Plagiat oder faire Nutzung? Wired und Forbes beschuldigten Perplexity auch des Plagiats. Wired stellte fest, dass der Perplexity-Chatbot einen ihrer Artikel fast wortwörtlich zusammenfasste. Forbes berichtete Ähnliches und kritisierte, dass Perplexity Inhalte von verschiedenen Nachrichtenquellen nutzte, ohne diese ausreichend zu kennzeichnen. Perplexity vergleicht seine Zusammenfassungen mit journalistischer Praxis, bei der Fakten aus verschiedenen Quellen genutzt werden. Zukunftsaussichten und Lösungen KI-Unternehmen wie OpenAI haben Vereinbarungen mit Nachrichtenverlagen getroffen, um deren Inhalte nutzen zu dürfen. Diese Abkommen ermöglichen den Verlagen, von der KI-generierten Nutzung ihrer Inhalte zu profitieren. Perplexity plant nun ähnliche Abkommen und möchte Verlagen durch Werbeeinnahmen einen Anteil zukommen lassen. Perplexity-CEO Aravind Srinivas erklärte, dass das Unternehmen die Quellen in Zukunft prominenter zitieren werde. Allerdings gebe es technische Herausforderungen, da KI-Modelle wie ChatGPT und Perplexity manchmal fehlerhafte oder erfundene Links generieren, was die Zuverlässigkeit der Zitate beeinträchtigen kann.
von Patrick Große 20. Juni 2024
Am Montag stellte Runway, ein Unternehmen, das KI-Werkzeuge für Film- und Bildinhalte entwickelt, das Gen-3 Alpha-Modell vor. Diese neueste Version kann Videoclips aus Textbeschreibungen und Standbildern erzeugen. Runway betont, dass Gen-3 im Vergleich zum Vorgängermodell Gen-2 eine deutlich schnellere und qualitativ hochwertigere Videoerstellung ermöglicht. Zudem bietet Gen-3 präzise Kontrollmöglichkeiten über die Struktur, den Stil und die Bewegungen der erzeugten Videos.
Mehr anzeigen
Share by: