Background: Googles neues KI-Modell “Gemini”
Gemini ist das neueste KI-Modell von Google. Es ist der Nachfolger von Bard. Als multimodales KI-Modell ist es darauf ausgelegt, eine Vielzahl von Datenformaten wie Text, Bilder, Audio und Video zu verarbeiten. Dieser Artikel bietet einen Überblick über die Fähigkeiten von Gemini, seine verschiedenen Versionen und stellt es im Kontext seiner Konkurrenten, Microsoft Copilot und OpenAI's ChatGPT, dar.
Was ist Gemini?
Gemini ist Googles Antwort auf die steigende Nachfrage nach fortschrittlichen KI-Lösungen, die über einfache textbasierte Antworten hinausgehen. Es handelt sich um ein umfassendes KI-System, das entwickelt wurde, um komplexe Anfragen zu verstehen und darauf zu reagieren, indem es Inhalte generiert, Fragen beantwortet und auf multimediale Eingaben reagiert. Gemini wurde in drei verschiedenen Größen optimiert: Ultra, Pro und Nano, um unterschiedliche Anforderungen und Einsatzgebiete abzudecken.
Das KI-Modell von Google zeichnet sich durch seine Fähigkeit aus, ein breites Spektrum an Informationen zu verarbeiten. Es kann:
- Fragen in natürlicher Sprache beantworten.
- Inhalte generieren, darunter Artikel und kreative Texte.
- Bilder erstellen (noch nicht verfügbar)
- Bilder erkennen und interpretieren.
- Audio- und Videodaten analysieren.
- Lange Kontexte für präzisere Antworten berücksichtigen.
Gemini ist in drei Hauptversionen verfügbar:
- Gemini Nano: Eine kostenlose Version von Gemini, die Google zum Beispiel in ihren Smartphone-Apps integriert bzw. integrieren wird.
- Gemini Pro: Die Standardversion mit erweiterten Funktionen für professionelle Nutzer:innen ist frei zugänglich über die Gemini-Webseite.
- Gemini Ultra: Die fortschrittlichste Version, ausgerichtet auf komplexe Anforderungen, steckt aktuell in Gemini Advanced, in Deutschland kostet das Plus-Angebot 22 Euro (die ersten zwei Monate sind umsonst).
Noch sind die Funktionen von Gemini in Deutschland relativ eingeschränkt. Es empfiehlt sich das Tool zunächst auf Englisch zu nutzen. Weitere Funktionen werden für uns hier später folgen. So ist es zum Beispiel noch nicht möglich, Bilder zu erstellen.
Vergleich: Gemini, Copilot und ChatGPT
Google Gemini, Microsoft Copilot und OpenAIs ChatGPT bieten jeweils einzigartige Stärken:
- Kreativität: Alle drei Modelle generieren innovative Ideen, wobei Gemini in manchen Tests besonders bei kreativen Texten hervorsticht.
- Webzugriff: Sowohl Gemini als auch Copilot können aktuelle Webinhalte zusammenfassen wenn man ihnen die entsprechende URL gibt. Ein Feature, das ChatGPT standardmäßig fehlt und nur über ein Plugin funktioniert. Mit einem Link kann ChatGPT selbst nicht viel anfangen.
- Bilderkennung: Gemini nutzt Googles Fähigkeit, Echtzeitdaten zu extrahieren, und zeigt besondere Stärken in der Bilderkennung.
- Texterstellung: Gemini überzeugt durch die Integration von historischen Daten und aktuellen Informationen in seine Texte.

Vergleichstabelle von trendingtopics.eu
Die neueste Entwicklung: Gemini 1.5
Seit der Veröffentlichung von Gemini entwickelt sich das Tool stetig weiter. Vor einigen Tagen hat Google die Version 1.5 angekündigt, die noch nicht öffentlich verfügbar ist. Und die hat einen entscheidenden Vorteil gegenüber Hauptkonkurrent ChatGTP: Gemini 1.5 kann sehr große Datenmengen verarbeiten, zum Beispiel Codes mit über 30.000 Zeilen oder Texte mit über 700.000 Wörtern, aber auch bis zu eine Stunde Video oder elf Stunden Audio.
Wer eine Stunde Video in Gemini 1.5 hochlädt, bekommt eine genaue Zusammenfassung und kann entsprechend Fragen zu jeder einzelnen Sekunde des Videos stellen. Ein enormer Fortschritt zu den Fähigkeiten von ChatGPT. Weitere besondere Fähigkeiten, die Tester:innen beobachten:
- Sehr schnelle Übersetzung, auch von Sprachen, die nur von sehr wenigen Menschen gesprochen werden
- Analyse, ob Bilder und Videos KI-generiert sind
- Lange PDF-Dokumente analysieren und kleinste Details finden


