Seit dem Aufkommen von ChatGPT erleben wir einen wahren Boom im Bereich der Künstlichen Intelligenz (KI). Jede Woche scheint ein neues oder verbessertes KI-Modell auf den Markt zu kommen, begleitet von massiven Investitionen und Anpassungen von Hardwarearchitekturen, um die Entwicklung von KI-Technologien noch weiter voranzutreiben. Doch wie gut sind diese Technologien wirklich? Werden die Versprechungen der Hersteller bereits erfüllt, oder benötigt die Technologie noch Zeit, um ihren vollen Reifegrad zu erreichen? (golem.de, 2024)
In den letzten Jahrzehnten hat Künstliche Intelligenz (KI) im Marketing einen bedeutenden Stellenwert eingenommen, wobei Anwendungen im integrierten digitalen Marketing, Content-Marketing, Erlebnismarketing, Marketingoperationen und der Marktforschung zunehmend an Bedeutung gewinnen (Chintalapathi und Pandey, 2022). Besonders die Marktforschung, die stark von der Verfügbarkeit von Daten abhängt, hat von Fortschritten in der KI profitiert. Die natürliche Sprachverarbeitung (NLP) hat versucht, die Herausforderungen mit vielfältigen menschlichen Sprachen zu bewältigen, jedoch oft mit begrenztem Erfolg. Doch mit dem Aufkommen großer Sprachmodelle (LLM) auf Basis von Transformern könnte sich dies nun ändern. Transformer sind homogenisierte Modelle, die durch das Training auf sehr großen Datensätzen eine Vielzahl von Aufgaben erfüllen können (Rothman, 2022).
Eine solche Anwendung ist Whisper, ein Open-Source-Tool, das von OpenAI entwickelt wurde und dazu dient, gesprochene Worte in geschriebenen Text umzuwandeln. Whisper verspricht eine niedrige Ausfallrate und relativ geringe Hardwareanforderungen, was es zu einem vielversprechenden Werkzeug für die Transkription von Fokusgruppenbesprechungen oder Interviews macht (Junghärtchen, 2023). Doch kann Whisper diese Versprechen halten? Ist die Qualität des transkribierten Textes gut genug, oder bedarf es noch manueller Bearbeitung? Welche Vorbereitungen sind erforderlich, um Whisper erfolgreich auf einem lokalen Rechner auszuführen, und welche Einstellungen sind optimal?
Um diese Fragen zu beantworten, haben wir uns Whisper genauer angesehen und auf einer Linux-Testmaschine aus dem Git-Repository installiert. Damit Whisper funktioniert, müssen bestimmte Voraussetzungen erfüllt sein. Zum Beispiel unterstützt es nicht Python-Versionen unter 3.7 (https://github.com/openai/whisper/discussions/1463).
Für unsere Untersuchung verwendeten wir ein Video von einem qualitativen Fokusgruppeninterview mit Marketing- und Vertriebsstudenten, das eine Länge von 2 Stunden und 12 Minuten hatte. Dann haben wir die sieben verschiedenen Textmodelle – von einem sehr kleinen „tiny“-Modell bis hin zu einem 3 GB „large-v3“-Modell, das im September 2023 erstellt wurde – von Whisper getestet, um zu sehen, wie gut sie funktionieren. Diese Modelle sind im Grunde verschiedene „Stufen“ der Software. Alle sieben Modelle wurden auf derselben Hardware (HP EliteBook 8470P, Intel i5 3320m mit 2 Kernen/4 Threads bei 2,6 GHz, 16 GB RAM, unter OpenSuse Linux und Python 3.10) mit derselben Tonspur getestet. Whisper generierte eine Textdatei mit dem transkribierten Text für jedes der sieben verwendeten Textmodelle. Jede Textdatei wurde manuell analysiert, indem zunächst Seitenumbrüche entfernt und alle Wörter in Kleinbuchstaben umgewandelt wurden. Anschließend wurde das Online-Tool „Diffchecker“ (https://www.diffchecker.com/) verwendet, um die resultierenden Texte zu vergleichen.
Die Gesamtdurchlaufzeiten des Programms variierten zwischen 14 Minuten und 10,786 Sekunden (für das large-v3-Modell) und 35,892 Sekunden (für das tiny-Modell) für eine 1-minütige Tonsequenz. Wir haben festgestellt, dass die Qualität des transkribierten Textes stark von dem verwendeten Modell abhängt. Die kleineren Modelle liefern oft unverständliche Ergebnisse mit vielen erfundenen Wörtern. Es scheint, dass Whisper mit den Modellen „tiny“, „base“ und „small“ den phonetischen Ausdruck in Buchstabenfolgen umwandelt, ohne überprüfen zu können, ob das Ergebnis
a) ein existierendes Wort ist und
b) in den Kontext des Satzes passt.
Der mit dem medium-Modell erzeugte Text ist bereits ziemlich verständlich, da er größtenteils grammatikalisch korrekte Sätze produziert und Namen sowie themenspezifische Begriffe korrekt identifiziert, jedoch oft falsche Rechtschreibung verwendet (z. B. Joaneum anstelle von Joanneum). Während die größeren Modelle viel besser sind, aber immer noch einige Probleme haben, besonders mit technischen Begriffen (z. B. wird SEA, was für „Search Engine Advertising“ steht, als CR erkannt).
Beispieltexte, die mit den drei genannten Modellen erstellt wurden, finden sich anbei:
Neben den Qualitätsproblemen wurden auch Hindernisse bei der Verwendung von Whisper identifiziert, darunter die Installation und die lange Transkriptionsdauer aufgrund fehlender CUDA-Unterstützung.
Insgesamt zeigt diese Untersuchung, dass KI-Technologien wie Whisper zwar vielversprechend sind, aber noch nicht den vollständigen Reifegrad erreicht haben und mit Herausforderungen in Bezug auf Qualität und Benutzerfreundlichkeit konfrontiert sind. Es bleibt abzuwarten, wie sich diese Technologien weiterentwickeln und welche Fortschritte in Zukunft erzielt werden können.
[1] www.golem.de. https://www.golem.de/news/meta-ai-llama-3-ist-da-2404-184334.html; https://www.golem.de/news/investment-google-will-angeblich-100-milliarden-us-dollar-in-ki-stecken-2404-184247.html; https://www.golem.de/news/prozessorentwickler-jim-keller-openai-ueberschaetzt-wohl-kosten-fuer-ki-chips-2402-182364.html; https://www.golem.de/news/microsofts-ki-assistent-was-microsoft-copilot-im-unternehmen-kann-und-was-nicht-2404-184229-3.html
[2] Chintalapati, S., & Pandey, S. K. (2022). Artificial intelligence in marketing: A systematic literature review. International Journal of Market Research, 64(1), 38–68. https://doi.org/10.1177/14707853211018428
[3] Rothman, D. (2022). Transformers for Natural Language Processing: Build innovative deep neural network architectures for NLP with Python, PyTorch, TensorFlow, BERT, RoBERTa, and more (Second Edition). Packt Publishing Ltd.
[4] Junghärtchen, I. (2023). Sprache mit Whisper lokal transkribieren. In KI-Praxis Mit künstlicher Intelligenz produktiv arbeiten (S. 122–129). Heise Medien GmbH & Co. KG.
Cookie | Dauer | Beschreibung |
---|---|---|
cookielawinfo-checkbox-analytics | 11 months | This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics". |
cookielawinfo-checkbox-functional | 11 months | The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional". |
cookielawinfo-checkbox-necessary | 11 months | This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary". |
cookielawinfo-checkbox-others | 11 months | This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other. |
cookielawinfo-checkbox-performance | 11 months | This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance". |
viewed_cookie_policy | 11 months | The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data. |