LLMs verstehen – das Handbuch für moderne KI-Systeme
Dieses Buch bietet eine umfassende und leicht zugängliche Einführung in die Welt der Large Language Models (LLMs). Mit zahlreichen Visualisierungen, praxisnahen Beispielen und klaren Erklärungen vermittelt es ein tiefes, aber intuitives Verständnis dafür, wie moderne Sprachmodelle funktionieren. Von den Grundlagen der Sprachverarbeitung bis zu fortgeschrittenen Anwendungen in der Sprachgenerierung lernen Sie, wie LLMs Texte verstehen, verarbeiten und erzeugen – und wie Sie dieses Wissen praktisch einsetzen können.
Die Autorinnen und Autoren, bekannt durch ihre erfolgreichen Blogs, haben bereits Millionen von Entwickler*innen geholfen, Machine Learning und Künstliche Intelligenz besser zu verstehen. Nun bündeln sie ihr Wissen in diesem Handbuch, das sowohl konzeptionelle Grundlagen als auch konkrete Anwendungsschritte abdeckt.
Sprachverarbeitung verstehen und anwenden
Ein zentrales Thema des Buches ist die Sprachverarbeitung: Sie erfahren, wie Sie Textklassifikation, semantische Suche und Clustering umsetzen können. Dabei wird erklärt, wie Transformer-basierte Modelle Texte repräsentieren und analysieren, um aussagekräftige Zusammenhänge zu erkennen. Sie lernen außerdem, fortgeschrittene LLM-Pipelines zu entwerfen, mit denen sich große Textsammlungen strukturieren und Themen automatisch entdecken lassen.
Im Bereich der Sprachgenerierung führt das Buch von den Grundlagen des Prompt Engineerings bis hin zu komplexen Ansätzen wie der Retrieval Augmented Generation (RAG). Es zeigt, wie generative Modelle sinnvoll eingesetzt und durch Feintuning, Contrastive Fine-Tuning oder In-Context-Learning für spezifische Aufgaben optimiert werden können.
Praktische Anwendungen und Tools
Anhand vieler Beispiele wird beschrieben, wie sich vortrainierte Transformer-Modelle – etwa aus der Hugging Face-Bibliothek – für reale Aufgaben nutzen lassen: vom Verfassen und Zusammenfassen von Texten bis hin zum Aufbau semantischer Suchmaschinen, die über einfache Stichwortsuche hinausgehen und moderne Verfahren wie Dense Retrieval und Reranking einsetzen.
Mit seiner Mischung aus anschaulichen Illustrationen, verständlichen Erklärungen und praxisnahen Anwendungen ist dieses Handbuch die ideale Grundlage für alle, die die Funktionsweise und das Potenzial von LLMs wirklich verstehen und gezielt nutzen möchten.
Aus dem Inhalt
Teil 1: Die Funktionsweise von Sprachmodellen verstehen
- Einführung in Large Language Models
- Tokens und Embeddings
- Ein Blick ins Innere von Large Language Models
Teil 2: Vortrainierte Sprachmodelle verwenden
- Textklassifikation
- Clustering von Texten und Topic Modeling
- Prompt Engineering
- Fortgeschrittene Techniken und Tools im Bereich der Textgenerierung
- Semantische Suche und Retrieval-Augmented Generation
- Multimodale Large Language Models
Teil 3: Sprachmodelle trainieren und feintunen
- Text-Embedding-Modelle erstellen
- Representation-Modelle für die Klassifikation feintunen
- Generative Modelle feintunen
Stimmen zum Buch
"Jay und Maarten setzen ihre bewährte Arbeit fort, komplexe Themen mit hervorragenden Illustrationen und aufschlussreichen Beschreibungen zu erläutern. Für alle, die die wichtigsten Techniken zur Entwicklung von LLMs verstehen wollen, ist dieses Buch eine wertvolle Grundlage."
—Andrew Ng, Gründer von DeepLearning.AI
Die in dieser Leseprobe behandelte Textklassifikation ist eine gängige Anwendung im Bereich des Natural Language Processings. Mit generativen und Representation-Modellen lassen sich Texten Label bzw. eine Kategorie zuweisen, etwa um das Stimmungsbild bzw. das Sentiment von Rezensionen zu Spielfilmen zu klassifizieren.
Wer hat's geschrieben?
Jay Alammar ist Direktor und Engineering Fellow bei Cohere, dem Vorreiter bei der Bereitstellung von Large Language Models als API. In dieser Funktion berät und schult er Unternehmen und die Entwicklergemeinschaft bei der Verwendung von Sprachmodellen für praktische Anwendungsfälle. Durch seinen beliebten AI/ML-Blog hat Jay Millionen von Forscherinnen und Softwareengineers geholfen, Tools und Konzepte des Machine Learnings visuell zu verstehen – von den Grundlagen (die in der Dokumentation von Paketen wie NumPy und pandas auftauchen) bis hin zu den neuesten Entwicklungen (Transformers, BERT, GPT-3, Stable Diffusion). Jay ist außerdem Mitgestalter von beliebten Kursen zum Machine Learning und Natural Language Processing auf Deeplearning.ai und Udacity.
Maarten Grootendorst ist Senior Clinical Data Scientist bei IKNL (Netherlands Comprehensive Cancer Organization). Er hat Master-Abschlüsse in Organisationspsychologie, klinischer Psychologie und Data Science, die er nutzt, um komplexe Konzepte des Machine Learning einem breiten Publikum zu vermitteln. Mit seinen beliebten Blogs hat er Millionen von Leserinnen und Lesern erreicht, indem er die Grundlagen der künstlichen Intelligenz erklärt – oft aus psychologischer Sicht. Er ist Autor und Betreuer mehrerer Open-Source-Pakete, die sich auf die Stärke von Large Language Models stützen, wie BERTopic, PolyFuzz und KeyBERT. Seine Pakete werden millionenfach heruntergeladen und von Datenexperten und Organisationen weltweit genutzt.

