Einstieg in die Welt der Large Language Models
Wer verstehen möchte, wie moderne Sprachmodelle wie ChatGPT funktionieren, findet in diesem kompakten Buch den idealen Einstieg. Es vermittelt das nötige Grundlagenwissen, um das Innenleben von Large Language Models (LLMs) zu begreifen, und führt Schritt für Schritt durch die wichtigsten Konzepte – von den Grundlagen des Machine Learnings bis hin zu aktuellen Modellarchitekturen.
Vom Neuronalen Netz zum Transformer
Der Bestseller-Autor Andriy Burkov, bekannt für seine „Hundred-Page“-Reihe, erklärt die komplexen Themen so, dass sie auch für Einsteiger zugänglich bleiben. Er verbindet klare mathematische Erklärungen mit anschaulichen Illustrationen und setzt den begleitenden Python-Code gezielt ein. So werden neuronale Netze, RNNs und Transformer-Modelle verständlich und praktisch greifbar.
Lernen mit Code und Beispielen
Besonders hilfreich sind die ausführbaren Codeschnipsel und PyTorch-Implementierungen in Jupyter Notebooks, die auf der Website zum Buch verfügbar sind. Damit lassen sich die theoretischen Konzepte direkt ausprobieren und nachvollziehen.
Was Sie mit dem Buch erreichen
Das Buch vermittelt nicht nur Theorie, sondern auch praktische Fertigkeiten:
- Verständnis der mathematischen Grundlagen von Machine Learning und neuronalen Netzen
- Aufbau und Training von drei unterschiedlichen Sprachmodell-Architekturen in Python
- Programmierung eines Transformer-Modells in PyTorch von Grund auf
- Anwendung von LLMs mit Techniken wie Prompt Engineering und Finetuning
- Strategien, um Halluzinationen zu vermeiden und Modelle zu bewerten
Aus dem Inhalt
- Grundlagen des Machine Learning
- Grundlagen der Sprachmodellierung
- Rekurrente neuronale Netze
- Transformer
- Große Sprachmodelle (LLMs)
- Fortgeschrittene Themen
Stimmen zum Buch
"Dieses Buch hat für mich eine Menge konzeptioneller Verwirrung darüber beseitigt, wie Machine Learning tatsächlich funktioniert – es ist ein wahres Juwel an Klarheit."
— Vint Cerf
Internet-Pionier und Turing-Preisträger
"Dies ist eines der umfassendsten und dennoch prägnantesten Handbücher, die es gibt, um wirklich zu verstehen, wie LLMs hinter den Kulissen funktionieren."
— Jerry Liu
Mitbegründer und CEO von LlamaIndex
In dieser Leseprobe beschreibt Andriy Burkov, wie rekurrente neuronale Netze (RNNs) funktionieren und warum sie ein wichtiges Fundament für moderne Sprachmodelle bilden. Schritt für Schritt beschreibt er, wie man ein einfaches RNN in PyTorch programmiert, es zu einem Sprachmodell erweitert und mit Trainingsdaten optimiert. Außerdem lernen Sie die Grenzen klassischer RNNs kennen, die Entwicklung hin zu LSTMs und die Ablösung durch Transformer-Architekturen.
Wer hat's geschrieben?
Andriy Burkov hat einen Doktortitel in Künstlicher Intelligenz und ist ein anerkannter Experte für Machine Learning und Natural Language Processing. Bei Fujitsu und Gartner hat er zahlreiche produktionsreife KI-Projekte in verschiedenen Geschäftsbereichen erfolgreich geleitet. Seine Bücher wurden in zwölf Sprachen übersetzt und werden als Lehrbücher an vielen Universitäten weltweit verwendet. Seine Arbeit hat Millionen von Praktikern und Forschern im Bereich Machine Learning weltweit beeinflusst.

