Die wichtigsten KI Begriffe: Das Glossar für Künstliche Intelligenz

Die Welt der künstlichen Intelligenz ist für noch vergleichsweise jung und manchmal wirkt der technische Wortschatz des Bereichs etwas abschreckend. Mit ein paar KI Begriffen können wir aber den Grundwortschatz verstehen und nutzen. In unserem KI Glossar bieten wir eine Übersicht über die wichtigsten Begriffe, sowie Werkzeuge und Methoden. Wir gehen dabei nicht alphabetisch vor, sondern starten bei den grundlegenden Begriffen und bauen Schritt für Schritt darauf auf.

Künstliche Intelligenz (KI)

Künstliche Intelligenz bezeichnet Systeme oder Maschinen, die menschenähnliche Fähigkeiten wie Lernen, Verstehen, Argumentieren und Problemlösen aufweisen.

KI hat mittlerweile eine Vielzahl von Einsatzmöglichkeiten. Sie kann zum Beispiel Aufgaben automatisieren, die früher Menschen übernehmen mussten. Eine KI hat üblicherweise anhand von menschgemachten Trainingsdaten gelernt, sich menschenähnlich zu verhalten. Dieses Verhalten beruht auf mathematischen Wahrscheinlichkeiten. Eine KI hat also kein menschenähnliches Verständnis von sich selbst oder seinen Aufgaben.

Mehr dazu: Die Grundlagen künstlicher Intelligenz

Augmented Intelligence

Augmented Intelligence — auch erweiterte Intelligenz oder enhanced Intelligence — ist ein Unterbereich künstlicher Intelligenz.

Anders als KI bleibt bei Augmented Intelligence der Mensch als entscheidender Faktor am Prozess beteiligt: Während eine Augmented Intelligence Platform zwar Inhalte und Vorgehensweisen vorschlagen kann, wird der Mensch am Ende auswählen und entscheiden.

Somit ist Augmented Intelligence kein Ersatz für menschliche Tätigkeiten, sondern vielmehr eine Unterstützung, welche die Entscheidungskraft beim Menschen belässt.

Ein Beispiel dazu ist eine KI-basierte Wissensdatenbank, aus welcher Mitarbeitende in natürlicher Sprache Unternehmenswissen abfragen können. Auch Alexa und Siri sind prominente Beispiele von Augmented Intelligence.

Mehr dazu: Die Grundlagen von Augmented Intelligence

Artificial General Intelligence (AGI)

Künstliche allgemeine Intelligenz ist eine Stufe der künstlichen Intelligenz, die ähnlich wie ein Mensch ein breites Spektrum an Aufgaben verstehen, lernen und Wissen anwenden kann.

Im Gegensatz zur engen KI, die für bestimmte Aufgaben konzipiert ist, kann sich die AGI an neue Probleme und Situationen anpassen, ohne dafür vorprogrammiert zu sein. Diese Art von KI ist in der Lage, in verschiedenen Bereichen zu argumentieren, Probleme zu lösen und abstrakt zu denken, und hätte im Grunde die Fähigkeit, jede intellektuelle Aufgabe auszuführen, die ein Mensch ausführen kann.

Machine Learning (ML)

Machine Learning ist der Teilbereich der Informatik die sich mit der automatischen Erzeugung von Modellen befasst. Ziel ist es Machine Learner zu entwickeln, die aus Beispielen lernen können Aufgaben zu erledigen. Es gibt viele verschiedene Arten von Machine Learnern und Modellen wie zum Beispiel Deep Learning.

Machine Learning ist ein wichtiger Eckstein für die Entwicklung künstlicher Intelligenz, da mit Machine Learning auch Probleme gelöst werden konnten und können, für die kein Mensch einen Algorithmus formulieren kann.

Machine Learning kann generalisieren und zuvor unbekannte Inputs verarbeiten.
Machine Learning kann mit mehr Trainingsdaten verbessert werden.

Verschiedene Ansätze im Machine Learning sind beispielsweise:

Supervised Learning
Unsupervised Learning
Active Learning / Reinforcement Learning

Algorithmus

Ein Algorithmus ist ein präziser, schrittweiser Satz von Anweisungen zur Lösung eines Problems oder zur Ausführung einer Aufgabe.

Bei der Programmierung wird ein Algorithmus mit Hilfe einer Programmiersprache implementiert, um Daten zu verarbeiten, Entscheidungen zu treffen und automatisierte Prozesse auszuführen. Üblicherweise werden Algorithmen von Menschen erdacht.

Deep Learning

Deep Learning ist ein Teilbereich des maschinellen Lernens, der neuronale Netze mit vielen Schichten umfasst. Diese Netze lernen aus großen Datenmengen, erkennen komplexe Muster und treffen Entscheidungen.

Deep Learning ermöglicht fortgeschrittene KI-Anwendungen wie Bild- und Spracherkennung.

KI Modell

Ein Modell ist immer eine vereinfachte Darstellung der Realität.

Auch ein KI Modell ist immer eine vereinfachte Darstellung der Realität.

Im Kontext von Machine Learning und KI ist ein Modell ein Computer-erzeugtes Programm.

Ein Machine Learner (oder auch nur Learner) ist ein von Menschen geschaffener Algorithmus, der aus Beispiel Inputs und den dazu erwarteten Outputs automatisch ein Programm erzeugt, dass sich entsprechend dieser Beispiele verhält. Ein Modell lernt Muster und Beziehungen innerhalb der Daten und kann so Vorhersagen und Entscheidungen treffen oder Trends erkennen, wenn neue Daten vorliegen. Der wichtige Unterschied zum Algorithmus ist, dass ein Modell nicht direkt von Menschen geschaffen wurde sondern indirekt durch den Aufbau des Machine Learners und der vorhandenen Trainingsdaten definiert wird.

Bekannte KI-Modelle sind derzeit beispielsweise OpenAI, Mistral, Aleph Alpha und Meta. In unserem Überblick von KI Modellen stellen wir die bekanntesten Anbieter und Sprachmodelle gegenüber.

Finetuning

Finetuning bezeichnet die Anpassung eines vortrainierten KI-Modells auf eine spezifische Aufgabe oder einen spezifischen Datensatz. Wir können uns das vorstellen wie eine gezielte Weiterbildung für ein Modell, in der wir es über ein bestimmtes Thema exakt informieren. Dieser Prozess ermöglicht es, dass das KI-Modell in Zukunft noch effektiver lernt und performt, ohne dass es von Grund auf neu trainiert werden muss. Verwendet wird Finetuning insbesondere bei Modellen für maschinelles Lernen von LLMs.

Beispiel: Nehmen wir an, das KI-Modell wäre ein Mensch und zwar Marketingmitarbeiter. Der Mitarbeiter durchläuft nun eine fundierte Datenschutzausbildung. Damit kann er in Zukunft eigenständig und fortlaufend Ressourcen auf Datenschutz optimieren, ohne dass wir ihm für jede Kleinigkeit einen Datenschutzbeauftragten zur Seite stellen müssen. Er ist am Ende noch immer Marketingmitarbeiter, aber mit intensivem Training im Bereich Datenschutz. Auch das Verfolgen und Erlernen neuer Entwicklungen und Praktiken im Bereich Datenschutz fällt ihm jetzt leichter.

Agents

AI Agents sind KI-basierte IT-Systeme, welche basierend auf den ihnen verfügbaren Informationen Daten analyiseren, Entscheidungen treffen und Aufgaben erfüllen können. Beispielsweise kann ein Agent auf die Anweisung „Bestell ein Geburtstagsgeschenk für meine Schwester“ eigenständig nach Geschenken suchen und ein ebensolches bestellen.

Robotik

Die Robotik befasst sich mit der Entwicklung und dem Einsatz von Robotern zur Erfüllung von Aufgaben. Sie verbindet Ingenieurwesen und Informatik und ermöglicht es Robotern, Menschen zu unterstützen, die Effizienz zu steigern oder schwer zugängliche Orte zu erkunden.

Die Kontrolle von Robotern kann mittels trainierter Modelle und/oder vordefinierter Algorithmen erfolgen.

Generative Pre-trained Transformer (GPT)

GPT (Generative Pre-trained Transformer) ist eine Familie fortschrittlicher KI-Modelle, die für das Verständnis und die Erstellung von menschenähnlichem Text entwickelt wurde. Es lernt aus einer großen Menge von Textdaten und kann so auf Aufforderungen reagieren, Fragen beantworten und Inhalte erstellen, die den menschlichen Schreibstil nachahmen. GPT kann für verschiedene Aufgaben eingesetzt werden, darunter Übersetzung, Inhaltserstellung und Konversation.

Die einzelnen Begriffe bedeuten:

Generativ: Erzeugt Inhalte
Pretrained: Vortrainiert, KI lernt durch Konversationen nicht automatisch dazu
Transformer: Architektur des neuronalen Netzes

Generative AI (GenAI)

Generative AI (GenAI) ist eine fortschrittliche Form der künstlichen Intelligenz, die nicht nur vorhandene Daten analysiert, sondern auch in der Lage ist, neue Inhalte zu erstellen. Sie wird trainiert, um Muster und Zusammenhänge aus großen Datenmengen zu lernen.

GenAI kann dann auf dieser Basis eigenständig Dinge wie Texte, Bilder, Musik oder sogar Videos generieren.

Oft wird dabei auch von einer Modalität (z. B. einem Text mit Bildbeschreibung im Prompt) in eine andere (z.B. das generierte Bild selbst) übersetzt.

GenAI nutzt Modelle, die durch maschinelles Lernen trainiert wurden, um Vorhersagen zu treffen und kreative Ergebnisse zu liefern. Beispiele dafür sind ChatGPT, das menschenähnliche Texte schreibt, oder DALL·E, das Bilder aus Textbeschreibungen erstellt.

Large Language Model (LLM)

LLM steht für „Large Language Model“. Ein LLM ist ein KI-Modell, das menschliche Sprache verarbeiten und generieren kann. Es kann für Aufgaben wie Texterstellung, Zusammenfassung und Übersetzung eingesetzt werden.

GPT ist die Basisarchitektur eines LLMs.

Diese Architektur wird in den LLMs vieler verschiedener Hersteller eingesetzt. Nachdem der Name GPT von OpenAI ersonnen wurde, haben LLMs von OpenAI häufig GPT im Namen.

Halluzinationen von LLMs

LLMs setzen Texte aufgrund von Wahrscheinlichkeiten fort.

Diese Wahrscheinlichkeiten haben sie anhand der Trainingsdaten erlernt. Das jeweils wahrscheinlichste nächste Wort ist aber nicht zwangsläufig faktisch richtig, auch wenn die Formulierung überzeugend klingt. Diese falschen oder ungenauen Informationen nennt man „Halluzinationen“.

Je nach KI-Anwendungsfall sind falsche Informationen mehr oder weniger problematisch. Die Korrektheit der von der KI generierten Inhalte zu gewährleisten ist jedenfalls eine große Herausforderung.

Retrieval Augmented Generation (RAG)

Bei einem RAG (Retrieval Augmented Generation) handelt es sich um eine Technik, bei der spezifische Informationen genutzt werden, um von einem LLM relevantere und korrektere Antworten zu bekommen.

Die Funktionsweise von RAGs ist daher besonders bedeutsam bei der Unterdrückung von KI-Halluzinationen.

Chunking (Chunk)

LLMs (und Menschen) haben begrenzte Aufmerksamkeitsspannen. Ein Chunk ist ein vorbereiteter Informationshappen der „mundgerecht“ zur späteren Verarbeitung aufgeteilt wurde. Chunking bezieht sich auf den Prozess des Aufteilens von Daten (Text, Sprache, etc.) in kleinere, handhabbare Einheiten – sogenannte Chunks.

In der Verarbeitung natürlicher Sprache wird Chunking oft eingesetzt, um die Verarbeitungseffizienz zu verbessern und um spezifische linguistische oder semantische Informationen aus den Daten besser extrahieren zu können.

KI Methoden

KI-Methoden sind verschiedene Arten von Aufgaben, welche von KI Modellen erledigt werden können. Sie reichen von Klassifizierung und Regression, die zur Kategorisierung von Daten und zur Erstellung von Vorhersagen verwendet werden, bis hin zur Erkennung von Anomalien und zur Objekterkennung. Sie umfassen auch die Medienerzeugung und autonome Agenten, die Innovationen bei der Erstellung von Inhalten und der Entscheidungsfindung vorantreiben.

Die Methoden künstlicher Intelligenz sind beispielsweise

Klassifikation/Kategorisierung
Regression/Vorhersage
Anomalienerkennung
Entity/Object Recognition
Mediensynthese/-generierung
Autonomous Agents

Datenmodalitäten und Datenquellen im Kontext von KI und ML

Modalität ist der Fachbegriff für verschiedene Arten von Daten, welche von einem KI System verarbeitet werden können. Man kann sie grob mit den verschiedenen Sinnen von Tieren vergleichen. Die folgenden Modalitäten werden unterschieden:

Strukturierte Daten: Daten die nur aus Zahlen oder Kategorien (z.B. Klein, Mittel, Hoch) bestehen und sich in Tabellen darstellen lassen
Natürliche Sprache: Geschriebene Freitexte
Audio: Audio-Aufnahmen von Geräuschen oder auch gesprochener Sprache
Video: Standbilder und Bewegte Bilder

Wenn diese Modalitäten miteinander kombiniert werden, wird auch von Multimodalität gesprochen.

Datenquellen die Daten in verschiedenen Modalitäten enthalten können sind beispielsweise

Web Content
Nutzergenerierte Daten
Marketing- und Verkaufdaten
Wetterdaten
Prozessdaten
Geoinformationen
Produkt-generierte Daten
Logistik und Mobilitätsdaten

Prompt / Prompting

Ein „Prompt“ oder „Prompting“ ist die Eingabe, die einem LLM oder GPT-Modell gegeben wird, um eine Text-Fortsetzung zu erzeugen.

Es kann eine Frage, eine Aussage oder eine Anweisung sein, die dem Modell sagt, was es tun soll.

Dies leitet die KI dazu an, ihr Training zu nutzen, um relevante Ergebnisse zu produzieren. Ein Prompt kann zum Beispiel sein: „Hey Chatbot, gib mir eine Liste aller ungeraden Zahlen von 0 bis 100“.

Ein Prompt kann unterteilt werden in Priming (das Mitgeben von Kontextinformationen), Prompting (die Aufgabe bzw. Frage als solche) und Tuning (das Verfeinern durch nachfragen und optimieren des ersten Outputs).

Natural Language Processing (NLP)

NLP, also natürliche Sprachverarbeitung, ist ein Bereich der KI, der es Computern möglich macht, menschliche Sprache zu verstehen, zu interpretieren und zu erzeugen.

Es kombiniert Computerlinguistik – die regelbasierte Modellierung menschlicher Sprache – mit statistischen, maschinellen Lern- und Deep-Learning-Modellen. Dadurch können Maschinen große Mengen an natürlichsprachlichen Daten verarbeiten und analysieren, was Aufgaben wie Übersetzung, Stimmungsanalyse und Spracherkennung erleichtert.

Text Mining

Text Mining umfasst das Ableiten aussagekräftiger Erkenntnisse aus unstrukturierten Textdaten mittels computerbasierter Algorithmen und statistischer Methoden. Historisch entstand es in den 90er und frühen 2000er Jahren, um große Textmengen zu verarbeiten. Dabei wurden Rohdaten in strukturierte Informationen umgewandelt, die analysiert und genutzt werden konnten, wie etwa das Verfolgen von Marken-Erwähnungen.

Text Mining überschneidet sich stark mit Konzepten wie Natural Language Processing (NLP) und dem maschinellen Lernen. Diese Techniken helfen, menschliche Sprache zu verstehen und zu interpretieren, was Anwendungen wie Sentimentanalyse, Themenmodellierung und automatische Zusammenfassungen ermöglicht.

Die Methode ist mittlerweile etwas in die Jahre gekommen, zeigt jedoch auch noch in einigen modernen Anwendungen seine anhaltende Relevanz.

Common Crawl

Common Crawl ist eine gemeinnützige Initiative, die das Web durchforstet, um umfangreiche Archive von Webseiten, Metadaten und Links zu generieren und kostenlos anzubieten.

Der Common Crawl wird von Forschern, Datenwissenschaftlern, Unternehmern, Webentwicklern und gemeinnützigen Organisationen genutzt, beispielsweise für Webanalyse, maschinelles Lernen, Marktforschung und Überwachung digitaler Rechte.

Die kostenlosen, umfangreichen Datensätze unterstützen Innovation und Forschung in verschiedenen Bereichen, indem sie Einblicke in Internet-Trends, Sprachentwicklung und gesellschaftliche Veränderungen bieten.

(Semantisches) Embedding

Ein Embedding ist eine Darstellung von Daten, bei der Elemente wie Wörter, Bilder, ganze Sätze bzw. Paragraphen oder andere Informationseinheiten so abgebildet werden, dass sich ihre Ähnlichkeit mathematisch berechnen lässt. Mit dieser Technik können komplexe Eigenschaften so erfasst werden, dass sie von maschinellen Lernmodellen verarbeitet werden können.

Bei semantischem Embedding werden Wörter oder Phrasen so abgebildet, dass die semantischen Beziehungen zwischen den Entitäten, wie z. B. Ähnlichkeit in der Bedeutung oder im Kontext, widergespiegelt werden, was Aufgaben wie das Verständnis von Synonymen, Kontext und Stimmung in Textdaten erleichtert.

Ein Beispiel für semantisches Embedding ist, wenn das Wort „Arzt“ und „Mediziner“ nahe beieinander in einem Zahlenraum liegen, weil sie ähnliche Bedeutungen haben.

Mithilfe von semantischen Embeddings werden damit auch Freitexte in Vektoren „übersetzt“, die maschinenlesbar sind. Freitexte werden damit nun potenziell auch für automatisierte Verarbeitungen nutzbar.

Vektordatenbank

Eine Vektordatenbank ist eine Datenbank, welche Vektoren als Datentyp speichern kann und besonders schnell „andere Vektoren in der Nähe von einem Suchvektor“-Suchen durchführen kann.

Wenn man in Embeddings etwas finden möchte, sucht man nach Embeddings „in der Nähe von“ dem was man sucht. Vektorendatenbanken sind also besonders gut für die Suche mit semantischen Embeddings geeignet.

AI Watermarking

KI-Wasserzeichen betten eine Markierung in KI-generierte Inhalte wie Text oder Bilder ein, um deren Herkunft nachzuweisen und das Eigentum zu schützen. Dieses versteckte Wasserzeichen hilft, Missbrauch zu verhindern, da es schwer zu entfernen ist, ohne den Inhalt zu beschädigen.

Nachdem wir die wichtigsten KI Begriffe gelernt haben, wenden wir uns noch einigen bedeutsamen Schlüsselbegriffen aus dem juristischen KI Wortschatz zu.

EU AI Act

Das Gesetz über künstliche Intelligenz der Europäischen Union ist eine bahnbrechende Verordnung, die die ethische Entwicklung und den Einsatz von KI in den Mitgliedstaaten gewährleisten soll und den Schwerpunkt auf Sicherheit, Transparenz und den Schutz der Rechte des Einzelnen legt. Sie kategorisiert KI-Systeme nach Risikostufen und stellt strenge Anforderungen an Anwendungen mit hohem Risiko, um Innovationen innerhalb eines Rahmens ethischer Standards zu fördern.

Wenn Sie mehr darüber wissen wollen, schauen Sie sich die Aufzeichnung unseres Webinars mit den KI-Experten von Aleph Alpha und den IT-Rechtsexperten von DORDA an.

Datengesetz (Data Act)

Das Datengesetz ist ein Gesetz im Rahmen der europäischen Datenstrategie und ergänzt den Data Governance Act. Das Datengesetz gibt Einzelpersonen und Unternehmen das Recht auf Zugang zu den Daten, die durch die Nutzung intelligenter Objekte, Maschinen und Geräte erzeugt werden. Es ist seit 11.01.2024 in Kraft.

Du findest dieses Glossar nützlich?

Teile es doch mit deinem Netzwerk — vielleicht finden es andere auch so hilfreich wie du!

Diesen Beitrag teilen