KI-Projekte: Beratung, Planung & Schulung

Projekt Details

KI für Sachverständige: Entwurf von Gutachten — sicher, schnell, nachvollziehbar

Vom Akteneingang zum belastbaren Textentwurf – mit RAG & Finetuning unter fachlicher Kontrolle und menschlicher Entscheidung.

Ich arbeite zur Zeit an dem KI-Projekt für ein maßgeschneidertes KI-Tool für Sachverständige — mit klarem Fokus auf dem «Entwurf eines Gutachtens».

Dieser Business Case ist ein gutes Beispiel für den Einsatz von «zum Teil automatisierbarer, aber vor allem unterstützender KI», da viele Daten und Informationen vorliegen und das Umfeld stabil ist, bei bei geringer bis mittlerer Komplexität und Unsicherheit, die Letztverantwortung aber immer bei Sachverständigen liegt.

Strategisches Konzept zur Implementierung von Large Language Models (LLMs) für Unternehmen

Einleitung: Ihr strategischer Kompass in der KI-Landschaft

Der Markt für Künstliche Intelligenz (KI) und insbesondere für Large Language Models (LLMs) durchläuft derzeit eine Phase des rasanten, nahezu exponentiellen Wachstums. Aktuelle Schätzungen beziffern den globalen LLM-Markt auf einen Wert von rund 4,66 Milliarden USD im Jahr 2024, mit einer prognostizierten Steigerung auf 69,83 Milliarden USD bis 2032. Dies entspricht einer beeindruckenden jährlichen Wachstumsrate (Compound Annual Growth Rate, CAGR) von 35,1 %. Dieses dynamische Wachstum wird maßgeblich durch den steigenden Bedarf von Unternehmen an Prozessautomatisierung, fortgeschrittener Datenanalyse und der Generierung personalisierter Inhalte getrieben.

In Deutschland spiegelt sich dieser Trend wider. Die Nachfrage nach spezialisierten KI-Beratungsdienstleistungen ist signifikant und generiert ein jährliches Potenzial von über 1,3 Millionen Euro. Die Marktlage ist von intensivem Wettbewerb geprägt, in dem sich eine Vielzahl etablierter Akteure wie Accenture und mindsquare mit spezialisierten Anbietern wie Cudos oder Botfriends messen.

Angesichts dieser komplexen und schnelllebigen Entwicklung ist die bloße Kenntnis technischer Werkzeuge nicht ausreichend. Dieser Bericht ist als strategischer Leitfaden konzipiert, der die wesentlichen technologischen, operativen und rechtlichen Aspekte einer erfolgreichen LLM-Implementierung strukturiert und bewertet. Er erweitert die initialen Überlegungen um kritische Dimensionen und positioniert das angebotene Beratungskonzept als unverzichtbaren Partner, um aus den technologischen Möglichkeiten einen greifbaren und nachhaltigen Geschäftswert zu schaffen.

1. Strategische Fundamente für den KI-Einsatz

Die erfolgreiche Einführung von KI-Technologien in einem Unternehmen beginnt nicht mit der Auswahl der Werkzeuge, sondern mit einer klaren strategischen Ausrichtung. Ohne eine gut definierte Strategie können Projekte schnell ihren Fokus verlieren und die zugewiesenen Ressourcen ineffizient eingesetzt werden.

1.1. Von der Vision zum Wert: Identifizierung von Use Cases und Business Value

Der erste und entscheidende Schritt in jedem KI-Projekt ist die genaue Definition des Problems, das gelöst werden soll. Eine KI-Initiative muss stets darauf abzielen, einen klaren Mehrwert für die übergeordneten Geschäftsziele des Unternehmens zu generieren. LLMs können in vielfältigen Bereichen eingesetzt werden, um operative Effizienz zu steigern und Wettbewerbsvorteile zu erzielen. Beispiele für solche Anwendungsfälle umfassen:

Automatisierung von Inhalten: LLMs sind in der Lage, personalisierte Marketingmaterialien, Produktbeschreibungen und andere textbasierte Inhalte effizient zu generieren und so die Produktivität im Marketing zu steigern.
Verbessertes Wissensmanagement: Durch die Erstellung interner, interaktiver Wissensdatenbanken können Mitarbeiter schnell und präzise auf Unternehmensinhalte zugreifen. Tools wie NotebookLM demonstrieren, wie diverse Quellen – von Dokumenten über Videos bis zu Websites – in eine kohärente Wissensbasis überführt werden können, um Fragen automatisch zu beantworten und sogar Zusammenfassungen, Zeitlinien oder FAQs zu erstellen.
Datengestützte Entscheidungsfindung: LLMs können große Mengen an Projektdaten analysieren und zusammenfassen, was Führungskräften ermöglicht, schnellere und fundiertere Entscheidungen zu treffen. Im Bereich des Vertriebs kann ein KI-Agent beispielsweise benutzerdefinierte Berichte über die Leistung von Vertriebsmitarbeitern erstellen, indem er Daten aus CRM-Systemen verarbeitet.

Die Erstellung eines Prototyps für einen spezifischen Anwendungsfall ist eine Best Practice, um das Potenzial und den Business Value der Lösung greifbar zu machen. Dieser iterative Ansatz ermöglicht es, die Machbarkeit zu validieren, die Akzeptanz im Team zu fördern und die Anforderungen für das finale Produkt zu präzisieren.

1.2. Der KI-Stack als Architekturgrundlage

Die Implementierung eines LLMs ist mehr als nur die Integration eines Modells; sie erfordert die Konzeption eines ganzheitlichen „KI-Stacks“. Dieser Stack bildet das technologische Fundament des Projekts und umfasst die Interaktion verschiedener Komponenten, von der Hardware bis zu den Software-Frameworks. Ein gut durchdachter KI-Stack umfasst typischerweise:

Software und Modelle: Die Auswahl zwischen proprietären (z. B. GPT von OpenAI) und Open-Source-LLMs (z. B. LLaMA oder Mistral) ist hier von grundlegender Bedeutung.
Service-Anbieter: Dies schließt sowohl Cloud-Anbieter (wie AWS, Microsoft Azure, Google Cloud) als auch spezialisierte Hosting-Dienste ein.
Frameworks und Tools: Komponenten wie Vector-Datenbanken (für RAG), LLM-Frameworks (z. B. LangChain), APIs und Monitoring-Lösungen sind entscheidend für eine reibungslose Implementierung und den langfristigen Betrieb.

Die Architektur des KI-Stacks muss auf die spezifischen Anforderungen des Kunden an Datenschutz, Kosten, Skalierbarkeit und Anpassbarkeit abgestimmt werden.

2. Technologische Bausteine und ihre Anwendung

Die technologische Landschaft im Bereich der LLMs ist komplex und entwickelt sich rasant. Eine fundierte Beratung muss die verfügbaren Optionen klar darstellen und ihre Eignung für verschiedene Anwendungsfälle bewerten.

2.1. Auswahl der richtigen LLM-Grundmodelle

Die Wahl des richtigen Sprachmodells hängt stark von den Projektzielen und den strategischen Prioritäten ab. Hierbei gibt es zwei Hauptansätze: die Nutzung proprietärer Cloud-Modelle und die Implementierung lokaler Open-Source-Modelle.

Proprietäre LLMs: Die Modelle von OpenAI und Google, wie GPT und Gemini Pro, sind branchenführend in Leistung und Vielseitigkeit. Sie werden typischerweise über APIs genutzt, was den Zugriff auf die neuesten Fähigkeiten und Multimodalität ermöglicht.
- Custom Instructions und GPTs: In ChatGPT ermöglichen Custom Instructions eine einfache, aber effektive Personalisierung des Modells, indem das Verhalten und die Tonalität für zukünftige Konversationen angepasst werden. Sie sind ideal, um das Modell in eine bestimmte Rolle zu versetzen, beispielsweise als Jurist oder Content-Creator. Darüber hinaus bieten GPTs eine Möglichkeit, spezifische Anweisungen und Daten zu bündeln, um wiederverwendbare KI-Agenten zu schaffen.
- Google Gemini Pro: Die Gemini-Plattform geht mit Features wie Deep Research noch einen Schritt weiter. Diese agentenbasierte Funktion kann das Web autonom durchsuchen, die gefundenen Informationen bewerten und komplexe Berichte erstellen. Dies stellt eine fortschrittliche Form der datengestützten Wissensbeschaffung dar, die weit über einfache Prompts hinausgeht.
Lokale LLM-Infrastruktur: Der Betrieb von Open-Source-Modellen auf eigener Hardware ist eine attraktive Option für Projekte, bei denen Datenschutz und Kostenkontrolle im Vordergrund stehen. Tools wie GPT4All, LM Studio und Ollama vereinfachen diesen Prozess erheblich.
- LM Studio: Dieses Tool ist besonders für Einsteiger geeignet, da es eine intuitive grafische Benutzeroberfläche (GUI) bietet, die den Download, die Konfiguration und die Interaktion mit Modellen ohne Programmierkenntnisse ermöglicht. Es unterstützt zudem die Nutzung mehrerer GPUs zur Leistungssteigerung.
- Ollama: Für Entwickler und die Automatisierung von Arbeitsabläufen ist Ollama die präferierte Wahl. Es arbeitet über eine Befehlszeilenschnittstelle (CLI) und nutzt ein containerbasiertes System, was eine einfache Integration in automatisierte Pipelines erlaubt.
- GPT4All und AnythingLLM: Während GPT4All über eine integrierte PDF-Chat-Funktion verfügt, spezialisiert sich AnythingLLM als übergeordnetes Framework auf die Konversationsfähigkeit mit Dokumenten.
Die Entscheidung für lokale Modelle ist oft eine strategische Abwägung zwischen der Benutzerfreundlichkeit und dem Zugang zu den modernsten Funktionen proprietärer Modelle einerseits und der vollständigen Kontrolle über Daten und Kosten andererseits. Bei hohem Nutzungsvolumen können lokale Modelle auf lange Sicht kosteneffektiver sein, da keine transaktionalen Gebühren anfallen.

2.2. Wissensmanagement und Personalisierung durch Daten

Die Qualität der Antworten eines LLM hängt direkt von der Qualität und Organisation der Daten ab, die es verarbeitet. Die Datenaufbereitung ist daher ein entscheidender Prozessschritt, der nicht unterschätzt werden darf.

Aufbau von Wissensdatenbanken: Der Aufbau einer Wissensdatenbank bildet die Grundlage für jede RAG-Anwendung. Das Google-Tool NotebookLM veranschaulicht diesen Prozess, indem es die Möglichkeit bietet, bis zu 50 verschiedene Dokumente (PDFs, Google Docs, URLs) mit einer Gesamtkapazität von bis zu 25 Millionen Wörtern zu verarbeiten und in eine interaktive Wissensbasis zu verwandeln.

Der Data Science Workflow: Die Erstellung und Pflege dieser Wissensdatenbanken folgt einem strukturierten Data Science Workflow, der typischerweise aus mehreren iterativen Phasen besteht. Ein gängiges Vorgehensmodell ist das CRISP-DM-Modell, das mit einem klaren geschäftlichen Verständnis beginnt, gefolgt von der Datenerfassung, der Datenaufbereitung, der Modellierung, der Evaluierung und der finalen Bereitstellung. Der entscheidende Schritt hierbei ist die Datenaufbereitung, in der die Rohdaten bereinigt und für die Vektorisierung und das Training vorbereitet werden. LLMs können in diesem Prozess zur Zusammenfassung und Kategorisierung von Textdaten eingesetzt werden, sind jedoch für die Analyse von numerischen Daten weniger geeignet.

Das Data Science Canvas: Das Data Science Canvas ist ein visuelles Werkzeug zur Strukturierung, Planung und Kommunikation von Data-Science-Projekten. Es dient als eine Art Leinwand oder Vorlage, um alle wesentlichen Aspekte eines Projekts auf einer einzigen Seite zu erfassen und einen gemeinsamen Überblick für alle Beteiligten zu schaffen. Ein typisches Data Science Canvas gliedert sich in folgende Kernkomponenten, die den gesamten Lebenszyklus eines Projekts abdecken:

Business Problem: Welches Geschäftsproblem soll gelöst werden? Was ist das Ziel?
Business Success Criteria: Woran messen wir den Erfolg des Projekts aus geschäftlicher Sicht?
Data: Welche Daten werden benötigt? Woher kommen sie? Wie ist ihre Qualität?
Data Success Criteria: Wann gilt das Daten-Sammeln und die Aufbereitung als erfolgreich?
Machine Learning Problem: Welches maschinelle Lernmodell oder welche Analyse-Methode wird verwendet?
Machine Learning Success Criteria: Wann ist das Modell technisch erfolgreich (z. B. durch Messung von Genauigkeit, Präzision)?
Risks & Assumptions: Welche Annahmen werden getroffen und welche Risiken bestehen?
Ethical Considerations: Welche ethischen Aspekte müssen berücksichtigt werden?
Team: Wer ist am Projekt beteiligt und welche Rollen gibt es?

Das Konzept hilft, den Fokus auf die richtigen Fragen zu legen und sicherzustellen, dass das technische Vorgehen (das „Was“) eng mit den Geschäftszielen (das „Warum“) verknüpft ist. Es fördert Transparenz und eine klare, ganzheitliche Denkweise während des gesamten Projekts.

Data Science Canvas Herunterladen

Der Aufbau einer Wissensdatenbank ist somit nicht nur das Sammeln von Dateien, sondern ein sorgfältiger Prozess der Datenkuratierung und -strukturierung. Die Qualität des KI-Outputs wird maßgeblich von der Qualität der Eingabedaten bestimmt.

2.3. Spezialisierung und Kontextualisierung: RAG vs. Fine-Tuning

Um ein LLM auf spezifische Unternehmensanforderungen anzupassen, stehen zwei Hauptmethoden zur Verfügung: Retrieval Augmented Generation (RAG) und Fine-Tuning. Die Entscheidung zwischen diesen beiden Ansätzen ist eine strategische, die den gesamten Projektlebenszyklus beeinflusst.

Retrieval Augmented Generation (RAG):
- RAG kombiniert ein vortrainiertes, allgemeines LLM mit einer externen Wissensdatenbank. Bei einer Anfrage durchsucht das System die Wissensdatenbank nach relevanten Informationen, die dann als zusätzlicher Kontext an das LLM übergeben werden, um eine fundierte Antwort zu generieren.
- Vorteile: RAG-Systeme können auf aktuelle und dynamische Daten zugreifen , reduzieren das Risiko von Halluzinationen, da die Antworten auf zitierbaren Quellen basieren , und ermöglichen es, sensible Daten privat aufzubewahren. Die Implementierung ist schneller und kostengünstiger als ein komplettes Retraining des Modells.
- Anwendungsfälle: Ideal für dynamische Wissensmanagement-Systeme, Kundensupport oder die Analyse von internen Dokumenten, wie im Fallbeispiel des privaten RAG-Systems StarkMind gezeigt.
Fine-Tuning:
- Fine-Tuning ist der Prozess, bei dem ein vortrainiertes LLM mit einem kleineren, domänenspezifischen Datensatz weiter trainiert wird, um seine internen Parameter und Gewichte zu modifizieren.
- Vorteile: Fine-Tuning kann ein tiefes Verständnis für spezifische Domänen, Fachterminologie und eine gewünschte Tonalität vermitteln. Im Gegensatz zu einem weit verbreiteten Irrtum kann es dem Modell neues Wissen einimpfen.
- Anwendungsfälle: Besonders geeignet für Branchen mit spezifischer Fachsprache, wie das Rechts-, Finanz- oder Gesundheitswesen, in denen die genaue Interpretation von Prompts und die Erzeugung präziser Antworten entscheidend sind.
Die Entscheidung zwischen den beiden Methoden ist eine Abwägung: RAG ist schneller implementiert und einfacher zu aktualisieren, erfordert jedoch eine komplexe Laufzeitinfrastruktur zur Datenbankabfrage. Fine-Tuning ist anfangs ressourcen- und kostenintensiver, da eine rechenintensive Trainingsphase notwendig ist, erfordert aber danach eine einfachere Laufzeitarchitektur. Viele Projekte profitieren von einem hybriden Ansatz, bei dem RAG für die Bereitstellung dynamischer Daten und Fine-Tuning für die Anpassung von Tonalität und Domänenwissen genutzt wird.

Kriterium	Retrieval Augmented Generation (RAG)	Fine-Tuning
Anwendungsfall	Dynamische Daten, Wissensmanagement, Echtzeit-Updates	Spezialisiertes Domänenwissen, Tonalitätsanpassung, präzise Antworten
Datenanforderungen	Aktuelle, gut organisierte Wissensdatenbank	Hochqualitativer, domänenspezifischer Datensatz für das Training
Implementierung	Schnellerer Start; komplexere Laufzeitinfrastruktur (Datenbank-Abfrage)	Langsamere, ressourcenintensive Trainingsphase; einfachere Laufzeitarchitektur
Kosten	Geringere initiale Kosten; höhere Laufzeitkosten pro Abfrage	Hohe initiale Kosten für das Training; geringere Laufzeitkosten
Ergebnisqualität	Kann Quellen zitieren, reduziert Halluzinationen, antwortet mit aktuellen Daten	Bietet tiefes Verständnis, konsistente Tonalität, höhere Genauigkeit in spezifischen Aufgaben
Aktualisierung	Einfache Aktualisierung der Wissensdatenbank ohne Retraining	Erfordert erneutes Training mit neuen Daten

2.4. LLM-Prototyping und Entwicklung

Die Erstellung eines Prototyps ist ein entscheidender Schritt zur Validierung eines Use Case und zur Vorbereitung der finalen Implementierung. Frameworks wie LangChain spielen hier eine zentrale Rolle, indem sie den Entwicklungsprozess modularisieren und beschleunigen.

LangChain bietet eine Pipeline, die es Entwicklern ermöglicht, die verschiedenen Komponenten eines KI-Systems (wie LLMs, Prompt-Vorlagen und Vector-Datenbanken) miteinander zu verbinden. Ein einfacher Prototyp für einen RAG-Anwendungsfall kann beispielsweise externe Textdateien als Wissensquelle nutzen.

Es ist von entscheidender Bedeutung, bereits in der Prototyping-Phase die Abnahmekriterien zu definieren. Die spätere Evaluierung und Abnahme des Projekts basieren auf Metriken, die in dieser frühen Phase festgelegt und gemessen werden. Die erfolgreiche Prototypen-Phase ist somit nicht nur ein technischer Nachweis, sondern schafft auch die Grundlage für die professionelle Evaluierung und Mängelbeseitigung im weiteren Projektverlauf.

3. Planung, Infrastruktur und Betrieb

Die Infrastruktur- und Betriebsstrategie ist das Rückgrat jedes KI-Projekts. Sie bestimmt die langfristige Skalierbarkeit, Sicherheit und Rentabilität.

3.1. Infrastrukturstrategie: Cloud vs. On-Premise

Die Entscheidung zwischen einer Cloud-basierten und einer On-Premise-Infrastruktur ist eine strategische Weichenstellung, die von Faktoren wie Datenvolumen, Sicherheitsanforderungen und Budget abhängt.

Cloud-Lösungen (AWS, Azure, GCP):
- Vorteile: Cloud-Anbieter ermöglichen einen schnellen Start und erfordern geringe Anfangsinvestitionen. Sie bieten zudem eine hohe Flexibilität und Skalierbarkeit, um schwankende Lasten zu bewältigen.
- Nachteile: Die Kosten können bei hohem Nutzungsvolumen unvorhersehbar und auf lange Sicht deutlich höher sein als bei einer On-Premise-Lösung. Darüber hinaus besteht das Risiko, dass US-Behörden durch den US CLOUD Act Zugriff auf in der Cloud gespeicherte Daten erhalten, unabhängig vom geografischen Speicherort.
On-Premise-Lösungen:
- Vorteile: Eine On-Premise-Lösung bietet die höchste Sicherheit, da die Daten vollständig unter der Kontrolle des Unternehmens bleiben. Sie ermöglicht eine präzisere Kostenkontrolle und kann bei hohem Transaktionsvolumen kosteneffektiver sein.
- Nachteile: Sie erfordert eine hohe Anfangsinvestition und eine längere Einrichtungszeit.
Hybride Ansätze und Datensouveränität:
- Viele Unternehmen setzen auf einen hybriden Ansatz, der die Vorteile beider Modelle kombiniert. Darüber hinaus bietet die Zusammenarbeit mit europäischen Anbietern wie der Deutschen Telekom eine Lösung für die Problematik der Datensouveränität. Die Deutsche Telekom ermöglicht es, die Vorteile der globalen Cloud-Infrastrukturen zu nutzen, während die Kontrolle über die Daten mittels External Key Management (EKM) gewahrt bleibt. Dies stellt sicher, dass die kryptografischen Schlüssel, und somit die Kontrolle über die Daten, außerhalb der Infrastruktur des Cloud-Anbieters verbleiben und so vor ausländischen Rechtsrahmen geschützt sind. Dieser architektonische Ansatz verwandelt Datensouveränität von einem geografischen in ein technisches Konzept.

Kriterium	Cloud-Infrastruktur	On-Premise-Infrastruktur
Kosten	Geringere Anfangsinvestition; variable, potenziell hohe Gesamtkosten bei hoher Nutzung (TCO)	Hohe Anfangsinvestition; kalkulierbare, potenziell geringere Gesamtkosten bei Skalierung
Sicherheit	Abhängig vom Anbieter; potenzielles Risiko durch US CLOUD Act	Höchste Kontrolle und Schutz der Daten
Kontrolle	Eingeschränkte Kontrolle über Hardware und physikalische Infrastruktur	Volle Kontrolle über gesamte Infrastruktur und Daten
Skalierbarkeit	Elastisch und hoch skalierbar; ideal für schwankende Lasten	Skalierung erfordert manuelle Planung und Investition
Latenz	Abhängig von Netzwerkverbindung und Standort	Geringe Latenz für kritische Echtzeitanwendungen
Betrieb	Vom Anbieter verwaltet; geringer operativer Aufwand für das Unternehmen	Vollständige Eigenverwaltung; hoher operativer Aufwand

3.2. Planung von KI-Servern und -PCs

Die Hardware-Anforderungen für KI-Projekte sind hoch und unterscheiden sich signifikant je nach Anwendungsfall. Es muss klar zwischen den Anforderungen für Training und Inferenz unterschieden werden.

Anforderungen für Training: Das Training großer Sprachmodelle erfordert eine massive Rechenleistung und insbesondere eine hohe VRAM-Kapazität. Systeme für das Training von Basismodellen können mehr als 130 GB VRAM und bis zu 512 GB RAM benötigen und sind oft mit mehreren High-End-GPUs ausgestattet.
Anforderungen für Inferenz: Die Inferenz, also die Anwendung des trainierten Modells, hat andere Prioritäten. Hier stehen Latenz und Skalierbarkeit im Vordergrund. Die Hardware sollte eine hohe Anzahl an CPU-Kernen, ausreichend RAM (mindestens 128 GB) und schnelle NVMe-SSDs für einen schnellen Zugriff auf Modelldaten bieten.
Spezifische Analyse der NVIDIA RTX 2000 Ada Generation: Die NVIDIA RTX 2000 Ada Generation ist mit 16 GB GDDR6 VRAM eine vielseitige, aber spezialisierte Lösung. Sie eignet sich aufgrund ihrer Leistungseffizienz und kompakten Bauweise ideal für die Inferenz von LLMs, die in den 16 GB VRAM passen. Auch für das Fine-Tuning kleinerer Modelle, beispielsweise mit Techniken wie QLoRA, ist sie gut geeignet. Sie ist jedoch nicht für das Training großer Basismodelle ausgelegt, da die benötigte VRAM-Kapazität dafür deutlich höher ist. Dies zeigt, dass die Auswahl der Hardware keine generische Entscheidung ist, sondern eine präzise Abstimmung auf den jeweiligen Anwendungsfall erfordert.

3.3. Professionelles Projektmanagement im KI-Kontext

KI-Projekte erfordern ein adaptiertes Projektmanagement, das die einzigartigen Herausforderungen dieser Technologie berücksichtigt. Ein strukturiertes Vorgehen, wie es in der traditionellen Softwareentwicklung üblich ist, muss um spezifische KI-relevante Phasen und Kriterien erweitert werden.

Planung und Pflichtenheft: Ein detailliertes Pflichtenheft bildet die verbindliche Grundlage zwischen dem Auftraggeber und dem Dienstleister. Es muss neben den klassischen Aspekten wie Projektzielen und Zeitplänen auch spezifische technische Anforderungen wie Datenmodelle, Schnittstellen und Sicherheitsanforderungen präzise definieren.
Evaluierung und Abnahme: Die Abnahme eines KI-Systems kann nicht allein auf traditionellen Metriken basieren. Die Evaluierung muss spezifische KI-Performance-Metriken berücksichtigen.
- Metriken: Zu den wichtigsten Metriken gehören die Genauigkeit, die Kohärenz und die Perplexität. Ebenso müssen ethische Aspekte wie die Toxizität der Ausgaben bewertet werden.
- Methoden: Experten empfehlen, einen festen „Golden Set“ von Prompts zu verwenden, der von Fachexperten kuratiert wurde, um die Qualität und die Regressionen bei neuen Modellversionen konsistent zu testen. Der Einsatz von automatisierten Bewertungen durch ein zweites LLM („LLM-as-a-Judge“) kann die Effizienz der Evaluierung steigern und menschliche Experten entlasten.

4. Rechtliche Rahmenbedingungen und verantwortungsvolle KI

Die erfolgreiche Implementierung von KI-Systemen hängt maßgeblich von der Einhaltung rechtlicher und ethischer Standards ab. Diese sind nicht als optionale Ergänzungen, sondern als fundamentale Säulen des Projektmanagements zu betrachten.

4.1. Compliance und Datenschutz (DSGVO)

Die Nutzung von LLMs in einem Unternehmenskontext wirft unweigerlich Fragen zur Datenschutz-Grundverordnung (DSGVO) auf. Ein kürzlich veröffentlichtes Diskussionspapier des Hamburgischen Beauftragten für Datenschutz und Informationsfreiheit (HmbBfDI) stellt klar, dass LLMs per se keine personenbezogenen Daten speichern.

Die DSGVO-Relevanz entsteht vielmehr in der Systemarchitektur um das LLM herum. Das betrifft insbesondere die Verarbeitung personenbezogener Daten im Input (Prompt) und im Output des KI-Systems. Die Verantwortung liegt beim betreibenden Unternehmen, sicherzustellen, dass die Verarbeitung dieser Daten gesetzeskonform erfolgt. Die Entscheidung für lokal installierte LLM-Tools (wie Ollama oder LM Studio) bietet hier einen inhärenten Vorteil, da die Datenverarbeitung komplett auf der eigenen Hardware stattfindet und die Daten das Gerät nicht verlassen.

Eine weitere Herausforderung stellt der US CLOUD Act dar, der es US-Behörden erlaubt, von US-Dienstleistern Daten anzufordern, selbst wenn diese außerhalb der USA gespeichert sind. Obwohl Cloud-Anbieter wie AWS betonen, dass dies in der Praxis nicht zu Offenlegungen von Unternehmensdaten außerhalb der USA geführt hat , muss dieses rechtliche Risiko bei der Wahl eines US-Cloud-Providers sorgfältig abgewogen werden.

4.2. Der EU AI Act: Pflichten und Haftung

Der EU AI Act, der seit August 2024 schrittweise in Kraft tritt, stellt einen neuen und umfassenden Rechtsrahmen für KI-Systeme in Europa dar. Die Verordnung verfolgt einen risikobasierten Ansatz und definiert klare Pflichten für Anbieter (Hersteller der KI) und Betreiber (Unternehmen, die die KI nutzen).

Einstufung und Pflichten:
- Hochrisiko-KI: Wird ein KI-System als Hochrisiko eingestuft (z. B. zur Bewertung der Kreditwürdigkeit), sind die Pflichten besonders umfangreich. Betreiber müssen unter anderem ein Risikomanagementsystem einrichten, eine technische Dokumentation erstellen, Protokolle führen und eine menschliche Aufsicht sicherstellen, die in der Lage ist, die Entscheidungen der KI zu hinterfragen und zu korrigieren.
- Allgemeine KI-Modelle (GPAI): Auch Modelle wie ChatGPT, die nicht als Hochrisiko eingestuft werden, unterliegen Transparenzpflichten. Ihre Anbieter müssen detaillierte technische Dokumentationen und Gebrauchsanweisungen bereitstellen, um den Betreibern die Einhaltung ihrer Pflichten zu ermöglichen.

Klassifizierung	Anbieterpflichten (Auswahl)	Betreiberpflichten (Auswahl)
Hochrisiko-KI	– Risikomanagementsystem einrichten und dokumentieren. – Technische Dokumentation erstellen. – Aufzeichnungspflichten einhalten. – Menschliche Aufsicht ermöglichen.	– Nutzungsanweisungen des Anbieters befolgen. – Eigene Überwachung und Aufsicht sicherstellen. – Aufbewahrungspflicht der Protokolle. – Ggf. Benachrichtigung der Behörden bei Problemen.
GPAI (General Purpose AI)	– Technische Dokumentation des Modells bereitstellen. – Trainingsdaten zusammenfassen. – Urheberrechte bei der Datennutzung beachten. – Mit den Behörden kooperieren.	– Angemessene Prüfung der Anbieterdokumentation empfohlen. – Keine spezifischen Pflichten in der Verordnung, aber Compliance-Prüfung bei systemischem Risiko ratsam.

Haftung: Ein Unternehmen, das ein Standard-LLM in einem kritischen Prozess einsetzt und es unter eigenem Namen betreibt, wird im Sinne des AI Acts selbst zum Anbieter und muss die vollen Compliance-Anforderungen erfüllen. Die Beratung muss daher frühzeitig die Rolle des Kunden und die daraus resultierende Haftung klären, um rechtliche und finanzielle Risiken zu minimieren.

5. Design Thinking

Design Thinking ist ein kreativer, nutzerzentrierter Ansatz zur Problemlösung, der sich auf Empathie, Prototyping und iterative Verbesserungen konzentriert, um innovative Lösungen zu entwickeln. Lesen Sie meinen Artikel über Design Thinking im IT-KI-Blog.

6. Fazit und Empfehlungen

Die erfolgreiche Integration von LLMs in Unternehmensprozesse ist eine komplexe strategische Aufgabe, die weit über die rein technische Implementierung hinausgeht. Die vorliegende Analyse unterstreicht, dass der Erfolg eines Projekts von der kohärenten Verknüpfung technologischer Möglichkeiten mit strategischer Planung, operativer Umsetzung und der Einhaltung rechtlicher Rahmenbedingungen abhängt.

KI-Projekte: Beratung, Planung und Schulung