Unternehmen, die sich mit generativer KI (GenAI) beschäftigen, stellen unweigerlich fest, dass der Erfolg ihrer GenAI-Initiativen von der Datenqualität abhängt. Schlechte Datenqualität wirkt sich auf die Pipelines des maschinellen Lernens (ML) aus und führt zu fehlerhaften Geschäftsentscheidungen und verpassten Chancen. Um Vertrauen in KI-Systeme aufzubauen, müssen Unternehmen neue Ansätze zur kontinuierlichen Verbesserung der Datenqualität finden. 

Zwei Säulen von GenAI: Kern- und Kontextdaten

Im Mittelpunkt von GenAI stehen zwei Arten von Daten: Kerndaten und Kontextdaten. Kerndaten dienen dem Training großer Sprachmodelle (LLMs) und ermöglichen ihnen, komplexe Muster und Strukturen zu entschlüsseln. Dieses grundlegende Wissen ist entscheidend für Ergebnisse, die nicht nur logisch, sondern auch für die jeweilige Aufgabe relevant sind. Kontextdaten hingegen bereichern diesen Prozess, indem sie differenzierte Informationen über bestimmte Situationen oder Umgebungen liefern und so zu maßgeschneiderten und effektiveren GenAI-Ergebnissen führen.

Um qualitativ hochwertige Kerndaten sicherzustellen, sollten Unternehmen Folgendes priorisieren: 

1. Kontextualisierung: Kontextualisierung ist für die Effektivität von GenAI unerlässlich, insbesondere bei der Erstellung maßgeschneiderter Inhalte. Ein bemerkenswertes Beispiel ist ein MedTech-Unternehmen, das die Erfahrungen von medizinischem Fachpersonal (HCPs) durch personalisiertes Marketing verbessert. Dies wird durch die Aggregation und sorgfältige Validierung von Daten aus verschiedenen Quellen erreicht. Dieser umfassende Ansatz zur Datenzusammenführung und Qualitätskontrolle ermöglichte die Erstellung von Datenprodukten, die das Engagement der HCPs deutlich verbesserten und die Personalisierungsleistung von GenAI unter Beweis stellten.

2. Vollständigkeit:  Es ist entscheidend, sicherzustellen, dass die Daten alle relevanten Gruppen und Szenarien abdecken. Beispielsweise müssen Modelle, die weltweit eingesetzt werden, mit Daten aus allen Zielländern trainiert werden.

3. Minderung von Verzerrungen: Iterative Datensatzüberprüfungen und Anwendungen zur Verzerrungserkennung spielen eine wichtige Rolle bei der Minimierung von Modellverzerrungen. Neben dem Datenmanagement spielt die Entwicklung von Eingabeaufforderungen während des Modelltrainings eine entscheidende Rolle bei der Generierung unvoreingenommener, umfassender Ergebnisse.

4. Einhaltung gesetzlicher Vorschriften: Die Einhaltung gesetzlicher Standards, insbesondere in Bezug auf personenbezogene Daten und vertrauliche Daten, ist unerlässlich. Diese Daten müssen entsprechend maskiert oder ausgeschlossen werden, um den gesetzlichen Anforderungen zu entsprechen und Datenschutz und Compliance zu gewährleisten.

Kontextdaten für Crafting-Eingabeaufforderungen

Die Kunst, Eingabeaufforderungen für GenAI-Modelle zu entwickeln, beruht auf drei Kernkonzepten: Klarheit, Spezifität und Vorurteilsbewusstsein. Klare und eindeutige Eingabeaufforderungen verbessern die Genauigkeit der Ergebnisse, während Spezifität sicherstellt, dass die KI den Kontext versteht und effektiv berücksichtigt. Darüber hinaus fördert ein ausgeprägtes Bewusstsein für mögliche Verzerrungen in der Sprache die Entwicklung gerechterer und ausgewogenerer KI-Reaktionen. Dies fördert ein Umfeld, in dem GenAI verantwortungsvoll und ethisch erfolgreich sein kann.

Wesentliche Elemente der Kerndatenqualität

Kerndaten weisen häufig Probleme wie fehlende Werte, Inkonsistenzen und Ungenauigkeiten auf. Diese Herausforderungen beeinträchtigen die Zuverlässigkeit und das Vertrauen in die Daten und beeinträchtigen letztendlich das Training und die Leistung von GenAI-Modellen. Zu den häufigsten Herausforderungen hinsichtlich der Datenqualität, die die Skalierbarkeit von GenAI beeinträchtigen, gehören:

1. Nicht oder schlecht gekennzeichnete Daten: Fehlender Kontext in Datensätzen kann dazu führen, dass große Sprachmodelle (LLMs) falsche Ergebnisse generieren. Dieses Problem wird durch die unterschiedlichen Datenanforderungen in den Geschäfts- und IT-Sektoren noch verschärft und unterstreicht die Notwendigkeit eines zentralen Bestands an gut gekennzeichneten, metadatenreichen Datensätzen. Ohne eine solche Organisation wird die Datensuche zeitaufwändig, und es entstehen Zweifel an Datenqualität und -herkunft. Die Sicherstellung, dass Datensätze qualitätsgeprüft, kuratiert und leicht zugänglich sind, stärkt das Vertrauen in die Daten, vereinfacht den Zugriff, fördert die Zusammenarbeit und garantiert konsistente Messdaten für alle Benutzer. Dies optimiert die Effizienz und Effektivität der Datennutzung für GenAI und andere datengesteuerte Projekte.

2. Unvollständige Daten und fehlende Werte: Unvollständige Daten beeinträchtigen die Modellleistung, da sie eine unvollständige Analyseansicht ermöglichen. Datenqualitätslösungen adressieren dieses Problem, indem sie detaillierte Berichte über Datenausnahmen wie fehlende Werte erstellen, die für Datenverwalter entscheidend sind, um diese zu identifizieren und zu korrigieren. Korrekturmaßnahmen können die Aktualisierung von Werten an der Quelle oder das Setzen von Standardwerten in der Datenpipeline umfassen. Dies gewährleistet saubere Daten für die spätere Verwendung.

Durch die Implementierung von Datenqualitätslösungen wird die Datenqualität systematisch verbessert. Die Überwachung erfolgt über für die Organisationsteams festgelegte Key Performance Indicators (KPIs). KPIs erfassen Verbesserungen der Datengenauigkeit, -vollständigkeit und -aktualität.

3. Datengenauigkeit: Eine Datenqualitätslösung ist unerlässlich, um die Integrität und Zuverlässigkeit der in GenAI-Anwendungen verwendeten Daten zu gewährleisten. Sie erstellt detaillierte Berichte zu Datenproblemen, einschließlich fehlender Werte. Sie unterstützt Datenverwalter bei notwendigen Korrekturen, wie z. B. der Aktualisierung von Werten an der Quelle oder der Festlegung von Standardwerten in der Pipeline für sauberere Daten im weiteren Verlauf.

Die Implementierung von Datenqualitätslösungen führt zu einer deutlich verbesserten Datenqualität, deren Genauigkeit, Vollständigkeit und Aktualität durch KPIs überwacht wird.

Durch proaktives Management der Datenqualität wird sichergestellt, dass GenAI-Modelle mit qualitativ hochwertigen Daten trainiert werden, was die präzise und zuverlässige Generierung aufschlussreicher Ergebnisse verbessert.

4. Datenaktualität: Veraltete Daten können Modelle verfälschen und ihre Relevanz für aktuelle Trends beeinträchtigen. Eine Lösung zur Datenbeobachtung verbessert die Datenaktualität, indem sie Anomalien frühzeitig erkennt, Einblicke in die Aktualität von Datenladungen bietet und veraltete Daten identifiziert. Beispielsweise kann ein Einzelhandelsunternehmen, das alte Transaktionsdaten verwendet, Produktempfehlungen verfälschen. Durch Datenbeobachtung werden aktuelle Daten sichergestellt, wodurch die Empfehlungen des GenAI-Modells zeitnaher und relevanter für eine effektive Kundenbindung werden.

5. Duplikate: Doppelte Dateneinträge können zu Redundanz und verzerrten Analysen führen. Eine Datenqualitätslösung identifiziert Duplikate anhand von Übereinstimmungsregeln, beispielsweise durch den Vergleich von Kundendatensätzen nach Name, E-Mail-Adresse und Telefonnummer. Sie weist Übereinstimmungsbewertungen zu, um die Zuverlässigkeit der Duplikate zu messen, automatisiert die Datensatzzusammenführung bei Übereinstimmungen mit hoher Zuverlässigkeit und markiert andere zur Überprüfung. Diese Methode gewährleistet die Datengenauigkeit für Training und Analyse und verhindert eine verzerrte Modellleistung aufgrund überrepräsentierter Daten.

6. Datenkonsistenz: Inkonsistente Daten beeinträchtigen die kontextübergreifende Anwendbarkeit eines Modells. Wenn beispielsweise ein medizinischer Fachmann in einem CRM-System, aber in einer Marketinganwendung inaktiv ist, ist die Behebung dieser Diskrepanz für eine präzise Datensegmentierung unerlässlich. Um solche Inkonsistenzen zu identifizieren und zu beheben, müssen eine primäre Datenquelle für die Wahrheit ausgewählt und die Datenpipelines entsprechend angepasst werden. Dies gewährleistet eine effektive Generalisierung der Modelle und steigert die Zuverlässigkeit und Leistung von GenAI-Anwendungen.

Skalierung von GenAI für umfassendere Unternehmensanwendungen

Der Erfolg von GenAI-Programmen in Unternehmen hängt eng mit der Datenqualität zusammen. Um GenAI-Programme mit hochwertigen Daten effektiv zu skalieren, können Unternehmen die folgenden sechs strategischen Schritte befolgen:

1. Datenqualitätsstrategie und Unterstützung durch die Geschäftsleitung: Entwickeln Sie eine umfassende Vision rund um die Treiber und Prioritäten des Datenqualitätsmanagements. Die Ausrichtung auf die Geschäftsprioritäten und die Unterstützung durch die Geschäftsleitung sind entscheidend für den Erfolg von Datenqualitätsinitiativen und die Einbindung verschiedener Geschäftsinteressenten.

2. Klein anfangen: Verstehen Sie die Geschäftsziele und die aktuellen Herausforderungen in Bezug auf die Datenqualität. Identifizieren und priorisieren Sie Anwendungsfälle für die Implementierung, z. B. Datenqualität für die Kundendomäne oder einen spezifischen GenAI-Anwendungsfall. Bewerten Sie die erwarteten Ergebnisse der GenAI-Anwendung/des Anwendungsfalls sowie die zugrunde liegenden Daten und relevanten Datenqualitätsstandards/KPIs.

3. Erstellen Sie ein Datenqualitäts-Framework: Definieren Sie Prozesse und Verfahren zur Datenqualität, wie z. B. die Identifizierung kritischer Datenelemente (CDE) oder das Problemmanagement. Entwerfen Sie ein Zielbetriebsmodell, das das Engagement-Modell, die Organisationsstruktur sowie die Rollen und Verantwortlichkeiten (RACI) detailliert beschreibt. Stellen Sie sicher, dass Dateneigentümer und -verwalter identifiziert sind und ihre Rollen auf priorisierte Anwendungsfälle abgestimmt sind.

4. Pilotlösung und Skalierung: Entwickeln Sie eine skalierbare Lösung, die sich an zukünftige Anforderungen anpasst und die Integration neuer Datenquellen, Datensätze und Regeln ermöglicht. Erstellen Sie ein zentrales Repository für wiederverwendbare Regeln, intuitive Dashboards für Datenqualitätsberichte und einen Mechanismus zur Verfolgung von Datenproblemen. Binden Sie das Fachpersonal während der gesamten Implementierung ein, um Feedback zu sammeln und maßgeschneiderte Schulungen für verschiedene Rollen und Personen anzubieten, beispielsweise zu Problemmanagement-Workflows oder der Erstellung neuer kritischer Datenelemente. Identifizieren Sie Datenexperten in Arbeitsgruppen, um die Verbreitung der Ergebnisse zu unterstützen und schrittweise weitere Anwendungsfälle/Geschäftsfunktionen zu integrieren.

5. Datenqualitätsverbesserung: Implementieren Sie einen robusten Korrekturprozess, bei dem Korrekturen direkt an der Quelle durchgeführt werden, um eine Weiterverbreitung von Datenproblemen zu verhindern. Etablieren Sie einen technologiegestützten Workflow für das Problemmanagement, um Ausnahmen zu verfolgen und Korrekturmaßnahmen zu ergreifen. Halten Sie regelmäßige Data-Governance-Meetings mit den Beteiligten ab, um eine schnelle Problemlösung zu gewährleisten.

6. Kontinuierliche Überwachung und Verbesserung der Datenqualität: Behandeln Sie das Datenqualitätsmanagement als einen fortlaufenden Prozess, der eine regelmäßige Überwachung anhand definierter Metriken und KPIs, das Erkennen von Anomalien in Datenflüssen, das Benachrichtigen von Datenverwaltern und das Verfolgen von Datenqualitätsproblemen bis zu ihrer Lösung umfasst.

Machen Sie Datenqualität zur Aufgabe Nr. 1

Hochwertige, vertrauenswürdige Daten bilden das Rückgrat jeder erfolgreichen GenAI-Initiative. Unternehmen müssen bei der Definition ihrer GenAI-Anwendungsfälle und -Ziele die Datenbereitschaft priorisieren. Vernachlässigt man die Datenqualität, kann dies zu geringeren KI-Ambitionen und verpassten Innovations- und Wachstumschancen führen.

KONTAKTIEREN SIE UNS