Dienstag, 2. Dezember 2025

Generative KITrainingsdaten in Form bringen

[28.08.2023] Guter Input ergibt guten Output – diese einfache Regel gilt auch für die Daten, mit denen KI-Anwendungen trainiert werden. Je besser Daten aufbereitet sind, desto effizienter ist die Entwicklung und desto sicherer die spätere KI-Lösung.
Guter Input ergibt guten Output – diese einfache Regel gilt auch für die Daten

Guter Input ergibt guten Output – diese einfache Regel gilt auch für die Daten, mit denen KI-Anwendungen trainiert werden.

(Bildquelle: 123rf.com/peshkova)

Anwendungen, die Daten mithilfe Künstlicher Intelligenz (KI) oder maschinellem Lernen (ML) verarbeiten, werden derzeit breit diskutiert. Die Debatte konzentriert sich dabei vor allem auf ethische und sicherheitsrelevante Aspekte und damit auf Fragen des richtigen Einsatzes von (generativer) KI. Die Frage nach der Qualität solcher Anwendungen, die wiederum von den Daten abhängt, mit denen die Algorithmen trainiert werden, wird in der öffentlichen Diskussion vernachlässigt. Zu diesem Schluss kommt das Schweizer Data-Intelligence-Unternehmen Aparavi. Aparavi schätzt, dass bis zu 80 Prozent der Daten, die für das KI-Training infrage kommen, unstrukturiert sind. In diesen Beständen verbergen sich nicht nur veraltete Dokumente oder risikobehaftete Daten, sondern auch wichtige und wertvolle Informationen. Solche Datenbestände müssten schon vorab klassifiziert und bereinigt werden.

Sensible Daten aussieben

Eine saubere Data Collection ist für eine sinnvolle, effektive Entwicklung von KI-Apps essenziell. Denn die Qualität des Outputs bei der KI-Entwicklung hängt zwangsläufig von der Qualität des Inputs ab – je gepflegter die Trainingsdaten, desto höher der Anwendungsnutzen. Ideal sind „transparente, klassifizierte, strukturierte und priorisierte Daten und Metadaten“, so Aparavi, die auch von Dubletten bereinigt sein sollten. Ebenso wichtig sei es, kritische sensible Daten und Dokumente, die aus rechtlichen Gründen nicht verwendet werden dürften, auszusieben. Dazu gehören beispielsweise personenbezogene Daten oder Inhalte, die vor dem Stichtag einer Änderung rechtlich relevanter Vorgaben datieren. Um Verfälschungen, aber auch Risiken und Strafzahlungen zu vermeiden, müssten diese identifiziert und aus Datenbeständen entfernt werden, noch bevor die Datenbestände für das Training generativer KI-Anwendungen herangezogen werden.

Entwicklungszeiten abkürzen

Die Nutzung künstlich erzeugter Datensätze, so genannter synthetischer Daten, nimmt zu. Die Fachleute von Aparavi sehen dies als Indikator der Unzufriedenheit von Data Scientists mit dem vorhandenen echten Datenmaterial. Dennoch seien synthetische Daten kein vollwertiger Ersatz für das Training von KI-Anwendungen: Mit Originaldaten könnten Algorithmen und Anwendungen deutlich schneller und effizienter entwickelt werden als mit simulierten Datensätzen.
KI-Entwicklung ist per se ein iterativer Prozess mit hohem Ressourcenbedarf – und verursacht folglich hohe Kosten. Ein schlechter Dateninput verlängert die Entwicklungszeiten und erhöht die Kosten zusätzlich. Ein sauberer, auf relevante, sinnvolle Daten kondensierter Datenbestand kann die Anwendungsentwicklung hingegen beschleunigen und damit auch den finanziellen Aufwand reduzieren. „Clean and Lean Data spielen bei der Entwicklung von KI- und ML-Apps eine überragende Rolle“, sagt der Aparavi-CEO Adrian Knapp. Ob eine KI-Anwendung erfolgreich wird, entscheide sich an den Daten, die sozusagen das Futter für die zu trainierenden Algorithmen darstellen.





Weitere Meldungen und Beiträge aus dem Bereich: Panorama
Fragestellung er Umfrage mit einem Störer "Deine Meinung zählt"

NeXT: Breite Umfrage zur Nachnutzung

[27.11.2025] Wie steht es um die Nachnutzung digitaler Lösungen in der öffentlichen Verwaltung? Das Netzwerk NeXT hat dazu eine Umfrage aufgesetzt Alle Verwaltungsbeschäftigten – ungeachtet der Ebene oder Rolle – können noch bis Ende November ihre Praxiserfahrungen teilen. mehr...

Gruppenfoto der Teilnehmenden am „Kooperationsraum für Verwaltungsmodernisierung in föderalen Strukturen“

Metropolregion Rhein-Neckar: Kooperationsraum für moderne Verwaltung

[25.11.2025] Die Länder Baden-Württemberg, Hessen und Rheinland-Pfalz sowie die Metropolregion Rhein-Neckar bauen ihre seit 2010 bestehende Kooperation aus und richten einen föderalen Kooperationsraum ein, der digitale Lösungen länder- und ebenenübergreifend entwickelt und erprobt. mehr...

Frau schreibt auf einem Notizblock, im Hintergrund weihnachtliche Deko
bericht

Studie: Intern besser integrieren

[20.11.2025] Wie erleben Behördenmitarbeitende die Digitalisierungsbemühungen in ihrem Alltag? Dies wollte das Unternehmen d.velop herausfinden. Ein Ergebnis der Umfrage: Eine vollständige Digitalisierung bis 2030 halten 75 Prozent der Befragten für unrealistisch. mehr...

Porträtaufnahme von Ilona Nickel.
interview

Lohr a.Main: Neue Perspektiven eröffnet

[19.11.2025] Ilona Nickel aus der IT-Abteilung der Stadt Lohr a.Main zählt zu den ersten Absolventen des Weiterbildungslehrgangs Digitalwirt. Im Interview erklärt sie, was den Lehrgang besonders macht und wie ihr dieser hilft, die Digitalisierung in Lohr voranzutreiben. mehr...

Szene aus einem Handballspiel.

Mainz: Mit Sportstättenverzeichnis online

[14.11.2025] In Mainz können jetzt die Belegungspläne von zunächst 20 Sporthallen online eingesehen werden. Weitere Hallen sollen sukzessive folgen. mehr...

Initiative Ehrenbehörde: Michelin-Stern für Behörden

[28.10.2025] Zwölf Behörden aus Deutschland, Österreich und der Schweiz wurden jetzt für neue Standards in Kommunikation, Digitalisierung und Führung als „Ehrenbehörden 2026“ ausgezeichnet. mehr...

dbb akademie: Digitalisierung im öffentlichen Dienst bleibt große Baustelle

[24.10.2025] Die dbb akademie hat jetzt das Fach- und Führungskräfte-Barometer 2025 vorgelegt. Demnach fühlen sich jüngere Generationen digital fitter, aber unzureichend vorbereitet. mehr...

Screenshot des 360-Grad-Rundgangs im Innern des Augsburger Doms

Augsburg: Dom in 4D erkunden

[17.10.2025] Der Augsburger Dom kann künftig auch in 4D erkundet werden. Der virtuelle Rundgang führt durch verschiedene Epochen und macht Geschichte auf besondere Art greifbar. mehr...

Drohne vor blauem Himmel

Katastrophenschutz: 5G-Drohne hilft Rettungskräften

[14.10.2025] Inwiefern Drohnen durch Live-Luftaufnahmen bei Rettungseinsätzen unterstützen können, testet aktuell die Berufsfeuerwehr Rostock. Koordiniert wird das Projekt ADELE vom Deutschen Zentrum für Luft- und Raumfahrt (DLR). mehr...

Geschäftsmann hält Puzzle mit virtuellem Symbol.

Leitfaden: Wegweiser für Digitalisierungsbeauftragte

[07.10.2025] Studierende der Hochschule Ludwigsburg haben unter fachlicher Beratung von Axians-Infoma-Consultants einen Leitfaden entwickelt, der Digitalisierungsverantwortliche in Kommunen auf ihre vielfältigen Aufgaben vorbereiten soll. mehr...

Journalist und Podcast-Host Martin Brüning (l.) mit Oberbürgermeister Belit Onay im Maschpark.

Hannover: Podcast mit dem OB

[25.09.2025] Ein neues Kommunikationsformat startet Niedersachsens Landeshauptstadt: „Hannover macht das!“ lautet der Podcast mit dem Oberbürgermeister, der einen Beitrag zum demokratischen Diskurs leisten möchte. mehr...

eGovernment-Wettbewerb 2025: Die Gewinner stehen fest

[22.09.2025] Die Preisträgerinnen und Preisträger des 24. eGovernment-Wettbewerbs stehen fest. Die ausgezeichneten Projekte wollen konkrete Antworten auf Herausforderungen des Verwaltungsumbaus geben – mit KI, der Digitalisierung von Prozessen und durch bessere Bürgerservices. mehr...

Junger Mann mit einem Schreiben in der Hand rauft sich die Haare und schaut besorgt.

Dresden: Verständliche Behördenschreiben

[18.09.2025] Behördliche Schreiben sollen für rechtliche Eindeutigkeit sorgen – sind für Bürgerinnen und Bürger aber oft nur schwer verständlich. Die Stadt Dresden möchte das ändern: Eine Umfrage soll helfen, Verwaltungstexte klarer, verständlicher und bürgernäher zu gestalten. mehr...

Porträt einer Frau mit Kopfhörern in Office-Umgebung, die konzentriert zuhört.

Podcast: Deutschland-Index 2025 zum Hören

[05.09.2025] Welche Entwicklungen lassen sich bei digitaler Infrastruktur, Nutzungsverhalten und Verwaltungsdigitalisierung in den bundesdeutschen Ländern beobachten? Der ÖFIT-Podcast bereitet aktuelle Zahlen zu diesen und anderen Fragen ohrenfreundlich auf. mehr...

Wildschwein auf einer Lichtung

Kreis Kassel: Digitaler Service für Jäger

[15.08.2025] Die sogenannte Digitale Wildmarke erleichtert Jägern im Kreis Kassel jetzt die vorgeschriebene Abgabe von Trichinenproben. Gekühlte Briefkästen und ein App-gestütztes Verfahren verbessern nicht nur den Service für die Jäger, sondern stärken auch die Früherkennung von Tierseuchen. mehr...