Generative KITrainingsdaten in Form bringen

Guter Input ergibt guten Output – diese einfache Regel gilt auch für die Daten, mit denen KI-Anwendungen trainiert werden.
(Bildquelle: 123rf.com/peshkova)
Anwendungen, die Daten mithilfe Künstlicher Intelligenz (KI) oder maschinellem Lernen (ML) verarbeiten, werden derzeit breit diskutiert. Die Debatte konzentriert sich dabei vor allem auf ethische und sicherheitsrelevante Aspekte und damit auf Fragen des richtigen Einsatzes von (generativer) KI. Die Frage nach der Qualität solcher Anwendungen, die wiederum von den Daten abhängt, mit denen die Algorithmen trainiert werden, wird in der öffentlichen Diskussion vernachlässigt. Zu diesem Schluss kommt das Schweizer Data-Intelligence-Unternehmen Aparavi. Aparavi schätzt, dass bis zu 80 Prozent der Daten, die für das KI-Training infrage kommen, unstrukturiert sind. In diesen Beständen verbergen sich nicht nur veraltete Dokumente oder risikobehaftete Daten, sondern auch wichtige und wertvolle Informationen. Solche Datenbestände müssten schon vorab klassifiziert und bereinigt werden.
Sensible Daten aussieben
Eine saubere Data Collection ist für eine sinnvolle, effektive Entwicklung von KI-Apps essenziell. Denn die Qualität des Outputs bei der KI-Entwicklung hängt zwangsläufig von der Qualität des Inputs ab – je gepflegter die Trainingsdaten, desto höher der Anwendungsnutzen. Ideal sind „transparente, klassifizierte, strukturierte und priorisierte Daten und Metadaten“, so Aparavi, die auch von Dubletten bereinigt sein sollten. Ebenso wichtig sei es, kritische sensible Daten und Dokumente, die aus rechtlichen Gründen nicht verwendet werden dürften, auszusieben. Dazu gehören beispielsweise personenbezogene Daten oder Inhalte, die vor dem Stichtag einer Änderung rechtlich relevanter Vorgaben datieren. Um Verfälschungen, aber auch Risiken und Strafzahlungen zu vermeiden, müssten diese identifiziert und aus Datenbeständen entfernt werden, noch bevor die Datenbestände für das Training generativer KI-Anwendungen herangezogen werden.
Entwicklungszeiten abkürzen
Die Nutzung künstlich erzeugter Datensätze, so genannter synthetischer Daten, nimmt zu. Die Fachleute von Aparavi sehen dies als Indikator der Unzufriedenheit von Data Scientists mit dem vorhandenen echten Datenmaterial. Dennoch seien synthetische Daten kein vollwertiger Ersatz für das Training von KI-Anwendungen: Mit Originaldaten könnten Algorithmen und Anwendungen deutlich schneller und effizienter entwickelt werden als mit simulierten Datensätzen.
KI-Entwicklung ist per se ein iterativer Prozess mit hohem Ressourcenbedarf – und verursacht folglich hohe Kosten. Ein schlechter Dateninput verlängert die Entwicklungszeiten und erhöht die Kosten zusätzlich. Ein sauberer, auf relevante, sinnvolle Daten kondensierter Datenbestand kann die Anwendungsentwicklung hingegen beschleunigen und damit auch den finanziellen Aufwand reduzieren. „Clean and Lean Data spielen bei der Entwicklung von KI- und ML-Apps eine überragende Rolle“, sagt der Aparavi-CEO Adrian Knapp. Ob eine KI-Anwendung erfolgreich wird, entscheide sich an den Daten, die sozusagen das Futter für die zu trainierenden Algorithmen darstellen.
Nordrhein-Westfalen: Kommunen melden ihre Baustellen digital
[13.03.2026] Werden Baustellen an der öffentlichen Infrastruktur überregional erfasst, können Terminkollisionen und Potenziale zur Bündelung leichter erkannt werden. In Nordrhein-Westfalen sollen Kommunen nun gesetzlich zur Meldung in einem zentralen digitalen Portal verpflichtet werden. mehr...
OSBA: Innovative Open-Source-Lösungen gesucht
[06.03.2026] Zum zweiten Mal findet der bundesweite Wettbewerb für erfolgreiche Open-Source-Lösungen aus der öffentlichen Verwaltung statt. Behörden und öffentliche Stellen aller föderalen Ebenen können sich bis Ende Juni bewerben, die Preisverleihung erfolgt im Rahmen der Smart Country Convention. mehr...
Bremen: Schub für die Verwaltungsdigitalisierung
[03.03.2026] Performa Nord, ein Verwaltungsdienstleister der Freien Hansestadt Bremen, erhält aus dem Investitionssofortprogramm des Landes rund vier Millionen Euro. 2026 und 2027 sollen Terminmanagement, Heil- und Dienstunfallfürsorge sowie die IT-Ausstattung der Einrichtung digitalisiert und modernisiert werden. mehr...
Praxisleitfaden: Wissen bewahren und nutzen
[19.02.2026] Speziell an die Führungsebene in der öffentlichen Verwaltung richtet sich eine Orientierungshilfe der Innovationsstiftung Bayerische Kommune. Der Leitfaden liefert praxisnahe Impulse, wie erfolgreiches Wissensmanagement in kleinen Schritten aufgebaut werden kann. mehr...
Föhr-Amrum: Digitale Lösungen für die Zukunft der Inseln
[18.02.2026] Im Rahmen der Föhr-Amrumer Zukunftsimpulse hat das Amt Föhr-Amrum den Island Future Award initiiert. Ausgezeichnet werden Projekte, die Inseln und Küstenregionen durch praxistaugliche Digitalisierung konkret stärken. mehr...
NExT-Netzwerk: Arbeit neu strukturiert
[17.02.2026] Mit einer neuen strategischen Struktur richtet der Verein NExT seine Arbeit zur Verwaltungstransformation neu aus: Künftig sollen Austausch, Analyse und politische Einordnung enger verzahnt werden. Ein Relaunch der Website macht diesen Anspruch auch nach außen sichtbar. mehr...
Schleswig-Holstein: Unterstützung für kommunale Bauleitplanung
[05.02.2026] Schleswig-Holstein will Bauleitpläne künftig mit dem Standard XPlanung und einer zentralen Bereitstellungsplattform landeseinheitlich digital verfügbar machen. Das Land unterstützt Kommunen bei der Umwandlung bestehender Pläne. mehr...
ÖFIT-Wegbereiter-Reihe: Kompetenzaufbau in der Verwaltungspraxis
[30.01.2026] Als niedrigschwellige, anwendungsorientierte Lern- und Arbeitsinstrumente sollen die ÖFIT-Wegbereiter die interdisziplinäre Bearbeitung von Digitalisierungsprojekten in der öffentlichen Verwaltung unterstützen. Die Reihe umfasst derzeit vier Ausgaben unter anderem zu den Themen Low Code, generative Künstliche Intelligenz und Digitale Souveränität. mehr...
Vitako: Die Verwaltung der Zukunft im Podcast
[16.01.2026] Orientierung schaffen, Debatten anstoßen und zeigen, wie öffentliche IT den digitalen Staat mitgestaltet – das will der neue Podcast von Vitako, der Bundesarbeitsgemeinschaft der Kommunalen IT-Dienstleister. mehr...
KDO: IT-Wissen praxisnah vermittelt
[14.01.2026] Die KDO-Akademie vermittelt IT-Kompetenz: Im vergangenen Jahr wurden mehr als 200 Schulungen durchgeführt. Nun entwickelt sich das Angebot weiter. In verschiedenen Formaten wird neben Know-how zu konkreten IT-Lösungen auch Wissen zu übergreifenden Themen vermittelt. mehr...
Köln: Erster IT-Planungsprozess
[22.12.2025] Um die IT- und Digitalisierungsvorhaben der Verwaltung schneller bewerten und priorisieren zu können, hat Köln erstmals einen gesamtstädtischen IT-Planungsprozess umgesetzt. Er orientiert sich an Industriestandards für die IT-Planung in Unternehmen und sorgt für einen optimalen Ressourceneinsatz sowie eine nachhaltig gesteuerte digitale Transformation. mehr...
Aachen: Straßenbäume exakt dokumentiert
[19.12.2025] In Aachen wurden in den vergangenen Jahren alle Stadtbäume mit Stamm- und Zustandsdaten in ein Kataster eingepflegt. Das soll der Stadtverwaltung künftig alle Prozesse rund um Baumkontrolle und -pflege erleichtern. mehr...
Cuxhaven: Schnell informiert im Notfall
[19.12.2025] Seit 2005 informiert die Stadt Cuxhaven ihre Bürgerinnen und Bürger über regionale Gefahrenlagen oder Schadensereignisse per App. Nun erhielt die mobile Anwendung ein umfassendes Update. mehr...
Fraunhofer FOKUS: Zwischen Medienbrüchen und Bürokratiearbeit
[03.12.2025] Was macht einen Verwaltungsprozess wahrhaft nutzerfreundlich? Dieser Frage geht – anhand des Wohngeldantrags – eine Studie von Fraunhofer FOKUS nach. Die Erkenntnisse sollen dazu beitragen, ein handlungsleitendes Gesamtbild der Verwaltungsmodernisierung zu entwickeln. mehr...
NeXT: Breite Umfrage zur Nachnutzung
[27.11.2025] Wie steht es um die Nachnutzung digitaler Lösungen in der öffentlichen Verwaltung? Das Netzwerk NeXT hat dazu eine Umfrage aufgesetzt Alle Verwaltungsbeschäftigten – ungeachtet der Ebene oder Rolle – können noch bis Ende November ihre Praxiserfahrungen teilen. mehr...























