Montag, 22. Juni 2026

Generative KITrainingsdaten in Form bringen

[28.08.2023] Guter Input ergibt guten Output – diese einfache Regel gilt auch für die Daten, mit denen KI-Anwendungen trainiert werden. Je besser Daten aufbereitet sind, desto effizienter ist die Entwicklung und desto sicherer die spätere KI-Lösung.
Guter Input ergibt guten Output – diese einfache Regel gilt auch für die Daten

Guter Input ergibt guten Output – diese einfache Regel gilt auch für die Daten, mit denen KI-Anwendungen trainiert werden.

(Bildquelle: 123rf.com/peshkova)

Anwendungen, die Daten mithilfe Künstlicher Intelligenz (KI) oder maschinellem Lernen (ML) verarbeiten, werden derzeit breit diskutiert. Die Debatte konzentriert sich dabei vor allem auf ethische und sicherheitsrelevante Aspekte und damit auf Fragen des richtigen Einsatzes von (generativer) KI. Die Frage nach der Qualität solcher Anwendungen, die wiederum von den Daten abhängt, mit denen die Algorithmen trainiert werden, wird in der öffentlichen Diskussion vernachlässigt. Zu diesem Schluss kommt das Schweizer Data-Intelligence-Unternehmen Aparavi. Aparavi schätzt, dass bis zu 80 Prozent der Daten, die für das KI-Training infrage kommen, unstrukturiert sind. In diesen Beständen verbergen sich nicht nur veraltete Dokumente oder risikobehaftete Daten, sondern auch wichtige und wertvolle Informationen. Solche Datenbestände müssten schon vorab klassifiziert und bereinigt werden.

Sensible Daten aussieben

Eine saubere Data Collection ist für eine sinnvolle, effektive Entwicklung von KI-Apps essenziell. Denn die Qualität des Outputs bei der KI-Entwicklung hängt zwangsläufig von der Qualität des Inputs ab – je gepflegter die Trainingsdaten, desto höher der Anwendungsnutzen. Ideal sind „transparente, klassifizierte, strukturierte und priorisierte Daten und Metadaten“, so Aparavi, die auch von Dubletten bereinigt sein sollten. Ebenso wichtig sei es, kritische sensible Daten und Dokumente, die aus rechtlichen Gründen nicht verwendet werden dürften, auszusieben. Dazu gehören beispielsweise personenbezogene Daten oder Inhalte, die vor dem Stichtag einer Änderung rechtlich relevanter Vorgaben datieren. Um Verfälschungen, aber auch Risiken und Strafzahlungen zu vermeiden, müssten diese identifiziert und aus Datenbeständen entfernt werden, noch bevor die Datenbestände für das Training generativer KI-Anwendungen herangezogen werden.

Entwicklungszeiten abkürzen

Die Nutzung künstlich erzeugter Datensätze, so genannter synthetischer Daten, nimmt zu. Die Fachleute von Aparavi sehen dies als Indikator der Unzufriedenheit von Data Scientists mit dem vorhandenen echten Datenmaterial. Dennoch seien synthetische Daten kein vollwertiger Ersatz für das Training von KI-Anwendungen: Mit Originaldaten könnten Algorithmen und Anwendungen deutlich schneller und effizienter entwickelt werden als mit simulierten Datensätzen.
KI-Entwicklung ist per se ein iterativer Prozess mit hohem Ressourcenbedarf – und verursacht folglich hohe Kosten. Ein schlechter Dateninput verlängert die Entwicklungszeiten und erhöht die Kosten zusätzlich. Ein sauberer, auf relevante, sinnvolle Daten kondensierter Datenbestand kann die Anwendungsentwicklung hingegen beschleunigen und damit auch den finanziellen Aufwand reduzieren. „Clean and Lean Data spielen bei der Entwicklung von KI- und ML-Apps eine überragende Rolle“, sagt der Aparavi-CEO Adrian Knapp. Ob eine KI-Anwendung erfolgreich wird, entscheide sich an den Daten, die sozusagen das Futter für die zu trainierenden Algorithmen darstellen.





Weitere Meldungen und Beiträge aus dem Bereich: Panorama
Drei weibliche Hände recken ein Mikrofon und verschiedene Print-Zeitungen hoch; gelber Hintergrund

NEGZ: Woher nehmen Fachleute ihr Digitalwissen?

[18.06.2026] Mit dem Thema Verwaltungsdigitalisierung befasst sich inzwischen eine ganze Reihe von Print- und Online-Publikationen sowie Podcasts. Das NEGZ will nun wissen, welche Medien von Fachleuten gelesen oder gehört werden. Die Umfrage ist in unter fünf Minuten zu schaffen. mehr...

Mülltonne mit einem aufgeklebten Strichcode-Etikett

Mannheim: Identsystem zur Müllentsorgung

[09.06.2026] Bei den Mannheimer Abfallentsorgern trifft analog auf digital: In einigen Stadtteilen wurden die Abfalltonnen mit Klebeetiketten und die Müllfahrzeuge mit Scannern ausgestattet. So ist eine leerungsbezogene, effiziente Abrechnung möglich. mehr...

Logo des Ko-Pionier-Preises, im Hintergrund violett eingefärbt menschliche Figuren und eine Baumkrone

Ko-Pionier-Preis 2026: Nachnutzen statt neu erfinden

[01.06.2026] Nicht nur Neuentwicklungen bringen die digitale Verwaltungstransformation voran, sondern auch die intelligente Nachnutzung bestehender Lösungen. Der Ko-Pionier-Preis zeichnet solche Vorhaben aus. Einreichungen sind noch bis zum 15. Juli 2026 möglich. mehr...

Reetdachhaus auf Sylt

Bundesnetzagentur: Daten zu Kurzzeitvermietungen

[28.05.2026] Die Bundesnetzagentur fungiert ab sofort als digitale Datendrehscheibe für Kurzzeitvermietungen. Länder und Kommunen können darüber künftig verlässliche Daten zu Buchungen auf Plattformen wie Airbnb oder Booking.com erhalten und diese etwa nutzen, um Tourismusströme zu steuern. mehr...

Team aus vier Personen sitzt an einem Tisch und tauischt sich aus.

Picture: Prozessmanagement-Ausbildung für alle

[12.05.2026] Der Softwarehersteller Picture öffnet sein Ausbildungsprogramm im Prozessmanagement für alle Verwaltungsebenen. Der zweite Durchgang startet im Oktober 2026. Die Teilnehmenden sollen in neun Monaten lernen, Verwaltungsprozesse zu erfassen, zu analysieren und zu verbessern. mehr...

Bayerische Fahne vor blauem Himmel

Bayern: So bewerten Bürger ihre Verwaltung

[16.04.2026] Eine repräsentative Studie der Bayerischen Verwaltungsschule offenbart Chancen und Herausforderungen für Verwaltungen im Freistaat. Demnach bewerten die Bürgerinnen und Bürger digitale Verwaltungsangebote zwar grundsätzlich positiv, wünschen sich aber unter anderem, dass Kommunen transparenter mit ihnen kommunizieren. mehr...

Ein Mädchen in einer braunen Jacke sitzt auf einer Bank und schaut oder liest etwas auf einem Smartphone.

Hessen: Innovative Lösungen für krisenfeste Strukturen

[16.04.2026] In Darmstadt zeigt das LOEWE-Zentrum emergenCITY, wie Forschung zu digitaler Resilienz in Städten schneller in die Praxis gelangt. Entwickelt werden Lösungen, die digitale Systeme auch in Krisensituationen funktionsfähig halten und die Notfallkommunikation sichern. mehr...

Plakat zum zweiten Osnabrücker GovTech Hackathon

Osnabrück: Zweiter GovTech Hackathon am Start

[07.04.2026] 
Im Rahmen eines zweiten GovTech Hackathons sucht die Stadt Osnabrück wieder digitale Innovationen für die öffentliche Verwaltung. mehr...

Eine junge Frau macht per Smartphone ein Foto vom Potsdamer Rathaus.
bericht

Serie Digitalstädte: Stadt mit Gründergeist

[23.03.2026] Am Anfang war Nixdorf. Heute ist die Stadt Paderborn ein Hotspot der ostwestfälischen IT-Wirtschaft mit starkem Mittelstand, ausgezeichneter Universität und ambitionierter Verwaltung. Ein Besuch. mehr...

Ein Mann und eine Frau recken ihre Handys der Kamera entgegen.

Erfurt: Hilfe per Knopfdruck

[17.03.2026] Für viele Menschen gehören Stadtfeste und Märkte zum urbanen Lebensgefühl. Um diese sicherer zu machen, hat die Stadt Erfurt nun mit dem Anbieter der Sicherheits-App SafeNow einen Rahmenvertrag unterzeichnet. mehr...

Dreieckiges Baustellenschild mit schaufelndem Männchen aus der Untersicht aufgenommen.

Nordrhein-Westfalen: Kommunen melden ihre Baustellen digital

[13.03.2026] Werden Baustellen an der öffentlichen Infrastruktur überregional erfasst, können Terminkollisionen und Potenziale zur Bündelung leichter erkannt werden. In Nordrhein-Westfalen sollen Kommunen nun gesetzlich zur Meldung in einem zentralen digitalen Portal verpflichtet werden. mehr...

Transparente, kubische Trophäen stehen aufgereiht auf einem grauen Podest.

OSBA: Innovative Open-Source-Lösungen gesucht

[06.03.2026] Zum zweiten Mal findet der bundesweite Wettbewerb für erfolgreiche Open-Source-Lösungen aus der öffentlichen Verwaltung statt. Behörden und öffentliche Stellen aller föderalen Ebenen können sich bis Ende Juni bewerben, die Preisverleihung erfolgt im Rahmen der Smart Country Convention. mehr...

Bremen: Verwaltung punktet mit Online-Services.

Bremen: Schub für die Verwaltungsdigitalisierung

[03.03.2026] Performa Nord, ein Verwaltungsdienstleister der Freien Hansestadt Bremen, erhält aus dem Investitionssofortprogramm des Landes rund vier Millionen Euro. 2026 und 2027 sollen Terminmanagement, Heil- und Dienstunfallfürsorge sowie die IT-Ausstattung der Einrichtung digitalisiert und modernisiert werden. mehr...

Holzklötze mit Icons: Buch, Hirn, Schachfigur

Praxisleitfaden: Wissen bewahren und nutzen

[19.02.2026] Speziell an die Führungsebene in der öffentlichen Verwaltung richtet sich eine Orientierungshilfe der Innovationsstiftung Bayerische Kommune. Der Leitfaden liefert praxisnahe Impulse, wie erfolgreiches Wissensmanagement in kleinen Schritten aufgebaut werden kann. mehr...

Rotweißer Leuchtturm hinter Sünden auf der Insel Amrum

Föhr-Amrum: Digitale Lösungen für die Zukunft der Inseln

[18.02.2026] Im Rahmen der Föhr-Amrumer Zukunftsimpulse hat das Amt Föhr-Amrum den Island Future Award initiiert. Ausgezeichnet werden Projekte, die Inseln und Küstenregionen durch praxistaugliche Digitalisierung konkret stärken. mehr...