Generative KITrainingsdaten in Form bringen

Guter Input ergibt guten Output – diese einfache Regel gilt auch für die Daten, mit denen KI-Anwendungen trainiert werden.
(Bildquelle: 123rf.com/peshkova)
Anwendungen, die Daten mithilfe Künstlicher Intelligenz (KI) oder maschinellem Lernen (ML) verarbeiten, werden derzeit breit diskutiert. Die Debatte konzentriert sich dabei vor allem auf ethische und sicherheitsrelevante Aspekte und damit auf Fragen des richtigen Einsatzes von (generativer) KI. Die Frage nach der Qualität solcher Anwendungen, die wiederum von den Daten abhängt, mit denen die Algorithmen trainiert werden, wird in der öffentlichen Diskussion vernachlässigt. Zu diesem Schluss kommt das Schweizer Data-Intelligence-Unternehmen Aparavi. Aparavi schätzt, dass bis zu 80 Prozent der Daten, die für das KI-Training infrage kommen, unstrukturiert sind. In diesen Beständen verbergen sich nicht nur veraltete Dokumente oder risikobehaftete Daten, sondern auch wichtige und wertvolle Informationen. Solche Datenbestände müssten schon vorab klassifiziert und bereinigt werden.
Sensible Daten aussieben
Eine saubere Data Collection ist für eine sinnvolle, effektive Entwicklung von KI-Apps essenziell. Denn die Qualität des Outputs bei der KI-Entwicklung hängt zwangsläufig von der Qualität des Inputs ab – je gepflegter die Trainingsdaten, desto höher der Anwendungsnutzen. Ideal sind „transparente, klassifizierte, strukturierte und priorisierte Daten und Metadaten“, so Aparavi, die auch von Dubletten bereinigt sein sollten. Ebenso wichtig sei es, kritische sensible Daten und Dokumente, die aus rechtlichen Gründen nicht verwendet werden dürften, auszusieben. Dazu gehören beispielsweise personenbezogene Daten oder Inhalte, die vor dem Stichtag einer Änderung rechtlich relevanter Vorgaben datieren. Um Verfälschungen, aber auch Risiken und Strafzahlungen zu vermeiden, müssten diese identifiziert und aus Datenbeständen entfernt werden, noch bevor die Datenbestände für das Training generativer KI-Anwendungen herangezogen werden.
Entwicklungszeiten abkürzen
Die Nutzung künstlich erzeugter Datensätze, so genannter synthetischer Daten, nimmt zu. Die Fachleute von Aparavi sehen dies als Indikator der Unzufriedenheit von Data Scientists mit dem vorhandenen echten Datenmaterial. Dennoch seien synthetische Daten kein vollwertiger Ersatz für das Training von KI-Anwendungen: Mit Originaldaten könnten Algorithmen und Anwendungen deutlich schneller und effizienter entwickelt werden als mit simulierten Datensätzen.
KI-Entwicklung ist per se ein iterativer Prozess mit hohem Ressourcenbedarf – und verursacht folglich hohe Kosten. Ein schlechter Dateninput verlängert die Entwicklungszeiten und erhöht die Kosten zusätzlich. Ein sauberer, auf relevante, sinnvolle Daten kondensierter Datenbestand kann die Anwendungsentwicklung hingegen beschleunigen und damit auch den finanziellen Aufwand reduzieren. „Clean and Lean Data spielen bei der Entwicklung von KI- und ML-Apps eine überragende Rolle“, sagt der Aparavi-CEO Adrian Knapp. Ob eine KI-Anwendung erfolgreich wird, entscheide sich an den Daten, die sozusagen das Futter für die zu trainierenden Algorithmen darstellen.
Studie: Viele fühlen sich digital abgehängt
[03.07.2025] Eine repräsentative Studie anlässlich des Digitaltags zeigt, dass in Deutschland zwar eine große Offenheit gegenüber digitalen Angeboten besteht, viele Menschen sich aber digital abgehängt fühlen und ihre eigenen Digitalkompetenzen eher schlecht bewerten. mehr...
In eigener Sache: K21 media zieht um
[01.07.2025] Seit 2001 versorgen die Publikationen von K21 media Kommunen, Entscheider auf Landes- und Bundesebene sowie Stadtwerke mit aktuellen und umfassenden Informationen zu relevanten Themen. Nun schlägt der Verlag sein Hauptquartier in der Landeshauptstadt Stuttgart auf. mehr...
Studie: Digitale Verwaltungservices für Unternehmen
[01.07.2025] Digitale Verwaltungsangebote für Unternehmen haben ein großes Potenzial, das noch bei Weitem nicht ausgeschöpft wird. Zu diesem Schluss kommt eine neue Studie des Unternehmens init. mehr...
Studie: Digitalisierungsindex 2025 veröffentlicht
[26.06.2025] Im Rahmen des Zukunftskongresses Staat & Verwaltung (23. bis 25. Juni, Berlin) hat das Kompetenzzentrum Öffentliche IT (ÖFIT) am Fraunhofer-Institut FOKUS den Deutschland-Index der Digitalisierung 2025 vorgestellt. Demnach schreitet die Digitalisierung zwar in vielen Bereichen voran, jedoch bestehen zwischen den einzelnen Bundesländern weiterhin erhebliche Unterschiede. mehr...
Umfrage: IT-Budgets zu eng bemessen
[24.06.2025] Ihr Jahresbudget halten weniger als 18 Prozent der IT-Fachkräfte im öffentlichen Sektor für ausreichend. Das zeigt eine weltweite Umfrage von SolarWinds unter rund 100 Fachleuten. Viele sehen Projekte gefährdet und Budgetkürzungen als wachsendes Sicherheitsrisiko. mehr...
Gütersloh: Per QR-Code in die Vergangenheit
[16.06.2025] Im Rahmen des Projekts „Tritt in die Vergangenheit“ macht die Stadt Gütersloh Geschichte digital erlebbar. Dazu wurden QR-Codes über das gesamte Stadtgebiet verteilt. mehr...
Kreis Soest: Moderner Hochwasserschutz
[13.06.2025] Der Kreis Soest hat seine PegelApp erweitert. Nicht nur wird jetzt das gesamte Kreisgebiet mit rund 30 Pegelmesspunkten abgedeckt, auch neue Funktionen sind hinzugekommen. So sind jetzt Warnschwellen individuell festlegbar, zudem gibt die App konkrete Handlungsempfehlungen. mehr...
Nordrhein-Westfalen: Gewerbesteuerbescheid erfolgreich pilotiert
[13.06.2025] Der digitale Gewerbesteuerbescheid kann Prozesse in Unternehmen, bei Steuerberatern, Kommunen und der Steuerverwaltung vereinfachen. In Nordrhein-Westfalen sind die Kommunen nach einer erfolgreichen Pilotphase aufgefordert, die Einführung des Verfahrens – mit Unterstützung des Landes – voranzutreiben. mehr...
Dataport/SHLB: Nachhaltige Planung von Digitalprojekten
[10.06.2025] Kohlendioxid ist ein Hauptfaktor für den Treibhauseffekt – und fällt auch bei Nutzung digitaler Anwendungen an. Um die CO₂-Emissionen digitaler Projekte schon im Voraus kalkulieren und optimieren zu können, haben Dataport und die SHLB einen browserbasierten CO₂-Rechner entwickelt. mehr...
Berlin: KI hilft bei Abwicklung des ReparaturBONUS
[23.05.2025] Die Zukunft der Fördermittelverwaltung liegt in der Digitalisierung. Das hat das Unternehmen MACH mit der Entwicklung einer digitalen Antragsplattform für die Berliner Verwaltung unter Beweis gestellt. Die Lösung sorgt für eine effizientere Abwicklung des ReparaturBONUS und spürbare Entlastung der Mitarbeitenden. mehr...
Brandenburg: Bürgerservice per Videokabine
[19.05.2025] Der Landkreis Uckermark wurde im Rahmen der Bundesinitiative DigitalPakt Alter für seinen digitalen Bürgerservice für Seniorinnen und Senioren ausgezeichnet. Im Rahmen des Projekts LISA wurden an bisher sechs Standorten Videokabinen eingerichtet, die wohnortnah Kontakt zur Kreisverwaltung ermöglichen. mehr...
Dresden: Bezahlkarte für Asylsuchende gestartet
[09.05.2025] Seit dieser Woche bekommen neu zugewiesene Geflüchtete in Dresden erstmals die neue Bezahlkarte. Damit ist die Einführung in Sachsen einen Schritt weiter. Ziel ist es, Bargeldauszahlungen zu reduzieren und Behörden zu entlasten. mehr...
Baden-Württemberg: Leitfaden für bessere Bürgerkommunikation
[07.05.2025] Ein Projekt der Dualen Hochschule Stuttgart soll Verwaltungen in ländlichen Regionen helfen, besser mit Bürgerinnen und Bürgern zu kommunizieren. Der nun veröffentlichte Leitfaden enthält konkrete Empfehlungen und zeigt, welche Kanäle Bürgerinnen und Bürger nutzen wollen. mehr...
Nürnberg: Konzept Bürger-PC gestartet
[25.04.2025] Um noch mehr Menschen die digitale Teilhabe zu ermöglichen, erprobt Nürnberg jetzt den so genannten Bürger-PC. Die Selbstbedienungsrechner sind mit Druckern und Scannern ausgestattet und für Mehrgenerationenhäuser oder Stadtteiltreffs vorgesehen. Ehrenamtliche unterstützen die Bürgerinnen und Bürger bei der Nutzung. mehr...
Schleswig-Holstein: Kooperation verlängert
[16.04.2025] Nach fünf erfolgreichen Jahren haben Schleswig-Holstein und der ITV.SH ihre Kooperation zur Verwaltungsdigitalisierung bis Ende 2029 verlängert. Geplant sind unter anderem der Roll-out weiterer digitaler Anträge und Unterstützung für Kommunen bei Informationssicherheits- und IT-Notfällen. mehr...