Generative KI:
Trainingsdaten in Form bringen


[28.8.2023] Guter Input ergibt guten Output – diese einfache Regel gilt auch für die Daten, mit denen KI-Anwendungen trainiert werden. Je besser Daten aufbereitet sind, desto effizienter ist die Entwicklung und desto sicherer die spätere KI-Lösung.

Guter Input ergibt guten Output – diese einfache Regel gilt auch für die Daten, mit denen KI-Anwendungen trainiert werden. Anwendungen, die Daten mithilfe Künstlicher Intelligenz (KI) oder maschinellem Lernen (ML) verarbeiten, werden derzeit breit diskutiert. Die Debatte konzentriert sich dabei vor allem auf ethische und sicherheitsrelevante Aspekte und damit auf Fragen des richtigen Einsatzes von (generativer) KI. Die Frage nach der Qualität solcher Anwendungen, die wiederum von den Daten abhängt, mit denen die Algorithmen trainiert werden, wird in der öffentlichen Diskussion vernachlässigt. Zu diesem Schluss kommt das Schweizer Data-Intelligence-Unternehmen Aparavi. Aparavi schätzt, dass bis zu 80 Prozent der Daten, die für das KI-Training infrage kommen, unstrukturiert sind. In diesen Beständen verbergen sich nicht nur veraltete Dokumente oder risikobehaftete Daten, sondern auch wichtige und wertvolle Informationen. Solche Datenbestände müssten schon vorab klassifiziert und bereinigt werden.

Sensible Daten aussieben

Eine saubere Data Collection ist für eine sinnvolle, effektive Entwicklung von KI-Apps essenziell. Denn die Qualität des Outputs bei der KI-Entwicklung hängt zwangsläufig von der Qualität des Inputs ab – je gepflegter die Trainingsdaten, desto höher der Anwendungsnutzen. Ideal sind „transparente, klassifizierte, strukturierte und priorisierte Daten und Metadaten“, so Aparavi, die auch von Dubletten bereinigt sein sollten. Ebenso wichtig sei es, kritische sensible Daten und Dokumente, die aus rechtlichen Gründen nicht verwendet werden dürften, auszusieben. Dazu gehören beispielsweise personenbezogene Daten oder Inhalte, die vor dem Stichtag einer Änderung rechtlich relevanter Vorgaben datieren. Um Verfälschungen, aber auch Risiken und Strafzahlungen zu vermeiden, müssten diese identifiziert und aus Datenbeständen entfernt werden, noch bevor die Datenbestände für das Training generativer KI-Anwendungen herangezogen werden.

Entwicklungszeiten abkürzen

Die Nutzung künstlich erzeugter Datensätze, so genannter synthetischer Daten, nimmt zu. Die Fachleute von Aparavi sehen dies als Indikator der Unzufriedenheit von Data Scientists mit dem vorhandenen echten Datenmaterial. Dennoch seien synthetische Daten kein vollwertiger Ersatz für das Training von KI-Anwendungen: Mit Originaldaten könnten Algorithmen und Anwendungen deutlich schneller und effizienter entwickelt werden als mit simulierten Datensätzen.
KI-Entwicklung ist per se ein iterativer Prozess mit hohem Ressourcenbedarf – und verursacht folglich hohe Kosten. Ein schlechter Dateninput verlängert die Entwicklungszeiten und erhöht die Kosten zusätzlich. Ein sauberer, auf relevante, sinnvolle Daten kondensierter Datenbestand kann die Anwendungsentwicklung hingegen beschleunigen und damit auch den finanziellen Aufwand reduzieren. „Clean and Lean Data spielen bei der Entwicklung von KI- und ML-Apps eine überragende Rolle“, sagt der Aparavi-CEO Adrian Knapp. Ob eine KI-Anwendung erfolgreich wird, entscheide sich an den Daten, die sozusagen das Futter für die zu trainierenden Algorithmen darstellen. (sib)

https://aparavi.com/de

Stichwörter: Panorama, Aparavi, KI, Künstliche Intelligenz

Bildquelle: 123rf.com/peshkova

Druckversion    PDF     Link mailen




 Anzeige

Weitere Meldungen und Beiträge aus dem Bereich Panorama
Kreis Steinfurt: Service Innovation Lab gestartet
[30.11.2023] Im Rahmen der interkommunalen Digitalisierungsstrategie des Kreises Steinfurt ist jetzt das Leitprojekt „Service Innovation Lab“ an den Start gegangen. In dieser Arbeitsgruppe sollen Konzepte entwickelt werden, wie das Verwaltungshandeln zeitgemäßer und bürgerorientierter gestaltet werden kann. mehr...
Interkommunal und im Austausch mit der Wissenschaft: Im Service Innovation Lab werden zukünftig neue Service-Konzepte für die Verwaltungen im Kreisgebiet Steinfurt entwickelt.
Civic Data Lab: Projekt zur Datenunterstützung gestartet
[30.11.2023] Das Civic Data Lab hat sich zum Ziel gesetzt, die Zivilgesellschaft bei der Umsetzung digitaler Projekte mit Datenbezug zu unterstützen. Es hat jetzt offiziell seine Arbeit aufgenommen. mehr...
Das Team des Civic Data Lab bei der Auftaktveranstaltung im MotionLab.Berlin.
Nordrhein-Westfalen: BIM-Leitfaden für Kommunen
[30.11.2023] BIM ermöglicht es, das herkömmliche Planen und Bauen um den Gebäudebetrieb zu ergänzen. Das Land Nordrhein-Westfalen hat nun eine BIM-Handlungsempfehlung für Kommunen veröffentlicht, die vor allem Nachhaltigkeit in den Blick nimmt. mehr...
ITEBO: Durchblick im Digitalisierungsdschungel
[30.11.2023] ITEBO Kosmos ist der Name eines neuen Informationsangebots für Digitalisierungsverantwortliche in Kommunen. Diese finden dort umfassende Informationen zu ITEBO-Produkten wie OpenR@thaus, aber auch zu übergreifenden Themen, um die kommunale Digitalisierung weiter voranzutreiben. mehr...
App: Schneller am Einsatzort Bericht
[29.11.2023] Der Klimawandel führt auch in Deutschland immer häufiger zu Umweltkatastrophen. Die vom Bundesforschungsministerium geförderte App KatHelfer Pro soll Länder und Kommunen künftig dabei unterstützen, freiwillige Hilfskräfte besser zu koordinieren. mehr...
Ahrtal: Betroffene Landkreise bringen Erfahrungen bei KatHelfer Pro ein.
Weitere FirmennewsAnzeige

EU-Richtlinie 2016/2102: So funktioniert barrierearme Rechnungsverarbeitung
[22.8.2023] Einen barrierearmen Zugang zu Websites und mobilen Anwendungen zu gewährleisten, dazu sind öffentliche Stellen in Deutschland und der EU seit 2019 verpflichtet. Was bedeutet dies für die Verarbeitung eingehender Rechnungen in SAP? Sind Dokumentenprozesse überhaupt betroffen? mehr...

Stadt Essen nutzt Eingangsrechnungsworkflow der xSuite im großen Stil: Sichere Planung durch Rechnungsworkflow
[23.3.2023] Essen ist eine moderne Wirtschafts-, Handels- und Dienstleistungsmetropole im Herzen des Ruhrgebiets. Sie ist Konzernzentrale, zum Beispiel für RWE AG, Evonik Industries AG, E.ON Ruhrgas AG, GALERIA Karstadt Kaufhof GmbH und Hochtief AG. Die Messe Essen ist etabliert unter den Top-Ten der deutschen Messeplätze. Was viele Besucher angesichts der modernen Essener Skyline verblüfft: Die Geschichte der Stadt ist älter als die Berlins, Dresdens oder Münchens. Essen feierte im Jahr 2002 das 1150-jährige Jubiläum von Stift und Stadt Essen. mehr...
Suchen...

 Anzeige



Aboverwaltung


Abbonement kuendigen

Abbonement kuendigen
Ausgewählte Anbieter aus dem Bereich Panorama:
JCC Software GmbH
48149 Münster
JCC Software GmbH
Telecomputer GmbH
10829 Berlin
Telecomputer GmbH
AIDA ORGA GmbH
75391 Gechingen
AIDA ORGA GmbH
Aktuelle Meldungen