Wie mit Data Science erfolgreiche KI entsteht

Professor Dr. Daniel Keim vom Fachbereich Informatik und Informationswissenschaft der Universität Konstanz ist Co-Autor eines Whitepaper zur Bedeutung der Schlüsseldisziplin Data Science

Künstliche Intelligenz (KI) ist die nächste Stufe der Digitalisierung und verspricht großen Nutzen für Wirtschaft und Gesellschaft. Grundlage für erfolgreiche KI-Anwendungen sind Daten. Um die KI-Potenziale auszuschöpfen, ist ein umfassendes Datenmanagement notwendig, das die vorliegenden Daten überhaupt erst zugänglich macht. Ein aktuelles sogenanntes Whitepaper der Plattform Lernende Systeme zeigt die Bedeutung des interdisziplinären Forschungszweiges Data Science als Schlüsseldisziplin für Wissenschaft sowie Wirtschaft und benennt Handlungsoptionen. Verfasst haben es Prof. Dr. Daniel Keim, Leiter der Arbeitsgruppe Datenanalyse und Visualisierung an der Universität Konstanz, und Prof. Dr. Kai-Uwe Sattler, der an der TU Ilmenau die Professur für Datenbanken und Informationssysteme innehat. In dem Fachartikel regen die Autoren an, Kenntnisse des Datenmanagements auch in informatikfernen Studiengängen sowie in der Schule zu vermitteln und empfiehlt eine unabhängige Dateninfrastruktur.

Ob medizinische Assistenzsysteme, autonome Fahrzeuge oder die vorausschauende Wartung von Industrieanlagen – sie alle werten in kurzer Zeit Daten aus, die heute in unglaublichen Mengen zur Verfügung stehen. Data Science-Methoden machen all diese KI-Anwendungen erst möglich. Sie gelten außerdem als Wegbereiter für die wissenschaftlichen Erkenntnisse in vielen datenintensiven Forschungsfeldern wie der Klimaforschung, der Astronomie oder der Chemie.

Mit dem studienbegleitenden Programm zur Daten- und Informationskompetenz „Advanced Data and Information Literacy Track“ (ADILT) wird an der Universität Konstanz der zunehmenden Digitalisierung Rechnung getragen. Mit dem ADILT werden Grundlagen der Informatik, Methoden der Datenverarbeitung, ihre juristischen Grundlagen und die Reflexion ihrer gesellschaftlichen Bedeutung in allen Studiengängen zum Lehrinhalt. Das Lehrprogramm ist ein Bestandteil der umfassenden E-Science-Strategie im Gesamtkonzept „Universität Konstanz – creative.together“, mit dem die Universität 2019 in der Förderlinie Exzellenzuniversitäten der Exzellenzstrategie des Bundes und der Länder erfolgreich war.

„Wenn Daten der Rohstoff des digitalen Zeitalters sind, dann ist Data Science das Werkzeug, mit dem sich dieser Schatz heben lässt “, sagt Daniel Keim. Der Informatik-Professor ist wie sein Co-Autor Kai-Uwe Sattler Mitglied der Arbeitsgruppe Technologische Wegbereiter und Data Science der Plattform Lernende Systeme, das 2017 vom Bundesministerium für Bildung und Forschung (BMBF) zur Entwicklung von Handlungsoptionen und Empfehlungen für den verantwortlichen Einsatz von Lernenden Systemen gegründet wurde. Er sagt außerdem: „Große Datenmengen allein reichen nicht aus, um KI-Anwendungen zu entwickeln. Zuvor müssen die Daten für das Training von lernenden Algorithmen erst vorbereitet, ihre Validität geprüft und die Daten zugänglich gemacht werden. Dafür brauchen wir ein umfassendes Datenmanagement inklusive fortgeschrittener Möglichkeiten zur Visualisierung der Daten. Das wird in der Diskussion um Künstliche Intelligenz leider oft zu wenig beachtet.“

Insbesondere das Erschließen der Daten und die Sicherstellung der Datenqualität sei häufig ein aufwändiger Prozess, heißt es im Whitepaper, das den Titel „Von Daten zu KI. Intelligentes Datenmanagement als Basis für Data Science und den Einsatz Lernender Systeme“ trägt. Die Ergebnisse und Empfehlungen von KI-Systemen können nur so gut sein wie die ihnen zugrunde liegenden Daten. Bereits bei der Datenauswahl sollte deshalb, so die Ausführungen, auch auf mögliche Verzerrungen geachtet werden, um etwa Diskriminierung zu vermeiden. Eine Software zur Bewertung von Job-Kandidatinnen und -kandidaten beispielsweise darf nicht nur mit den Daten erfolgreicher Bewerber der Vergangenheit trainiert werden. Wenn diese überwiegend männlich waren, wird das KI-System in seinen Empfehlungen auch in Zukunft weibliche Personen schlechter stellen.

Expertise und Data Literacy
Datenwissenschaftlerinnen und Datenwissenschaftler benötigen daher nicht nur Fähigkeiten im Datenmanagement des Maschinellen Lernens, der Statistik und der Visualisierung, sondern auch Kenntnisse zu Ethik und Recht, um mit den Daten verantwortungsvoll umzugehen. „Dies zeigt schon, dass es sich nicht mehr allein um klassische Softwareentwicklung handelt. Vielmehr sind dies Anforderungen, die einen interdisziplinären Zugang erfordern: Anwendungsexpertinnen und -experten benötigen zunehmend sogenannte Data Literacy-Expertise, und Data Science-Fachleute müssen auch die Anwendungsdomänen verstehen. Hier wird sich sicher ein großer Bedarf an Weiterbildungsangeboten entwickeln“, sagt Kai-Uwe Sattler.

Faktenübersicht:

  • Originalpublikation: Daniel A. Keim, Kai-Uwe Sattler: „Von Daten zu KI. Intelligentes Datenmanagement als Basis für Data Science und den Einsatz Lernender Systeme“
  • Whitepaper zur Bedeutung des interdisziplinären Forschungszweigs Data Science als Schlüsseldisziplin für Wissenschaft und Wirtschaft
  • Prof. Dr. Daniel Keim leitet an der Universität Konstanz die Arbeitsgruppe Datenanalyse und Visualisierung; Prof. Dr. Kai-Uwe Sattler ist an der TU Ilmenau Professor für Datenbanken und Informationssysteme
  • Beide sind Mitglied der Arbeitsgruppe Technologische Wegbereiter und Data Science der Plattform Lernende Systeme, die 2017 vom Bundesministerium für Bildung und Forschung (BMBF) zur Entwicklung von Handlungsoptionen und Empfehlungen für den verantwortlichen Einsatz von Lernenden Systemen gegründet wurde.