CodeInspector - e-Research-Werkzeug zur datengetriebenen Suche und Analyse von sozialwissenschaftlicher Forschungssoftware

CodeInspector Banner

Über das Projekt

Im Rahmen der Open Science Bewegung und der FAIR Prinzipien gerät zunehmend auch Forschungssoftware in den Fokus. Forschungssoftware ist dabei das Bindeglied zwischen Forschungsdaten und wissenschaftlicher Publikation und erlaubt die Reproduktion und Nachvollziehbarkeit der Ergebnisse. Die Software ist realisiert durch von Menschen geschriebenen Programmcode und ist unabdingbar für die Nachnutzung von Forschungsergebnissen. Folgerichtig wird seit kurzem Software zusätzlich zu den bisherigen Forschungsartefakten, wie Literatur und Forschungsdaten, in Informationsinfrastrukturdienste integriert, die den Forschungsdatenzyklus unterstützen. Da die Integration von Forschungssoftware in Informationsinfrastrukturdienste noch sehr neu ist, gibt es bisher noch keine Projekte, die einen genaueren Einblick in die Details der Software ermöglichen. Bisherige Ansätze betrachten nur den Anwendungsfall der Suche nach Code auf Basis von Metadaten. Dabei trägt Programmcode in sich viele relevante Informationen, wie benutzte Daten und Pakete, Sprache und Erstellungsdatum, Autoren, benutzte Methoden sowie deren Kombination. Diese Informationen können automatisch extrahiert werden, ohne dass dies vom Autor oder von Kuratoren manuell in Informationsinfrastrukturdienste eingetragen werden muss. Ziel dieses Projekts ist es, dieses Potenzial von Programmcode zu explorieren und anzuwenden. Es wird ein e-Research Werkzeug entwickelt, welches relevante Informationen aus Forschungssoftware automatisch extrahiert, um in verschiedenen Use Cases für die Nutzenden einen Mehrwert zu bieten. Diese Use Cases wurden von uns bereits in Experteninterviews identifiziert. Konkret werden die Ergebnisse des Projekts dem Nutzer ermöglichen, nach Forschungssoftware zu suchen sowie die Funktionsweise des Codes zu verstehen, insbesondere die funktionelle Aufgabe von Codeteile und die Nutzung von Daten. Motiviert durch die Interviews konzentrieren wir uns zunächst auf Forschungssoftware, die statistische Tests ausführen. Statistische Auswertungen sind in vielen Disziplinen, wie etwa den Sozialwissenschaften und Psychologie ein zentraler Baustein des Erkenntnisgewinns. Wir konzentrieren uns auf die in diesem Umfeld häufig genutzte Programmiersprache R zur statistischen Datenanalyse. Wir planen, das entwickelte e-Research Werkzeug der Öffentlichkeit als Open Source zur Verfügung zu stellen, damit dieses in weiteren Projekten komplementär zum Einsatz kommen kann. Darüber hinaus werden extrahierte Metadaten, der semantische Codegraph und Links zwischen Software, aber auch zwischen Software und Forschungsdaten und Literatur veröffentlicht und über Scholix ausgetauscht, so dass diese von Aggregatoren wie OpenAIRE weiterverarbeitet werden können.

Förderer

Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 504226141

Funded by DFG - Deutsche Forschungsgemeinschaft