Wikidata:WikiProject DH Tool Registry/Background

From Wikidata
Jump to navigation Jump to search

Wikiproject

 

Background

 

Data Model

 

How to Use

 

Background (English version)[edit]

Disclaimer: This text is based on a paper submitted to the FORGE 2023 conference.

Tool directories for Digital Humanities have grown into a well-established genre: from DiRT to Bamboo and TaPOR 3 (Grant et al. 2020), large EU projects like the Social Sciences and Humanities Open Marketplace, the consortia of the German National Research Data Infrastructure (NFDI), the Specialized Information Services (Fachinformationsdienste, FID) or individual libraries and institutions. They all address the obvious and concrete need of research communities and individual practicioners for an overview of computational methods and their implementation in specific software. Existing and projected tool directories approach this fundamental problem through curatorial hierarchies and equally hierarchical concepts of knowledge production and organization. They also commonly share a lack of permanent funding and an over-reliance on curation by unpaid expert committees as well as a preference for tightly controlled data silos and proprietary infrastructures (data models, backends, and frontends), both of which severely and negatively impact their sustainably. Finally they offer only limited APIs with often abysmal or no documentation at all and focus on human-readable frontends and presentational layers. As a result, we consider such an approach to tool directories as fundamentally flawed and principally unsuited for providing a comprehensive, representative, and always up-to-date image of the available opportunities for computational research and digital scholarship (see Dombrowski 2021). At best, they are snapshots or documentations of historical practices. The focus on volatile presentation layers with their need for constant maintenance consequently prevents the underlying data—highly structured output of a venerable scholarly and curatorial effort—from being continuously available with permanent URIs and in a stable, machine-readable format as a basis for linked authority datasets.

We at the prototypical Kompetenzwerkstatt Digital Humanities (Competence Center Digital Humanities) as a place of learning to foster computational tool literacy in the humanities at the university library of Humboldt-Universität zu Berlin (HU) and the Methods Innovation Lab of NFDI4Memory, also located at HU, approach this problem through minimal computing, making, and Open Science. Minimal computing involves aligning the question “what do we need?” with the answers to the question “what do we have at hand?” (see Gil and Ortega 2016; Risam and Gil 2022). For our work in consulting, we need an infrastructure that allows us to sustainably record and share our evolving knowledge about tools for computational research: which tools can be used for a particular purpose, who has already used them and what experiences did they gain in the process, and where and how can their use be learned?

Due to limited resources and time and in the interest of good scholarly conduct, our tool registry builds on existing datasets as well as free open-source software (FOSS) and Wikidata as a well-established and increasingly popular platform for the open provision of semantically rich and linked data. Our primary goals are (a) to develop and implemented a minimal—basic—data model for the description of (computational) research methods and tools, (b) to describe a relatively small, curated sample of tools using this data model as a demonstrator, (c) to provide workflows and queries for querying items, and (d) to write a web application as an independent frontend with Wikidata as a backend. Such an infrastructure ensures much greater openess and sustainability by directly publishing all data through Wikidata. It is also modular and can be easily adapted to other knowledge domains.

Project Goal: Tool Registry[edit]

The goal of this approach is to propose an open basic infrastructure for subject-specific tool registries and to implement a web application based on Wikidata as a proof of concept. In doing so, Wikidata as a distributed, community-curated authority file and open platform is at the center of our proposal, which addresses several weaknesses of existing tool directories. Wikidata allows iterative development of minimal data models, maintaining datasets, and assembling curated collections in WikiProjects and through specific queries. At the data level, Wikidata allows immediate use of all information as Linked Open Data (LOD) via SPARQL, Wikibase APIs and the Wikidata/Wikibase web interface. Wikidata is also one of the sources for the Virtual International Authority File (VIAF) and for summary information in the result lists of the dominant search engines, which increases the visibility of the datasets. In addition, Wikidata and its sister projects provide an established governance structure for user-generated and -curated content. Everyone can contribute and maintain the entries that are relevant to their specific research. Unlike many digital humanities infrastructures, the multilingualism of interfaces and datasets is a fundamental feature. Data can then be used to curate and enrich specific tool directories focused on research fields and research communities. For example, with a focus on digital humanities, software applications, publications or tutorials and a classification of those items based on the TaDiRAH taxonomy (Borek et al. 2021) would be a viable perspective for this approach. The Wikimedia software and platform offers the possibility to do this directly in Wikidata as well. However, our proposal also allows Wikidata to be used exclusively as an authority file and data provider for extra front-ends, as e.g. implemented by Scholia for the profiles of scientists (Nielsen, Mietchen, and Willighagen 2017). We hope that the workflow we propose for describing and classifying tools for digital humanities research and learning will serve as a starting point for ongoing and future efforts in providing basic information and overview to DH learning and support contexts as a shared effort and contribution to the digital commons. (Wittel 2013) In addition, this is part of an ongoing process in research and GLAM institutions to perceive Wikidata not just as a provider of content (cf. Zhao 2022; Fischer and Ohlig 2019), but also to contribute data.


Hintergrund (deutsche Fassung)[edit]

Disclaimer: Dieser Text ist abgeleitet von einer Einreichung für die Konferenz FORGE 2023.

Toolverzeichnisse sind Legion und ein etabliertes Genre in den Digital Humanities: von DiRT zu Bamboo und TAPoR (3.0) (Grant et al. 2020), großen EU-Projekten wie dem Social Sciences and Humanities Open Marketplace, den Konsortien der deutschen Nationalen Forschungsdaten Infrastruktur (NFDI), den Fachinformationsdiensten (FID) oder individuellen Bibliotheken und Instituten. Ihnen allen ist gemeinsam, dass sie ein offensichtliches und reales Bedürfnis der Forschungscommunities nach einem Überblick über computergestützte Werkzeuge mit kuratorischen Ansätzen der Wissensorganisation bedienen. Ihnen ist außerdem gemeinsam, dass sie über keine dauerhafte Finanzierung verfügen, dass sie primär auf die Kuratierung durch (unbezahlte) Expert_innen-Gremien setzen, diesen Prozess aber nicht dauerhaft und nachhaltig gewährleisten können, dass Datensilos mit proprietären Infrastrukturen (Datenmodelle, Backends und Frontends) geschaffen werden, und dass nur in geringem Maße APIs angeboten und dokumentiert werden. Im Ergebnis sind diese Toolverzeichnisse in dem Anspruch eines umfassenden, repräsentativen und je aktuellen Abbildes der verfügbaren Möglichkeiten computergestützter Forschung und digitaler Wissenschaft als gescheitert zu verstehen (vgl. Dombrowski 2021). Vielmehr handelt es sich im besten Fall um Momentaufnahmen bzw. die Dokumentation historischer Praktiken. Der Fokus auf eine volatile, kontinuierliche Wartung erfordernde Präesentationsschicht führt dazu, dass auch die Daten als Ergebnis und wissenschaftlicher Mehrwert der Kuratierung nicht dauerhaft, mit permanenten URIs, und in einem stabilen, maschinenlesbaren Format als Basis für verlinkte Normdatensätze zur Verfügung stehen.

Für die DFG-geförderte prototypische Kompetenzwerkstatt Digital Humanities als Lernort zur Förderung von Werkzeugkompetenz (tool literacy) in den Geistes- und Kulturwissenschaften an der Universitätsbibliothek der Humboldt-Universität zu Berlin und für das Methods Innovation Lab von NFDI4Memory, das ebenfalls an der Humboldt-Universität angesiedelt ist, verfolgen wir daher einen von minimal computing, making und Open Science inspirierten Ansatz. Minimal computing erfordert dabei die Frage “was brauchen wir?” mit den Antworten auf die Frage “was steht uns je zur Verfügung?” in Einklang zu bringen (vgl. Gil and Ortega 2016; Risam and Gil 2022). Für unsere Arbeit in der Beratung benötigen wir eine Infrastruktur, die es uns erlaubt unser sich entwickelnes Wissen über Werkzeuge für die computergestützte Forschung nachhaltig festzuhalten und teilen zu können: Welche Werkzeuge können für einen bestimmten Zweck eingesetzt werden, wer hat sie eingesetzt und dabei welche Erfahrungen gemacht, und wo und wie kann der Einsatz erlernt werden?

Bedingt durch beschränkte Mittel und Zeit und im Sinne wissenschaftlicher Nachhaltigkeit stützen wir uns bei der Konzeption und Implementierung einer solchen Tool Registry auf bestehende Datensätze sowie freie quelloffene Software (FOSS) und Wikidata als etablierte Plattform für die offene Bereitstellung von Daten. Primäres Ziel ist es, auf Basis eines minimalen Datenmodells ausgewählte Werkzeuge in Wikidata zu beschreiben, Workflows und Queries für die Abfrage von Items bereitzustellen und eine Webanwendung als eigenständiges Frontend für die Daten in Wikidata zu schreiben, die bei Bedarf auch in anderen Beratungskontexten verwendet werden kann. Das Konzept ist modular angelegt, insbesondere hängen die Daten in Wikidata nicht von der Webanwendung ab.

Projektziel: Tool Registry[edit]

Ziel dieses Ansatzes ist der Vorschlag für eine offene Basisinfrastruktur für fachspezifisch orientierte Tool Registries und die Implementierung einer Webanwendung auf Basis von Wikidata als proof of concept. Dabei steht Wikidata als eine verteilte, community-kuratierte Normdatei und offene Softwareplatform im Zentrum unseres Vorschlages, die mehrere Schwächen bestehender Toolverzeichnisse adressiert. Wikidata erlaubt es, minimale Datenmodelle iterativ zu entwickeln, Datensätze zu pflegen und diese in Wikiprojekten zu kuratierten Sammlungen zusammenzustellen. Auf der Datenebene erlaubt Wikidata die unmittelbare Nutzung sämtlicher Informationen als Linked Open Data (LOD) über SPARQL, APIs sowie das etablierte Webinterface. Wikidata ist außerdem eine der Quellen für das Virtual International Authority File (VIAF) und für zusammenfassende Informationen in den Ergebnislisten der dominanten Suchmaschinen, was die Sichtbarkeit der Datensätze enorm erhöht. Darüber hinaus bieten Wikidata und ihre Schwesterprojekte eine etablierte Governancestruktur für nutzergenerierte und -kuratierte Inhalte. Jede_r kann die Einträge beitragen und pflegen, die für ihre je konkrete Forschung relevant sind. Anders als bei viele Infrastrukturen der Digital Humanities ist die Vielsprachigkeit von Interfaces und Datensätzen ein grundlegendes Feature. Auf dieser Datenbasis lassen sich dann Fachcommunity-spezifische Toolverzeichnisse kuratieren und anreichern. Denkbar ist etwa eine Klassifizierung unter Anwendung der TaDiRAH-Taxonomie (Borek et al. 2021) oder die Hinterlegung von Anwendungsbeispielen, Publikationen oder Tutorials im angereicherten Datensatz. Die Wikimedia-Software und -Plattform bietet die Möglichkeit, dies auch direkt in Wikidata zu tun. Unser Vorschlag erlaubt aber auch, Wikidata ausschließlich als Normdatei und Datenprovider für eigene Frontends einzusetzen, so wie es z.B. Scholia für die Profile von Wissenschaftler_innen tut (Nielsen, Mietchen, and Willighagen 2017). Schließlich adressiert unser Vorschlag die Nachhaltigkeit von Projektförderungen durch den kontinuierlichen Beitrag von Daten zu den Digital Commons (Wittel 2013) in Gestalt von Wikidata während der Projektlaufzeit und die Weiternutzung dieser Daten nach der Projektlaufzeit. Damit ist unser Vorschlag Teil einer Bewegung, Wikidata in der Wissenschaft und GLAM-Institution nicht mehr nur als Anbieter von Inhalten wahrzunehmen (vgl. Zhao 2022; Fischer and Ohlig 2019), sondern auch Daten einzupflegen.


Referenced works[edit]

Borek, Luise, Canan Hastik, Vera Khramova, Klaus Illmayer, and Jonathan D. Geiger. 2021. “Information Organization and Access in Digital Humanities: TaDiRAH Revised, Formalized and FAIR.” In Information Between Data and Knowledge, 321–32. Schriften Zur Informationswissenschaft 74. Glückstadt: Werner Hülsbusch. https://doi.org/doi.org/10.5283/epub.44951.


Dombrowski, Quinn. 2021. “The Directory Paradox.” In People, Practice, Power: Digital Humanities Outside the Center, edited by Anne B. McGrail, Angel David Nieves, and Siobhan Senier. Debates in the Digital Humanities. Minneapolis: University of Minnesota Press. https://dhdebates.gc.cuny.edu/read/people-practice-power/section/ca87ec4c-23a0-452d-8595-7cfd7e8d6f0c.


Fischer, Barbara, and Jens Ohlig. 2019. ‘GND Meets Wikibase’ - Eine Kooperation. Eine Bundesbehörde Geht Auf Expedition Im Wikiversum: Ein Neues Testfeld Für Wikibase.” GND (blog). May 8, 2019. https://wiki.dnb.de/pages/viewpage.action?pageId=147754828.


Gil, Alex, and Élika Ortega. 2016. “Global Outlooks in Digital Humanities: Multilingual Practices and Minimal Computing.” In Doing digital humanities: practice, training, research, edited by Constance Crompton, Richard J Lane, and Ray Siemens, 22–34. Abingdon: Routledge.


Grant, Kaitlyn, Quinn Dombrowski, Kamal Ranaweera, Omar Rodriguez-Arenas, Stéfan Sinclair, and Geoffrey Rockwell. 2020. “Absorbing DiRT: Tool Directories in the Digital Age.” Digital Studies / Le Champ Numérique 10 (1). https://doi.org/10.16995/dscn.325.


Nielsen, Finn Årup, Daniel Mietchen, and Egon Willighagen. 2017. “Scholia, Scientometrics and Wikidata.” In The Semantic Web: ESWC 2017 Satellite Events, edited by Eva Blomqvist, Katja Hose, Heiko Paulheim, Agnieszka Ławrynowicz, Fabio Ciravegna, and Olaf Hartig, 237–59. Lecture Notes in Computer Science. Cham: Springer International Publishing. https://doi.org/10.1007/978-3-319-70407-4_36.


Risam, Roopika, and Alex Gil. 2022. “Introduction: The Questions of Minimal Computing.” Edited by Alex Gil and Roopika Risam. Digital Humanities Quarterly 16 (2, "Minimal Computing"). http://digitalhumanities.org/dhq/vol/16/2/000646/000646.html.


Wittel, Andreas. 2013. “Counter-Commodification: The Economy of Contribution in the Digital Commons.” Culture and Organization 19 (4): 314–31. https://doi.org/gmqgqq.


Zhao, Fudie. 2022. “A Systematic Review of Wikidata in Digital Humanities Projects.” Digital Scholarship in the Humanities, December, 1–22. https://doi.org/10.1093/llc/fqac083.