Automated Data Pipelines for Real-Time Monitoring of Global Weapons Transfers
Projektleitung: Prof. Dr. Paul W. Thurner und Dr. Oliver Pamp, Ludwig-Maximilians-Universität München
Projekttyp: Pilotprojekt
Fördersumme: 50 Tsd. Euro
Laufzeit: 12 Monate
Abstract
The international arms trade has a profound impact on global security, with the transfer of small arms and light weapons (SALW) to state and non-state actors playing a critical role in the escalation and de-escalation of conflicts. Despite its importance, data on SALW transfers remain limited due to the cessation of critical prior data initiatives and significant underreporting issues in existing sources. To address this gap, the pilot project aims to explore the feasibility of automated data pipelines for efficiently collecting and processing data on global weapon transfers. These pipelines will leverage machine learning and large language models to track global arms transfers to both state and non-state actors in real-time. The project, in partnership with SIPRI and leveraging support from the Munich Data Science hub, seeks to create a sustainable, updated data collection technology. The initiative will focus primarily on SALW but will also encompass major conventional weapons (MCW), aiming for greater accuracy and sustainability in arms monitoring practices.
The envisioned data pipelines are intended to leverage pre-existing datasets in conjunction with continually updated governmental records, trade statistics, text corpora, and news media sources. The system will integrate AI tools and custom pipelines to evaluate performance and conduct multilingual text analyses to identify actors and weapon types. The streamed data is standardized using Named Entity Recognition and Deep Learning algorithms to provide detailed information on providers, recipients, and weapon details. The data engineering process will be semi-supervised, requiring domain experts due to substantial domain knowledge demands. The aim is to demonstrate efficiency gains and forensic possibilities by incorporating new data sources and integrating data streams.
The implementation of automated data pipelines is expected to transform and improve the monitoring of global weapon transfers, enhancing policymaking and international collaboration on arms control. This will also contribute to new research data infrastructure in peace and conflict studies. The Pilot Project will be crucial in evaluating the feasibility of these pipelines by analyzing data sources, refining extraction methods, establishing data cleaning and integration protocols, and exploring automation of extraction processes with potential real-time monitoring systems.
Zusammenfassung
Der internationale Waffenhandel wirkt sich entscheidend auf die globale Sicherheit aus. Insbesondere die Weitergabe von Kleinwaffen und leichten Waffen (SALW – Small Arms and Light Weapons) an staatliche und nichtstaatliche Akteure beeinflusst maßgeblich die Eskalation oder Deeskalation von Konflikten. Trotz dieser hohen Bedeutung sind die verfügbaren Daten zu SALW-Transfers begrenzt. Dies liegt an der Einstellung früherer wichtiger Dateninitiativen sowie an erheblichen Problemen bei der vollständigen Erfassung dieser Informationen durch bestehende Quellen. Um diese Datenlücke zu schließen, zielt unser Pilotprojekt darauf ab, die Machbarkeit automatisierter Datenpipelines für die effiziente Sammlung und Verarbeitung von Informationen über weltweite Waffentransfers zu untersuchen.
Diese Pipelines nutzen maschinelles Lernen und große Sprachmodelle, um Waffentransfers an staatliche und nichtstaatliche Akteure zu verfolgen. In Zusammenarbeit mit SIPRI und der Unterstützung des Munich Data Science Hub wollen wir KI-gestützte Technologien zur Datenerfassung entwickeln. Der Fokus liegt primär auf SALW, aber auch große konventionelle Waffen (MCW – Major Conventional Weapons) werden berücksichtigt, um die Genauigkeit und Nachhaltigkeit des Monitorings im internationalen Waffenhandel zu verbessern.
Die geplanten Datenpipelines sollen bestehende Datensätze mit kontinuierlich aktualisierten Regierungsdokumenten, Handelsstatistiken, Textkorpora und Nachrichtenquellen verknüpfen. Das System integriert KI-Tools und speziell entwickelte Pipelines zur Leistungsbewertung und Durchführung mehrsprachiger Textanalysen. So können Akteure und Waffentypen identifiziert werden. Die gestreamten Daten werden mithilfe von Named Entity Recognition und Deep-Learning-Algorithmen standardisiert, um detaillierte Informationen über Lieferanten, Empfänger und Waffendetails bereitzustellen. Da ein hohes Maß an Fachwissen erforderlich ist, wird der Data-Engineering-Prozess teilautomatisiert sein und die Expertise von Domänenexperten einbeziehen. Ziel ist es, durch die Integration neuer Datenquellen und Datenströme Effizienzsteigerungen und neue forensische Möglichkeiten der Waffenhandelsdetektion aufzuzeigen.
Die Implementierung automatisierter Datenpipelines verspricht eine Transformation und deutliche Verbesserung der Überwachung globaler Waffentransfers. Dies wird die Politikgestaltung und die internationale Zusammenarbeit im Bereich der Rüstungskontrolle erheblich stärken. Gleichzeitig leistet es einen Beitrag zur Schaffung einer neuen Forschungsdateninfrastruktur für die Friedens- und Konfliktforschung. Das Pilotprojekt dient der Grundlagenforschung, um die Machbarkeit dieser Pipelines zu evaluieren, indem es Datenquellen analysiert, Extraktionsmethoden verfeinert, Protokolle zur Datenbereinigung und -integration etabliert sowie die Automatisierung von Extraktionsprozessen – potenziell auch mit Echtzeit-Überwachungssystemen – erforscht.
© Deutsche Stiftung Friedensforschung