Technische Umsetzung DROPS
Foto von Vitaly Gariev auf Unsplash
Das Projekt DROPS neigt sich dem Ende zu, und es wird Zeit an dieser Stelle auch über die technische Umsetzung zu berichten. Zu diesem Zweck wird zuerst die technische Architektur der DROPS Plattform beschrieben, und danach werden einzelne Teile detaillierter dargestellt. Es gibt zudem auch ein Video das die einzelnen Aspekte des Demonstrators anhand eines Beispiels zeigt.
Übersicht über die Architektur

Datenannahme
Die DROPS Plattform ist als Client-Server Anwendung ausgeführt. Einliefernde, also zum Beispiel Sicherheitsforschende oder Hinweisgebende rufen die Website zum Upload von Daten über den Browser auf, dabei haben sie die Möglichkeit sich über eine https Verbindung (Standard Verschlüsselung) oder aber per TOR/Onion Betzwerk zu verbinden, um möglichst anonym zu bleiben. Für diesen Teil wird das existierende Projekt Onionshare benutzt, das auch die Einlieferung von Daten erleichtert.
Datenanalyse
Eingelieferte Dateien werden dann einem mehrstufigen Prüfverffahren unterzogen. Sie werden sortiert, falls nötg entschlüsselt oder dekomprimiert, und kategorisiert danach, ob die gewünschten Daten enthalten sind. Nicht erwünschte Daten werden sofort gelöscht. Im derzeitigen technischen Demonstrator werden Bild- und PDF Dateien verarbeitet, die entweder Identitätsdokumente (z.Zt. Personalausweise der Bundesrepublik Deutschland) enthalten können oder Rechnungen. Diese werden dann jeweils separat erkannt und verarbeitet durch ein queue und worker System.
Nach der Verarbeitung der Rohdateien, werden dann optimierte vLLMs genutzt, um die eigentlichen Textdaten zu erkennen. Diese werden mit argon2id gehasht, mit bestimmten, vordefinierten Ankerpunkten. Diese Ankerpunkte setzen sich z.B. aus dem Namen, der Anschrift und dem Geburtsdatum zusammen. Dies dient der Sicherheit der Daten, da z.B. auch die gehashten Daten nicht einfach durchiteriert werden können.
Datenabgleich
Die fertig verarbeiteten Daten werden dann so sicher und restriktiv wie möglich gespeichert, so dass maximaler Datenschutz gewährleistet ist, aber trotzdem die Möglichkeit des Abgleichs für Dateninhaber bzw. Basisdatenbereitstellende besteht. Dazu werden die generierten Hashes abgeschnitten um eine größere Unkenntlichkeit zu erreichen
Video Demonstration
Die technische Implementierung wird im unten stehenden Video erklärt, in dem durch den Ablauf der Eingabemasken geführt wird. Zudem werden die benutzten technischen Verfahren schematisch erläutert.