KIT - KASTEL: Cryptography and Security Group - Teaching - Institute Seminar - [MA] Privatsphäre bewahrender Gradient Descent mittels additiv homomorpher Verschlüsselung am Beispiel von Linearer Regressionen

[MA] Privatsphäre bewahrender Gradient Descent mittels additiv homomorpher Verschlüsselung am Beispiel von Linearer Regressionen

Name:
Privatsphäre bewahrender Gradient Descent mittels additiv homomorpher Verschlüsselung am Beispiel von Linearer Regressionen
Venue:
Geb. 50.34, SR 236 und online: https://i62bbb.tm.kit.edu/b/mic-7xx-rfr
Date:
2023-03-07
Time:
16:15
Mit der immer größeren Relevanz des maschinellem Lernens spielen Daten eine immer
größere Rolle für die Wirtschaft. Es ist soweit gekommen, dass in den meisten großen Kon-
zernen lernende Modelle nicht wegzudenken sind. Aufgrund unseres Verhaltens schlägt
uns Netflix die passenden Filme, Amazon das passende Produkt oder Spotify unser nächs-
tes Lieblingslied vor. Doch jedes lernende Modell benötigt viele und qualitativ nützliche
Daten, um am Ende ein sinnvolles Ergebnis zu liefern. In einer Zeit, in der die Datenver-
fügbarkeit stark wächst, steigt auch das Verlangen nach Datenschutz von persönlichen
Daten. Gerade in Deutschland und der EU ist Datenschutz in den letzten Jahren ein in der
Relevanz stark zunehmendes Thema. Durch die daraus entstandenen Maßnahmen wird es
immer schwieriger ein Modell sinnvoll zu trainieren, da der Zugang zu den benötigten
persönlichen Daten verhindert wird. In dieser Arbeit stellen wir eine Konstruktion vor, die
ein Modell nur auf verschlüsselten Daten trainiert. Hierfür ermöglicht ein additiv homo-
morphes Verschlüsselungsverfahren Operationen auf verschlüsselten Daten auszuführen.
Die Konstruktion garantiert damit, dass die verwendeten Daten nur verschlüsselt zu se-
hen sind und dadurch niemals der tatsächliche Inhalt der Daten preisgegeben wird. Am
Ende erhalten wir aber trotzdem trainierte Modellparameter. Wir entsprechen somit dem
Datenschutz, da wir eine Geheimhaltungsgarantie der Daten abgeben können. Der große
Vorteil hiervon ist, dass das Teilen von sensiblen Daten durch die Geheimhaltung stark
erleichtert wird, da ein Herausgeber der Daten nicht den Datenschutz dadurch verliert.
Eine aufstrebende Technik im maschinellem Lernen ist das föderale Lernen, welches in
der neuen Konstruktion umgesetzt wird. Im Vergleich zu dem herkömmlichen zentralen
maschinellem Lernen gibt es beim föderalem Lernen mehrere dezentralisierte Parteien, die
alle ihren eigenen Datensatz besitzen. Es wird ein gemeinsames Modell trainiert, indem
jeder Teilnehmer der Konstruktion parallel auf ihren Daten lernt und die entstandenen
Zwischenergebnisse am Ende von einer zentralen Partei zusammengefasst werden. Bei
der herkömmlichen zentralisierten Technik werden die Daten direkt auf einem Gerät
gesammelt und erst dort das Modell ohne Möglichkeit der Parallelisierung trainiert. Mit
der föderalen Lösung wird eine bessere Skalierung der Konstruktion bei großen Daten-
mengen erreicht, da die einzelnen Teilnehmer parallel trainieren können. In der neuen
Konstruktion wird es den einzelnen Parteien ermöglicht ein gemeinsames und robustes
Modell, basierend auf den Daten aller Parteien, zu entwerfen ohne die eigenen Daten
teilen zu müssen. Diese Technik wird in der Konstruktion mit dem additiv homomorphen
Verschlüsselungsverfahren harmonieren und wir können Einsparungen in der Laufzeit
für die Berechnungen auf den verschlüsselten Daten durch die Konstruktion erzielen. Es
entsteht somit eine Win-Win-Situation, da es als Partei immer protabel ist mit seinen
Daten am Lernen teilzunehmen, um ein sinnvolleres und robusteres Modell zu erhalten.
Aus Sicht der anderen Parteien ist es wünschenswert, dass so viele Parteien wie möglich
an dem Training teilnehmen, um die Größe des Datensatz zu erweitern.
In der Konstruktion benutzen wir als Modell die lineare Regression und setzen diese
mittels Gradient Descent um. Aufgrund der Linearität des Modells wird es ermöglicht
das Training nur durch die Operationen des additiv homomorphen Verschlüsselungsver-
fahrens auf verschlüsselten Daten umzusetzen und den Datenschutz damit zu erreichen.
Wir behandeln damit sowohl ein weitverbreitetes Modell als auch eine weitverbreitete
Optimierungsmethode, womit wir vergleichbare Ergebnisse für ähnliche Konstruktionen
erhalten können. Auch anhand einer Implementierung der Konstruktion ist es möglich eine
Tendenz über die Umsetzbarkeit des Trainings mit Gradient Descent auf verschlüsselten
Daten und großen Datensätzen zu geben.