Adversarial Learning

Neben der defensiven Destillation gehört auch das Adversarial Learning (gegnerisches Lernen, kontradiktorisches Training) zu den Techniken, die sogenannte Adversarial Attacks auf KI-Systeme abwenden sollen. Derzeit gibt es noch keine andere Möglichkeit, um sich gegen solche Angriffe mit sogenannten „gegnerischen Beispielen“ zu verteidigen. Beim Adversarial Learning wird versucht, so viele gegnerische Beispiele (Adversarial Examples) wie möglich in ein Modell einzuspeisen. Dabei werden diese Beispiele ausdrücklich als bedrohlich eingestuft und sollen dafür sorgen, das Modell robuster gegenüber Angriffen zu machen. Adversarial Examples sind also absichtlich gestört, um gezielt falsche Ergebnisse herbeizuführen. So lernt das Modell, wie ein gegnerischer Angriff aussehen könnte, und kann allmählich ein stärkeres „Immunsystem“ ausbilden.

Die Technik des kontradiktorischen Trainings verfolgt demzufolge denselben Ansatz wie die typische Antivirensoftware für PCs, die täglich mehrfach aktualisiert wird. Auch wenn diese Art der Software recht effektiv ist, sind ständige Updates erforderlich, um eine konstante Aktualität der Viren-Datenbank zu gewährleisten und so mit neuen Bedrohungen Schritt zu halten.

Dasselbe gilt für die Technik des gegnerischen Lernens: Sie kann zwar nützlich sein, um Adversarial Attacks zu verhindern, erfordert allerdings einen hohen Pflegeaufwand und kann ein Modell nur vor bereits bekannten Angriffsvarianten schützen. Folglich können mithilfe dieser Technik nicht alle Angriffe gestoppt werden, weil die Bandbreite der möglichen Angriffe zu groß ist und nicht im Vorfeld generiert werden kann.

Quellen:

https://www.bigdata-ai.fraunhofer.de/content/dam/bigdata/de/documents/Publikationen/Fraunhofer_Studie_ML_201809.pdf

https://the-decoder.de/kuenstliche-intelligenz-begriffe-erklaerung/

https://www.computerweekly.com/de/definition/Adversarial-Machine-Learning

https://deepai.org/machine-learning-glossary-and-terms/adversarial-machine-learning (englisch)