Reinforcement Learning

Beim Reinforcement Learning (RL, „bestärkendes Lernen“) bekommt der Lernalgorithmus von Zeit zu Zeit Feedback – „Belohnung“ für erwünschtes Verhalten, „Bestrafung“ für unerwünschtes –, sodass er Erfolgsaussichten einzelner Optionen in verschiedenen Situationen besser einzuschätzen lernt. Dabei ist zu beachten, dass die Begriffe „Belohnung“ und „Bestrafung“ in diesem Kontext natürlich als rein numerische Bewertungen zu verstehen sind, mithilfe derer der Algorithmus einen Lösungsweg als besonders lohnenswert erkennt oder eben nicht.

Diese Methode wird häufig etwa für Spiele oder für autonome Systeme eingesetzt. So gelang es beispielsweise dem mit Reinforcement Learning trainierten Modell Alpha Go, einen der weltbesten menschlichen Spieler im höchst komplexen Brettspiel Go zu besiegen.

Mit ihrem „Trial and Error“-Ansatz ähnelt sie am ehesten dem natürlichen Lernverhalten von Menschen und unterscheidet sich damit von zwei anderen verbreiteten Verfahren für das Training eines Modells, dem Supervised Learning und dem Unsupervised Learning, bei dem Ergebnisse in der Regel schon vorgegeben sind.

Einer der großen Vorteile von RL ist darum auch, dass weitgehend auf umfangreiche Trainingsdatensätze verzichtet werden kann. Zu den Nachteilen zählen die auch durch die Ergebnisoffenheit begründete relativ aufwendige Rechenleistung sowie das sogenannte „Exploration vs. Exploitation“-Dilemma, d. h. die Frage, ob eher ein bereits bekannter Lösungsweg genutzt und ggf. verbessert oder ein komplett neuer Weg gesucht werden soll.

Quellen:

https://www.ki.nrw/ki-schluesselbegriffe/#23
https://www.statworx.com/content-hub/blog/einfuehrung-in-reinforcement-learning-wenn-maschinen-wie-menschen-lernen/
https://digitaleweltmagazin.de/mit-reinforcement-learning-auf-dem-weg-zur-allgemeinen-ki/
https://www.techtarget.com/searchenterpriseai/definition/reinforcement-learning (englisch)
http://scholarpedia.org/article/Reinforcement_learning (englisch)