gemeinsam neue Wege der Erkenntnis gehen
Eine freie Initiative von Menschen bei anthrowiki.at anthrowiki.at, anthro.world anthro.world, biodyn.wiki biodyn.wiki und steiner.wiki steiner.wiki
mit online Lesekreisen, Übungsgruppen, Vorträgen ...
Wie Sie die Entwicklung von AnthroWiki durch Ihre Spende unterstützen können, erfahren Sie hier.

Use Google Translate for a raw translation of our pages into more than 100 languages.
Please note that some mistranslations can occur due to machine translation.
Alle Banner auf einen Klick

Aufmerksamkeit (Maschinelles Lernen)

Aus AnthroWiki

Aufmerksamkeit ist in künstlichen neuronalen Netzen eine Technik, die die kognitive Aufmerksamkeit imitieren soll. Durch diesen Effekt werden einige Teile der Eingabedaten verstärkt, während andere Teile abgeschwächt werden - die Motivation ist, dass das Netz den kleinen, aber wichtigen Teilen der Daten mehr Aufmerksamkeit widmen sollte. Das Lernen, welcher Teil der Daten wichtiger ist als ein anderer, hängt vom Kontext ab und wird durch Gradientenabstieg trainiert.

Aufmerksamkeitsähnliche Mechanismen wurden in den 1990er Jahren unter Bezeichnungen wie multiplikative Module, Sigma-Pi-Einheiten und Hypernetzwerke eingeführt[1]. Ihre Flexibilität ergibt sich aus ihrer Rolle als "weiche Gewichte", die sich während der Laufzeit ändern können, im Gegensatz zu Standardgewichten, die zur Laufzeit fest bleiben müssen. Zu den Anwendungen der Aufmerksamkeit gehören das Gedächtnis in neuronalen Turing-Maschinen, logische Aufgaben in differenzierbaren neuronalen Computern,[2] Sprachverarbeitung in Transformern und LSTMs sowie die Verarbeitung multisensorischer Daten (Ton, Bild, Video und Text) in Wahrnehmungsgeräten.[3][4][5][6] Es gibt verschiedene Arten von Aufmerksamkeit, darunter (a) die Bahdanau-Aufmerksamkeit, auch als additive Aufmerksamkeit bezeichnet, (b) die Luong-Aufmerksamkeit, die als multiplikative Aufmerksamkeit bekannt ist und auf der additiven Aufmerksamkeit aufbaut, und (c) die in Transformern eingeführte Selbstaufmerksamkeit. Bei neuronalen Faltungsnetzen können die Aufmerksamkeitsmechanismen auch nach der Dimension unterschieden werden, auf der sie wirken, nämlich: räumliche Aufmerksamkeit,[7] Kanalaufmerksamkeit,[8] oder Kombinationen aus beiden.[9][10]

Grundidee

Bei einer Folge von Tokens , die durch den Index gekennzeichnet sind, berechnet ein neuronales Netz für jedes ein weiches Gewicht mit der Eigenschaft, dass nicht-negativ ist und . Jedem ist ein Wertevektor zugeordnet, der aus der Worteinbettung des -ten Tokens berechnet wird. Der gewichtete Durchschnitt ist das Ergebnis des Aufmerksamkeitsmechanismus.

Der Query-Key-Mechanismus errechnet die weichen Gewichte. Aus der Worteinbettung jedes Tokens berechnet er den entsprechenden Abfragevektor und den Schlüsselvektor . Die Gewichte erhält man durch die Softmax-Funktion des Skalarprodukts , wobei für das aktuelle Token und für das Token steht, auf das gerade geachtet wird.

In einigen Architekturen gibt es mehrere Aufmerksamkeitsbereiche (so genannte "Multi-Head-Attention"), die jeweils unabhängig voneinander mit eigenen Abfragen, Schlüsseln und Werten arbeiten.

Einzelnachweise

  1. Vorlage:Cite AV media
  2. Alex Graves, Greg Wayne, Malcolm Reynolds, Tim Harley, Ivo Danihelka, Agnieszka Grabska-Barwińska, Sergio Gómez Colmenarejo, Edward Grefenstette, Tiago Ramalho, John Agapiou, Adrià Puigdomènech Badia, Karl Moritz Hermann, Yori Zwols, Georg Ostrovski, Adam Cain, Helen King, Christopher Summerfield, Phil Blunsom, Koray Kavukcuoglu, Demis Hassabis: Hybrid computing using a neural network with dynamic external memory. In: Nature. 538, Nr. 7626, 12. Oktober 2016, ISSN 1476-4687, S. 471–476. bibcode:2016Natur.538..471G. doi:10.1038/nature20101. PMID 27732574.
  3. Vorlage:Cite arXiv
  4. Vorlage:Cite arXiv
  5. Vorlage:Cite arXiv
  6. Ray, Tiernan. Google's Supermodel: DeepMind Perceiver is a step on the road to an AI machine that could process anything and everything (en).
  7. Xizhou Zhu, Dazhi Cheng, Zheng Zhang, Stephen Lin, Jifeng Dai: An Empirical Study of Spatial Attention Mechanisms in Deep Networks. In: 2019 IEEE/CVF International Conference on Computer Vision (ICCV). 2019, S. 6687–6696. arxiv:1904.05873. doi:10.1109/ICCV.2019.00679.
  8. Jie Hu, Li Shen, Gang Sun: Squeeze-and-Excitation Networks. In: IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2018, S. 7132–7141. arxiv:1709.01507. doi:10.1109/CVPR.2018.00745.
  9. Vorlage:Cite arXiv
  10. Vorlage:Cite arXiv
Dieser Artikel basiert auf einer für AnthroWiki adaptierten Fassung des Artikels Aufmerksamkeit (Maschinelles Lernen) aus der freien Enzyklopädie en.wikipedia.org und steht unter der Lizenz Creative Commons Attribution/Share Alike. In Wikipedia ist eine Liste der Autoren verfügbar.