Bei der Entscheidung über Reaktionen auf einen neuen Stimulus können langsamere anfängliche Reaktionszeiten die langfristige Belohnung durch Lernen maximieren – ScienceDaily


Wissenschaftler haben Beweise für die kognitive Kontrolle des Lernens bei Ratten geliefert, die zeigen, dass sie den langfristigen Wert des Lernens einschätzen und ihre Entscheidungsstrategie anpassen können, um Lernmöglichkeiten zu nutzen.

Die Ergebnisse deuten darauf hin, dass Ratten, indem sie länger für eine Entscheidung brauchen, sofortige Belohnungen opfern können, um ihre Lernergebnisse zu verbessern und während des gesamten Verlaufs einer Aufgabe größere Belohnungen zu erzielen. Die Ergebnisse werden heute in veröffentlicht eLife.

Ein etabliertes Prinzip der Verhaltensneurowissenschaften ist der Kompromiss zwischen Geschwindigkeit und Genauigkeit, der bei vielen Arten zu beobachten ist, von Nagetieren bis zu Primaten. Das Prinzip beschreibt die Beziehung zwischen der Bereitschaft einer Person, langsam zu reagieren und weniger Fehler zu machen, im Vergleich zu ihrer Bereitschaft, schnell zu reagieren und mehr Fehler zu riskieren.

„Viele Studien in diesem Bereich haben sich auf den Kompromiss zwischen Geschwindigkeit und Genauigkeit konzentriert, ohne die Lernergebnisse zu berücksichtigen“, sagt Hauptautor Javier Masís, der zu dieser Zeit Doktorand am Institut für Molekular- und Zellbiologie war, und der Center for Brain Science, Harvard University, USA, und ist jetzt Presidential Postdoctoral Research Fellow am Princeton Neuroscience Institute der Princeton University, USA. „Unser Ziel war es, das schwierige intertemporale Wahlproblem zu untersuchen, das besteht, wenn Sie die Möglichkeit haben, Ihr Verhalten durch Lernen zu verbessern.“

Für ihre Studie versuchten Masís und Kollegen zunächst festzustellen, ob Ratten in der Lage waren, den Kompromiss zwischen Geschwindigkeit und Genauigkeit zu lösen. Das Team richtete ein Experiment ein, bei dem Ratten, nachdem sie eines von zwei visuellen Objekten gesehen hatten, die in ihrer Größe und Drehung variieren konnten, entschieden, ob das visuelle Objekt dasjenige war, das einer linken oder einer rechten Reaktion entsprach, und die entsprechende Berührung leckten -sensibler Port, sobald sie sich entschieden hatten. Leckten die Ratten den richtigen Port, wurden sie mit Wasser belohnt, und leckten sie den falschen Port, erhielten sie eine Auszeit.

Das Team untersuchte die Beziehung zwischen Fehlerrate (ER) und Reaktionszeit (RT) während dieser Versuche unter Verwendung des Drift-Diffusion-Modells (DDM) – eines Standard-Entscheidungsfindungsmodells in Psychologie und Neurowissenschaften, bei dem der Entscheidungsträger Beweise sammelt Zeit, bis das Evidenzniveau für eine Alternative einen Schwellenwert erreicht. Der Schwellenpegel des Subjekts steuert den Geschwindigkeits-Genauigkeits-Kompromiss. Die Verwendung eines niedrigen Schwellenwerts führt zu schnellen, aber fehleranfälligen Antworten, während ein hoher Schwellenwert zu langsamen, aber genauen Antworten führt. Für jeden Schwierigkeitsgrad gibt es jedoch eine am besten Schwellwert festzulegen, der Geschwindigkeit und Genauigkeit optimal ausbalanciert und es dem Entscheidungsträger ermöglicht, seine Instantaneous Reward Rate (iRR) zu maximieren. Über alle Schwierigkeiten hinweg kann dieses Verhalten durch eine Beziehung zwischen ER und RT zusammengefasst werden, die als optimale Leistungskurve (OPC) bezeichnet wird. Nachdem die Aufgabe vollständig erlernt war, erreichte mehr als die Hälfte der trainierten Ratten den OPC, was zeigt, dass gut trainierte Ratten den Kompromiss zwischen Geschwindigkeit und Genauigkeit lösen.

Zu Beginn des Trainings gaben jedoch alle Ratten über 20 % ihres iRR auf, während die meisten Ratten gegen Ende nahezu optimal ihren iRR maximierten. Dies führte zu der Frage: Wenn Ratten am Ende des Lernens sofortige Belohnungen maximieren, was bestimmt dann ihre Strategie zu Beginn des Lernens?

Um dies zu beantworten, passte das Team das DDM als rekurrentes neuronales Netzwerk (RNN) an, das im Laufe der Zeit lernen konnte, und entwickelte das Learning Drift-Diffusion Model (LDDM), mit dem es untersuchen konnte, wie langfristiges Wahrnehmungslernen in vielen Studien beeinflusst wird die Wahl des Entscheidungszeitpunkts in einzelnen Studien. Das Modell wurde mit Blick auf Einfachheit entwickelt, um wichtige qualitative Kompromisse zwischen Lerngeschwindigkeit und Entscheidungsstrategie hervorzuheben. Die Analysen dieses Modells legten nahe, dass Ratten eine „nicht gierige“ Strategie anwenden, die anfängliche Belohnungen eintauscht, um das Lernen zu priorisieren und somit die Gesamtbelohnung im Verlauf der Aufgabe zu maximieren. Sie zeigten auch, dass längere Anfangsreaktionszeiten zu schnellerem Lernen und höherer Belohnung führen, sowohl in einer experimentellen als auch in einer simulierten Umgebung.

Die Autoren fordern weitere Studien, um diese Ergebnisse zu konsolidieren. Die aktuelle Studie ist durch die Verwendung des DDM zur Schätzung des verbesserten Lernens eingeschränkt. Das DDM und damit LDDM ist ein einfaches Modell, das ein leistungsfähiges theoretisches Werkzeug zum Verständnis bestimmter Arten von Verhalten einfacher Entscheidungen ist, das im Labor untersucht werden kann, aber es ist nicht in der Lage, ein natürlicheres Entscheidungsverhalten quantitativ zu beschreiben. Darüber hinaus konzentriert sich die Studie auf eine visuelle Wahrnehmungsaufgabe; Die Autoren ermutigen daher zur weiteren Arbeit mit anderen lernbaren Aufgaben über Schwierigkeiten, sensorische Modalitäten und Organismen hinweg.

„Unsere Ergebnisse bieten eine neue Sicht auf den Kompromiss zwischen Geschwindigkeit und Genauigkeit, indem sie zeigen, dass das Wahrnehmungsentscheidungsverhalten stark von der strengen Anforderung geprägt ist, schnell zu lernen“, behauptet der leitende Autor Andrew Saxe, zuvor Postdoktorand am Department of Experimentelle Psychologie, University of Oxford, UK, und jetzt Sir Henry Dale Fellow und außerordentlicher Professor an der Gatsby Computational Unit und am Sainsbury Wellcome Centre, University College London, UK.

„Ein Schlüsselprinzip, das unsere Studie vorschlägt“, erklärt Javier Masís, „ist, dass natürliche Wirkstoffe die Tatsache berücksichtigen, dass sie sich durch Lernen verbessern können und dass sie die Geschwindigkeit dieser Verbesserung durch ihre Entscheidungen beeinflussen können und tun. Nicht nur die Welt, in der wir leben, ist nicht stationär; Wir sind auch nicht stationär, und wir berücksichtigen das, wenn wir um die Welt reisen und Entscheidungen treffen.“ „Du lernst Klavier nicht, indem du gelegentlich in den Tasten herumfummelst“, fügt Saxe hinzu. „Du beschließt zu üben, und du übst auf Kosten anderer Aktivitäten, die sich sofort lohnen, weil Sie wissen, dass Sie sich verbessern werden und es sich am Ende wahrscheinlich lohnen wird.“

Information zu unserer Website!

Guten Tag liebe Community,

diese Website und die aktuellen Beratungsgespräche werden durch die angezeigte Werbung refinanziert. Mit der Bitte um Rücksichtsnahme und natürlich etwas Verständnis.

Euer Kartenlegen-Info-Team


Finanzierung dieser Webseite!

Dies schließt sich in 40Sekunden

Scroll to Top