چگونه دوپامین یادگیری را در مغز رمزگشایی می کند

تصویر معصومه محقق
معصومه محقق

محققان پیشرفت قابل توجهی در درک اینکه چگونه مغز به اعمال خاصی که منجر به پاداش می شود، دست یافتند.

مطالعه آن‌ها از یک سیستم جدید «حلقه بسته» با موش‌ها استفاده کرد تا بررسی کند که چگونه دوپامین، یک انتقال‌دهنده عصبی حیاتی، یادگیری را از طریق آزمون و خطا شکل می‌دهد. آنها کشف کردند که دوپامین نه تنها نشان دهنده پاداش است، بلکه طیف وسیعی از رفتارها را نیز تنظیم می کند، که منجر به اقدامات متمرکزتر و دقیق تر در طول زمان می شود.

این تحقیق پیامدهایی برای زمینه هایی مانند آموزش و هوش مصنوعی دارد و بینش هایی را در مورد مکانیسم های یادگیری پیچیده مغز ارائه میدهد.

اطلاعات کلیدی:

  • دوپامین نقش کلیدی در پیوند به اعمال خاص به پاداش، تنظیم دقیق رفتار دارد.
  • موش ها رفتار خود را به سرعت در پاسخ به ترشح دوپامین تغییر دادند و اقداماتی را اصلاح کردند که منجر به پاداش شد.
  • بینش های این مطالعه می تواند استراتژی های یادگیری در آموزش و توسعه هوش مصنوعی را افزایش دهد.

 

منبع: موسسه آلن

تصور کنید که شما دارید به یک سگ یاد می‌دهید چگونه با یک توپ بازی کند. شما توپ را پرتاب می‌کنید و سگ شما به دنبال آن دویده، آن را برمی‌دارد و به سمت شما باز می‌گردد. سپس به سگ خسته خود غذا پاداش می‌دهید. اما حالا چالش واقعی برای سگ شما پیش می‌آید: درک کدام قسمت از آن دنباله باعث دریافت پاداش شد.

دانشمندان این را “مسئله تخصیص اعتبار” در مغز می‌نامند. این یک سوال اساسی درباره درک این است که کدام اعمال مسئول برای نتایج مثبتی هستند که ما تجربه می‌کنیم.

دوپامین، یک پیام رسان شیمیایی کلیدی در مغز، نقش مهمی در این فرآیند ایفا می کند. اما دقیقاً اینکه چگونه مغز اعمال خاص را با ترشح دوپامین مرتبط می‌کند نامشخص باقی مانده است.

مطالعه‌ای که امروز در نیچر توسط دانشمندان مؤسسه آلن، مؤسسه رفتار ذهنی مغز زاکرمن دانشگاه کلمبیا، مرکز شامپاليمو برای ناشناخته‌ها و مؤسسه تحقیقات کودکان سیاتل در نیچر منتشر شد، نور جدیدی بر این راز می‌افکند. این نشان میدهد که چگونه دوپامین نه تنها یک پاداش را نشان میدهد، بلکه حیوانات را در مورد رفتارهای خاصی که از طریق آزمون و خطا منجر به این پاداش ها میشود، راهنمایی میکند.

بطرز جالبی، این تحقیق نشان میدهد که سیستم پاداش مغز میتواند به سرعت و بطور پویا دامنه کامل حرکات و رفتارهای حیوان را تغییر دهد. کاستا، D.V.M، Ph.D، نویسنده ارشد این مطالعه گفت: این یک استراتژی یادگیری پیچیده را برجسته می کند. که در آن رفتارها نه تنها تقویت می شوند، بلکه به طور فعال شکل می گیرند و از طریق تجربه تنظیم می شوند.

کاستا، رئیس و مدیر عامل مؤسسه آلن، می‌گوید: «وقتی رفتارتان را تقویت می‌کنید، اغلب فکر می‌کنیم که این فقط همین عمل است. اما نه: شما کل ساختار رفتاری را تغییر می دهید. و آنچه واقعاً شگفت‌انگیز بود سرعت آن بود.»

رمزگشایی اینکه چگونه دوپامین یادگیری را شکل می دهد

برای کشف این بینش، این تیم با مهندسان و دانشمندان علوم اعصاب در مرکز شامپاليمو برای ناشناخته ها همکاری کردند تا یک سیستم جدید “حلقه بسته” ایجاد کنند که می تواند اقدامات خاص موش ها را به آزادسازی دوپامین در زمان واقعی مرتبط کند. محققان به موش‌ها حسگرهای بی‌سیم مجهز کردند تا حرکات آن‌ها را در یک فضای کنترل‌شده ساده ردیابی کنند.

آنها سپس این اطلاعات را به یک الگوریتم یادگیری ماشینی وارد کردند که این اقدامات را در گروه های مجزا طبقه بندی کرد. محققان سپس از اپتوژنتیک، روشی برای کنترل نورون‌ها با نور، برای تحریک نورون‌های دوپامین پس از انجام «اعمال هدف» از پیش تعریف‌شده، استفاده کردند.

آنها دریافتند که موش ها به سرعت رفتار خود را در پاسخ به ترشح دوپامین تغییر دادند. در ابتدا، آنها نه تنها فرکانس عمل هدف را افزایش دادند، بلکه اقدامات مشابه و اقداماتی را که چند ثانیه قبل از آزاد شدن دوپامین رخ دادند نیز افزایش دادند. در همین حال، اقدامات غیرمشابه با هدف به سرعت کاهش یافت.

با گذشت زمان، این اصلاح دقیق‌تر شد و موش‌ها به طور فزاینده‌ای بر روی عمل دقیقی که منجر به آزاد شدن دوپامین می‌شد، تمرکز کردند.

این مطالعه همچنین بررسی کرد که چگونه موش‌ها مجموعه‌ای از اقدامات را یاد می‌گیرند. و از یک فرآیند کلیدی شبیه به زمان بازگشت به عقب برای درک اینکه چه چیزی منجر به پاداش می‌شود، رونمایی کرد. هنگامی که اقدامات تحریک کننده دوپامین با فاصله بیشتری از هم اتفاق افتاد، موش ها کندتر یاد گرفتند.

این نشان می‌دهد که انتظارهای طولانی‌تر بین اعمال، اتصال دنباله را با پاداش برای موش‌ها سخت‌تر می‌کند. در اصل، اقدامات درست قبل از پاداش به سرعت درک میشوند و بهبود مییابند، در حالیکه اقدامات قبلی به تدریج اصلاح میشوند.

این فرآیند «پیشروی مجدد» رفتار را تقویت می‌کند و به موش‌ها کمک می‌کند تا بتدریج تشخیص دهند که کدام اقدامات و دنباله ها دقیقا به پاداش منجر می شوند.

به گفته نویسنده اصلی، جاناتان تانگ، دکترای علوم، استادیار دانشگاه پزشکی واشنگتن – پزشکی کودکان سیاتل، مؤسسه تحقیقات کودکان سیاتل، اطلاعات می‌توانند بر زمینه‌های مختلفی مانند آموزش و هوش مصنوعی (AI) تأثیر بگذارند، به عنوان مثال، اجازه دادن به اکتشاف، اشتباهات و اصلاح تدریجی در کلاس ممکن است با فرآیندهای یادگیری ذاتی مغز ما هماهنگ‌تر باشد.

در هوش مصنوعی، بینش ها می تواند به سیستم های یادگیری پیچیده تر و کارآمدتر منجر شود. با تکرار بهتر فرآیندهای یادگیری بیولوژیکی، می‌توانیم هوش مصنوعی ایجاد کنیم که در انطباق با داده‌ها و موقعیت‌های جدید بهتر است.

این مطالعه بینش عمیق تری در مورد چگونگی یادگیری و سازگاری مغز ما از طریق آزمون و خطا ارائه میدهد – چه دانشمند باشید یا یک توله سگ.

تانگ که این تحقیق را با کوستا در زمانیکه در دانشگاه کلمبیا بود آغاز کرد، گفت: «بسیاری از مسائل راجع به نحوه‌ی کارهای انجام می‌شود، از جمله تخصیص اعتبار، ما از آن‌ها به عنوان چیزهایی که به آن‌ها اعتبار می‌دهیم، بر اساس فرضیات بسیاری می‌پذیریم. اما زمانی که واقعاً شروع به تحلیل عمیق می کنید، متوجه پیچیدگی آن می شوید. به همین دلیل است که مردم علم می‌پردازند: تا به حقیقت امور نزدیک شوند.»

چگونه دوپامین یادگیری را در مغز رمزگشایی می کند

خلاصه

بازسازی رفتار پویا بواسطه تخصیص اعتبار وابسته به دوپامین است

حیوانات هنگام کاوش در محیط‌های جدید، مجموعه رفتاری متنوعی از خود نشان می‌دهند و می‌توانند بیاموزند که کدام کنش‌ها یا دنباله‌های عملی نتایج مثبتی را بهمراه دارند.

آزاد شدن دوپامین پس از مواجهه با پاداش برای تقویت اقدامات مولد پاداش حیاتی است. با این حال، درک چگونگی تخصیص اعتبار به عمل دقیقی که باعث ترشح دوپامین در طول رفتار مداوم می شود، چالش برانگیز بوده است.

ما این مشکل را با یک الگوی جدید خود تحریکی بررسی کردیم که در آن حرکات خود به خودی خاص باعث تحریک اپتوژنتیک نورون‌های دوپامینرژیک می‌شود.

خود تحریکی دوپامین به سرعت و به طور پویا ساختار کل مجموعه رفتاری را تغییر می دهد. تحریکات اولیه نه تنها عمل هدف مولد تحریک را تقویت میکند، بلکه اقدامات مشابه هدف و اقداماتی را که چند ثانیه قبل از تحریک رخ میدهد نیز تقویت میکند.

جفت‌های مکرر منجر به اصلاح تدریجی مجموعه رفتاری به سمت هدف شد. تقویت توالی‌های عمل، وابستگی‌های زمانی بیشتری را به پالایش نشان داد.

جفت‌های اعمالی که به‌طور خود به خود با فواصل زمانی طولانی از هم جدا می‌شوند. ترویج یک تخصیص اعتباری گام به گام را باعث می‌شود. با اصلاح اولیه اعمالی که نزدیک به تحریک هستند و سپس اصلاح بعدی اعمالی که بیشتر به دور از تحریک هستند.

بنابراین، یک مکانیسم تقویت گذشته‌نگر نه تنها تقویت، بلکه پالایش تدریجی کل مجموعه رفتاری را ارتقا می‌دهد تا اعتبار اعمال و توالی‌های عملی خاص را که منجر به آزادسازی دوپامین می‌شود، اختصاص دهد.

لطفا این مطلب را با دوستان خود به اشتراک گذارید

Email
Facebook
Twitter
Telegram
WhatsApp

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

مطالبی که شاید دوست داشته باشید

تماس