محققان پیشرفت قابل توجهی در درک اینکه چگونه مغز به اعمال خاصی که منجر به پاداش می شود، دست یافتند.
مطالعه آنها از یک سیستم جدید «حلقه بسته» با موشها استفاده کرد تا بررسی کند که چگونه دوپامین، یک انتقالدهنده عصبی حیاتی، یادگیری را از طریق آزمون و خطا شکل میدهد. آنها کشف کردند که دوپامین نه تنها نشان دهنده پاداش است، بلکه طیف وسیعی از رفتارها را نیز تنظیم می کند، که منجر به اقدامات متمرکزتر و دقیق تر در طول زمان می شود.
این تحقیق پیامدهایی برای زمینه هایی مانند آموزش و هوش مصنوعی دارد و بینش هایی را در مورد مکانیسم های یادگیری پیچیده مغز ارائه میدهد.
اطلاعات کلیدی:
- دوپامین نقش کلیدی در پیوند به اعمال خاص به پاداش، تنظیم دقیق رفتار دارد.
- موش ها رفتار خود را به سرعت در پاسخ به ترشح دوپامین تغییر دادند و اقداماتی را اصلاح کردند که منجر به پاداش شد.
- بینش های این مطالعه می تواند استراتژی های یادگیری در آموزش و توسعه هوش مصنوعی را افزایش دهد.
منبع: موسسه آلن
تصور کنید که شما دارید به یک سگ یاد میدهید چگونه با یک توپ بازی کند. شما توپ را پرتاب میکنید و سگ شما به دنبال آن دویده، آن را برمیدارد و به سمت شما باز میگردد. سپس به سگ خسته خود غذا پاداش میدهید. اما حالا چالش واقعی برای سگ شما پیش میآید: درک کدام قسمت از آن دنباله باعث دریافت پاداش شد.
دانشمندان این را “مسئله تخصیص اعتبار” در مغز مینامند. این یک سوال اساسی درباره درک این است که کدام اعمال مسئول برای نتایج مثبتی هستند که ما تجربه میکنیم.
دوپامین، یک پیام رسان شیمیایی کلیدی در مغز، نقش مهمی در این فرآیند ایفا می کند. اما دقیقاً اینکه چگونه مغز اعمال خاص را با ترشح دوپامین مرتبط میکند نامشخص باقی مانده است.
مطالعهای که امروز در نیچر توسط دانشمندان مؤسسه آلن، مؤسسه رفتار ذهنی مغز زاکرمن دانشگاه کلمبیا، مرکز شامپاليمو برای ناشناختهها و مؤسسه تحقیقات کودکان سیاتل در نیچر منتشر شد، نور جدیدی بر این راز میافکند. این نشان میدهد که چگونه دوپامین نه تنها یک پاداش را نشان میدهد، بلکه حیوانات را در مورد رفتارهای خاصی که از طریق آزمون و خطا منجر به این پاداش ها میشود، راهنمایی میکند.
بطرز جالبی، این تحقیق نشان میدهد که سیستم پاداش مغز میتواند به سرعت و بطور پویا دامنه کامل حرکات و رفتارهای حیوان را تغییر دهد. کاستا، D.V.M، Ph.D، نویسنده ارشد این مطالعه گفت: این یک استراتژی یادگیری پیچیده را برجسته می کند. که در آن رفتارها نه تنها تقویت می شوند، بلکه به طور فعال شکل می گیرند و از طریق تجربه تنظیم می شوند.
کاستا، رئیس و مدیر عامل مؤسسه آلن، میگوید: «وقتی رفتارتان را تقویت میکنید، اغلب فکر میکنیم که این فقط همین عمل است. اما نه: شما کل ساختار رفتاری را تغییر می دهید. و آنچه واقعاً شگفتانگیز بود سرعت آن بود.»
رمزگشایی اینکه چگونه دوپامین یادگیری را شکل می دهد
برای کشف این بینش، این تیم با مهندسان و دانشمندان علوم اعصاب در مرکز شامپاليمو برای ناشناخته ها همکاری کردند تا یک سیستم جدید “حلقه بسته” ایجاد کنند که می تواند اقدامات خاص موش ها را به آزادسازی دوپامین در زمان واقعی مرتبط کند. محققان به موشها حسگرهای بیسیم مجهز کردند تا حرکات آنها را در یک فضای کنترلشده ساده ردیابی کنند.
آنها سپس این اطلاعات را به یک الگوریتم یادگیری ماشینی وارد کردند که این اقدامات را در گروه های مجزا طبقه بندی کرد. محققان سپس از اپتوژنتیک، روشی برای کنترل نورونها با نور، برای تحریک نورونهای دوپامین پس از انجام «اعمال هدف» از پیش تعریفشده، استفاده کردند.
آنها دریافتند که موش ها به سرعت رفتار خود را در پاسخ به ترشح دوپامین تغییر دادند. در ابتدا، آنها نه تنها فرکانس عمل هدف را افزایش دادند، بلکه اقدامات مشابه و اقداماتی را که چند ثانیه قبل از آزاد شدن دوپامین رخ دادند نیز افزایش دادند. در همین حال، اقدامات غیرمشابه با هدف به سرعت کاهش یافت.
با گذشت زمان، این اصلاح دقیقتر شد و موشها به طور فزایندهای بر روی عمل دقیقی که منجر به آزاد شدن دوپامین میشد، تمرکز کردند.
این مطالعه همچنین بررسی کرد که چگونه موشها مجموعهای از اقدامات را یاد میگیرند. و از یک فرآیند کلیدی شبیه به زمان بازگشت به عقب برای درک اینکه چه چیزی منجر به پاداش میشود، رونمایی کرد. هنگامی که اقدامات تحریک کننده دوپامین با فاصله بیشتری از هم اتفاق افتاد، موش ها کندتر یاد گرفتند.
این نشان میدهد که انتظارهای طولانیتر بین اعمال، اتصال دنباله را با پاداش برای موشها سختتر میکند. در اصل، اقدامات درست قبل از پاداش به سرعت درک میشوند و بهبود مییابند، در حالیکه اقدامات قبلی به تدریج اصلاح میشوند.
این فرآیند «پیشروی مجدد» رفتار را تقویت میکند و به موشها کمک میکند تا بتدریج تشخیص دهند که کدام اقدامات و دنباله ها دقیقا به پاداش منجر می شوند.
به گفته نویسنده اصلی، جاناتان تانگ، دکترای علوم، استادیار دانشگاه پزشکی واشنگتن – پزشکی کودکان سیاتل، مؤسسه تحقیقات کودکان سیاتل، اطلاعات میتوانند بر زمینههای مختلفی مانند آموزش و هوش مصنوعی (AI) تأثیر بگذارند، به عنوان مثال، اجازه دادن به اکتشاف، اشتباهات و اصلاح تدریجی در کلاس ممکن است با فرآیندهای یادگیری ذاتی مغز ما هماهنگتر باشد.
در هوش مصنوعی، بینش ها می تواند به سیستم های یادگیری پیچیده تر و کارآمدتر منجر شود. با تکرار بهتر فرآیندهای یادگیری بیولوژیکی، میتوانیم هوش مصنوعی ایجاد کنیم که در انطباق با دادهها و موقعیتهای جدید بهتر است.
این مطالعه بینش عمیق تری در مورد چگونگی یادگیری و سازگاری مغز ما از طریق آزمون و خطا ارائه میدهد – چه دانشمند باشید یا یک توله سگ.
تانگ که این تحقیق را با کوستا در زمانیکه در دانشگاه کلمبیا بود آغاز کرد، گفت: «بسیاری از مسائل راجع به نحوهی کارهای انجام میشود، از جمله تخصیص اعتبار، ما از آنها به عنوان چیزهایی که به آنها اعتبار میدهیم، بر اساس فرضیات بسیاری میپذیریم. اما زمانی که واقعاً شروع به تحلیل عمیق می کنید، متوجه پیچیدگی آن می شوید. به همین دلیل است که مردم علم میپردازند: تا به حقیقت امور نزدیک شوند.»
خلاصه
بازسازی رفتار پویا بواسطه تخصیص اعتبار وابسته به دوپامین است
حیوانات هنگام کاوش در محیطهای جدید، مجموعه رفتاری متنوعی از خود نشان میدهند و میتوانند بیاموزند که کدام کنشها یا دنبالههای عملی نتایج مثبتی را بهمراه دارند.
آزاد شدن دوپامین پس از مواجهه با پاداش برای تقویت اقدامات مولد پاداش حیاتی است. با این حال، درک چگونگی تخصیص اعتبار به عمل دقیقی که باعث ترشح دوپامین در طول رفتار مداوم می شود، چالش برانگیز بوده است.
ما این مشکل را با یک الگوی جدید خود تحریکی بررسی کردیم که در آن حرکات خود به خودی خاص باعث تحریک اپتوژنتیک نورونهای دوپامینرژیک میشود.
خود تحریکی دوپامین به سرعت و به طور پویا ساختار کل مجموعه رفتاری را تغییر می دهد. تحریکات اولیه نه تنها عمل هدف مولد تحریک را تقویت میکند، بلکه اقدامات مشابه هدف و اقداماتی را که چند ثانیه قبل از تحریک رخ میدهد نیز تقویت میکند.
جفتهای مکرر منجر به اصلاح تدریجی مجموعه رفتاری به سمت هدف شد. تقویت توالیهای عمل، وابستگیهای زمانی بیشتری را به پالایش نشان داد.
جفتهای اعمالی که بهطور خود به خود با فواصل زمانی طولانی از هم جدا میشوند. ترویج یک تخصیص اعتباری گام به گام را باعث میشود. با اصلاح اولیه اعمالی که نزدیک به تحریک هستند و سپس اصلاح بعدی اعمالی که بیشتر به دور از تحریک هستند.
بنابراین، یک مکانیسم تقویت گذشتهنگر نه تنها تقویت، بلکه پالایش تدریجی کل مجموعه رفتاری را ارتقا میدهد تا اعتبار اعمال و توالیهای عملی خاص را که منجر به آزادسازی دوپامین میشود، اختصاص دهد.