ربات ارزانی که از طریق یادگیری تقویتی می‌آموزد

به گزارش قائم آنلاین، به نقل از آی ای، محققان دانشگاه “آلتو”(Aalto) و شرکت “OTE Robotics” ربات کم هزینه‌ای را تولید کرده‌اند که می‌تواند برای آزمایش الگوریتم‌های “یادگیری تقویتی”(RL) مورد استفاده قرار گیرد. این ربات که “RealAnt” نامیده می‌شود تنها با قیمت ۸۹۹ یورو(۱۰۹۰ دلار آمریکا) کاملا مقرون به صرفه است. یادگیری تقویتی یکی از گرایش‌های یادگیری

به گزارش قائم آنلاین، به نقل از آی ای، محققان دانشگاه “آلتو”(Aalto) و شرکت “OTE Robotics” ربات کم هزینه‌ای را تولید کرده‌اند که می‌تواند برای آزمایش الگوریتم‌های “یادگیری تقویتی”(RL) مورد استفاده قرار گیرد.

این ربات که “RealAnt” نامیده می‌شود تنها با قیمت ۸۹۹ یورو(۱۰۹۰ دلار آمریکا) کاملا مقرون به صرفه است.

یادگیری تقویتی یکی از گرایش‌های یادگیری ماشینی است که از روانشناسی رفتارگرایی الهام می‌گیرد. این روش بر رفتارهایی تمرکز دارد که ماشین باید برای بیشینه کردن پاداشش انجام دهد. این مسئله با توجه به گستردگی‌اش در زمینه‌های گوناگونی مانند نظریه بازی‌ها، نظریه کنترل، تحقیق در عملیات، نظریه اطلاعات، سامانه چندعامله، هوش ازدحامی، آمار، الگوریتم ژنتیک، بهینه‌سازی بر مبنای شبیه‌سازی بررسی می‌شود.

در مبحث تحقیق در عملیات و در ادبیات کنترل، حوزه‌ای که در آن روش یادگیری تقویتی مطالعه می‌شود “برنامه‌نویسی تخمینی پویا”(approximate dynamic programming) خوانده می‌شود. این مسئله در تئوری کنترل بهینه نیز مطالعه شده‌ است. البته دغدغه اصلی بیشتر مطالعات در این زمینه، اثبات وجود پاسخ بهینه و یافتن ویژگی‌های آن است و به دنبال جزئیات یادگیری یا تخمین نیست. یادگیری تقویتی در اقتصاد و نظریه بازی‌ها بیشتر به بررسی تعادل‌های ایجاد شده تحت عقلانیت محدود می‌پردازد.

در یادگیری ماشینی با توجه به این که بسیاری از الگوریتم‌های یادگیری تقویتی از تکنیک‌های برنامه‌نویسی پویا استفاده می‌کنند. تفاوت اصلی بین روش‌های سنتی و الگوریتم‌های یادگیری تقویتی این است که در یادگیری تقویتی نیازی به داشتن اطلاعات راجع به فرآیند تصمیم‌گیری نیست.

یادگیری تقویتی با یادگیری با نظارت معمول دو تفاوت عمده دارد، نخست اینکه در آن زوج‌های صحیح ورودی و خروجی در کار نیست و رفتارهای ناکارآمد نیز از بیرون اصلاح نمی‌شوند و دیگر آنکه تمرکز زیادی روی کارایی زنده وجود دارد که نیازمند پیدا کردن یک تعادل مناسب بین اکتشاف چیزهای جدید و بهره‌برداری از دانش اندوخته شده دارد.

“جوسی ساینیو” یکی از بنیانگذاران شرکت “Ote Robotics” می‌گوید: الهامات اولیه برای کار ما مطالعات یادگیری تقویتی(RL) بود که با موفقیت، یادگیری راه رفتن از ابتدا از روی شبیه‌سازی‌های ربات‌های چهارپا و شبه انسان را نشان داد.

وی افزود: پیش فرض اساسی در مورد الگوریتم‌های یادگیری تقویتی این است که برنامه نویسی یک ربات برای انجام کارها با آن بسیار آسان‌تر و طبیعی‌تر می‌شود و تنها به تعریف اندازه‌گیری های حسگر موجود، اقدامات حرکتی و سپس تعیین یک هدف و اتصال همه آنها به یک الگوریتم یادگیری تقویتی است که بقیه کارها را این الگوریتم انجام می‌دهد.

“یادگیری تقویتی”(RL) قبلاً به هزاران ساعت آموزش شبیه‌سازی ربات نیاز داشت. با این حال، اخیراً محققان موفق شده‌اند با داده‌های آموزشی بسیار کم، راه رفتن را به این ربات‌ها آموزش دهند. این بدان معناست که ربات‌ها اکنون می‌توانند بدون استفاده از آموزش طولانی مدت مبتنی بر شبیه سازی، در محیط‌های واقعی آموزش ببینند.

“ساینیو” توضیح داد: ما متوجه شدیم که ربات‌های متحرک مانند “RealAnt” به ویژه برای یادگیری تقویتی به راحتی و با قیمت مناسب در دسترس نیستند و این موضوع می‌تواند به ربات‌ها آسیب برساند.

وی افزود: در مقایسه با محیط شبیه‌سازی شده، هیچ پشتوانه ترکیبی نرم افزاری و سخت افزاری کاملی وجود ندارد که بتوان با آن یادگیری تقویتی را در دنیای واقعی شروع کرد. بنابراین من شروع به ساخت نمونه‌های اولیه نرم افزار ربات و رابط خودم کردم.

در نهایت “ساینیو” موفق به ساخت نمونه‌های اولیه قابل توجهی شد.

بنا به اعلام وبسایت “Ote robotics”، پلتفرم ربات “RealAnt” برای تحقیق و توسعه یادگیری تقویتی در دنیای واقعی طراحی شده است.