یادگیریLLMs بدون فکر کردن​
عمومی

یادگیریLLMs بدون فکر کردن​

یادگیریLLMs بدون فکر کردن​

یادگیریLLMs بدون فکر کردن

شرکت متا در تلاش است تا مدل‌های زبانی بزرگ (LLM) را به گونه‌ای توسعه دهد که بدون نیاز به داده‌های آموزشی گران‌قیمت، قابلیت “فکر کردن” پیدا کنند.

دانشمندان متا، روش جدیدی برای آموزش مدل‌های زبانی بزرگ (LLM) ارائه داده‌اند که این مدل‌ها را قادر می‌سازد قبل از پاسخ دادن “فکر کنند”. این روش با هدف بهبود عملکرد در وظایف عمومی طراحی شده است.

پژوهشگران واحد تحقیقاتی متا، روش جدیدی به نام “بهینه‌سازی ترجیح فکر” (Thought Preference Optimization – TPO) را ابداع کرده‌اند. هدف از این روش، این است که مدل‌های زبانی بزرگ قبل از ارائه پاسخ، فکر کنند. بر اساس این مطالعه، این رویکرد می‌تواند عملکرد مدل‌ها را در انجام وظایف عمومی نه فقط در مسائل ریاضی یا منطقی را بهبود بخشد.

این پژوهشگران اظهار می‌کنند که “فکر کردن باید سود گسترده‌ای داشته باشد”. به عنوان مثال، در یک وظیفه نوشتن خلاقانه، افکار داخلی می‌توانند برای برنامه‌ریزی ساختار کلی و شخصیت‌ها مورد استفاده قرار گیرند.

تاکنون، تکنیکی که برای این منظور به‌کار می‌رفت، تکنیک “زنجیره فکر” (Chain-of-Thought – CoT) بود که عمدتاً برای وظایف ریاضی و منطقی استفاده می‌شد. یکی از استثناها، مدل o1 جدید شرکت OpenAI است که محققان به عنوان پشتیبانی برای نظریه خود از آن یاد کرده‌اند.

آموزش بدون داده‌های اضافی

یکی از چالش‌های آموزش مدل‌ها برای “فکر کردن”، کمبود داده‌های آموزشی با فرآیندهای فکری انسان است. روش TPO این مشکل را با بهینه‌سازی تدریجی فرآیند تفکر مدل، بدون نیاز به داده‌های اضافی، حل می‌کند.

این روش به صورت زیر عمل می‌کند:

  1. مدل قبل از ارائه پاسخ اصلی، ملزم به تولید یک فرآیند فکری می‌شود.
  2. چندین خروجی از این فرآیند تولید می‌شود.
  3. یک مدل ارزیاب فقط پاسخ‌ها را ارزیابی می‌کند، نه خود افکار.
  4. براساس این ارزیابی‌ها، مدل با استفاده از بهینه‌سازی ترجیحات آموزش داده می‌شود.

بنابراین، خود مراحل فکر ارزیابی نمی‌شوند و  تنها نتیجه آن‌ها مورد ارزیابی قرار می‌گیرد. امید محققان این است که پاسخ‌های بهتر به فرآیندهای فکری بهتر نیاز دارند – به این ترتیب، مدل به صورت ضمنی یاد می‌گیرد که پاسخ‌هایی بدهد که از مراحل فکری بهتری پیروی می‌کنند.

هنوز مشخص نیست که مدل o1 شرکت OpenAI دقیقاً چگونه آموزش دیده است، اما به احتمال زیاد داده‌های آموزشی با کیفیت بالا که شامل فرآیندهای فکری به‌طور صریح بیان شده‌اند، بخشی از داده‌های آموزشی این مدل میباشد.

بهبود در دسته‌بندی‌های مختلف

پژوهشگران یک مدل Llama 3 با ۸ میلیارد پارامتر را بر روی بنچمارک‌های AlpacaEval و Arena-Hard، که به ارزیابی توانایی پیروی از دستورات عمومی می‌پردازند، آزمایش کردند. روش TPO توانست نرخ موفقیت قابل‌توجهی از ۵۲.۵٪ و ۳۷.۳٪ به دست آورد و عملکرد بهتری نسبت به مدل LLM همتای خود بدون فرآیند تفکر صریح نشان داد.

همچنین مشخص شد که تفکر نه تنها در موضوعاتی مانند استدلال و حل مسئله مؤثر است، بلکه در دسته‌بندی‌هایی مانند دانش عمومی، بازاریابی و بهداشت نیز بهبود عملکرد را به همراه دارد، دسته‌بندی‌هایی که معمولاً با استدلال مرتبط نیستند.

با این حال، دانشمندان اذعان می‌کنند که ساختار آزمایشی آن‌ها برای مسائل ریاضی مناسب نیست. در واقع، عملکرد در حل مسائل ریاضی در مقایسه با مدل اولیه کاهش یافت.

پژوهش‌های آینده می‌توانند بر روی کنترل‌پذیری طول فرآیندهای فکری و بررسی تأثیر تفکر بر مدل‌های بزرگ‌تر متمرکز شوند. پژوهشگران امیدوارند که کار آن‌ها منجر به استفاده گسترده‌تر از مدل‌های زبانی بزرگ با قابلیت تفکر در حوزه‌های غیرریاضی شود.

    دیدگاهتان را بنویسید

    نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *