یادگیریLLMs بدون فکر کردن
شرکت متا در تلاش است تا مدلهای زبانی بزرگ (LLM) را به گونهای توسعه دهد که بدون نیاز به دادههای آموزشی گرانقیمت، قابلیت “فکر کردن” پیدا کنند.
دانشمندان متا، روش جدیدی برای آموزش مدلهای زبانی بزرگ (LLM) ارائه دادهاند که این مدلها را قادر میسازد قبل از پاسخ دادن “فکر کنند”. این روش با هدف بهبود عملکرد در وظایف عمومی طراحی شده است.
پژوهشگران واحد تحقیقاتی متا، روش جدیدی به نام “بهینهسازی ترجیح فکر” (Thought Preference Optimization – TPO) را ابداع کردهاند. هدف از این روش، این است که مدلهای زبانی بزرگ قبل از ارائه پاسخ، فکر کنند. بر اساس این مطالعه، این رویکرد میتواند عملکرد مدلها را در انجام وظایف عمومی نه فقط در مسائل ریاضی یا منطقی را بهبود بخشد.
این پژوهشگران اظهار میکنند که “فکر کردن باید سود گستردهای داشته باشد”. به عنوان مثال، در یک وظیفه نوشتن خلاقانه، افکار داخلی میتوانند برای برنامهریزی ساختار کلی و شخصیتها مورد استفاده قرار گیرند.
تاکنون، تکنیکی که برای این منظور بهکار میرفت، تکنیک “زنجیره فکر” (Chain-of-Thought – CoT) بود که عمدتاً برای وظایف ریاضی و منطقی استفاده میشد. یکی از استثناها، مدل o1 جدید شرکت OpenAI است که محققان به عنوان پشتیبانی برای نظریه خود از آن یاد کردهاند.
آموزش بدون دادههای اضافی
یکی از چالشهای آموزش مدلها برای “فکر کردن”، کمبود دادههای آموزشی با فرآیندهای فکری انسان است. روش TPO این مشکل را با بهینهسازی تدریجی فرآیند تفکر مدل، بدون نیاز به دادههای اضافی، حل میکند.
این روش به صورت زیر عمل میکند:
- مدل قبل از ارائه پاسخ اصلی، ملزم به تولید یک فرآیند فکری میشود.
- چندین خروجی از این فرآیند تولید میشود.
- یک مدل ارزیاب فقط پاسخها را ارزیابی میکند، نه خود افکار.
- براساس این ارزیابیها، مدل با استفاده از بهینهسازی ترجیحات آموزش داده میشود.
بنابراین، خود مراحل فکر ارزیابی نمیشوند و تنها نتیجه آنها مورد ارزیابی قرار میگیرد. امید محققان این است که پاسخهای بهتر به فرآیندهای فکری بهتر نیاز دارند – به این ترتیب، مدل به صورت ضمنی یاد میگیرد که پاسخهایی بدهد که از مراحل فکری بهتری پیروی میکنند.
هنوز مشخص نیست که مدل o1 شرکت OpenAI دقیقاً چگونه آموزش دیده است، اما به احتمال زیاد دادههای آموزشی با کیفیت بالا که شامل فرآیندهای فکری بهطور صریح بیان شدهاند، بخشی از دادههای آموزشی این مدل میباشد.
بهبود در دستهبندیهای مختلف
پژوهشگران یک مدل Llama 3 با ۸ میلیارد پارامتر را بر روی بنچمارکهای AlpacaEval و Arena-Hard، که به ارزیابی توانایی پیروی از دستورات عمومی میپردازند، آزمایش کردند. روش TPO توانست نرخ موفقیت قابلتوجهی از ۵۲.۵٪ و ۳۷.۳٪ به دست آورد و عملکرد بهتری نسبت به مدل LLM همتای خود بدون فرآیند تفکر صریح نشان داد.
همچنین مشخص شد که تفکر نه تنها در موضوعاتی مانند استدلال و حل مسئله مؤثر است، بلکه در دستهبندیهایی مانند دانش عمومی، بازاریابی و بهداشت نیز بهبود عملکرد را به همراه دارد، دستهبندیهایی که معمولاً با استدلال مرتبط نیستند.
با این حال، دانشمندان اذعان میکنند که ساختار آزمایشی آنها برای مسائل ریاضی مناسب نیست. در واقع، عملکرد در حل مسائل ریاضی در مقایسه با مدل اولیه کاهش یافت.
پژوهشهای آینده میتوانند بر روی کنترلپذیری طول فرآیندهای فکری و بررسی تأثیر تفکر بر مدلهای بزرگتر متمرکز شوند. پژوهشگران امیدوارند که کار آنها منجر به استفاده گستردهتر از مدلهای زبانی بزرگ با قابلیت تفکر در حوزههای غیرریاضی شود.

