مدل های استدلالی DeepSeek-R1 در عملکرد با OpenAI رقابت می کنند.

پربازدیدترین این هفته:

مطالب ترند و داغ:

شما هم با خودتان حرف میزنید/ بخوانید

از قانون 2-7-30 برای بهبود چشمگیر حافظه خود استفاده کنید

دیگران در حال خواندن این صفحات هستند:

خانه » مدل های استدلالی DeepSeek-R1 در عملکرد با OpenAI رقابت می کنند.

اشتراک گذاری این مطلب:

شرکت DeepSeek مدل‌های نسل اول خود یعنی DeepSeek-R1 و DeepSeek-R1-Zero را که برای حل کردن وظایف پیچیده استدلال ساخته شده اند، رونمایی کرده است.

DeepSeek-R1-Zero فقط با استفاده از یادگیری تقویتی (RL) بزرگ مقیاس آموزش داده شده است و به منزله مرحله اولیه به روش نظارتی با آموزش (SFT) به عنوان گام اولیه نیاز ندارد. بر اساس DeepSeek، این روش انواع استدلال قدرتمند و جالبی مانند تایید خود، تفکر و تولید زنجیره های گسترده فکری را موجب شده است.

پژوهشگران DeepSeek توضیح دادند که “[DeepSeek-R1-Zero] اولین تحقیقات باز برای تایید قدرت استدلال مدل های زبان بزرگ (LLMs) را صرفاً از طریق RL، بدون نیاز به SFT انجام داده است ” . این نقطه عطف، نه تنها مبانی نوآورانه مدل را تأیید می کند، بلکه راه را برای پیشرفت های متمرکز بر RL در AI استدلال برمی گشاید.

DeepSeek-R1، مدل اصلی شرکت، با در نظر گرفتن داده های شروع سرد قبل از آموزش RL، بر پیشین خود می افزاید. این گام کمک می کند تا قدرت استدلال مدل را بهبود بخشد و بسیاری از محدودیت های شناسایی شده در DeepSeek-R1-Zero را حل کند.

علاوه بر این، DeepSeek توانسته نتایج قابل مقایسه ای با سیستم بسیار قابل ستایش OpenAI با عنوان o1 در زمینه ریاضیات، کدنویسی، و وظایف عمومی استدلال را کسب کند، جایگاه خود را به عنوان یک رقیب برتر مستقر کرده است.

محققان DeepSeek نیز اهمیت منتقل کردن قابلیت های استدلال از مدل های بزرگتر به مدل های کوچکتر و کارآمدتر را با نام فرآیند “تقطیر” مورد تاکید قرار داده اند. این استراتژی باعث افزایش عملکرد حتی برای پیکربندی های کوچکتر شده است.

برای محققان، این مدل های تقطیر شده در پیکربندی هایی با محدوده از 1.5 میلیارد تا 70 میلیارد پارامتر قابل دسترسی هستند، و از معماری های Qwen2.5 و Llama3 پشتیبانی می کنند. این امکان انعطاف پذیری را برای کاربرد گسترده در طیف وسیعی از وظایف، از کد نویسی گرفته تا درک زبان طبیعی فراهم می کند.

DeepSeek از مجوز MIT برای مخزن و وزن های خود استفاده کرده است، مجوزهای استفاده تجاری و اصلاحات در جریان را گسترش می دهد. اثرات مشتق شده، مانند استفاده از DeepSeek-R1 برای آموزش مدل های زبان بزرگ دیگر (LLMs)، مجاز هستند.

نظرسنجی

نظر شما در مورد کیفیت این مقاله چیست؟

اینجا می تونی سوالاتت رو بپرسی یا نظرت رو با ما در میون بگذاری: