تکنولوژی و فناوری

مدل‌های Meta Llama 3 AI با پارامترهای 8B و 70B عرضه شدند که گفته می‌شود عملکرد بهتری از Gemini 1.5 Pro گوگل دارند.

به گزارش مجله نجم

متا نسل بعدی مدل های هوش مصنوعی (AI) خود را با نام Llama 3 8B و 70B روز پنجشنبه معرفی کرد. Llama 3 مخفف Large Language Model Meta AI است و دارای قابلیت های بهبود یافته ای در مقایسه با نسخه قبلی خود است. این شرکت همچنین روش های آموزشی جدیدی را برای بهبود کارایی مدل ها اتخاذ کرد. جالب اینجاست که با Llama 2، بزرگترین مدل 70B بود، اما این بار این شرکت گفت که مدل های بزرگتر آن بیش از 400 میلیارد پارامتر خواهند داشت. شایان ذکر است، گزارشی در هفته گذشته نشان داد که متا از مدل‌های کوچک‌تر هوش مصنوعی خود در ماه آوریل و مدل‌های بزرگ‌تر خود در اواخر تابستان رونمایی خواهد کرد.

کسانی که علاقه مند به آزمایش مدل های جدید هوش مصنوعی هستند خوش شانس هستند زیرا متا با Llama 3 رویکرد جامعه اول را در پیش گرفته است. مدل های اصلی جدید مانند مدل های قبلی منبع باز خواهند بود. متا در پست وبلاگ خود گفت: “مدل های Llama 3 به زودی در AWS، Databricks، Google Cloud، Hugging Face، Kaggle، IBM WatsonX، Microsoft Azure، NVIDIA NIM، Snowflake و توسط پلتفرم های سخت افزاری ارائه شده توسط AMD در دسترس خواهند بود.” NVIDIA و Qualcomm.»

این لیست شامل تمامی پلتفرم‌های ابری، میزبانی و سخت‌افزاری اصلی می‌شود که می‌تواند دستان علاقه‌مندان به مدل‌های هوش مصنوعی را آسان‌تر کند. علاوه بر این، متا لاما 3 را با هوش مصنوعی متا خود ادغام کرده است که از طریق مسنجر فیس بوک، اینستاگرام و واتس اپ در کشورهای پشتیبانی شده قابل دسترسی است.

از نظر عملکرد، غول رسانه‌های اجتماعی نتایج معیار Llama 3 را برای مدل‌های از پیش آموزش‌دیده و هدایت‌شده خود به اشتراک گذاشت. برای مرجع، پیش‌آموزش هوش مصنوعی محاوره‌ای عمومی است، در حالی که مدل‌های آموزشی با هدف تکمیل وظایف خاص هستند. مدل از پیش آموزش دیده Llama 3 70B از Google Gemini 1.0 Pro در MMLU (79.5 در مقابل 71.8)، BIG-Bench Hard (81.3 در مقابل 75.0) و DROP (79.7 در مقابل 74.1) عملکرد بهتری داشت. مدل Gemini 1.5 Pro در بنچمارک های MMLU و HumanEval و GSM-8K بر اساس داده های به اشتراک گذاشته شده توسط شرکت.

متا یک معماری سوئیچ فقط رمزگشا را برای مدل‌های جدید هوش مصنوعی انتخاب کرد، اما چندین پیشرفت را نسبت به مدل قبلی خود انجام داد. Llama 3 اکنون از یک توکن با واژگانی از 128 هزار توکن استفاده می‌کند و این شرکت از Gathered Query Attention (GQA) برای بهبود کارایی استنتاج استفاده کرده است. GQA به بهبود توجه هوش مصنوعی کمک می کند تا هنگام پاسخ دادن به پرس و جوها از بافت خارج نشود. این غول رسانه های اجتماعی مدل ها را با استفاده از بیش از 15T توکن از قبل آموزش داده است که ادعا می کند از داده های در دسترس عموم تهیه شده است.


پیوندهای وابسته ممکن است به طور خودکار ایجاد شوند – برای جزئیات به بیانیه اخلاقی ما مراجعه کنید.

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا