مدلهای Meta Llama 3 AI با پارامترهای 8B و 70B عرضه شدند که گفته میشود عملکرد بهتری از Gemini 1.5 Pro گوگل دارند.
به گزارش مجله نجم
متا نسل بعدی مدل های هوش مصنوعی (AI) خود را با نام Llama 3 8B و 70B روز پنجشنبه معرفی کرد. Llama 3 مخفف Large Language Model Meta AI است و دارای قابلیت های بهبود یافته ای در مقایسه با نسخه قبلی خود است. این شرکت همچنین روش های آموزشی جدیدی را برای بهبود کارایی مدل ها اتخاذ کرد. جالب اینجاست که با Llama 2، بزرگترین مدل 70B بود، اما این بار این شرکت گفت که مدل های بزرگتر آن بیش از 400 میلیارد پارامتر خواهند داشت. شایان ذکر است، گزارشی در هفته گذشته نشان داد که متا از مدلهای کوچکتر هوش مصنوعی خود در ماه آوریل و مدلهای بزرگتر خود در اواخر تابستان رونمایی خواهد کرد.
کسانی که علاقه مند به آزمایش مدل های جدید هوش مصنوعی هستند خوش شانس هستند زیرا متا با Llama 3 رویکرد جامعه اول را در پیش گرفته است. مدل های اصلی جدید مانند مدل های قبلی منبع باز خواهند بود. متا در پست وبلاگ خود گفت: “مدل های Llama 3 به زودی در AWS، Databricks، Google Cloud، Hugging Face، Kaggle، IBM WatsonX، Microsoft Azure، NVIDIA NIM، Snowflake و توسط پلتفرم های سخت افزاری ارائه شده توسط AMD در دسترس خواهند بود.” NVIDIA و Qualcomm.»
این لیست شامل تمامی پلتفرمهای ابری، میزبانی و سختافزاری اصلی میشود که میتواند دستان علاقهمندان به مدلهای هوش مصنوعی را آسانتر کند. علاوه بر این، متا لاما 3 را با هوش مصنوعی متا خود ادغام کرده است که از طریق مسنجر فیس بوک، اینستاگرام و واتس اپ در کشورهای پشتیبانی شده قابل دسترسی است.
از نظر عملکرد، غول رسانههای اجتماعی نتایج معیار Llama 3 را برای مدلهای از پیش آموزشدیده و هدایتشده خود به اشتراک گذاشت. برای مرجع، پیشآموزش هوش مصنوعی محاورهای عمومی است، در حالی که مدلهای آموزشی با هدف تکمیل وظایف خاص هستند. مدل از پیش آموزش دیده Llama 3 70B از Google Gemini 1.0 Pro در MMLU (79.5 در مقابل 71.8)، BIG-Bench Hard (81.3 در مقابل 75.0) و DROP (79.7 در مقابل 74.1) عملکرد بهتری داشت. مدل Gemini 1.5 Pro در بنچمارک های MMLU و HumanEval و GSM-8K بر اساس داده های به اشتراک گذاشته شده توسط شرکت.
متا یک معماری سوئیچ فقط رمزگشا را برای مدلهای جدید هوش مصنوعی انتخاب کرد، اما چندین پیشرفت را نسبت به مدل قبلی خود انجام داد. Llama 3 اکنون از یک توکن با واژگانی از 128 هزار توکن استفاده میکند و این شرکت از Gathered Query Attention (GQA) برای بهبود کارایی استنتاج استفاده کرده است. GQA به بهبود توجه هوش مصنوعی کمک می کند تا هنگام پاسخ دادن به پرس و جوها از بافت خارج نشود. این غول رسانه های اجتماعی مدل ها را با استفاده از بیش از 15T توکن از قبل آموزش داده است که ادعا می کند از داده های در دسترس عموم تهیه شده است.