Tencent InstantMesh، یک مدل هوش مصنوعی با قابلیت نمایش تصاویر ثابت سه بعدی، رونمایی شد.
به گزارش مجله نجم
Tencent مدل جدیدی از هوش مصنوعی (AI) به نام InstantMesh منتشر کرده است که می تواند اشیاء سه بعدی را با استفاده از یک تصویر ثابت نمایش دهد. مدل جدید هوش مصنوعی ارتقاء چارچوب قدیمیتر Instant3D این شرکت است و اکنون از ترکیبی از یک مدل انتشار چند نمای و یک مدل بازسازی با نمای پراکنده بر اساس معماری مدل بازسازی بزرگ (LRM) استفاده میکند. Tencent همچنین مدل InstantMesh را منبع باز ساخته و یک برنامه پیش نمایش برای علاقه مندان ارائه کرده است تا توانایی های آن را آزمایش کنند یا رندرهای سه بعدی ایجاد و صادر کنند.
این شرکت پیش چاپ مقاله خود را در arXiv ارسال کرد. شایان ذکر است که arXiv بررسی های همتا را انجام نمی دهد، بنابراین تعیین اینکه آیا یک مدل ارزیابی شده است یا خیر دشوار است. با این حال، این شرکت قبلاً مدل هوش مصنوعی را به صورت منبع باز در Hugging Face در دسترس قرار داده است، بنابراین توسعه دهندگان می توانند کارایی آن را آزمایش کنند. برای علاقه مندان، یک برنامه مشاهده نیز وجود دارد که می توانند تصویری را اضافه کنند و تبدیل آن به یک رندر سه بعدی را تماشا کنند. ما در Gadgets 360 پلتفرم را آزمایش کردیم و متوجه شدیم که طبق ادعای شرکت، پیشنهادات در کمتر از 10 ثانیه ایجاد شده است. با این حال، کیفیت اجراها نسبتاً پایین به نظر می رسد. کاربر X (که قبلا X شناخته می شد) ویدیویی در مورد استفاده از مدل هوش مصنوعی منتشر کرده است که در زیر می توانید نتایج را مشاهده کنید.
🤯InstantMesh از Tencent دیوانه است – با خروجی با کیفیت بالا عکس ها را به تصاویر سه بعدی تبدیل کنید
⬇️ لینک زیر – یک مدل سه بعدی از یک عکس در 30 ثانیه به صورت رایگان بسازید 🔥🔥 pic.twitter.com/Dft4xF3vQm
– ویکتور ام (@victormustar) 15 آوریل 2024
از نظر فناوری پشت مدل هوش مصنوعی، این شرکت از دو معماری مختلف استفاده می کند – یک مدل استقرار چند نمای و یک معماری LRM. اولی به پردازش تصویر به عنوان ورودی کمک می کند و ابعاد مختلفی را تولید می کند که در تصویر قابل مشاهده نیستند، و LRM یک شی رندر مداری می سازد که می تواند در یک محیط سه بعدی تجربه شود.
به گفته تنسنت، InstantMesh مشکل Janus را در دنیای رندر سه بعدی حل می کند. مشکل Janus پدیدهای در فضای نمای سهبعدی است که در آن، به دلیل اینکه مدل باید جنبههای مختلفی از شی مرجع را “تصور کند” و ایجاد میکند، به جای یک شی سهبعدی منسجم، چندین نماهای زیرین از شی را ایجاد میکند. این شرکت مشکل را با یک ژنراتور عرضی جدید تنظیم شده از Stable Diffusion حل می کند.
این مقاله همچنین نتایج معیاری را در مورد مدلهای مختلف موجود، از جمله Stable Video 3D خود Stability AI که اخیراً راهاندازی شده است، به اشتراک گذاشته است. بر اساس نتایج، InstantMesh در نماهای مداری شیء اسکن شده گوگل (GSO) و OmniObject3D (Omni3D) بهتر از SV3D عمل کرد. SV3D روی برخی از پارامترها در بنچمارک Omni3D که مطابق با وضوح خروجی است، بهتر عمل کرد، اما Tencent گفت که این عمدی بوده است. این شرکت توضیح داد: «ما استدلال میکنیم که کیفیت ادراکی مهمتر از وفاداری است، زیرا «نماهای جدید واقعی» باید ناشناخته باشد و دارای چندین امکان باشد که یک تصویر واحد به عنوان مرجع ارائه میشود.