تکنولوژی و فناوری

Tencent InstantMesh، یک مدل هوش مصنوعی با قابلیت نمایش تصاویر ثابت سه بعدی، رونمایی شد.

به گزارش مجله نجم

Tencent مدل جدیدی از هوش مصنوعی (AI) به نام InstantMesh منتشر کرده است که می تواند اشیاء سه بعدی را با استفاده از یک تصویر ثابت نمایش دهد. مدل جدید هوش مصنوعی ارتقاء چارچوب قدیمی‌تر Instant3D این شرکت است و اکنون از ترکیبی از یک مدل انتشار چند نمای و یک مدل بازسازی با نمای پراکنده بر اساس معماری مدل بازسازی بزرگ (LRM) استفاده می‌کند. Tencent همچنین مدل InstantMesh را منبع باز ساخته و یک برنامه پیش نمایش برای علاقه مندان ارائه کرده است تا توانایی های آن را آزمایش کنند یا رندرهای سه بعدی ایجاد و صادر کنند.

این شرکت پیش چاپ مقاله خود را در arXiv ارسال کرد. شایان ذکر است که arXiv بررسی های همتا را انجام نمی دهد، بنابراین تعیین اینکه آیا یک مدل ارزیابی شده است یا خیر دشوار است. با این حال، این شرکت قبلاً مدل هوش مصنوعی را به صورت منبع باز در Hugging Face در دسترس قرار داده است، بنابراین توسعه دهندگان می توانند کارایی آن را آزمایش کنند. برای علاقه مندان، یک برنامه مشاهده نیز وجود دارد که می توانند تصویری را اضافه کنند و تبدیل آن به یک رندر سه بعدی را تماشا کنند. ما در Gadgets 360 پلتفرم را آزمایش کردیم و متوجه شدیم که طبق ادعای شرکت، پیشنهادات در کمتر از 10 ثانیه ایجاد شده است. با این حال، کیفیت اجراها نسبتاً پایین به نظر می رسد. کاربر X (که قبلا X شناخته می شد) ویدیویی در مورد استفاده از مدل هوش مصنوعی منتشر کرده است که در زیر می توانید نتایج را مشاهده کنید.

از نظر فناوری پشت مدل هوش مصنوعی، این شرکت از دو معماری مختلف استفاده می کند – یک مدل استقرار چند نمای و یک معماری LRM. اولی به پردازش تصویر به عنوان ورودی کمک می کند و ابعاد مختلفی را تولید می کند که در تصویر قابل مشاهده نیستند، و LRM یک شی رندر مداری می سازد که می تواند در یک محیط سه بعدی تجربه شود.

به گفته تنسنت، InstantMesh مشکل Janus را در دنیای رندر سه بعدی حل می کند. مشکل Janus پدیده‌ای در فضای نمای سه‌بعدی است که در آن، به دلیل اینکه مدل باید جنبه‌های مختلفی از شی مرجع را “تصور کند” و ایجاد می‌کند، به جای یک شی سه‌بعدی منسجم، چندین نماهای زیرین از شی را ایجاد می‌کند. این شرکت مشکل را با یک ژنراتور عرضی جدید تنظیم شده از Stable Diffusion حل می کند.

این مقاله همچنین نتایج معیاری را در مورد مدل‌های مختلف موجود، از جمله Stable Video 3D خود Stability AI که اخیراً راه‌اندازی شده است، به اشتراک گذاشته است. بر اساس نتایج، InstantMesh در نماهای مداری شیء اسکن شده گوگل (GSO) و OmniObject3D (Omni3D) بهتر از SV3D عمل کرد. SV3D روی برخی از پارامترها در بنچمارک Omni3D که مطابق با وضوح خروجی است، بهتر عمل کرد، اما Tencent گفت که این عمدی بوده است. این شرکت توضیح داد: «ما استدلال می‌کنیم که کیفیت ادراکی مهم‌تر از وفاداری است، زیرا «نماهای جدید واقعی» باید ناشناخته باشد و دارای چندین امکان باشد که یک تصویر واحد به عنوان مرجع ارائه می‌شود.


پیوندهای وابسته ممکن است به طور خودکار ایجاد شوند – برای جزئیات به بیانیه اخلاقی ما مراجعه کنید.

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا