• بنر

OpenAI Point E: یک ابر نقطه سه بعدی از شکل موج های پیچیده در عرض چند دقیقه روی یک GPU ایجاد کنید

در مقاله جدیدی Point-E: سیستمی برای تولید ابرهای نقطه سه بعدی از سیگنال های پیچیده، تیم تحقیقاتی OpenAI، Point E را معرفی می کند، یک سیستم سنتز شرطی متن ابر نقطه سه بعدی که از مدل های انتشار برای ایجاد اشکال سه بعدی متنوع و پیچیده توسط متن پیچیده استفاده می کند. نشانه.در عرض چند دقیقه روی یک GPU.
عملکرد شگفت‌انگیز مدل‌های مدرن تولید تصویر امروزی، تحقیقات را در زمینه تولید اشیاء متنی سه‌بعدی تحریک کرده است.با این حال، بر خلاف مدل‌های دوبعدی، که می‌توانند خروجی را در چند دقیقه یا حتی چند ثانیه تولید کنند، مدل‌های مولد شی معمولاً برای تولید یک نمونه به چندین ساعت کار GPU نیاز دارند.
در مقاله جدیدی Point-E: سیستمی برای تولید ابرهای نقطه سه بعدی از سیگنال های پیچیده، تیم تحقیقاتی OpenAI Point·E، یک سیستم سنتز شرطی متنی برای ابرهای نقطه سه بعدی را ارائه می دهد.این رویکرد جدید از یک مدل انتشار برای ایجاد اشکال سه بعدی متنوع و پیچیده از سیگنال های متنی پیچیده تنها در یک یا دو دقیقه در یک GPU استفاده می کند.
این تیم بر چالش تبدیل متن به سه بعدی متمرکز شده است، که برای دموکراتیزه کردن ایجاد محتوای سه بعدی برای برنامه های کاربردی دنیای واقعی از واقعیت مجازی و بازی گرفته تا طراحی صنعتی بسیار مهم است.روش‌های موجود برای تبدیل متن به سه‌بعدی به دو دسته تقسیم می‌شوند که هر کدام دارای اشکالاتی هستند: 1) مدل‌های مولد را می‌توان برای تولید نمونه‌ها به طور کارآمد استفاده کرد، اما نمی‌توان به‌طور کارآمد برای سیگنال‌های متنی متنوع و پیچیده مقیاس‌بندی کرد.2) یک مدل متن-تصویر از پیش آموزش دیده برای مدیریت نشانه های متنی پیچیده و متنوع، اما این رویکرد از نظر محاسباتی فشرده است و مدل می تواند به راحتی در حداقل های محلی گیر کند که با اشیاء سه بعدی معنادار یا منسجم مطابقت ندارند.
بنابراین، تیم یک رویکرد جایگزین را بررسی کرد که هدف آن ترکیب نقاط قوت دو رویکرد بالا، با استفاده از یک مدل انتشار متن به تصویر آموزش‌دیده بر روی مجموعه بزرگی از جفت‌های متن-تصویر (به آن اجازه می‌دهد سیگنال‌های متنوع و پیچیده را مدیریت کند) و یک مدل انتشار تصویر سه بعدی که بر روی مجموعه کوچکتری از جفت های متن-تصویر آموزش داده شده است.مجموعه داده جفت تصویر-سه بعدی.مدل متن به تصویر ابتدا از تصویر ورودی نمونه برداری می کند تا یک نمایش مصنوعی ایجاد کند و مدل تصویر به تصویر یک ابر نقطه سه بعدی را بر اساس تصویر انتخاب شده ایجاد می کند.
پشته مولد این فرمان مبتنی بر چارچوب‌های مولد اخیراً پیشنهادی برای تولید مشروط تصاویر از متن است (Sohl-Dickstein et al., 2015; Song & Ermon, 2020b; Ho et al., 2020).آنها از یک مدل GLIDE با 3 میلیارد پارامتر GLIDE استفاده می کنند (Nichol et al., 2021) که روی مدل های سه بعدی رندر شده به خوبی تنظیم شده است، به عنوان مدل تبدیل متن به تصویر خود، و مجموعه ای از مدل های انتشار که ابرهای نقطه RGB را تولید می کنند. مدل تبدیلتصاویر به تصویرمدل های سه بعدی
در حالی که کار قبلی از معماری های سه بعدی برای پردازش ابرهای نقطه استفاده می کرد، محققان از یک مدل مبتنی بر مبدل ساده (واسوانی و همکاران، 2017) برای بهبود کارایی استفاده کردند.در معماری مدل انتشار، تصاویر ابر نقطه ای ابتدا به یک مدل ViT-L/14 CLIP از پیش آموزش دیده وارد می شوند و سپس مش های خروجی به عنوان نشانگر وارد مبدل می شوند.
در مطالعه تجربی خود، این تیم روش Point·E پیشنهادی را با سایر مدل‌های سه بعدی مولد در امتیازدهی سیگنال‌های شناسایی، تقسیم‌بندی و مجموعه داده‌های امضا COCO مقایسه کردند.نتایج تایید می‌کنند که Point·E می‌تواند اشکال سه بعدی متنوع و پیچیده را از سیگنال‌های متنی پیچیده تولید کند و زمان استنتاج را یک تا دو مرتبه بزرگی افزایش دهد.این تیم امیدوار است که کار آنها الهام بخش تحقیقات بیشتر در مورد سنتز متن سه بعدی باشد.
یک مدل انتشار ابر نقطه از پیش آموزش دیده و کد ارزیابی در GitHub پروژه موجود است.Document Point-E: سیستمی برای ایجاد ابرهای سه بعدی نقطه از سرنخ های پیچیده در arXiv است.
می دانیم که نمی خواهید هیچ خبر یا کشف علمی را از دست بدهید.برای دریافت به‌روزرسانی‌های هفتگی هوش مصنوعی، در خبرنامه محبوب Synced Global AI Weekly مشترک شوید.


زمان ارسال: دسامبر-28-2022