در مقاله جدیدی Point-E: سیستمی برای تولید ابرهای نقطه سه بعدی از سیگنال های پیچیده، تیم تحقیقاتی OpenAI، Point E را معرفی می کند، یک سیستم سنتز شرطی متن ابر نقطه سه بعدی که از مدل های انتشار برای ایجاد اشکال سه بعدی متنوع و پیچیده توسط متن پیچیده استفاده می کند. نشانه.در عرض چند دقیقه روی یک GPU.
عملکرد شگفتانگیز مدلهای مدرن تولید تصویر امروزی، تحقیقات را در زمینه تولید اشیاء متنی سهبعدی تحریک کرده است.با این حال، بر خلاف مدلهای دوبعدی، که میتوانند خروجی را در چند دقیقه یا حتی چند ثانیه تولید کنند، مدلهای مولد شی معمولاً برای تولید یک نمونه به چندین ساعت کار GPU نیاز دارند.
در مقاله جدیدی Point-E: سیستمی برای تولید ابرهای نقطه سه بعدی از سیگنال های پیچیده، تیم تحقیقاتی OpenAI Point·E، یک سیستم سنتز شرطی متنی برای ابرهای نقطه سه بعدی را ارائه می دهد.این رویکرد جدید از یک مدل انتشار برای ایجاد اشکال سه بعدی متنوع و پیچیده از سیگنال های متنی پیچیده تنها در یک یا دو دقیقه در یک GPU استفاده می کند.
این تیم بر چالش تبدیل متن به سه بعدی متمرکز شده است، که برای دموکراتیزه کردن ایجاد محتوای سه بعدی برای برنامه های کاربردی دنیای واقعی از واقعیت مجازی و بازی گرفته تا طراحی صنعتی بسیار مهم است.روشهای موجود برای تبدیل متن به سهبعدی به دو دسته تقسیم میشوند که هر کدام دارای اشکالاتی هستند: 1) مدلهای مولد را میتوان برای تولید نمونهها به طور کارآمد استفاده کرد، اما نمیتوان بهطور کارآمد برای سیگنالهای متنی متنوع و پیچیده مقیاسبندی کرد.2) یک مدل متن-تصویر از پیش آموزش دیده برای مدیریت نشانه های متنی پیچیده و متنوع، اما این رویکرد از نظر محاسباتی فشرده است و مدل می تواند به راحتی در حداقل های محلی گیر کند که با اشیاء سه بعدی معنادار یا منسجم مطابقت ندارند.
بنابراین، تیم یک رویکرد جایگزین را بررسی کرد که هدف آن ترکیب نقاط قوت دو رویکرد بالا، با استفاده از یک مدل انتشار متن به تصویر آموزشدیده بر روی مجموعه بزرگی از جفتهای متن-تصویر (به آن اجازه میدهد سیگنالهای متنوع و پیچیده را مدیریت کند) و یک مدل انتشار تصویر سه بعدی که بر روی مجموعه کوچکتری از جفت های متن-تصویر آموزش داده شده است.مجموعه داده جفت تصویر-سه بعدی.مدل متن به تصویر ابتدا از تصویر ورودی نمونه برداری می کند تا یک نمایش مصنوعی ایجاد کند و مدل تصویر به تصویر یک ابر نقطه سه بعدی را بر اساس تصویر انتخاب شده ایجاد می کند.
پشته مولد این فرمان مبتنی بر چارچوبهای مولد اخیراً پیشنهادی برای تولید مشروط تصاویر از متن است (Sohl-Dickstein et al., 2015; Song & Ermon, 2020b; Ho et al., 2020).آنها از یک مدل GLIDE با 3 میلیارد پارامتر GLIDE استفاده می کنند (Nichol et al., 2021) که روی مدل های سه بعدی رندر شده به خوبی تنظیم شده است، به عنوان مدل تبدیل متن به تصویر خود، و مجموعه ای از مدل های انتشار که ابرهای نقطه RGB را تولید می کنند. مدل تبدیلتصاویر به تصویرمدل های سه بعدی
در حالی که کار قبلی از معماری های سه بعدی برای پردازش ابرهای نقطه استفاده می کرد، محققان از یک مدل مبتنی بر مبدل ساده (واسوانی و همکاران، 2017) برای بهبود کارایی استفاده کردند.در معماری مدل انتشار، تصاویر ابر نقطه ای ابتدا به یک مدل ViT-L/14 CLIP از پیش آموزش دیده وارد می شوند و سپس مش های خروجی به عنوان نشانگر وارد مبدل می شوند.
در مطالعه تجربی خود، این تیم روش Point·E پیشنهادی را با سایر مدلهای سه بعدی مولد در امتیازدهی سیگنالهای شناسایی، تقسیمبندی و مجموعه دادههای امضا COCO مقایسه کردند.نتایج تایید میکنند که Point·E میتواند اشکال سه بعدی متنوع و پیچیده را از سیگنالهای متنی پیچیده تولید کند و زمان استنتاج را یک تا دو مرتبه بزرگی افزایش دهد.این تیم امیدوار است که کار آنها الهام بخش تحقیقات بیشتر در مورد سنتز متن سه بعدی باشد.
یک مدل انتشار ابر نقطه از پیش آموزش دیده و کد ارزیابی در GitHub پروژه موجود است.Document Point-E: سیستمی برای ایجاد ابرهای سه بعدی نقطه از سرنخ های پیچیده در arXiv است.
می دانیم که نمی خواهید هیچ خبر یا کشف علمی را از دست بدهید.برای دریافت بهروزرسانیهای هفتگی هوش مصنوعی، در خبرنامه محبوب Synced Global AI Weekly مشترک شوید.
زمان ارسال: دسامبر-28-2022