• baneris

OpenAI Point E: izveidojiet 3D punktu mākoni no sarežģītām viļņu formām minūtēs vienā GPU

Jaunā rakstā Point-E: Sistēma 3D punktu mākoņu ģenerēšanai no sarežģītiem signāliem OpenAI pētnieku komanda iepazīstina ar Point E, 3D punktu mākoņa teksta nosacītās sintēzes sistēmu, kas izmanto difūzijas modeļus, lai radītu daudzveidīgas un sarežģītas 3D formas, kuras virza sarežģīts teksts. norādes.minūtēs uz viena GPU.
Mūsdienu jaunāko attēlu ģenerēšanas modeļu apbrīnojamā veiktspēja ir veicinājusi pētniecību 3D teksta objektu ģenerēšanā.Tomēr atšķirībā no 2D modeļiem, kas var ģenerēt izvadi minūtēs vai pat sekundēs, objektu ģenerētajiem modeļiem parasti ir nepieciešams vairākas GPU darba stundas, lai ģenerētu vienu paraugu.
Jaunā rakstā Point-E: Sistēma 3D punktu mākoņu ģenerēšanai no sarežģītiem signāliem OpenAI pētnieku komanda iepazīstina ar Point·E, teksta nosacītās sintēzes sistēmu 3D punktu mākoņiem.Šī jaunā pieeja izmanto izplatīšanās modeli, lai vienā vai divās minūtēs no sarežģītiem teksta signāliem izveidotu daudzveidīgas un sarežģītas 3D formas vienā GPU.
Komanda koncentrējas uz izaicinājumu pārvērst tekstu 3D formātā, kas ir ļoti svarīgi, lai demokratizētu 3D satura izveidi reālās pasaules lietojumprogrammām, sākot no virtuālās realitātes un spēlēm līdz rūpnieciskajam dizainam.Esošās metodes teksta konvertēšanai 3D formātā iedalās divās kategorijās, un katrai no tām ir savi trūkumi: 1) ģeneratīvos modeļus var izmantot, lai efektīvi ģenerētu paraugus, bet tos nevar efektīvi mērogot dažādiem un sarežģītiem teksta signāliem;2) iepriekš apmācīts teksta attēla modelis, lai apstrādātu sarežģītus un daudzveidīgus teksta signālus, taču šī pieeja ir skaitļošanas ziņā intensīva, un modelis var viegli iestrēgt lokālos minimumos, kas neatbilst jēgpilniem vai saskaņotiem 3D objektiem.
Tāpēc komanda izpētīja alternatīvu pieeju, kuras mērķis ir apvienot abu iepriekš minēto pieeju stiprās puses, izmantojot teksta-attēla difūzijas modeli, kas apmācīts lielam teksta-attēlu pāru kopumam (ļaujot tam apstrādāt dažādus un sarežģītus signālus) un 3D attēlu difūzijas modelis, kas apmācīts uz mazāku teksta-attēlu pāru kopu.attēla un 3D pāra datu kopa.Teksta pārveides modelis vispirms ņem paraugus ievades attēlam, lai izveidotu vienu sintētisku attēlojumu, un modelis no attēla pārvēršanas 3D izveido 3D punktu mākoni, pamatojoties uz atlasīto attēlu.
Komandas ģeneratīvā kaudze ir balstīta uz nesen piedāvātajiem ģeneratīvajiem ietvariem attēlu nosacīti ģenerēšanai no teksta (Sohl-Dickstein et al., 2015; Song & Ermon, 2020b; Ho et al., 2020).Viņi izmanto GLIDE modeli ar 3 miljardiem GLIDE parametru (Nichol et al., 2021), kas ir precīzi noregulēti uz renderētiem 3D modeļiem, kā savu teksta pārveidošanas modeli par attēlu un difūzijas modeļu kopu, kas ģenerē RGB punktu mākoņus. transformācijas modelis.attēlus uz attēlu.3D modeļi.
Lai gan iepriekšējā darbā punktu mākoņu apstrādei tika izmantotas 3D arhitektūras, pētnieki izmantoja vienkāršu uz devēju balstītu modeli (Vaswani et al., 2017), lai uzlabotu efektivitāti.To difūzijas modeļa arhitektūrā punktu mākoņu attēli vispirms tiek ievadīti iepriekš sagatavotā ViT-L/14 CLIP modelī un pēc tam izvades sieti tiek ievadīti pārveidotājā kā marķieri.
Savā empīriskajā pētījumā komanda salīdzināja piedāvāto Point·E metodi ar citiem ģeneratīviem 3D modeļiem, lai novērtētu signālus no COCO objektu noteikšanas, segmentācijas un parakstu datu kopām.Rezultāti apstiprina, ka Point·E spēj ģenerēt dažādas un sarežģītas 3D formas no sarežģītiem teksta signāliem un paātrina secinājumu izdarīšanas laiku par vienu līdz divām kārtām.Komanda cer, ka viņu darbs iedvesmos turpmākiem 3D teksta sintēzes pētījumiem.
Iepriekš sagatavots punktu mākoņu izplatīšanās modelis un novērtēšanas kods ir pieejams projekta GitHub.Document Point-E: arXiv ir sistēma 3D punktu mākoņu izveidei no sarežģītām norādēm.
Mēs zinām, ka jūs nevēlaties palaist garām nevienu ziņu vai zinātnisku atklājumu.Abonējiet mūsu populāro Synced Global AI Weekly biļetenu, lai saņemtu iknedēļas AI atjauninājumus.


Izlikšanas laiks: 28. decembris 2022