Революционная реконструкция сцены с разрывом
Люди от природы обладают способностью разбивать сложные сцены на составные элементы и представлять их в различных сценариях. Можно легко представить одно и то же существо в разных положениях и местах или представить одну и ту же чашу в новой обстановке, имея снимок керамического произведения искусства, изображающего существо, лежащее на чаше. Однако сегодняшние генеративные модели нуждаются в помощи при решении задач такого рода. Недавние исследования предлагают персонализировать крупномасштабные модели преобразования текста в изображение путем оптимизации недавно добавленных специализированных вложений текста или точной настройки весов модели с учетом множества изображений одной идеи, чтобы обеспечить возможность синтеза экземпляров этой концепции в уникальных ситуациях.
В этом исследовании исследователи из Еврейского университета в Иерусалиме, Google Research, Университета Райхмана и Тель-Авивского университета представляют новый сценарий декомпозиции текстовой сцены: учитывая одно изображение сцены, которое может включать в себя несколько концепций разных типов, их цель состоит в том, чтобы выделите конкретный текстовый токен для каждой идеи. Это позволяет создавать инновационные изображения на основе словесных подсказок, которые подчеркивают определенные концепции или комбинации многих тем. Идеи, которые они хотят изучить или извлечь из деятельности по настройке, лишь иногда очевидны, что делает ее потенциально неясной. Предыдущие работы решали эту двусмысленность, фокусируясь на одной теме и используя множество фотографий, чтобы показать это понятие в различных условиях. Однако для решения проблемы при переходе к ситуации с одним изображением необходимы альтернативные методы.
Они специально предлагают добавить к входному изображению серию масок, чтобы добавить дополнительную информацию о концепциях, которые они хотят извлечь. Эти маски могут быть произвольной формы, предоставляемые пользователем, или маски, созданные с помощью подхода автоматической сегментации (например, ). Адаптация двух основных методов, TI и DB, к этой среде указывает на компромисс между реконструкцией и редактируемостью. В то время как TI не может должным образом перестроить идеи в новом контексте, DB нуждается в большем контроле над контекстом из-за переобучения. В этом исследовании авторы предлагают уникальный конвейер настройки, который успешно находит компромисс между сохранением идентичности изученной концепции и предотвращением переобучения.
Рисунок 1 представлен обзор нашей методологии, которая состоит из четырех основных частей: (1) Мы используем подход объединенной выборки, при котором каждый раз отбирается новое подмножество токенов, чтобы обучить модель обрабатывать различные комбинации созданных идей. Кроме того, (2) чтобы предотвратить переобучение, мы используем двухэтапный режим обучения, начиная с оптимизации только недавно вставленных токенов с высокой скоростью обучения и заканчивая весами модели на втором этапе с пониженной скоростью обучения. . Желаемые идеи реконструируются с использованием (3) скрытых диффузионных потерь. В-четвертых, мы используем уникальную технику потери перекрестного внимания, чтобы способствовать распутыванию выученных идей.
Их конвейер состоит из двух шагов, которые показаны на рисунке 1. Чтобы перестроить входное изображение, они сначала идентифицируют группу специальных текстовых символов (называемых дескрипторами), замораживают веса модели, а затем оптимизируют дескрипторы. Они продолжают совершенствовать ручки, перейдя к точной настройке веса модели на втором этапе. В их методе особое внимание уделяется распутыванию извлечения концепций или обеспечению того, чтобы каждый дескриптор был связан только с одной целевой концепцией. Они также понимают, что процедуру настройки нельзя выполнить независимо для каждой идеи, чтобы разработать графику, демонстрирующую комбинации понятий. В ответ на это открытие мы предлагаем профсоюзную выборку — подход к обучению, который удовлетворяет эту потребность и улучшает создание комбинаций идей.
Они делают это, используя маскированные диффузионные потери, модифицированный вариант стандартных диффузионных потерь. Модель не наказывается, если дескриптор связан с более чем одной концепцией из-за этой потери, что гарантирует, что каждый пользовательский дескриптор может передать задуманную идею. Их главный вывод заключается в том, что они могут наказывать за такую запутанность, дополнительно накладывая потери на карты перекрестного внимания, которые, как известно, коррелируют с расположением сцены. Из-за дополнительных потерь каждая ручка будет концентрироваться исключительно на областях, охватываемых ее целевой концепцией. Они предлагают несколько автоматических измерений для сравнения своей методологии с эталонными показателями.