Нейросеть Does the description fit the image?

Сайт — https://google-research.github.io

LiT — это интерактивная демонстрация поста в блоге Google AI Добавление понимания языка к моделям изображений. Вы можете выбрать изображение из предложенного списка и написать свободные текстовые запросы, которые будут сопоставлены с изображением. После того как вы нажмете клавишу ввод на клавиатуре или кнопку вычислить, энкодер текста, реализованный в TensorFlow.js, вычислит вложения для предоставленного текста на вашем устройстве, и сходство этих текстовых вложений с вложением изображения будет отображено.

Это означает, что вы можете использовать запросы для классификации изображения на несколько категорий, перечисляя каждую категорию отдельно с запросом изображение X. Вы также можете взаимодействовать с моделью более подробно, сравнивая разные результаты, когда небольшие детали меняются в тексте.

Пожалуйста, используйте эту демонстрацию ответственно. Модели всегда будут сравнивать изображение с предоставленными вами запросами, поэтому легко создать ситуации, когда модель выбирает из плохих вариантов.

Обратите внимание, что модели, доступные в этой интерактивной демонстрации, не совпадают с теми из статьи. Нам пришлось обучать намного более маленькие текстовые архитектуры и токенизаторы, чтобы избежать перегрузки вашего браузера. Для моделей из статьи, предварительно обученных на общедоступных наборах данных, пожалуйста, обратитесь к нашему репозиторию GitHub. Мультиязычные модели скоро будут доступны.

Перейти

ОтветитьОтменить ответ