В России представили первую мультимодальную модель ИИ OmniFusion 1.1

3

В России представили первую мультимодальную модель ИИ, Институт искусственного интеллекта AIRI разработал OmniFusion 1.1 и открыл исходный код к ней. Языковую модель, способную поддерживать визуальный диалог и отвечать на вопросы по картинкам, можно использовать в том числе в коммерческих целях. Об этом рассказали в пресс-службе AIRI.

В России представили первую мультимодальную модель ИИ OmniFusion 1.1 Наталья Гормалева Присоединиться

OmniFusion представляет собой мультимодальную модель искусственного интеллекта. Она предназначена для расширения возможностей привычных систем обработки языка за счет изображений, а в будущем –– аудио, 3D- и видеоматериалов.  

Специфика мультимодальной OmniFusion 1.1

В основе архитектуры модели — метод совмещения заранее обученной большой LLM и специальных визуальных энкодеров, которые кодируют информацию на изображении в числовой вектор. Он называется эмбеддинг.

Иностранными аналогами OmniFusion являются такие продукты, как LLaVA, Gemini, GPT4-Vision и китайские Qwen, DeepSeek и LVIS.

Возможности OmniFusion 1.1

Модель распознает и описывает изображение. Так, пользователь может, например, загрузить фото, а система выдаст рецепт изображенного на нем блюда. Также можно проанализировать карту помещений или узнать, как собрать устройство по фото его отдельных комплектующих.

В России представили первую мультимодальную модель ИИ OmniFusion 1.1

Также стандартно модель распознает текст. При этом она умеет решать логические задачи. С помощью модели можно решить математический пример, написанный на доске, или распознать формулу и получить их представления в формате LaTeX.

Заставь искусственный интеллект самообучаться и совершенствоваться – выбирай онлайн-курсы в каталоге курсов по машинному обучению.

Как обучали OmniFusion 1.1

Качество модели оценивали в разных вариантах ее архитектуры при помощи восьми бенчмарков (специализированные тексты для анализа эффективности AI-моделей в ответах на визуальные вопросы).

Тесты показали, что OmniFusion показывает результаты в основных бенчмарках, не уступающие зарубежным конкурентам.

Открытый исходный код модели опубликован на платформе Github.

Подписывайтесь на наш Telegram-канал, чтобы быть в курсе последних новостей и событий!

Источник: rb.ru

Comments are closed.