Картинки через нейросеть

Китайская Alibaba Group, известная за пределами Китая прежде всего благодаря своему маркетплейсу AliExpress, выпустила языковую модель с необычной функцией: она легко понимает, что находится на изображении и может сравнивать картинки. Называется новая нейросеть Qwen-VL и воспользоваться ей можно бесплатно и без VPN.
Подразделение китайского холдинга под названием Alibaba Cloud не так давно начало заниматься разработкой моделей искусственного интеллекта. Одним из первых достижений подразделения стали модели серии Qwen. Первой была языковая модель Qwen-7B с 7 млрд параметров — она выпущена месяц назад и, по результатам тестов Alibaba, по точности генерации превзошла даже модель Google Llama 2 с 13 миллиардами параметров.
На основе Qwen-7B Alibaba создала более совершенную модель под названием Qwen-VL. Она представляет собой мультимодальную нейросеть — то есть, способна воспринимать разные типы входных данных. Нейросеть представили в двух версиях — Qwen-VL и Qwen-VL-Chat. Вторая версия предназначена для более сложных диалогов — она способна сравнивать несколько изображений, решать уравнения и писать истории на основе присланных пользователями картинок.
Мы решили попробовать в деле самую продвинутую версию Qwen-VL. Проще всего протестировать ее самостоятельно через сайт Model Scope . Сайт китайский, для использования нейросети вам предстоит зарегистрироваться на нем. В целом ничего сложного тут нет — вводим номер телефона, на который придет проверочный код, указываем свои учетные данные и пароль. После регистрации попадаем в интерфейс, аналогичный популярному нейросетевому хабу Hugging Face .
При желании вы можете установить Qwen-VL на свой компьютер самостоятельно. Инструкцию по установке и файлы можно найти в официальном репозитории модели на GitHub. Надо сказать, что на сайте Model Scope нейросеть работает довольно медленно: если генерация текста занимает не так много времени, то вот на загрузку изображения и ответ на вопрос по нему уйдет минимум 3-4 минуты.
Одной из наиболее интересных перспектив AI является возможность создания полностью интеллектуальных систем. Если в настоящее время мы можем создать системы, которые могут выполнить 简单 задачи, например, определить, что в изображении — собака или кошка, полностью интеллектуальные системы смогут выполнять более сложные задачи, такие как решая проблемы, связанные с медициной или естественным языком.