Machine learning engineer (multimodal domain Image+text)

200 000 руб
Размещено 16 марта


ScreenMate AI - это инструмент для бизнеса, который использует мультимодальные LLM для интерпретации пользовательских запросов и выполнения соответствующих действий на экранах веб и десктоп приложений. Это позволяет средним компаниям из различных секторов экономики снижать расходы на рутинные операции. ScreenMate AI предлагает интуитивную автоматизацию на веб-платформах и настольных приложениях, интегрируя различные каналы коммуникаций для комплексной автоматизации бизнес-процессов. Мы ищем опытного специалиста в области машинного обучения с фокусом на мультимодальных доменах (изображение + текст), который будет работать над разработкой мультимодульной архитектуры для автогенерации промптов по изображению и навигации по экрану с использованием текстовых описаний. Основные задачи: Fine tuning/alignment открытых мультимодальных моделей и LLM. Генерировать и проверять гипотезы, связанных с разработкой продукта Оптимизация ML моделей для инференса в продуктах (квантизация и дистилляция моделей). Построение эмбеддингов изображений. Instance segmentation. Что ожидаем: Опыт работы с компьютерным зрением. Опыт работы с мультимодальными моделями моделями и LLM (LLAVA, CLIP, LLAVA, Mixtral, др.). Опыт тюнинга LLM. Опыт внедрения моделей в продукты (Nvidia Triton Inference Server, Tensrort-LLM, vLLM). Желание изучать новые подходы, модели и технологии. Умение искать и предлагать подходы к решению поставленной задачи. Умение организовать самостоятельную работу над исследовательским проектом, проявлять инициативу. Условия: Полностью удаленная работа. Уникальный опыт работы в перспективной области исследований и разработок.