Старший разработчик в группу GPU-инфраструктуры

З/П договорная
Размещено 16 марта


Наше облако помогает максимально эффективно использовать ресурсы Яндекса. Мы разрабатываем и оптимизируем сервисы GPU-инфраструктуры и ML/HPC-компоненты для распределённого обучения, устраняем их неполадки. Наши инфраструктурные компоненты живут на отдельных серверах инференса и суперкомпьютерах Червоненкис, Ляпунов и Галушкин из международного TOP-500, связанных высокоскоростной сетью InfiniBand. Мы ищем опытного разработчика, который будет участвовать в развитии GPU-инфраструктуры внутреннего облака Яндекса. Какие задачи вас ждут разрабатывать системное программное обеспечение, которое отвечает за конфигурирование, мониторинг, выделение в пользовательские контейнеры GPU- и InfiniBand-устройств на серверах; поддерживать набор инструментов от драйверов до распределённых фреймворков обучения, которые используют ML-разработчики; оптимизировать производительность, надёжность и эффективность среды исполнения, имеющих GPU- и InfiniBand-устройства; оказывать системную поддержку командам, создающим YandexGPT, Шедеврум и другие DNN Яндекса, внедрять новое оборудование; исследовать и внедрять новые проверки поиска проблем в настройках серверов; участвовать в опенсорсной разработке компонент, используемых в ML/HPC. Мы ждём, что вы знаете Go, C/C++, Python (не обязательно все сразу); умеете писать поддерживаемый и эффективный код; хорошо понимаете принципы работы компьютерных сетей, операционных систем, контейнеризации и виртуализации; интересуетесь R&D-работой и умеете решать нетипичные задачи. Будет плюсом, если вы занимались проектами, связанными с распределёнными вычислениями на GPU; разрабатывали или использовали MPI, NCCL, CUDA или другие рантаймы для параллельных вычислений; разрабатывали ядро Linux и его модули; знаете устройство аппаратной архитектуры x86 и её особенности.