16 июня 2026
Мы в HOSTKEY растём, и вместе с этим растёт нагрузка на инфраструктуру и требования к её надёжности. Мы создаём отдельную роль, которая отвечает за ключевой этап проверку серверов перед тем, как они начнут работать в продакшене.
Это не просто тестирование. Это точка контроля качества всей инфраструктуры: именно вы определяете, готов ли сервер к реальной нагрузке или нет.
Если вам нравится работать с железом, разбираться в сложных сбоях и видеть результат своей работы в стабильной работе систем - эта работа для вас.
Проводить полный цикл проверки серверов: от базовой диагностики до глубокого стресс-тестирования под реальными нагрузками (CPU, память с ECC, накопители, сеть и GPU).
Работать с автоматизацией: использовать автоматизированную платформу на базе Ansible (загрузка серверов по PXE, запуск live-образа и выполнение Ansible-playbook для сбора диагностических данных).
Проводить ручное тестирование: в отдельных кейсах применять ручную диагностику с помощью специализированного ПО в Linux.
Анализировать ошибки и логи: выявлять скрытые дефекты через утилиты автоматизации и логи (journalctl, dmesg, MCE, SEL).
Взаимодействовать с командой: фиксировать результаты, оперативно информировать инженеров в ДЦ о выявленных проблемах, их сути и давать рекомендации по устранению неисправностей.
Управлять серверами: работать через IPMI, iDRAC, iLO (обновлять прошивки, проверять RAID-массивы, контролировать состояние).
Уверенную работу с Linux и понимание, как устроена система.
Отличные знания специализированного диагностического ПО: smartctl, ipmitool, fio, stress-ng, memtest86, lspci, dmidecode, ethtool, iperf3, journalctl, dmesg .
Опыт взаимодействия с серверным оборудованием (Supermicro, Dell, HP и др.).
Понимание архитектуры серверов: CPU, NUMA, PCIe, RAID, память, сеть.
Практический опыт диагностики и поиска причин нестабильной работы железа.
Будет плюсом:
Опыт работы в дата-центрах или с большим парком серверов.
Навыки автоматизации и написания скриптов (Bash / Ansible).
Опыт работы с GPU и высоконагруженными системами.
Глубокое понимание аппаратных ошибок.
Условия: