Облака

17 Апреля 2025 15:38 17 Апр 2025 15:38 |

Cloud.ru анонсировал управляемый сервис для инференса больших языковых моделей в облаке с разделением GPU

Провайдер облачных и ИИ-технологий Cloud.ru представил Evolution ML Inference – первый в России готовый облачный сервис для инференса (вывода) больших языковых моделей (LLM) с возможностью разделения графических процессоров (GPU) и гибким подходом к утилизации вычислительных ресурсов. Помимо уже доступных в рамках сервиса Cloud.ru моделей GigaChat, бизнес может запускать и развертывать собственные ИИ-модели и любые открытые ML/DL-модели из библиотеки Hugging Face на базе облачных GPU в несколько кликов. Сервис уже доступен для пользователей в режиме General availability и войдет в состав Cloud.ru Evolution AI Factory – готового набора инструментов для работы с ИИ в облаке.

Evolution ML Inference подойдет для компаний и пользователей, которые разрабатывают ИИ- и МО-решения и хотят быстро и с минимальными затратами запустить собственную модель машинного обучения и персональный конечный продукт для работы. Это полностью управляемый сервис – пользователь только настраивает конфигурацию, модель и тип масштабирования. При этом Cloud.ru предоставляет доступ к мощным графическим процессорам, а также выполняет полное администрирование и обслуживание инфраструктуры.

Ключевые преимущества сервиса: Shared GPU – технология позволяет разделять GPU-ресурсы и потреблять то количество vRAM (видеопамяти), которое необходимо для эффективной работы самой модели без задержек, с возможностью динамически перераспределять ресурсы в зависимости от текущих потребностей клиентов. Это повышает утилизацию мощностей в ИИ-проектах от 15 до 45% в сравнении со сценарием, когда графические процессоры используется полностью; простота и гибкость управления сервисом дают возможность, как запускать модели без необходимости сборки образа напрямую из Hugging Face, так и запускать собственные образы со своим окружением; решение обеспечивает высокую степень адаптации и рациональное использование доступных ресурсов: на одной видеокарте можно одновременно запускать несколько моделей. Это делает технологию наиболее оптимальной для распределенных систем с разнородной вычислительной инфраструктурой и помогает эффективно масштабировать нагрузку; режим скалирования (эффективного масштабирования) – тарификация за использование модели начинается только в момент обращения к ней.

Евгений Колбин, генеральный директор провайдера облачных и ИИ-технологий Cloud.ru, сказал: «По нашим оценкам, около 70% пользователей загружают GPU-ресурсы, зарезервированные под инференс в процессе эксплуатации ML-моделей, менее чем на 55%. При внедрении AI в большинстве случаев базой становится именно среда исполнения модели. Поэтому для получения экономии ресурсов и оптимизации затрат в ходе использовании технологий искусственного интеллекта, особенно GenAI, необходима производительная инфраструктура с гибким масштабированием в реальном времени. Глубоко изучив потребности клиентов и наиболее популярные запросы на инфраструктуру и сервисы для AI, мы представили рынку первый управляемый облачный сервис для инференса LLM. С его помощью бизнес может эффективно управлять вычислительными ресурсами в среде с высокой интенсивностью обработки данных. Благодаря размещению Evolution ML Inference в облаке компании могут упростить доступ к AI и сделать использование AI-инструментов проще и удобнее».

Обзор российского электромобиля АТОМ — машина-гаджет, первый тест в России

Подписаться на новости

Короткая ссылка

Cloud.ru анонсировал управляемый сервис для инференса больших языковых моделей в облаке с разделением GPU

Другие материалы рубрики

Конференции

Рынок CRM 2025

Рынок IBP-систем 2025

Цифровизация агропромышленного комплекса 2025

MARKET.CNEWS

Dedicated

Онлайн-бухгалтерия

СЭД

VDI

Техника

Доступные игровые ноутбуки стоимостью до 100 000 рублей: хиты продаж

Лучшие стайлеры для волос: выбор ZOOM

Лучшие нейросети для улучшения качества фото: выбор ZOOM

Наука

Обнаружен самый древний кратер на Земле от падения метеорита — ему 3,47 миллиарда лет

ИИ обнаружил скрытый космический взрыв, который меняет основы астрономии

Найдена первая гробница египетского фараона после Тутанхамона: что внутри?

Больше чем Jira и Trello? Обновилось российское решение по управлению проектами

Цифровизация закупок: простая автоматизация
или способ сохранить бизнес в 2025 году

Цифровизация закупок: простая автоматизация
или способ сохранить бизнес в 2025 году

Совместимость решений — один из главных вызовов при внедрении заказного ПО

Чем ИИ может быть полезен в госуправлении? Мнения участников рынка

Больше чем Jira и Trello? Обновилось российское решение по управлению проектами

Cloud.ru анонсировал управляемый сервис для инференса больших языковых моделей в облаке с разделением GPU

Другие материалы рубрики

Конференции

Рынок CRM 2025

Рынок IBP-систем 2025

Цифровизация агропромышленного комплекса 2025

MARKET.CNEWS

Dedicated

Онлайн-бухгалтерия

СЭД

VDI

Техника

Доступные игровые ноутбуки стоимостью до 100 000 рублей: хиты продаж

Лучшие стайлеры для волос: выбор ZOOM

Лучшие нейросети для улучшения качества фото: выбор ZOOM

Наука

Обнаружен самый древний кратер на Земле от падения метеорита — ему 3,47 миллиарда лет

ИИ обнаружил скрытый космический взрыв, который меняет основы астрономии

Найдена первая гробница египетского фараона после Тутанхамона: что внутри?

Больше чем Jira и Trello? Обновилось российское решение по управлению проектами

Цифровизация закупок: простая автоматизация или способ сохранить бизнес в 2025 году

Цифровизация закупок: простая автоматизация или способ сохранить бизнес в 2025 году

Совместимость решений — один из главных вызовов при внедрении заказного ПО

Чем ИИ может быть полезен в госуправлении? Мнения участников рынка

Больше чем Jira и Trello? Обновилось российское решение по управлению проектами

Цифровизация закупок: простая автоматизация
или способ сохранить бизнес в 2025 году

Цифровизация закупок: простая автоматизация
или способ сохранить бизнес в 2025 году