Афоризмы - это интерфейсы, по которым передается оценка и понимание. (Алан.Дж.Перлис)

JetBrains выпускает Mellum, свою первую модель ИИ, открытую для программирования

03.05.2025
JetBrains выпускает Mellum, свою первую модель ИИ, открытую для программирования

JetBrains вступает в сферу искусственного интеллекта, выпустив свою первую модель открытого языка, ориентированную на программирование: Mellum. Этот LLM, который компания уже использовала в своих пакетах разработки с прошлого года, теперь доступен для широкой публики на Hugging Face, популярной платформе для разработчиков, ориентированной на искусственный интеллект.

Mellum представлен  немного в стиле второго пилота, как модель, специализирующаяся на генерации и, более конкретно, на автозаполнении кода. Он был обучен с использованием более 4 триллионов токенов и имеет 4 миллиарда параметров, цифры, которые дают представление о его возможностях (параметры относятся к навыкам решения проблем, а токены — к необработанным обработанным данным).

Как подробно описано в техническом отчете JetBrains, Mellum разработан для интеграции с профессиональными инструментами для разработчиков, а не только с собственными инструментами компании, для предоставления интеллектуальных предложений, помощников по программированию на основе искусственного интеллекта, а также для исследований в области понимания и генерации кода. Он также считается подходящим для образовательных приложений и экспериментов с точной настройкой.

Обучение Меллума проводилось на основе набора наборов данных, включая разрешительно лицензированный код GitHub и статьи в английской Википедии, процесс, который занял около 20 дней с использованием кластера Nvidia H200 с 256 графическими процессорами, что было бы похоже на более поздняя партия LLMs (на самом деле, модели с открытым исходным кодом). средне-малый по сегодняшним меркам), сбалансированный с точки зрения энергоэффективности. Mellum распространяется по лицензии Apache 2.0.

Читать  Как установить DeepSeek локально с помощью Ollama LLM в Ubuntu 24.04

Короче говоря, Mellum уже доступен на Hugging Face по разрешительной лицензии, но для его запуска требуется определенная работа, поскольку базовая модель не может использоваться напрямую «из коробки», а должна быть предварительно настроена для конкретных задач. и это не особо доступная задача.

Чтобы упростить тестирование, JetBrains предлагает несколько моделей для Python с оговоркой, что они предназначены для «оценки потенциальных возможностей», а не для развертывания в производственных средах. Но дело в том, что Mellum такой, какой он есть: основа, на которой можно строить или экспериментировать. Что-то в некоторой степени похоже на то, что делает Meta с Flama, но сосредоточено на программировании.

Как далеко продвинется Меллум, во многом зависит от сообщества, которое ему удастся создать вокруг себя. На данный момент JetBrains осведомлена об ограничениях модели и предупреждает, что она может «отражать предвзятость, присутствующую в общедоступных кодовых базах» (генерируя код со стилями, аналогичными репозиториям с открытым исходным кодом, которым она «обучалась»). и что ее предложения не обязательно будут «безопасными или свободными». уязвимости».

В компании считают этот релиз «только началом», заявляя, что они не стремятся к общности, а строят с особым подходом. Они сочли бы успехом, если бы Меллум «пробудил хотя бы эксперимент, значительный вклад или сотрудничество». Короче, еще один. И вот они идут… И те, что остались.

Читать  TensorFlow - Математические основы

Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter.

1 Звезда2 Звезды3 Звезды4 Звезды5 Звезд (Пока оценок нет)
Загрузка...
Если статья понравилась, то поделитесь ей в социальных сетях:

Оставить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Это может быть вам интересно


Загрузка...

Спасибо!

Теперь редакторы в курсе.

Scroll to Top