JetBrains вступает в сферу искусственного интеллекта, выпустив свою первую модель открытого языка, ориентированную на программирование: Mellum. Этот LLM, который компания уже использовала в своих пакетах разработки с прошлого года, теперь доступен для широкой публики на Hugging Face, популярной платформе для разработчиков, ориентированной на искусственный интеллект.
Mellum представлен немного в стиле второго пилота, как модель, специализирующаяся на генерации и, более конкретно, на автозаполнении кода. Он был обучен с использованием более 4 триллионов токенов и имеет 4 миллиарда параметров, цифры, которые дают представление о его возможностях (параметры относятся к навыкам решения проблем, а токены — к необработанным обработанным данным).
Как подробно описано в техническом отчете JetBrains, Mellum разработан для интеграции с профессиональными инструментами для разработчиков, а не только с собственными инструментами компании, для предоставления интеллектуальных предложений, помощников по программированию на основе искусственного интеллекта, а также для исследований в области понимания и генерации кода. Он также считается подходящим для образовательных приложений и экспериментов с точной настройкой.
Обучение Меллума проводилось на основе набора наборов данных, включая разрешительно лицензированный код GitHub и статьи в английской Википедии, процесс, который занял около 20 дней с использованием кластера Nvidia H200 с 256 графическими процессорами, что было бы похоже на более поздняя партия LLMs (на самом деле, модели с открытым исходным кодом). средне-малый по сегодняшним меркам), сбалансированный с точки зрения энергоэффективности. Mellum распространяется по лицензии Apache 2.0.
Короче говоря, Mellum уже доступен на Hugging Face по разрешительной лицензии, но для его запуска требуется определенная работа, поскольку базовая модель не может использоваться напрямую «из коробки», а должна быть предварительно настроена для конкретных задач. и это не особо доступная задача.
Чтобы упростить тестирование, JetBrains предлагает несколько моделей для Python с оговоркой, что они предназначены для «оценки потенциальных возможностей», а не для развертывания в производственных средах. Но дело в том, что Mellum такой, какой он есть: основа, на которой можно строить или экспериментировать. Что-то в некоторой степени похоже на то, что делает Meta с Flama, но сосредоточено на программировании.
Как далеко продвинется Меллум, во многом зависит от сообщества, которое ему удастся создать вокруг себя. На данный момент JetBrains осведомлена об ограничениях модели и предупреждает, что она может «отражать предвзятость, присутствующую в общедоступных кодовых базах» (генерируя код со стилями, аналогичными репозиториям с открытым исходным кодом, которым она «обучалась»). и что ее предложения не обязательно будут «безопасными или свободными». уязвимости».
В компании считают этот релиз «только началом», заявляя, что они не стремятся к общности, а строят с особым подходом. Они сочли бы успехом, если бы Меллум «пробудил хотя бы эксперимент, значительный вклад или сотрудничество». Короче, еще один. И вот они идут… И те, что остались.