Вчера российская интернет-компания «Яндекс» представила новый метод машинного обучения CatBoost, реализация которого доступна как Open Source-проект.
Прежняя подобная технология в «Яндексе» — это Матрикснет, созданный в 2009 году и основанный на механизме градиентного бустинга, который хорошо подходит для работы с разнородными данными и способен давать точные результаты даже для случаев с относительно небольшим количеством данных. Матрикснет использовался в таких онлайн-сервисах «Яндекса», как Почта (фильтрация спама), Карты и Навигатор (расчёт времени в пути), Директ (подбор релевантных рекламных объявлений).
Новый метод — CatBoost — тоже основан на градиентном бустинге, однако, как утверждают разработчики, превосходит своего предшественника по точности предсказаний, а также способен учитывать категориальные признаки (т.е. такие, что принимают одно из конечного количества значений). CatBoost уже прошёл боевую проверку в сервисах Яндекса: в‹„в Дзене его задействовали для ранжирования ленты рекомендаций, а в Погоде — для расчёта прогноза (с помощью технологии Метеум)».
Что особенно примечательно, в «Яндексе» решили опубликовать свою библиотеку машинного обучения CatBoost как Open Source-проект, реализованный на языках программирования Python и R. Её уже можно найти в GitHub под свободной лицензией Apahce License 2.0. Кроме того, в GitHub на тех же условиях опубликована и программа визуализации CatBoost Viewer, позволяющая наблюдать за процессом обучения на графиках.
Наконец, авторы отмечают, что их метод CatBoost уже опробовали за пределами компании-разработчика — причём не где-нибудь, а в Европейском центре ядерных исследований (ЦЕРН). CatBoost там используется для обработки данных эксперимента LHCb, осуществляемого на одноименном детекторе Большого адронного коллайдера.
Оригинал на nixp.ru
[NIXP] Компания «Яндекс» открыла код своей библиотеки для машинного обучения — CatBoost
Модератор: Модераторы разделов
- Dmitry Shurupov
- Сообщения: 336
- Статус: Open Source geek
- ОС: Ubuntu Linux
- Контактная информация:
[NIXP] Компания «Яндекс» открыла код своей библиотеки для машинного обучения — CatBoost
По-моему, это еще один повод перейти на Убунту.