Компания Microsoft открыла код распределённого инструментария машинного обучения DMTK
В состав инструментария входят:
- Масштабируемый фреймворк машинного обучения, состоящий из хранилища Parameter Server, поддерживающего хранение гибридных моделей данных, и клиентского SDK, который можно применять для планирования работ на стороне клиента, организации обучения моделей и поддержания локального кэша моделей, синхронизированного к моделями на Parameter Server.
- Cистема тематического моделирования LightLDA;
- Реализация распределённых алгоритмов векторного представления слов (Word2vec и multi-sense), позволяющих применять методы обработки информации на естественном языке.
Разработчикам предоставляется достаточно простой API, предоставляющий средства для обработки данных, построения моделей и организации обучения. Обучение производится с распараллеливанием операций по кластеру из группы серверов с использованием достаточно эффективных алгоритмов. Например, при использовании DMTK кластера из 24 серверов достаточно для классификации документов по тематической модели, охватывающей миллион тематик и словарь в 20 млн терминов, или для решения задач обработки естественного языка при словаре в 20 млн слов и 1000 тематических векторов, или для обработки коллекции web-документов из 200 миллиардов токенов. Отмечается, что для решения аналогичных задач ранее требовались кластеры из тысяч машин.
Исходные тексты DMTK написаны на языке С++ и опубликованы под лицензией MIT. DMTK изначально поддерживает работу в кластерах на базе Linux, используя MPI-интерфейс MPICH (для Windows используется MS-MPI). Готовые бинарные сборки подготовлены для Windows и Linux (Ubuntu). В качестве шины обмена данными применяется ZeroMQ.
Источник: http://www.opennet.ru/opennews/art.shtml?num=43323
|
0 | Tweet | Нравится |
|