Компания Microsoft объявила о переводе в разряд открытых проектов инструментария DMTK (Distributed Machine Learning Toolkit), предназначенного для создания распределённых систем машинного обучения. Система может применяться для решения таких задач, как распознавание естественного языка, классификация документов, компьютерное зрение, распознавание речи и определение смысла текстовой информации.

В состав инструментария входят:

  • Масштабируемый фреймворк машинного обучения, состоящий из хранилища Parameter Server, поддерживающего хранение гибридных моделей данных, и клиентского SDK, который можно применять для планирования работ на стороне клиента, организации обучения моделей и поддержания локального кэша моделей, синхронизированного к моделями на Parameter Server.
  • Cистема тематического моделирования LightLDA;
  • Реализация распределённых алгоритмов векторного представления слов (Word2vec и multi-sense), позволяющих применять методы обработки информации на естественном языке.

Разработчикам предоставляется достаточно простой API, предоставляющий средства для обработки данных, построения моделей и организации обучения. Обучение производится с распараллеливанием операций по кластеру из группы серверов с использованием достаточно эффективных алгоритмов. Например, при использовании DMTK кластера из 24 серверов достаточно для классификации документов по тематической модели, охватывающей миллион тематик и словарь в 20 млн терминов, или для решения задач обработки естественного языка при словаре в 20 млн слов и 1000 тематических векторов, или для обработки коллекции web-документов из 200 миллиардов токенов. Отмечается, что для решения аналогичных задач ранее требовались кластеры из тысяч машин.

Исходные тексты DMTK написаны на языке С++ и опубликованы под лицензией MIT. DMTK изначально поддерживает работу в кластерах на базе Linux, используя MPI-интерфейс MPICH (для Windows используется MS-MPI). Готовые бинарные сборки подготовлены для Windows и Linux (Ubuntu). В качестве шины обмена данными применяется ZeroMQ.

Источник: http://www.opennet.ru/opennews/art.shtml?num=43323