Компания Microsoft открыла код распределённого инструментария машинного обучения DMTK

Опубликовано 13 Ноябрь 2015 19:14:09

Компания Microsoft объявила о переводе в разряд открытых проектов инструментария DMTK (Distributed Machine Learning Toolkit), предназначенного для создания распределённых систем машинного обучения. Система может применяться для решения таких задач, как распознавание естественного языка, классификация документов, компьютерное зрение, распознавание речи и определение смысла текстовой информации.

В состав инструментария входят:

Масштабируемый фреймворк машинного обучения, состоящий из хранилища Parameter Server, поддерживающего хранение гибридных моделей данных, и клиентского SDK, который можно применять для планирования работ на стороне клиента, организации обучения моделей и поддержания локального кэша моделей, синхронизированного к моделями на Parameter Server.
Cистема тематического моделирования LightLDA;
Реализация распределённых алгоритмов векторного представления слов (Word2vec и multi-sense), позволяющих применять методы обработки информации на естественном языке.

Разработчикам предоставляется достаточно простой API, предоставляющий средства для обработки данных, построения моделей и организации обучения. Обучение производится с распараллеливанием операций по кластеру из группы серверов с использованием достаточно эффективных алгоритмов. Например, при использовании DMTK кластера из 24 серверов достаточно для классификации документов по тематической модели, охватывающей миллион тематик и словарь в 20 млн терминов, или для решения задач обработки естественного языка при словаре в 20 млн слов и 1000 тематических векторов, или для обработки коллекции web-документов из 200 миллиардов токенов. Отмечается, что для решения аналогичных задач ранее требовались кластеры из тысяч машин.

Исходные тексты DMTK написаны на языке С++ и опубликованы под лицензией MIT. DMTK изначально поддерживает работу в кластерах на базе Linux, используя MPI-интерфейс MPICH (для Windows используется MS-MPI). Готовые бинарные сборки подготовлены для Windows и Linux (Ubuntu). В качестве шины обмена данными применяется ZeroMQ.

Источник: http://www.opennet.ru/opennews/art.shtml?num=43323

Нравится

Личный кабинет

Для чего нужна регистрация?

После прохождения регистрации вы получаете возможность добавлять статьи, в которых можете делиться своим опытом прохождения собеседований, профессиональными знаниями или задать интересующие вас вопросы и получать на них ответы от программистов.
Последние статьи
Рубрики

Работа для программистов

Компания Microsoft открыла код распределённого инструментария машинного обучения DMTK

Личный кабинет

Последние статьи

Рубрики

Архив