Открыт исходный код поискового движка Gigablast

Опубликовано 03 Август 2013 09:05:21

Компанией Gigablast объявила об открытии исходного кода поискового движка Gigablast. Независимый поисковик Gigablast был основан в 2000 году Мэттом Уэллсом, бывшим сотрудником Infoseek. По словам Уэллса, на сегодня Gigablast единственный из поисковых движков с открытым исходным кодом, проиндексировавший более двенадцати миллиардов страниц.

Движок, написанный на C/C++ и насчитывающий более 500 тысяч строк кода, открыт под лицензией Apache версии 2.0 и опубликован на Github. Движок Gigablast достаточно прост в использовании и сразу готов к работе - код компилируется в форму единого исполняемого файла, который может заменить собой достаточно сложные конфигурации поисковых сервисов, построенных с привлечением Hadoop, Cassandra, MySQL, NoSQL, MongoDB, Lucene, Nutch, Solr, Zookeeper и Apache. Исполняемый файл включает в себя в том числе реализацию высокопроизводительного web-сервера, СУБД и других компонентов, необходимых для обособленной работы движка.

Основные особенности:

Движок масштабируется для развёртывания на тысячах серверов. Запущенная в эксплуатацию конфигурация из 200 серверов обрабатывает поисковый индекс из более чем 12 млрд web-страниц;
Высокая надёжность, код находится в промышленном использовании с 2002 года;
Поддержка кэширования web-страниц с выводом результатов из кэша с подсветкой найденных ключевых слов;
Поддержка подключения плагинов для обработки различных видов документов, от HTML до PDF;
Отображение в поисковой выдаче популярного контента;
Встроенная система мониторинга и уведомления о проблемах;
Поддержка подключения базы синонимов;
Сохранение позиции и формата информации для каждого слова в проиндексированном документе;
Отображение в результатах поиска полных весовых характеристик для найденного контента;
Отдельная индексация текста, используемого в ссылках;
Возможность связывания другим сайтом на базе движка Gigablast для формирования агрегированного вывода;
Система автоматического удаления дубликатов из поисковой выдачи;
Распределённый Web crawler. Гибкая система определения логики работы Crawler-а с возможностью управления приоритетом обработки элементов в очередях запросов;
REST/XML API для интеграции с внешними сервисами;
Средства автоматического выявления повреждения данных и восстановления узла после сбоя оборудования.

Источник: http://www.opennet.ru/opennews/art.shtml?num=37591

Нравится

Личный кабинет

Для чего нужна регистрация?

После прохождения регистрации вы получаете возможность добавлять статьи, в которых можете делиться своим опытом прохождения собеседований, профессиональными знаниями или задать интересующие вас вопросы и получать на них ответы от программистов.
Последние статьи
Рубрики

Работа для программистов

Открыт исходный код поискового движка Gigablast

Личный кабинет

Последние статьи

Рубрики

Архив