Поиск по "глубинному вебу"

Источник: Computerra.ru

"Согласно исследованию, опубликованному университетом Калифорнии в Беркли, традиционные поисковые системы индексируют лишь 0,2% содержащейся в Интернете информации. Остальное хранится во всевозможных базах данных, из которых трудно или невозможно что-то извлечь с помощью стандартных поисковых роботов.

Данные, остающиеся для поисковиков невидимыми, называют глубинным вебом. Проблема в том, что об этих "глубинах" почти ничего не известно. Даже если принять на веру их якобы чудовищную величину, остается вопрос: что за информация там скрывается?

Где-то там, вероятно, находятся закрытые научные и медицинские библиотеки, каталоги магазинов, финансовые данные, транспортные расписания и многое другое. Но вполне возможно, что значительная их доля никому не нужна или дублирует сведения, которые имеются в других, более легкодоступных местах.

Правда, информация, хранящаяся в базах данных, имеет одно важное преимущество. В отличие от веба, она имеет понятную для компьютера структуру. Чтобы автоматически найти в тексте сайта турагентства подходящую по цене и срокам путевку, необходим искусственный интеллект. Чтобы извлечь ту же самую информацию из базы данных турагентства, порой достаточно знания SQL"

Одним из таких поисковиков является DeepDyve. По запросу "Competitive Intelligence" (конкурентная разведка) он нашел 652 тыс. страниц.

http://www.deepdyve.com/search?query=Competitive+Intelligence

Как легко убедиться, найдено намного меньше, чем тем же самым Гуглом (у которого 7 млн. 300 тыс страниц).

Но при этом бросается в глаза, что найдены другие страницы, именно из различных научных баз данных.

На все свежепроиндексированные документы можно подписаться как на RSS- поток, так и на сообщение по электронной почте. Доступ к полным текстам найденных материалов платный, и это явный минус источника.