Школа веб-разведки. Инструменты и источники.
По некоторым оценкам, более 97 % критичной для бизнеса онлайновой информации невозможно найти с помощью традиционных информационно-поисковых систем. Однако существуют инструменты, «заточенные» под выполнение задач конкурентной разведки.
По меткому замечанию Андрея Масаловича (автора поисковой системы для конкурентной разведки Avalanche), из 23 видов поисковых задач, интересующих аналитика спецслужб, «Яндекс» удовлетворительно решает одну. В этом легко убедиться, набрав какой-нибудь интересующий вас запрос на любой из популярных сегодня поисковых интернет-систем — будь то Google, «Яндекс» или Rambler.
Поиск информации в Интернете без использования поисковых средств только путем просмотра отдельных сайтов носит выборочный и случайный характер (к тому же информация на отдельных сайтах может оказаться весьма субъективной, а порой и откровенно заказной) и крайне непродуктивен: вряд ли вы сможете обойти и просмотреть более десятка сайтов за день непрерывной работы, даже если теоретически знаете и помните их адреса.
Суммируя сказанное и перефразируя девиз одной из самых популярных российских поисковых систем «Яндекс»: «Найдется все!», можно сказать, что для конкурентной разведки «все» равнозначно «ничего», если не хуже. Поэтому правильным девизом для систем КР (CI) могли бы стать слова: «Найдется только то, что нужно, и ничего более».
По мнению бывшего директора ЦРУ Р. Хилленкерта, 80 % разведывательной информации получается из таких источников, как книги, журналы, научно-технические обзоры, фотографии, коммерческие аналитические отчеты, газеты, теле - и радиопередачи. Анализ только одного рассекреченного отчета ЦРУ за 1987 год «Enterprise-Level Computing in Soviet Economy» (SOV С87-10043) дает представление о том, какой колоссальный объем данных необходимо было «перелопачивать»: на протяжении года мониторилось 347 открытых источников, из них 295 — советских, а для создания одной страницы сводки ежедневно обрабатывался информационный массив объемом примерно 7 млн слов.
Итак, как мы выяснили ранее (см. ТЕЛЕКОМ 6/2007), открытые источники являются наиболее используемым каналом информации. А с рос¬том их количества, с одной стороны, возрастает объективность добываемой информации, но с другой — резко увеличиваются и трудозатраты на извлечение нужных данных. Следовательно, для их использования в конкурентной разведке нужны специализированные методики и системы.
И такие специализированные методики и системы создавались учены¬ми в интересах спецслужб на протяжении многих лет — как на Западе, так и в бывшем Советском Союзе. Перевод в последние 10–20 лет значительного объема мировой информации из бумажного в электронный вид, широкое использование и лавинообразное расширение Интернета, новые информационные технологии сделали аналитическую разведку в Сети одним из самых перспективных направлений разведывательной деятельности. А тот факт, что таким образом поступают практически все спецслужбы мира, лишь подтверждает перспективность данного направления К Р.
Для поиска и сбора информации в компьютерных сетях в интересах разведки по всему миру используются специальные мониторинговые системы сбора данных — так называемые процессоры сбора данных. На компьютерном сленге их еще называют «роботами» или «пауками». Программа-робот сама обходит по заданному графику указанные URL-ссылки в Сети, скачивает с них данные, а затем извлекает из них нужную информацию, используя целый арсенал средств лингвистического, семантического и статистического анализа. Такие системы автоматически перехватывают любую поставленную на мониторинг информацию, как только она появится в доступном сегменте Сети.
Как мы уже писали ранее, при ведении аналитической разведки в Интернете широкое распространение получило использование такого интересного направления науки, возникшего на стыке искусственного интеллекта, статистики и теории баз данных, как Knowledge Discovery (поиск знаний), использующего концепции Data Mining (добыча знаний в формализованных БД или потоках информации) и Text Mining (добыча знаний в полнотекстовых базах и информационных потоках). Уникальными особенностями Data Mining и Text Mining является то, что с их помощью можно вычленять из сырых данных ранее неизвестные, не очевидные, но полезные на практике и доступные для интерпретации знания, необходимые для принятия решений.
Одним из первых рассекреченных подобных комплексов стала французская система TAIGA (Traitement automatique d'information geopolitique d'actualite — автоматическая система обработки актуальной геополитической информации). Этот программный комплекс на протяжении 11 лет трудился в интересах французской разведки, после чего был заменен на более новый, рассекречен и разрешен к коммерческому использованию. Новый, более совершенный комплекс Noemic, взятый на вооружение французской разведкой, способен обрабатывать информацию со скоростью более 1 млрд знаков в секунду. Американский аналог этих программных комплексов Topic также рассекречен и передан в коммерческое использование.
Аналогичные системы разрабатывались и в бывшем СССР. Достаточно вспомнить такие из них, как «Барометр», «Эльбрус». Создание и использование подобных систем продолжается и сейчас — в России и других странах постсоветского пространства.
«Стоп! — скажет читатель. — Все вышеперечисленные системы либо используются государственными структурами, либо слишком дороги, чтобы их могли применять среднестатистические компании». На самом деле все не так плачевно. На современном рынке представлен целый ряд как западных коммерческих продуктов, так и продуктов производства стран СНГ, способных в том или ином объеме выполнять подобные задачи в интересах КР коммерческих структур.
Система конкурентной разведки должна позволять руководству, аналитическому, маркетинговому отделам компании не только оперативно реагировать на изменения ситуации на рынках, но и оценивать риски и возможности, прогнозировать их и принимать решения о дальнейших путях развития. Основная цель систем КР — информационное обеспечение перехода от традиционного интуитивного принятия решений на основе недостаточной информации к управлению, основанному на достоверных прогнозах и знаниях.
Безусловно, система конкурентной разведки, использующая Интернет как один из источников информации, должна настраиваться под специфику деятельности компании, включать в себя соответствующую классификацию, гибкие механизмы поиска, оперативной доставки данных, а также их качественной оценки. Одной из самых важных задач анализа информации является определение ее достоверности, то есть задача фильтрации шума и ложных данных. Без таких оценок всегда есть риск принять неверные решения. После анализа достоверности информации должны следовать оценки ее точности и важности. Главным критерием достоверности данных является их подтверждение другими источниками, заслуживающими доверия.
Информационные системы КР можно также условно классифицировать по наличию в них модулей автоматического и экспертного извлечения фактов. Соотношение между автоматически извлекаемыми системой и вручную (с помощью экспертов) фактами, событиями, объектами учета в разных системах отличается. Автоматически извлекаемые системой факы называют А-фактами, а факты, извлекаемые экспертами, — Э-фактами.
Существующие на рынке системы конкурентной разведки отличаются как по полноте и соответствию полному разведциклу, так и своему инструментарию и, как результат, цене. Кроме того, системы могут предназначаться для использования исключительно собственными силами внутреннего подразделения конкурентной разведки предприятия либо предполагать вынесение части задач на аутсорсинг специализированными структурами КР.
Сегодня для конкурентной разведки основными источниками информации служат Интернет, пресса, а также открытые базы данных. Но если доступ к обычным интернет-ресурсам можно считать условно бесплатным, то в большинстве случаев доступ к БД требует не только регистрации, но и оплаты таких услуг. Кроме того, практически все они могут быть отнесены к так называемому скрытому веб-пространству.
Очень популярны среди специалистов по конкурентной разведке базы данных таможенных, налоговых и статистических структур, органов юстиции и судов, торгово-промышленных палат, органов приватизации и фондовых рынков, информационных, рейтинговых, аналитических и других агентств. Большую пользу приносят и отдельные доступные БД других контролирующих органов и организаций.
Традиционно КР опирается на такие источники, как опубликованные документы открытого доступа, которые содержат обзоры товарного рынка, информацию о новых технологиях, создании партнерств, слияниях и приобретениях, объявлениях о рабочих вакансиях, выставках, конференциях и т. п. Поэтому в последнее время все более популярны БД на основе архивов СМИ, в том числе и сетевых. В России, например, большой популярностью пользуются архивные базы данных СМИ «Интегрум» и «Медиа-логия». В Украине эту нишу занимает, в частности, система контент-мониторинга интернет-прессы InfoStream, со¬держащая свыше 50 млн документов.
К разряду скрытого веба, например, относится и крупнейшая в мире полнотекстовая онлайновая информационная система Lexis-Nexis, кото¬рая содержит более 2 млрд документов с глубоким архивом до 30 лет по бизнес-информации и более 200 лет по юридической информации. Каждую неделю в архивы добавляется еще 14 млн документов. В отличие от неструктурированных массивов «поверхностного» веба Lexis-Nexis предлагает мощные инструменты поиска для получения достоверной и классифицированной информации.
Приведем еще один пример зарубежной БД из «теневого» вебпространства. Компания ChoicePoint недавно предоставила сервис Auto TrackXP вошедший в список двадцати крупнейших скрытых сайтов мира (по рей¬тингу BrightPlanet). Auto TrackXP представляет собой базу данных объе¬мом 30 ТБ, охватывающую почти все аспекты гражданской жизни США и содержащую информацию практически о каждом гражданине страны.
Testprofiles.com (часть ChoicePoint Online) содержит личные характеристики и сведения о компетентности граждан США. Например, чтобы определить, не завладел ли человек чужими документами, на основе системы организован платный сервис ProCheck, позволяющий сопоставить информацию из различных источников и государственных каталогов.
В Украине и других странах СНГ популярны такие базы данных, как российская БД «Лабиринт», составленная на основе публикаций ведущих бизнес-изданий (можно получить обширную информацию о конкретных персонах, организациях и компаниях), «Компасс», «Каре», «Желтые страницы», национальные представительства таких мировых брендов, как Dun & Bradstreet, Credireform, Europages и многие другие. Задача по поименному перечислению всех источников информации просто невыполнима, так как здесь должно действовать правило: чем большим количеством независимых источников подтверждается информация, тем более она достоверна.
Одним из самых эффективных источников информации могут служить отчеты и справки аутсорсинговых компаний, профессионально занимающихся КР и сбором сведений о коммерческих структурах и рынках.
В мире существует множество таких специальных компаний. Одной из крупнейших (ей принадлежит около 80 % западного рынка) является американская фирма, чья БД упоминалась выше, — Dun & Bradstreet. Справка по любой компании в этой службе будет стоить от $100. Серьезный анализ рынка или конкурента может обойтись от $10 тыс. Срок исполнения — от нескольких часов (информация присутствует в базе данных) до нескольких суток для справок и нескольких месяцев для серьезной аналитической работы.
В Европе не менее известны ирландская компания Credireform, не¬мецкая Shufe, австрийская Intercredit, латвийская Coface IGK и др. Некоторые из этих фирм совмещают функции конкурентной разведки с други-ми видами деятельности, например обязанностями кредитных бюро. Другие специализируются лишь на КР.
Общей проблемой при обращении за справками в западные агентства, имеющие представительства в СНГ, является то, что, как правило, информация, предоставляемая в отношении западных нерезидентов, намного обширнее и качественнее, чем данные по отечественным фирмам. Поэтому в таких случаях целесообразнее обращать¬ся к «родным» информационным компаниям — и дешевле, и качественнее.
В Украине существует целый ряд подобных компаний. Из известных ав¬торам статьи можно назвать «Авеста-Украина», «Сидкон», Межбанковская служба безопасности «СКИФ» и другие. На российском рынке пользуются популярностью информационные отчеты компаний «Р-Техно», «Медиалогия», «Синс», «Интегрум», «Кронос-Информ» и др. Расценки российских фирм вполне сравнимы с западными.
Около пяти лет назад по заказу Гарвардского университета российские разработчики из «Инфорус» создали систему Avalanche, которая в процессе поиска формирует модель предметной области в виде набора «умных папок», каждая из которых знает, что в нее должно попасть. Наполнением папок занимается специализированный ро¬бот, который запускается с компьютера «хозяина» и добывает только то, что было запрошено. Avalanche — одно из использующих современные технологии глубинного анализа текстов.
На российском рынке, который близок нам по своей специфике, по¬мимо упомянутой выше Avalanche представлено довольно много CI-ин-струментов. К заслуживающим внимания, с точки зрения авторов статьи, можно отнести: информационно-аналитические системы «Медиалогия», «Интегрум», «Тренд», «Семантичес¬кий архив», «Аналитический курьер», «Астарта», «Галактика-Zoom», «Аналитик-2», Intellectum BIS, «Артефакт», информационно-программные комплексы «Арион», Х-Files 2004, «Тренд», Cronos и т. д. На украинском рынке в этом сегменте представлены такие системы, как Web-Observer, «Сфера», Infostream, X-Scif и др.
Более подробно на анализе таких систем мы остановимся в следующей статье. Сейчас же хочется отметить, что не все из названных инструментов являются доступными и необходимыми ввиду их высокой стоимости или по ряду других причин. Вместе с тем отдельные задачи КР могут быть частично решены вполне доступными средствами. Использование новых подходов, а также открытых и относительно недорогих источников позволяет уже сегодня эффективно поддерживать принятие управленческих решений по многим направлениям бизнеса.
ТЕЛЕКОМ 7–8/2007
