Рус Eng Finport Technologies Inc.
На главную
О продукте Демо-доступ Новости FAQ Контакты

ПУБЛИКАЦИИ

23.08.2002 Сыскной вопрос

    Сколько бы усилий и денег ни было вложено в производство информации, ее ценность проявится лишь тогда, когда она окажется в нужное время в нужном месте. Оперативная доставка свежей информации становится все более сложной задачей. Кому понравится делать это бесплатно?

    У недавно запущенной российской поисковой системы Turtle.ru хорошая родословная. Конструктором системы был Дмитрий Крюков, генеральный директор компании Stack Technologies, некогда создавший Rambler, и он утверждает, что в Turtle.ru ему удалось реализовать принципиально новые идеи. Этот поисковик распознает морфологию 160 языков мира и способен сопоставить тексты, а если они велики, то еще и обнаружить "плагиат" одного из авторов, и, разумеется, как все современные поисковики, он индексирует и ищет не только тексты, но и изображения, и мультимедийные файлы. "Черепаха" не планирует мериться объемами с многочисленными российскими сородичами, пока ее задача - протестировать механизм поиска, а потом она, вероятно, попробует продвинуться на Запад. Turtle.ru делает упор на качество поиска. Именно оно становится все более востребованным посетителями поисковых порталов, и именно качества поисковикам добиваться все труднее из-за быстрого роста Интернета.

    "В девяносто седьмом году велась большая дискуссия о том, сколько гигабайт в русском Интернете - пять или восемь", - вспоминает главный редактор "Яндекса" Елена Колмановская. Это время давно прошло. Объем данных только русскоязычного сегмента Сети превысил два террабайта (240 ), и если в задачу клиента не входит вместе с иголкой выуживать из стога сена тонны металлолома, то и обычный механизм поиска "по ключевым словам" его мало устроит. По данным Елены Колмановской, большинство пользователей все равно не просматривают все обнаруженные поисковой машиной десятки тысяч ссылок, они либо уточняют запрос, либо ограничиваются несколькими первыми страницами, которые выдал поисковый робот. И впечатление о качестве, надежности и "разумности" машины складывается при взгляде именно на первые найденные строки. Они должны как можно более точно отвечать на заданный при поиске вопрос, а это существенно усложняет задачу для поисковых роботов.

    Первым, еще три года назад, из этого тупика выбрался американский поисковик Google, где стали использовать интеллектуальный подход к поиску, основанный на оригинальной технологии PageRank. Поисковый робот ведет учет внешних ссылок на проиндексированную им страницу, поскольку предполагается, что сайт или страница, на которые очень часто ссылаются создатели других интернет-ресурсов, более авторитетны, а значит, будут более полезны ищущему. Подключив таким образом к своему поисковому механизму десятки тысяч ответственных за свои собственные сайты граждан и компаний, Google быстро вырвался в технологические лидеры отрасли. Сейчас на "движке" Google работают и многие другие крупные поисковые машины, в том числе, например, Yahoo!.

    Находится далеко не все

    Довеpять поисковикам - все pавно что надеяться на телефонную книгу, котоpая и обновляется неpегуляpно, и составлена пpедвзято, да еще и утеpяла по неизвестным пpичинам значительную часть своих стpаниц, удpученно заметил Стив Лоуpенс, комментиpуя pезультаты исследования поисковых pоботов, пpоведенного им совместно с Ли Гилисом. Даже самый полный и всесторонний, как считается, механизм поиска, Google, индексиpует всего лишь 34% страниц, имеющихся в Сети. Данные по дpугим pоботам еще хуже: AltaVista имеет пpедставление пpимеpно о 28% содеpжимого Сети, Northern Light - о 20%, Excite - о 14%, Infoseek - о 10%, Lycos лишь о 3%. Пpи этом, как выясняется, более полные индексы менее надежны, поскольку чаще ссылаются на уже несуществующие или измененные стpаницы. Пpичина в том, что pоботы индексиpуют лишь некотоpые стpаницы наиболее популяpных сайтов, к тому же довольно pедко - pобот может не обpащаться к стpанице месяцами, тогда как инфоpмация на многих из них обновляется ежеминутно.

    Исследование Лоуренса и Гилиса позволило ученым сделать еще один вывод: Сеть оказалась значительно больше, чем было принято думать. Так, Forrester в 1997 году оценивал размер Сети более чем в 75 млн страниц, Луис Моньер из AltaVista - в интервале от 100 до 150 млн, PR Newsware - в 175 млн. А подсчеты Лоуренса и Гилиса позволили доказать, что число доступных для индексиpования страниц Сети уже в конце 1997 года достигло 320 млн. Даже сейчас, спустя пять лет, ни один из существующих поисковых роботов не в состоянии пеpеваpить такие объемы информации. Пятеpо из шести пользователей Сети пpибегают к помощи поисковых систем, pешая, какие и где покупать товаpы, где пpовести отдых, в поисках новых лекаpств или для того, чтобы узнать pезультаты выбоpов. И хотя 80% опpошенных заявляют, что обычно находят то, что ищут, они вpяд ли могут быть увеpены в том, что найденная ими инфоpмация полна и точна. Чем дальше, тем больше будет наpастать pазpыв между наполнением Сети и возможностями поисковых машин. Выход, как утверждает, в частности, аналитик Jupiter Research Лидия Лоизидес, может быть в создании "вертикальных" механизмов поиска, четко оpиентиpованных на нужды определенных групп пользователей.

    Использованы матеpиалы исследования Searching the World Wide Web. Steve Lawrence, C. Lee Giles. NEC Research Institute

    Довольно скоро, впрочем, у этого подхода обнаружились и существенные недостатки. Во-первых, отмечает Дмитрий Крюков, самые свежие из появившихся в Сети документов, как правило, просто не успевают набраться "авторитета" и, соответственно, не попадают в выборку, в лучшем случае оказываются в самом конце составленного роботом списка. Во-вторых, добавляет заместитель директора Rambler Денис Калинин, поисковик, как бы его ни усложняли, остается роботом. А поскольку позиции в верхних строках выборки гарантируют сайту большее число посетителей, а значит, и доходов, всегда найдутся те, кто постарается и сможет робота обмануть. Очевидно, признают все, что разработчикам поисковых систем рано или поздно придется браться за более сложные алгоритмы, основанные на морфологии, синтаксисе и семантике живого языка. Но дело это чрезвычайно сложное. Насколько - можно судить по фразе, приведенной в качестве примера Еленой Колмановской, филологом по профессии. Реальный запрос, попробуйте сообразить, что ищется: "Эти типы стали есть в прокатном цехе". Как роботу понять - идет ли речь о металлах, или о неприятных личностях, или о вкусовых пристрастиях? Колмановская считает, что семантический поиск, да еще в глобальном масштабе, реализовать удастся не скоро, ведь потребуются такие затраты, о которых ни одна компания, ни в России, ни за рубежом, пока всерьез не задумывается: "Чтобы обрабатывать огромный объем данных и обслуживать одновременно большое число пользователей, необходимо чем-то жертвовать", - поясняет она, добавляя, впрочем, что "Яндекс" все же может позволять себе некоторые дополнения, повышающие релевантность поиска. Например, система ведет учет расстояния между запрашиваемыми словами. По-настоящему же интеллектуальные поисковики, построенные на принципах нейросети, анализирующие естественный язык и учитывающие семантические тонкости запросов, сделанных разными людьми, заработают еще не скоро. Прототипы появляются, среди отечественных разработок на эту тему можно назвать хотя бы проект "Нейрон" Александра Иванова. Но и у нас, и на Западе все это еще долго не выйдет за рамки экспериментов: мощности современных серверов просто не хватает для того, чтобы интеллектуально работать с колоссальными объемами информации. Впрочем, сказанное выше касается скорее "общественного", массового Интернета. У корпоративных пользователей свои проблемы и свои решения.

    Скажи, чего ты хочешь

    По совокупному объему накопленных данных внутрикорпоративные интранет-сети, как считается, в несколько раз крупнее общедоступной сети. А вот навигация в них часто на порядок хуже, многочисленные исследования подтверждают: информация, которая годами накапливается в интранетах, вместо того чтобы работать как база знаний, чаще всего лежит мертвым грузом. И одна из причин - невозможность быстро отыскать то, что нужно, в море устаревших и разрозненных данных. На Западе этот факт уже осознали, что привело к появлению значительного, с оборотом в два миллиарда долларов в год, рынка систем управления знаниями, среди лидеров которого Hummingbird, Autonomy и Datachannel. Их продукты не дешевы, но тем не менее активно внедряются. "Многие западные компании уже формализовали свои системы документооборота, и постепенно они начинают понимать, что эти данные при подключении к аналитической машине можно превратить в полноценную, на порядки более эффективную корпоративную базу знаний", - говорит президент компании "Галактика" Николай Красилов. Через год-два, считает он, придут к этому и в России.

    Пока же разборку информационных завалов в компании у нас начинают с того, что создают рубрикатор. Как правило, через некоторое время оказывается, что рубрика "прочее" заполняется гораздо быстрее остальных. Процесс идет по спирали, и что с этим делать - неясно, поскольку всегда возникает подозрение, что в "прочем" по разным причинам может оказаться масса полезного. Вот эти-то залежи и есть отличное поле деятельности для высокотехнологичных роботов-ищеек, таких, например, как аналитическая система "Галактика-Zoom". На западный рынок она поставляется под маркой Info Tame, а в России недавно выиграла конкурс Минэкономразвития, которое намерено с ее омощью автоматизировать поиск и анализ неструктурированной информации."Галактика-Zoom" представляет собой гибрид поискового робота и системы анализа текстов, или, по устоявшейся терминологии, text mining. При этом семантика самого текста, его смысл, в расчет не принимается (такое решение вышло бы слишком дорогостоящим), продукт "Галактики" использует исключительно методы математической статистики. "Любое понятие относительно, поэтому важен контекст: легко выделить китайца в толпе европейцев, другое дело - найти его среди китайцев, - поясняет суть подхода разработчик "Галактика-Zoom" Александр Антонов. - Конкретный объект всегда окружен некоторым облаком слов, и, чтобы выловить его, необходимо анализировать это окружение. Таким образом, для поиска важно не столько само искомое слово, сколько его спутники. А здесь необходимо применять неочевидные алгоритмы отличения, которые как раз легче всего обнаруживаются математическими методами".

    Система, таким образом, работает не с самим словом или понятием, а с "информационными портретами объектов". Она одновременно и ищет, и раскладывает данные по динамически определяемым темам, которые, если привыкнуть, оказываются куда более осмысленными, чем изобретенные корпоративными программистами рубрикаторы. Отслеживая изменения в "портретах" и темах, можно судить и о том, кто и что влияет на искомый объект, и о том, как будут в дальнейшем развиваться события. Например, так можно отслеживать стратегии конкурентов или выявлять источники утечки корпоративных данных (примеры анализа можно посмотреть на сайте zoom.galaktika.ru в разделе "О технологии").

    Во многом на сходных принципах работает и автоматизированная система управления информационными потоками Press Online, еще одна отечественная разработка, от компании "Открытые коммуникации", "дочки" ОАО "Центральный телеграф". Хотя система позиционируется как средство для создания прежде всего корпоративной персонализированной базы знаний, поработать с ней сейчас может любой желающий - она лежит в основе сайта "Идеальная газета". Этот механизм собирает статьи из разных газет и журналов на интересующие читателя или близкие к ним темы и очищает их от оформления (что, думается, не сильно нравится большинству издателей). Программа смотрит, по каким рубрикам разносит тексты сам пользователь, какими источниками интересуется и после некоторого периода тренировки обучается справляться с этой работой самостоятельно. Таким образом, наиболее сложную часть своей задачи - создание алгоритмов рубрикации - разработчики переложили на самих пользователей, которые к тому же перечисляют ей небольшую абонентскую плату.

    В поисках счастливого билета

    Национальные поисковые системы, как в общественном секторе, так и в корпоративном, работают заметно оперативнее и качественнее глобальных. Но, возможно, это происходит потому, что русский язык не является приоритетным для мировых грандов. Андрей Себрант, директор по стратегии и PR Lycos Eastern Europe, говорит, что глобальные поисковые системы обходят местные аналоги на всех региональных рынках, и называет по меньшей мере две причины, которые в ближайшие три-четыре года обеспечат лидерство международным поисковикам: они дешевле обходятся в поддержании и развитии и могут работать с информацией, созданной носителями языка и культуры, раскиданными по всему миру.

    Что же касается национальных поисковых систем, то им придется искать дополнительные источники доходов, чтобы поддерживать качество. Горячий пример - Northern Light, одна из старейших поисковых систем с очень богатой базой документов по деловой тематике. В январе компания заявила о том, что будет брать деньги за доступ к найденным ею файлам, один-четыре доллара в среднем за статью. Отборная "специальная коллекция" Northern Light, более 75 млн документов и лучших статей, тоже стала доступна лишь за плату - ее дистрибуцией под своей маркой занимается известный поисковик Yahoo! (см. premium.search.yahoo.com). По словам главы Northern Light Дэвида Севсса, рекламные поступления от сервиса бесплатного публичного поиска были недостаточны для того, чтобы он быстро развивался, а поскольку основной доход компания получала, оказывая услуги поиска корпоративным клиентам, она решила вкладываться именно в это направление.

    Тот факт, что за качественный поиск теперь берет деньги и Yahoo!, по мнению Криса Шермана из интернет-журнала Search Engine Watch, наконец ставит точку в долгих спорах о том, какая модель лучше: основанная на доходах от рекламы "что угодно задаром" или все же "плати за то, что хочешь", которая позволяет компаниям уверенно держаться на плаву, не слишком при этом досаждая пользователям.

Эксперт, Цифовой миp #6 (22) от 19 августа 2002
http://expert.ru/internet/current/search1.shtml