В Интернете хранится огромное количество полезной информации, но на поиски нужной может потребоваться много

17См.: (Berghel, 1997; Tomasic & Gravano, 1997; Dreilinger & Howe, 1997). Berghel H. (1997). Cyberspace 2000: Dealing with information overload. Communications of the ACM 40(2): 19-24; Dreilinger D., HoweA.E. (1997). Experiences with selecting search engines using metasearch. ACM Transactions on Information Systems 15(3): 195-222; Tomasic A., Gravano L. (1997). Data structures for efficient broker implementation // ACM Transactions on Information Systems 15(3): 223-253.

времени. Это одна из основных проблем, послужившая поводом к появлению поисковых машин.

Поисковые машины Интернета связаны с базами данных, которые содержат каталоги значительной части информации, доступной в Интернете. Поисковые машины снабжены программами, которые делают индексацию баз данных, а люди-библиотекари классифицируют, сортируют и превращают Web в открытую для поиска среду. Несмотря на то, что существует более 100 поисковых машин и инструментов просмотра, пользователи нередко испытывают неудовлетворенность, вызванную трудностями при поиске необходимой им информации. И основным вопросом на сегодняшний день остается не наличие той или иной информации в Интернете, а вопрос о том, где ее искать17.

ПОИСКОВЫЕ МАШИНЫ В ИНТЕРНЕТЕ

Поисковые машины состоят из трех основных элементов. Первым элементом является индексатор, или, как его еще называют, «паук». Индексатор считывает информацию с \уеЬ-страни-цы и переходит по ссылкам на другие страницы этого же \veb-сайта. \УеЬ-сайты просматриваются регулярно, раз в месяц или раз в два месяца; это необходимо, чтобы следить за изменениями. Все данные о найденной информации поступают во вторую часть поисковой машины, индекс, или, как его иногда называют, каталог. Это что-то вроде огромной книги, которая хранит ог-/давление каждой найденной индексатором \уеЬ-страницы. При изменении \¥еЬ-страницы обновляется и информация о ней в индексе. Иногда новые страницы /или изменения попадают в каталог не сразу. А пока данные о \¥еЬ-странице не попали в каталог, страница недоступна для поисковой машины. Программное обеспечение поисковой машины - ее третья составляющая. Эта программа просеивает миллионы записанных в каталог страниц, чтобы найти информацию, отвечающую цели поиска, и затем ранжирует их по степени соответствия заданной цели.

Поисковые машины, разработанные для анализа \уеЬ-сай-тов, базируются на использовании запросов. Пользователь набирает слова или фразы, соответствующие интересующей его теме. Специальная программа затем «ползет» по \¥еЬ/ и, используя специальные алгоритмы поиска, за несколько секунд находит требуемые данные. Отвечая на поисковый запрос, поисковая машина перебирает миллионы источников и находит адреса соответствующих документов. Поисковые машины выдают аннотированные списки гиперссылок на соответствующие Интернет-страницы. Если щелкнуть мышью по гиперссылке, то соответствующий ей адрес будет использован для нахождения текста, изображений и ссылок на другом компьютере.

Поисковые машины Интернета со своими огромными каталогами луеЬ-страниц непрерывно совершенствуют алгоритмы поиска и расширяют свою функциональность. Каждая поисковая машина обладает индивидуальностью (имеет свои особые характеристики) и работает по-своему.

Работа многих поисковых машин считается вполне успешной. Однако все современные системы страдают некоторыми серьезными недостатками18:

1. Поиск по ключевым словам дает слишком много ссылок, и многие из них оказываются бесполезными.

2. Огромное количество поисковых машин с разными пользовательскими интерфейсами порождает проблему когнитивной перегрузки.

3. Методы индексирования баз данных, как правило, семантически не связаны с информационным содержанием.

4. Неадекватные стратегии поддержки каталогов часто приводят к тому, что выдаются ссылки на информацию, которой уже нет в Интернете.

5. Поисковые машины еще не столь совершенны, чтобы понимать естественный язык.

6. При том уровне доступа, который обеспечивают современные поисковые машины, практически невозможно сделать обоснованный вывод о полезности источника.

В последнее время потребности в интеллектуальной помощи быстро растут: помощь необходима для продуктивного поиска информации, для нахождения в необъятном Интернете или корпоративной сети специализированной информации. Это привело к появлению интеллектуальных агентов19. Обычно интеллектуальные агенты являются составной частью поисковой машины. Некоторые особо продвинутые программы похожи на живых ассистентов. Для поиска и сортировки информации используются технологии искусственного интеллекта. Такая поисковая машина «думает» и действует сама. Пользователь обучает агента, затем агент отправляется на поиски в Интернет, чтобы из миллионов доступных документов выбрать нужные и дать им оценку. Пользователь может в любой момент «отозвать» интеллектуального агента и посмотреть, как продвигается работа, или продолжить его обучение на основе найденной информации, что сделает поиск еще более точным. В таблице 3 приведены примеры интеллектуальных агентов и их характеристики.

Интеллектуальные агенты выполняют ряд инструкций от имени пользователя или другой программы, могут работать независимо и иметь некоторую степень автономности в сети. Между интеллектуальными агентами и 1ауа-апплетами существуют некоторые различия. 1ауа-апплеты загружаются из Интернета и работают на машине пользователя. Интеллектуальные агенты фактически выходят в сеть и ищут приложения, помогающие завершить задание, выполняют свою миссию удаленно, освобождая компьютер пользователя для других задач. Когда цель достигнута, они извещают пользователя об окончании работы и представляют ему результаты.

Интеллектуальные агенты способны «понимать», какая именно информация нужна пользователю. Агенты могут быть запрограммированы на изменение поведения в зависимости от накопленного опыта и взаимодействий с другими агентами. Обобщенные характеристики интеллектуальных агентов могут быть представлены следующим образом:

• Интеллектуальность - обучение на основе обратной связи, по примерам, ошибкам и посредством взаимодействия с другими агентами.

• Простота использования - можно «тренировать» агентов, используя естественный язык.

• Индивидуальный подход - агенты адаптируются к предпочтениям пользователя.

• Интегрированность - непрерывное обучение, применение уже имеющихся знаний к новым ситуациям, развитие ментальной модели.

• Автономность - агенты способны «ощущать» окружающую среду и реагировать на ее изменение, умеют делать выводы.

Таблица 3

Примеры интеллектуальных агентов и их характеристики20

Интеллектуальные агенты

Что они умеют

Агент «ежедневные новости»

Автоматический быстрый «web-серфинг» в поисках текущей информации. Доставка важной деловой информации тем, кто в ней нуждается. Мониторинг специализированных внешних web-сайтов и поиск релевантной информации.

Агент «профиль пользователя»

Генерирует профиль интересов пользователя, наблюдая его реакцию на сообщения; запоминает, какие из сообщений отмечались как важные. Запоминает, в какое время дня пользователь предпочитает отвечать на сообщения. Если интересы пользователя меняются, меняется и профиль. Взаимодействует с другими аналогичными агентами, уточняя, какие сообщения считаются важными.

Агент «предупреждения о событиях»

Извещение пользователя о событиях через электронную почту, динамические web-страницы последних новостей и другие «push» технологии. Мониторинг новостей и доставка информации. В случае необходимости распространяет сообщения о важных событиях.

Агент рабочих групп

Обеспечивает прозрачное создание пользовательских групп по интересам. Обеспечивает простой обмен данными между агентами. Поддерживает аутентификацию пользователей по входному паролю. Уменьшает затраты, обнаруживая другие организации, занимающиеся аналогичными вопросами. Позволяет осуществлять эффективную передачу знаний в пределах данной организации.

Масштабы информационных ресурсов и их количество в Интернете непрерывно расширяются. Становится ясно, что централизованная база данных, характерная для поисковых машин, не является удовлетворительным решением. Интеллектуальные агенты - это совершенно новое направление, лежащее в основе следующего поколения поисковых машин, которые смогут фильтровать информацию и добиваться более точных результатов. Например, Hyperlink-Induced Topic Search Engine, разработанная Джоном Клейнбергом из Корнэльского университета21. Эта поисковая система не занимается «охотой» за ключевыми словами. Система анализирует естественную структуру Web в поисках «сообществ» страниц, относящихся к конкретному предмету, затем выясняет, какие из этих страниц считаются значимыми с точки зрения самих авторов страниц. Эта идея аналогична показателям цитируемости, которые давно используются в академическом сообществе. Такой подход более эффективен и надежен, чем традиционный поиск по ключевым словам.

Состав и структура пользователей интернета | Интернет-бизнес и электронная коммерция | Проблемы функционирования и развития сети