О ФЕСТИВАЛE 

ИДЕЯ ФЕСТИВАЛЯ 

НОВОСТИ

ПРОГРАММА ФЕСТИВАЛЯ 

ОРГКОМИТЕТ 

ИНФОРМАЦИЯ ДЛЯ УЧАСТНИКОВ 

ЗАЯВКА НА УЧАСТИЕ 

ВОПРОСЫ - ОТВЕТЫ 

 РЕПОРТАЖИ

 КОНКУРС "БИЗНЕС-САЙТ'99"

ИНТЕРНИТЬ'98

Конкурс "Бизнес-Сайт 99"

E-mail: festival@sibfair.ru

 

Сибирская Ярмарка  Новосибирское отделение Института "Открытое общество" СибЛайн 

Поисковая машина Yandex.Ru - не только ищет, но и находит.

Как разобраться в "русском" Интернете?

Тезисы доклада

Елена Колмановская
менеджер лингвистических проектов компании CompTek, Москва

Сегодня в Интернете можно узнать расписание рейсов и погоду на завтра, рецепт пирога и цены на компьютеры. Остается только выяснить, как это сделать. То есть – как найти среди миллионов страниц и тысяч серверов то, что Вам нужно. По содержанию (контенту). Сеть, с точки зрения наличия информации, - это кладезь, а по способу ее организации – свалка. Но, по счастью, положение не так уж безнадежно. На помощь приходят каталоги и поисковые машины. Разница между ними следующая.

Каталог – это, как правило, иерархическая структура, где все ресурсы расклассифицированы по темам. Обычно в каталоге есть поиск по текстам – описаниям включенных в него ресурсов. Собственно классификацию делают либо авторы каталога – тогда этот процесс получается качественным, но медленным, либо хозяева ресурсов – тогда нельзя гарантировать соответствие ресурса разделу.

Поисковая машина поступает по другому. Ее сетевой агент (робот, паук, червяк) обходит все заданные ему сервера и собирает у себя индекс – информацию о том, что на какой странице было найдено. Полнотекстовые поисковые машины индексируют все слова, найденные на Web-странице, иногда исключая некоторые стоп-слова (как правило, частотные и малоинформативные, например, союзы и предлоги)

Поисковая машина Yandex.Ru

Yandex.Ru – известная "русская" поисковая машина. Слово "русская" стоит в кавычках, потому что Yandex осуществляет поиск по русскоязычному и российско-ориентированному Интернету. Основная часть проиндексированных ресурсов находится, естественно, в домене Росси ('ru').

Yandex – полнотекстовая поисковая система, с учетом морфологии русского языка и частотных характеристик слов, с развитым языком запросов и возможностью естественно-языкового запроса, с тщательно продуманной релевантностью и многими дополнительными возможностями – поиск и сортировка по датам, выдача списка серверов и т.д. На сегодняшний день у Yandex.Ru самая большая база (объем и количество обойденных страниц).

Поисковая машина Yandex является рекламной площадкой. Особенно успешно используется уникальная возможность поисковой машины – контекстная привязка рекламы к словам или словосочетаниям, содержащимся в запросах. Контекстная реклама появляется "по делу", то есть имеет повышенную кликабельность и вызывает меньше раздражения у пользователя.

Yandex – не только инструмент поиска, но и инструмент исследования "русского" Интернета (search & research engine).

Во-первых, можно определить географию "русского" Интернета – и в смысле серверов, и в смысле пользователей поисковой системы.

Во-вторых, можно выяснить, какие типы организаций и какие виды человеческой деятельности (и в каких пропорциях) в Интернете представлены.

В-третьих, можно анализировать контент. Интернет – это уникальный корпус документов. Электронных текстов сравнимого объема на русском языке не существует, по крайней мере, в открытом доступе. Исследованию содержания посвящены ряд Сказок, опубликованных на yandex.ru.

В-четвертых, большой интерес представляет анализ поисковых запросов. С января этого года исследование запросов стало систематическим. С начале года на yandex.ru/nini.html начал публиковаться НИНИ-индекс - число, показывающее динамику изменения интересов пользователей Интернета. С мая месяца начат расчет полит-НИНИ – своеобразного рейтинга политиков.

В-пятых, можно производить опросы. При всей их нестрогости (в Интернете можно представиться кем угодно) они все-таки дают представление о пользователях, их вкусах и интересах.