| Поисковая машина Yandex.Ru - не только
ищет, но и находит. Как разобраться в
"русском" Интернете?
Тезисы доклада
Елена Колмановская
менеджер лингвистических проектов компании
CompTek, Москва
Сегодня в Интернете можно узнать расписание
рейсов и погоду на завтра, рецепт пирога и цены на
компьютеры. Остается только выяснить, как это
сделать. То есть – как найти среди миллионов
страниц и тысяч серверов то, что Вам нужно. По
содержанию (контенту). Сеть, с точки зрения
наличия информации, - это кладезь, а по способу ее
организации – свалка. Но, по счастью, положение
не так уж безнадежно. На помощь приходят каталоги
и поисковые машины. Разница между ними следующая.
Каталог – это, как правило, иерархическая
структура, где все ресурсы расклассифицированы
по темам. Обычно в каталоге есть поиск по текстам
– описаниям включенных в него ресурсов.
Собственно классификацию делают либо авторы
каталога – тогда этот процесс получается
качественным, но медленным, либо хозяева
ресурсов – тогда нельзя гарантировать
соответствие ресурса разделу.
Поисковая машина поступает по другому. Ее
сетевой агент (робот, паук, червяк) обходит все
заданные ему сервера и собирает у себя индекс –
информацию о том, что на какой странице было
найдено. Полнотекстовые поисковые машины
индексируют все слова, найденные на Web-странице,
иногда исключая некоторые стоп-слова (как
правило, частотные и малоинформативные,
например, союзы и предлоги)
Поисковая машина Yandex.Ru
Yandex.Ru – известная "русская" поисковая
машина. Слово "русская" стоит в кавычках,
потому что Yandex осуществляет поиск по
русскоязычному и российско-ориентированному
Интернету. Основная часть проиндексированных
ресурсов находится, естественно, в домене Росси
('ru').
Yandex – полнотекстовая поисковая система, с
учетом морфологии русского языка и частотных
характеристик слов, с развитым языком запросов и
возможностью естественно-языкового запроса, с
тщательно продуманной релевантностью и многими
дополнительными возможностями – поиск и
сортировка по датам, выдача списка серверов и т.д.
На сегодняшний день у Yandex.Ru самая большая база
(объем и количество обойденных страниц).
Поисковая машина Yandex является рекламной
площадкой. Особенно успешно используется
уникальная возможность поисковой машины –
контекстная привязка рекламы к словам или
словосочетаниям, содержащимся в запросах.
Контекстная реклама появляется "по делу", то
есть имеет повышенную кликабельность и вызывает
меньше раздражения у пользователя.
Yandex – не только инструмент поиска, но и
инструмент исследования "русского"
Интернета (search & research engine).
Во-первых, можно определить географию
"русского" Интернета – и в смысле серверов,
и в смысле пользователей поисковой системы.
Во-вторых, можно выяснить, какие типы
организаций и какие виды человеческой
деятельности (и в каких пропорциях) в Интернете
представлены.
В-третьих, можно анализировать контент.
Интернет – это уникальный корпус документов.
Электронных текстов сравнимого объема на
русском языке не существует, по крайней мере, в
открытом доступе. Исследованию содержания
посвящены ряд Сказок, опубликованных на yandex.ru.
В-четвертых, большой интерес представляет
анализ поисковых запросов. С января этого года
исследование запросов стало систематическим. С
начале года на yandex.ru/nini.html начал публиковаться
НИНИ-индекс - число, показывающее динамику
изменения интересов пользователей Интернета. С
мая месяца начат расчет полит-НИНИ –
своеобразного рейтинга политиков.
В-пятых, можно производить опросы. При всей их
нестрогости (в Интернете можно представиться кем
угодно) они все-таки дают представление о
пользователях, их вкусах и интересах.
|