Принцип работы поисковых систем

Опубликовано в Принцип работы поисковых систем

Принцип работы поисковых систем. На серверах поисковых служб есть специальные программы (их называют роботами или пауками), которые собирают информацию в Интернете и возвращают на свой сервер все обнаруженные страницы. Из накопленной таким образом информации формируются базы, особым образом проиндексированные.

Принцип работы поисковых систем и основные задачи поисковых серверов:

  • находить новые сайты и вносить их в собственную базу данных (хранилище) адресов;
  • ранжировать сайты в базе данных и делать результаты поиска наиболее соответствую щи м и запросам пользователей.

Принцип работы поисковых систем

Поисковые системы стремятся предоставлять пользователям наиболее релевантные результаты поиска.

Примечание

Релевантность (от англ. relevancy) — степень соответствия документа запросу. Релевантность документа запросу пользователя определяется в соответствии с заложенным в поисковую систему Алгоритмом. Алгоритмы у поисковых систем разные, однако построены они на общих принципах, поэтому ищут поисковые системы примерно одинаково. Основные отличия поисковых серверов заключаются не в алгоритмах определения релевантности, а в способах их реализации и хранилищах адресов.

Принцип работы поисковых систем

При вводе запросов (ключевых слов) в поисковые серверы пользователь надеется быстро получить ссылки на нужные ресурсы. А поисковые серверы, в свою очередь, конкурируют между собой за выдачу наиболее точных результатов.

Примечание

Если один из поисковых серверов не смог ничего найти по заданному запросу, то вам следует попробовать обратиться к другому поисковому серверу.

Когда поисковая система анализирует сайт, она «видит» только текст и не воспринимает дизайн сайта, количество картинок или анимацию. Таким образом, поисковая система оценивает только текст — сколько раз встречаются ключевые слова, как близко к началу страницы они находятся, в каких разделах веб-страницы встречаются.

Поисковые серверы обычно имеют специальный язык запросов, с помощью которого можно точнее объяснить, что именно надо искать. Однако, как правило, достаточно просто написать в строке запроса несколько ключевых слов, определяющих интересующую область. Сервер сам разберется, какие слова и словосочетания являются ключевыми.

Примечание

Практика показывает, что в настоящий момент пользователи слишком полагаются на несовершенные возможности поисковых серверов и в результате на запрос из одного двух слов получают совершенно бесполезную для себя информацию.

Идеальный процесс поиска выглядит следующим образом:

1. Делаем общий запрос, вводя в поле поиска ключевые слова, и нажимаем кнопку Поиск.

2. Получив ответ с результатами, выделяем в нем описания наиболее подходящих ссылок.

3. Добавляем к прежнему запросу уточняющие ключевые слова, которые есть в описании нужных ссылок, и повторяем процесс.

Помимо описанного варианта поиска на многих сайтах можно воспользоваться поиском через тематические каталоги, в которых ссылки на сайты разделены по темам.

Если вы все делаете правильно, то каждый запрос приближает вас к нужной информации. Таким образом, с каждым шагом уменьшается несоответствие между нужной информацией и тем, что выдает поисковый сервер.

Например, вам необходимо найти расписание поездов, проходящих через Тулу. В качестве общего запроса в строке поиска можно попробовать указать поисковому серверу: «расписание всех поездов, проходящих через Тулу». Однако по такому запросу, к примеру, Яндекс находит лишь расписания поездов, проходящих через Самару, Санкт-Петербург, Калугу, но Тулы среди результатов поиска не видно. Это ни в коем случае не означает, что этой информации в базе поискового сервера нет, просто запрос был составлен не очень удачно.

Принцип работы поисковых систем: стратегия поиска веб-страницы

Дело в том, что любая поисковая система старается найти веб-страницы, на которых находится максимальное количество слов из запроса, более того, если эти слова еще следуют друг за другом, то такие страницы будут выведены первыми. К примеру, если в тексте веб-страницы встречается фраза «расписание всех поездов, проходящих через Самару» (содержащая пять общих с запросом слов), то при отсутствии даже слова «Тула» система с большой вероятностью включит эту веб-страницу в список результатов, хотя она и не соответствует запросу. Поэтому нужно скорректировать запрос, убрав все лишние слова и оставив только те, которые точно характеризуют вашу потребность. В данном случае лишними словами являются «всех», «проходящих», «через», которые могут встречаться на каких угодно страницах. Задав исправленный запрос «расписание поездов Тула», вы точно получите то, что искали.

Большинство пользователей именно так и поступают, однако для того, чтобы быстро и эффективно находить нужную информацию, просто скорректировать запрос бывает недостаточно. Необходимо еще применять операторы языка запросов поискового сервера. Эти операторы помогают находить такую информацию, которую бывает сложно найти с помощью простых запросов.  Далее рассмотрены операторы, общие для большинства поисковых серверов.

Принцип работы поисковых систем: операторы строгого соответствия

Один из таких операторов — оператор строгого соответствия; как правило, в современных поисковых системах это кавычки Сочетание слов, которое вы укажете в кавычках, будет учитываться сервером как единое целое, т.е. вы задаете порядок следования слов друг за другом.

Принцип работы поисковых систем

Например, по запросу компьютерные журналы (без кавычек) можно получить в результатах поиска веб-страницы со словами, упоминающимися обособленно, т.е. на одной странице может быть слово «компьютерные», на другой — «журналы» и т.д. Конструкция же «компьютерные журналы» (в кавычках) заставляет поисковую систему отбросить все лишние, страницы и показывать лишь те, на которых эти два слова идут друг за другом.

Еще два оператора — обязательного наличия слова «+» и обязательного отсутствия слова «-». Например, если вы хотите найти сайт журнала «Компьютерра», достаточно к запросу компьютерные журналы добавить -"-компьютера, т.е. получим «компьютерные журналы» + Компьютерра. Если же нужно найти все журналы, кроме «Компьютерра», следует ввести «компьютерные журналы» — Компьютерра.

Достаточно часто бывает необходимо, чтобы искомые ключевые слова содержались в пределах одного документа. Для этого следует использовать логический оператор И (AND). Однако во всех поисковых системах этого же результата можно достичь, поставив между словами обычный пробел. К примеру, запросы компьютерные журналы и компьютерные AND журналы, как правило, дадут один и тот же результат. Логический оператор ИЛИ (OR) позволяет найти страницы, содержащие хотя бы одно слово из запроса. Например, с помощью запроса компьютерные OR журналы можно найти документы, в которых встречается или слово «компьютерные)», или слово «журналы».

Примечание

С языками запросов конкретного поискового сервера можно ознакомиться в его разделе помощи. Многие из серверов обладают собственными дополнительными операторами, которые могут пригодиться опытным пользователям.