Поиск по каталогу статей
     Проверьте индексацию своей статьи
     Ниже находится форма Яндекса
 


Поисковые машины, поисковики и роботы-пауки. Будущее поисковиков

ИНТЕРНЕТ ТЕХНОЛОГИИ » Поиск в сети Мокосеев А. Н.    4-07-2010

Как работают и что такое, поисковые машины?

Высшее образование доступно - массажист обучение .

В Интернете не одна сотня миллионов ресурсов, и миллионы нужных страниц останутся неизвестны нам никогда. Как найти в этом океане нужную нам капельку? Вот здесь и приходит нам на помощь поисковая машина. Это паук, и только он знает что и в каком месте паутины у него находится.

Поисковые машины Интернета, это сайты, специально сделанные так, чтобы помочь отыскать нужную информацию в глобальной сети всемирной паутины. Есть три основных функции, одинаковые для всех поисковых машин:

- поисковики на по заданным ключевым словам "обыскивают" интернет;
- адреса, индексируются поисковиками вместе со словами;
- проиндексированные web-страницы образуют базу, которую поисковики предоставляют пользователям для поиска ключевых слов или комбинаций из них.

Первые поисковики получали в день до 2,000 запросов и индексировали по сотеням тысяч страниц. Сегодя количество запросов в день идет на сотни миллионов страниц и десятки миллионов.

Поисковые машины до World Wide Web.

Первыми поисковиками Интернета были программы "gopher" и "Archie". Они индексировали файлы, находящиеся на подсоединенных к Интернет серверах, многократно снижая время на поиск нужных документов. В конце 1980-х годов умение работать в Интернете сводилось к умению пользоваться Archie, gopher, Veronica и подобных поисковые программы.

Сегодня Web стал наиболее востребованной частью Интернета и большинство Интернет пользователей осуществляют поиск только в  World Wide Web ( WWW).

Робот-паук

Программа-робот применяемая в поисковых машинах, еще она называется "spider", паук (спайдер), осуществляет процесс создания списка слов, найденных на странице wed-ресурса. Процесс называется Web crawling (краулинг). Поисковый паук просмотривает массу других страниц, строит и фиксирует список полезных слов, т.е. имеющих какое-то значение, вес.

Путешествие по поиску в сети, паук (spider) начинает с наиболее крупного сервера и самых популярных web-страниц. Обойдя такой сайт и проиндексировав все найденные слова, он отправляется сканировать другие сайты по найденным ссылкам. Таким вот образом, робот-паук захватывает все web-пространство.

Основатели Google, Сергей Брин и Лауренс Пейдж, приводят пример работы гугловских пауков. Их несколько. Поиск начинается тремя пауками. Один паук одновременно поддерживает до 300 соединений со страницами. На пиковой загрузке, четыре паука способны обрабатывать до ста страниц в секунду, генерируя при этом траффик около 600 килобайт/сек. На данный момент, когда вы это читаете, возможно цифры вам покажутся смешными.

Ключевые слова для поисковикового робота

Обычно владелец web-ресурса хочет быть включенным в поисковые результаты по нужным поисковым словам. Эти слова называются ключевыми. Ключевые слова определяют суть содержания web-страницы. И помогают в этом Мета-Теги. Они то и предлагают поисковому роботу выбор ключевых слов, используемых для индексации страницы. Но не советуем накручивать мета-теги сверх популярными запросами, не связаннными содержанием с самой старницей. Поисковые роботы борются с этим явлением, и вам повезет, если он просто выкинет из рассмотрения мета-теги с ключевыми словами, не соответствующими содержимому страниц.

Метатеги очень полезный инструемнт, когда ключевые слова из них повторяються в тексте страницы несколько раз. Но не переборщите, существует вероятность, что робот примет страницу за дорвей.

Алгоритмы индексации поисковиков

Алгоритмы поисковиков направлены на эффективность конечного результата, но подходы к этому у всех разные. У Lycos поисковые роботы индексируют слова в заголовке (title), ссылках (линках) и до сотни часто употребляемых слов на странице и каждое слово из первых 20 строк контента страницы.

Робот Google принимает во внимание место расположения слова на странице (в элементе body). Слова служебных разделов, таких как subtitles, title, meta tags и др. помечает как особо важные, исключая междометия "a," "an" и "the.".

Другие поисковики могут иметь несколько другой способ подхода к индексации слов, используемых для поисковых запросов пользователями.

Например,  AltaVista, избрала другое направление, индексирует на странице каждое отдельное слово.

Построение индекса поисковиком

Итак, паук закончил свой обход web-страниц, и сохранил URL адреса и находящуюся на них информацию из слов. Теперь поисковая машина разместит информацию найденную пауком так, чтобы в дальнейшем пользоваться ею было удобно.

Для этого поисковая машина проводит сортировку информации. Где находится слово, в мета-тегах или в тексте, частотность слова, важность слова (теги заголовков или выделеный), ссылается ли оно на другой близкий по теме сайт.

По этим данным, и данным других страниц сайта, осуществляется ранжирование сайта, предоставление пользователям поисковика релевантных результатов и так далее.

Поисковик хранит данные частоты упоминаний ключевого слова на странице, посчитает общее количество упоминаний слова по сети, присвоит "вес" слову. Создаст поисковые листинги, на основе ранжирования по весу данного слова.

У каждого поисковика свои алгоритмы индексации и формулы вычисления "веса" ключевых слов. Поэтому поисковики выдают разные результаты, по одному поисковому запросу.

Выделим важные моменты при обработке найденной информации. Кодирование для уменьшения объема для её хранения. Хеширование информации для обеспечения максимально быстрого поиска.

Но это важные моменты для поисковика, а для нас важен только результат.


Будущее поисковиков

Наконец избавимся от булевских операторов ("and", "or", "not") и необходимости изучения составления сложных поисковых запросов. Ведутся работы по естественным языковым запросам (Natural-Language query).

Уже есть п оисковый сайт на языке естественных запросов - AskJeeves.com. Преобразуя запрос пользователя в ключевые слова, использует их потом при индексировании сайтов. Пока это работает на простых запросах. Но возможно скоро поисковые машины будут общаться с нами человеческим языком, интелектуально.


 



поиск

Похожие статьи:
  • Особенности поиска поисковыми машинами. Улучшение индексации сайта.
  • SEO, оптимизация и раскрутка сайта
  • Текстовое оформление web-страниц при раскрутке сайта
  • Раскрутка и продвижение сайта. Золотое правило - ключ к успеху
  • Отправить статью без регистрации и бесплатно в скрипт каталога статей