что такое поисковая машина
Автор Ёею добро задал вопрос в разделе Интернет
что такое поисковая машина, робот? как они работают? и получил лучший ответ
Ответ от Павел[гуру]
Роботы поисковой системы
Роботы поисковой системы, иногда их называют «пауки» или «кроулеры» (crawler) - это программные модули, занимающиеся поиском web-страниц. Как они работают? Что же они делают в действительности? Почему они важны?
Учитывая весь шум вокруг поисковой оптимизации и индексных баз данных поисковиков, вы, наверное думаете, что роботы должно быть великие и могущественные существа. Неправда. Роботы поисковика обладают лишь базовыми функциями, похожими на те, которыми обладали одни из первых броузеров, в отношении того, какую информацию они могут распознать на сайте. Как и ранние броузеры, роботы попросту не могут делать определенные вещи. Роботы не понимают фреймов, Flash анимаций, изображений или JavaScript. Они не могут зайти в разделы, защищенные паролем и не могут нажимать на все те кнопочки, которые есть на сайте. Они могут "заткнуться" в процессе индексирования динамических адресов URL и работать очень медленно, вплоть до остановки и безсилием над JavaScript-навигацией.
Как работают роботы поисковой машины?
Поисковые роботы стоит воспринимать, как программы автоматизированного получения данных, путешествующие по сети в поисках информации и ссылок на информацию.
Когда, зайдя на страницу "Submit a URL", вы регистрируете очередную web-страницу в поисковике - в очередь для просмотра сайтов роботом добавляется новый URL. Даже если вы не регистрируете страницу, множество роботов найдет ваш сайт, поскольку существуют ссылки из других сайтов, ссылающиеся на ваш. Вот одна из причин, почему важно строить ссылочную популярность и размещать ссылки на других тематических ресурсах.
Прийдя на ваш сайт, роботы сначала проверяют, есть ли файл robots.txt. Этот файл сообщает роботам, какие разделы вашего сайта не подлежат индексации. Обычно это могут быть директории, содержащие файлы, которыми робот не интересуется или ему не следовало бы знать.
Роботы хранят и собирают ссылки с каждой страницы, которую они посещают, а позже проходят по этим ссылкам на другие страницы. Вся всемирная сеть построена из ссылок. Начальная идея создания Интернет сети была в том, что бы была возможность перемещаться по ссылкам от одного места к другому. Вот так перемещаются и роботы.
"Остроумность" в отношении индексирования страниц в реальном режиме времени зависит от инженеров поисковых машин, которые изобрели методы, используемые для оценки информации, получаемой роботами поисковика. Будучи внедрена в базу данных поисковой машины, информация доступна пользователям, которые осуществляют поиск. Когда пользователь поисковой машины вводит поисковый запрос, производится ряд быстрых вычислений для уверенности в том, что выдается действительно правильный набор сайтов для наиболее релевантного ответа.
Вы можете просмотреть, какие страницы вашего сайта уже посетил поисковый робот, руководствуясь лог-файлами сервера, или результатами статистической обработки лог-файла. Идентифицируя роботов, вы увидите, когда они посетили ваш сайт, какие страницы и как часто. Некоторые роботы легко идентифицируются по своим именам, как Google's "Googlebot". Другие более скрытые, как, например, Inktomi's "Slurp". Другие роботы так же могут встречаться в логах и не исключено, что вы не сможете сразу их идентифицировать; некоторые из них могут даже оказаться броузерами, которыми управляют люди.
Помимо идентификации уникальных поисковых роботов и подсчета количества их визитов, статистика также может показать вам агрессивных, поглощающих ширину катала пропускания роботов или роботов, нежелательных для посещения вашего сайта.
Источник:
Самая простая техника - это использование ключевых слов. Почти на каждой страничке есть скрытая секция, где её создатель может написать о чём страничка и вписать ключевые слова. Например, сайт с музыкой напишет: "mp3, скачать бесплатно" и так далее. Ключевые слова указываются через запятую.
При поиске, пользовательно пишет запрос, например "где скачать музыку в mp3 бесплатно? "
И тут же поисковая машина находит сайты с ключевыми словами "mp3 и бесплатно".
Конечно, это принцип работы самой простой поисковой машины.
Роботы - это программы, сканируещие ваш сайт и индексируещие его (сайт добавляется в базу данных с его текстом и ключевыми словами).
Что такое поисковый спам? Какие виды поискового спама вы знаете?
Поиско́вый спам (спамдексинг или веб-спам) — сайты и страницы в Интернете, созданные с целью
подробнее...
Что такое поисковая система
ПОИСКОВАЯ СИСТЕМА [retrieval system]
Комплекс средств, предназначенный для нахождения и
подробнее...
Что означает слово "Google"?
Слово «google» взято от слова «googol» (гугол) ; - это математический термин, обозначающий единицу
подробнее...
Что такое мониторинг Интернет ресурсов?
Для мониторинга интернет-ресурсов, наряду с возможностями, предоставляемыми поисковыми машинами,
подробнее...
Что такое URL основного сайта
URL - это адрес страницы в интернете. URL состоит из доменного имени, пути к странице на сайте и
подробнее...
Что такое SEO, Контекстная реклама, Тизерная реклама? И сколько это стоит?
Что такое SEO?
Search Engines Optimization (SEO) – комплекс мер по оптимизации
подробнее...
что такое PR6 и ТИЦ3600?
Тематический индекс цитирования (тИЦ) — технология поисковой машины «Яндекс» , заключающаяся в
подробнее...
Что такое ТИЦ ? Что такое ТИЦ ?
Индекс цитирования (или ИЦ) — принятая в научном мире мера «значимости» трудов какого-либо ученого.
подробнее...
Что такое релевантность?
Что такое релевантность?
Главная задача информационно-поисковой системы — это поиск
подробнее...
Что такое число гугл?
Гугол (от англ. googol) — это число десять в сотой степени, то есть единица со ста нулями. О
подробнее...