Robot internetowy

Robot internetowy, robot indeksujący – program zbierający informacje o strukturze, stronach i treściach znajdujących się w internecie^[1]. Efekty pracy robota mogą być różne, w zależności od jego przeznaczenia, na przykład może on skanować wybrane witryny w celu zbudowania bazy adresów e-mail, natomiast roboty zbierające treści dla wyszukiwarek działają szerzej:

badają zawartość witryny,
sprawdzają kod strony,
zbierają dodatkowe informacje o stronie,
monitorują aktualizacje,
tworzą mirrory stron.

W przypadku robota Google tzn. Googlebota mówi się o robotach wykonujących „Google's fresh crawl” i „Google's deep crawl” lub „Google's main crawl”. „Fresh crawl” jest wykonywany często, nawet kilka razy dziennie - robot najprawdopodobniej sprawdza co się zmieniło na stronie, „deep crawl” głębokie indeksowanie najprawdopodobniej polega na pobieraniu większej ilości danych z witryny i odbywa się kilka razy w miesiącu^[2].

Nazwy używane wymiennie

bot indeksujący
pająk, spider
pełzacz, web crawler
web wanderer — od pierwszego robota indeksującego hipertekst: www wanderera

Blokada dostępu dla robota internetowego

Administrator strony internetowej może zablokować dostęp robotom indeksującym. Wówczas adres URL nie zostanie zeskanowany, co oznacza, że nie będzie widoczny w indeksie oraz wynikach wyszukiwania wyszukiwarki, takiej jak Google. Blokada dostępu dla robota odbywa się poprzez konfigurację pliku robots.txt^[3].

Przypisy

↑ Controlling Crawling & Indexing: An SEO’s Guide to Robots.txt & Tags [online], Oncrawl, 19 lutego 2019 [dostęp 2022-06-27] (ang.).
↑ Co to jest Googlebot | Centrum wyszukiwarki Google | Dokumentacja [online], Google Developers [dostęp 2022-06-27] (pol.).
↑ Co to jest plik robots.txt? | Centrum wyszukiwarki Google | Dokumentacja [online], Google Developers [dostęp 2022-06-27] (pol.).

Linki zewnętrzne

The Web Robots FAQ (ang.)
Robots Exclusion Opis zasad sterowania robotem na własnej stronie (ang.)
The Web Robots Database Lista aktywnych działających robotów sieciowych (ang.)

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.

[1] Controlling Crawling & Indexing: An SEO’s Guide to Robots.txt & Tags [online], Oncrawl, 19 lutego 2019 [dostęp 2022-06-27] (ang.).

[2] Co to jest Googlebot | Centrum wyszukiwarki Google | Dokumentacja [online], Google Developers [dostęp 2022-06-27] (pol.).

[3] Co to jest plik robots.txt? | Centrum wyszukiwarki Google | Dokumentacja [online], Google Developers [dostęp 2022-06-27] (pol.).

[1]

[2]

[3]