next up previous contents
Next: 14. CVS - система Up: 13. Программа Wget Previous: 13.8 Использование серверов прокси

Подраздел


13.9 Прочие сведения о Wget

Программу Wget можно взять как и другие GNU программы на основном сервере GNU prep.ai.mit.edu и множестве зеркал этого сервера. Например, Wget 1.5.3 находится в ftp://prep.ai.mit.edu/pub/gnu/wget-1.5.3.tar.gz.

Программа Wget имеет свой список рассылки wget@sunsite.auc.dk. Чтобы получать сообщения из этого списка рассылки, вы можете подписаться, послав письмо по адресу wget-subscribe@sunsite.auc.dk с магическим словом subscribe в поле Subject. Архив списка рассылки находится на сервере http://fly.cc.fer.hr/archive/wget.

Над программой Wget работали (добавляли различные свойства, тестировали, исправляли ошибки) несколько десятков человек. Если вы посмотрите на своей системе Linux описание Wget с помощью команды
info wget
то сможете найти полный список лиц, участвовавших в создании программы. Программа не является застывшим продуктом, она постоянно улучшается, появляются новые версии.

13.9.1 Дополнения о файле /robots.txt

Поскольку Wget производит поиск по ссылкам в документах HTML, то эта программа может рассматриваться как один из Интернетровских поисковых роботов, или просто роботов. Такие поисковые системы часто именуют путешественниками (wanderer) или пауками (spider) А раз так, то Wget понимает содержание файла /robots.txt, который администраторы серверов используют, чтобы закрыть часть каталогов от Wget и других поисковых систем.

Файл /robots.txt принимается во внимание только тогда, когда Wget производит рекурсивный поиск (-r) и он считывается с хоста лишь однажды во время поиска. Например,
wget -r http://fly.cc.fer.hr/
Индекс с сервера будет загружен. Далее, если Wget найд©т что-то для загрузки с того же сервера, лишь тогда будет считан файл /robots.txt, чтобы решить, следует ли загружать очередной файл, на который имеется ссылка в индексном файле. Wget не поддерживает тег META в файле /robots.txt.

Подробное описание содержания файла /robots.txt находится на страницах http://info.webcrawler.com/mak/projects/robots/norobots.html.

13.9.2 Родственники программы wget

Wget имеет полезных родственников, т.е. систем, которые выполняют подобные функции. Некоторые из этих систем являются дополнительными по отношению к Wget, иными словами, реализуют те функциональные возможности, которые отсутствуют или недостаточно проработаны в Wget.

К таким системам можно отнести cURL (http://www.fts.frontec.se/~dast/curl/manual.html). Эта система позволяет не только копировать информацию с удал©нного сервера на локальный, но да©т возможности загружать информацию с локальной машины на удал©нный сервер (ftp, http, https). Можно обратить внимание на систему Паук - Pavuk (http://www.idata.sk/~ondrej/pavuk/), которая также выглядит весьма привлекательно.

<


next up previous contents
Next: 14. CVS - система Up: 13. Программа Wget Previous: 13.8 Использование серверов прокси
Andrei Chevel
Andrei.Chevel@pnpi.spb.ru