Создание карты сайта и проверка битых ссылок
сервисы
Иногда надо создать карту динамического сайта или проверить все ссылки на актуальность. Для этого можно использовать бесплатную программу, которую можно скачать здесь: site-mapping.zip (3К). Данная программа позволяет создавать карту сайта со сниппетами (подобиями описания страницы).
Характеристики программы
- Для работы надо установить на компьютер perl с модулем LWP
- Выбор задержки между запросами не рекомендуется делать меньше 3 секунд, если на сайте есть внешние ссылки во множестве
- Распространяется бесплатно, продавать низзя!
- Я не несу ответственности за неправильное использование, программа дается "как есть"
После запуска программы она создает и дописывает в процессе работы файлы:
- sitemap_short.html
Список ссылок на скачанные страницы сайта с полным URL и "порядковым номером" страницы в тексте ссылки.
- sitemap_nosnippets.html
Список ссылок на страницы с текстом ссылки, взятым из тега <title> скачанной страницы, к которому добавляется текст первого заголовка <H1-6> (если title не уникален)
- sitemap_snippets.html
То же, но после каждой ссылки идет описание: текст с сайта в количестве трех предложений, без тегов, взятый из начала страницы.
- inner_found_pages.txt
Список существующих на сайте страниц (в случае 3XX редиректа страница считается существующей по исходному URL)
- inner_rejected_pages.txt
Список отсутствующих внутренних страниц (4ХХ и 5ХХ ошибки) с сообщениями об ошибке и страницей, откуда поставлена ссылка
- Если разрешено скачивание внешних ссылок:
- external_found_pages.html
Список ссылок на существующие внешние страницы с текстом ссылки, взятым из тега <title> скачанной страницы
- external_rejected_pages.txt
Список отсутствующих внешних страниц (4ХХ и 5ХХ ошибки) с сообщениями об ошибке и страницей, откуда поставлена ссылка
- Если запрещено скачивание внешних ссылок:
- external_links_not_checked.txt
Список всех ссылок на страницы внешних сайтов
Настройки
В начале файла задаются все параметры. Тот, кто знает perl, сможет изменить параметры запросов.
$startpage='http://yourdomain.ru/';#Домен или субдомен, карта которого строится и по совместительству стартовая страница скачивания
$required='http';#необходимая подстрока в полном URL страниц для ее скачивания. Если надо скачать все страницы, оставьте 'http'
$denied='подстрока URL, которая не позволяет скачать страницу';
$external='yes';#Скачивать внешние страницы, на которые есть ссылки?
$maxpages=10000;#максимальное количество скачанных страниц
$delay=3;#задержка между запросами в секундах
$timeout=100;#время ожидания ответа, в секундах
|