Robots.txt для Dle
Индексация роботами сайтов, на основе ДЛЕ имеет свою специфику.
Ну и как бы об этой самой специфике и пойдет речь в данной статье. Итак…
Ситуация:
Яндекс индексирует страницы для печати (print:…) и, со временем, выбрасывает новости, для которых соответствуют страницы для печати.
Результат:
Со временем сайт в поисковом индексе представляет собой почти сплошное собрание страниц для печати.
…Индексация роботами сайтов, на основе ДЛЕ имеет свою специфику.
Ну и как бы об этой самой специфике и пойдет речь в данной статье. Итак…
Ситуация:
Яндекс индексирует страницы для печати (print:…) и, со временем, выбрасывает новости, для которых соответствуют страницы для печати.
Результат:
Со временем сайт в поисковом индексе представляет собой почти сплошное собрание страниц для печати.
Проблема:
Для бирж ссылок трудно продать ссылки с этих страниц.
Решение:
Запрещаем страницы для печати:
User-agent: *
Disallow: /*print
***
Ситуация:
Индексируются страницы /user/. Спамеры «толкают» страницы на их профили т.к. последние содержат внешние ссылки (спам).
Результат:
Передаются ненужные Вам веса спамерским ссылкам.
Решение:
Запрещаем к индексированию все личные странички профилей пользователей (/user/)
Disallow: /*user
***
Ситуация:
Индексируются страницы, не содержащие контент.
Результат:
Всё равно выпадут со временем, лишняя нагрузка на поискового робота, ненужные директивы.
Решение:
Запрещаем подобные директории:
Disallow: /backup/
Disallow: /engine/
Disallow: /language/
Disallow: /templates/
Disallow: /upgrade/
Disallow: /uploads/
Disallow: /autobackup.php
Disallow: /admin.php
Примечание:
Я бы не советовал вам это все запрещать к индексации и вообще писать эти запросы в robots.txt
***
Ситуация:
Индексируются страницы вида: */index.php?do=*
Результат:
Никакой пользы для сайта не принесут.
Решение:
Запрещаем все такие страницы, а также страницу /index.php?subaction=newposts и /?do=lastcomments. Ну и статистику не мешало бы убрать
Решение:
Disallow: /statistics.html
Disallow: /index.php?do=addnews
Disallow: /index.php?do=feedback
Disallow: /index.php?do=lostpassword
Disallow: /index.php?do=pm
Disallow: /index.php?do=register
Disallow: /index.php?do=stats
Disallow: /index.php?do=search
Disallow: /index.php?subaction=newposts
Disallow: /index.php?do=lastcomments
***
Не лишним будет напомнить, что нужно обязательно создавать карту сайта в админ панели.
Карта сайта будет находится по адресу: Ваш_сайт/uploads/sitemap.xml
Далее явно задаём местонахождение нашей карты сайта в robots.txt:
Sitemap: Ваш_сайт/uploads/sitemap.xml
***
Явно задаём хост.
Host: Ваш_сайт
***
При большом количестве страниц поисковые роботы могут создавать большую нагрузку на вашем хосте. А все из-за того, что робот, при индексации, старается загрузить как можно быстрее ваших страниц. Чтобы уменьшить нагрузку на хост, советую в файле robots.txt прописать код:
User-agent: *
Crawl-delay: 1
Это не относится конкретно к ДЛЕ, это совет для всех больших сайтов.
***
Подводим итог и выводим общий вид универсального robots.txt для сайта на CMS DLE:
User-agent: *
Disallow: /*print
Disallow: /user/
Disallow: /index.php?do=addnews
Disallow: /index.php?do=feedback
Disallow: /index.php?do=lostpassword
Disallow: /index.php?do=pm
Disallow: /index.php?do=register
Disallow: /index.php?do=stats
Disallow: /index.php?do=search
Disallow: /index.php?subaction=newposts
Disallow: /?do=lastcomments
Disallow: /statistics.html
Host: Ваш_сайт
Sitemap: http://Ваш_сайт/uploads/sitemap.xml
User-agent: *
Crawl-delay: 1
PS: В зависимости от дефолтных папок, присутствующих в разных панелях хостинга (в частности, папка cgi-bin), а также папок, добавляемых по собственной необходимости, не забываем их вписывать.
Вставляйте в каждый из Ваших сайтов, не ленитесь и всё у Вас будет хорошо.
Добавить комментарий