Советы robots.txt для Datalife Engine DLE

Раздел: DataLife Engine » Полезные статьи для DLE
www.dle9.com рекомендует Советы по настройке robots.txt для Datalife Engine

При создании сайтов на Dle, иногда сталкиваешься с одинаковыми проблемами: к примеру, Яндекс проиндексировал печатные версии страниц (url вида print:…), а Сапа не видит их. А Яндексу они приятнее, так как всякого мусора на них меньше: только контент. Или же Яндекс индексирует ссылки вида “dle-site/user/ya-spamer”, на которых куча внешних ссылок в профилях и никакого контента. Основная причины в не правильной настройке файла robots.txt
Советы настройки robots.txt для Datalife Engine DLE
В этой статье и пойдет речь о настройках robots.txt
Изучив материал в интернете и полазив по форуму и официальным мануалам поисковиков, можно сказать, что люди часто не читают руководств и ошибаются, к примеру, в robots.txt нет директивы “Allow” есть только “Disallow”

Для начала давайте выясним, что нужно сделать для лучшей индексации ресурса :

Хорошая индексация нужных страниц ресурса
Запрет ненужных страниц в индексе поисковым системам (всё равно вылетят из индекса)
Установка зеркала для Яндекса.

Чтобы полностью запретить всем роботам индексировать ваш веб-проект, для проведении каких-либо работ на ресурсе.
Достаточно указать в файле robots.txt
User-agent: *Disallow: /


Итак разберемся по порядку. Для начала запретим индексировать всем поисковым роботам страницы для печати:

User-agent: *Disallow: /*print 


Уберём из индекса страницы без контента (они рано или поздно всё выпадут):
Disallow: /autobackup.phpDisallow: /admin.phpDisallow: /engine/go.phpDisallow: /user/Disallow: /statistics.html


В зависимости от уровня Вашей паранойи можно добавить также:
Disallow: /newposts/
Disallow: /favorites/
Disallow: /*subaction=userinfo
Disallow: /*do=lastcomments
Disallow: /*do=feedback
Disallow: /*do=register
Disallow: /*do=lostpassword
Disallow: /*do=addnewsDisallow: /*do=stats
Disallow: /*do=pm


Все прекрасно знаю, насколько Sitemap полезен для индексации сайта. Теперь нам нужно добавить его для Поисковых систем.

Идём в админ панель -> другие разделы -> в самом низу заходим в «Google Sitemap». Оставляем все настройки по умолчанию и жмём «создать/обновить». Сверху должна появиться надпись вида «25.01.2009 10:37 файл индекса для Google Sitemap был создан и доступен по адресу: http://dle-site/sitemap.xml».

Теперь даём знать о нём поисковикам: Sitemap: http://dle-site /sitemap.xml
Добавляем основное зеркало для Яндекса, чтобы не было недоразумений с его стороны) Идём по адресу:

http://yandex.ru/yandsearch?serverurl=dle-site
Важно посмотреть как проиндексирован Ваш сайт с www или без. Добавляем в robots.txt директиву вида:

User-agent: YandexHost: dle-site 


dle-site, если сайт в индексе без www, и наоборот. Если сайт ещё не проиндексирован Yandex, то указывайте так, как Вам больше
нравится видеть Ваш сайт.

Вот и всё. Правильный robots.txt для DLE будет выглядеть примерно так:
User-agent: *
Disallow: /*print
Disallow: /autobackup.php
Disallow: /admin.php
Disallow: /engine/go.php
Disallow: /user/
Disallow: /newposts/
Disallow: /favorites/
Disallow: /statistics.html
Disallow: /*subaction=userinfo
Disallow: /*do=lastcomments
Disallow: /*do=feedback
Disallow: /*do=register
Sitemap: http://dle-site ru/sitemap.xml
User-agent: YandexHost: dle-site 


Потратив 5 минут на создание такого файла можно значительно облегчить себе/поисковикам жизнь/работу в дальнейшем.

Предлагаем советы для Datalife Engine по настройке robots.txt
  • 60
Рубрика: Все для DLE » Полезные статьи
Ранее » Безопасность DLE возможности и настройки админ панели« Далее Защита папок скрипта от запуска сторонних скриптов DLE
Добавление комментарияОставить комментарий
  • № :3
  • 19 января 2013 19:54
A-Jey,
наберите названием сайта скажем моего или любого другого с добавлением /robots,txt получите страницу
вот и используйте как пример
Host: www.dle9.com

Это нужно указывать только для Яндекса указывается только один раз (или будет ошибка), для других не обязательно. Естественно, должна быть страница вашего сайта если без www то без

У меня для Гугл и Яндекс для всех не расписывал, хватает
  • № :2
  • 19 января 2013 19:38
User-agent: YandexHost: dle-site
как создать еще и для остальных поисковиков
GoogleHost так это делается?

Host: www.dle9.com - что именно дает эта строка,

Если я правильно понял то для каждого поисковика нужно отдельно писать правила?
User-agent: Yandex
ну а дальше запрет? или как я в этом не очень подскажите?
  • № :1
  • 1 сентября 2011 05:44
Большинство закрытых доступов для роботов Яндекс и Гугл не нужны, они сами отбрасывают из индекса , и ещё много повторений одних и тех же ...функций.

Disallow: /*do=sitemap переход по карте сайта (вроде у Вас нет модуля карты сайта )
ну а вообще если хотите увидеть как это делают другие ...на своих сайтах чтобы понять, сделать вывод, напишите в браузере , так для любого аналогичного Вашей тематики сайта.
Например: http://www.dle9.com/robots.txt
ПС. Яндекс индексирует медленно недели две , новостей на сайте мало , должно быть хотя бы 100-200 ...Удачи!