Воскресенье — хороший день, чтобы наверстать упущенное в блоге и тщательно проанализировать ошибки на страницах. Тема дублированного контента — одна из тех, которые в последнее время меня больше всего интересуют, и сегодня я обнаружил на одной из своих страниц ошибки, заключающиеся в индексации результатов сортировки: / Так что это будет еще один пост из серии « Изучение моих ошибок » 😉
- вход
- Ошибки, вызывающие DC
- Как заблокировать индексацию выбранных подстраниц?
вход
Я начну с информации из справки Google:
Google стремится индексировать и показывать только страницы с различным содержанием. Использование этого фильтра означает, что, например, если на вашем сайте есть стандартные и печатные страницы, и ни одна из них не заблокирована в вашем файле robots.txt или метатеге noindex, в результатах поиска будет указан только один из них.
Это теория, и как она представлена на практике? Как обычно, исключение подтверждает правило. Вы можете легко найти подстраницы в serpas, будь то поиск или сортировка результатов, или даже распечатать версии с основными версиями подстраниц с одинаковым или очень похожим содержанием. Это исключения, которые до сих пор «запекались». К сожалению, в любое время может случиться так, что в serpas останется только одна версия, и она не обязательно должна быть той, которую веб-мастер хотел бы видеть там. Я мог выяснить для себя в недавно описанной ситуации ( наличие главной страницы под 2 адресами и проблема с DC ), когда через несколько лет внезапно был проиндексирован адрес из index.php (ссылка на этот адрес была потеряна где-то на странице), и основной адрес исчез из индекса. В результате остались только позиции подстраницы, но главная страница с index.php в адресе полетела, потому что у нее не было обратных ссылок.
Вывод таков: лучше сразу же защитить себя от возможности выбора неправильной версии, а не беспокоиться о том, сколько времени потребуется, чтобы вернуться на прежние позиции. Возвращаясь к делу на моей странице — результаты поиска уже были заблокированы, но в списке объявлений была возможность сортировки по разным значениям. Они были добавлены в список игнорирования в инструментах для веб-мастеров, но в данном случае этого недостаточно. К счастью, в Serpas я не заметил ничего такого, о чем мне следует беспокоиться, поэтому я закончу писать и продолжу исправления 😉
Ошибки, вызывающие DC
Дублирование контента по разным адресам в одном домене чаще всего происходит в следующих случаях:
- например, наличие домашней страницы по многим адресам : domena.pl, www.domena.pl, domena.pl/index.php, domena.pl/home.php и т. д. — здесь много возможностей;
- индексация адресов с идентификаторами сеансов — в результате Google получает идентичные версии одной и той же страницы;
- индексирование результатов сортировки — результат может быть идентичным или похожим по разным адресам, например порядок некоторой информации;
- индексация результатов поиска .
В зависимости от того, с каким случаем мы имеем дело, решение проблемы будет:
- 301 перенаправление на целевую версию;
- использование rel = «canonical» ;
- нет индексации выбранных адресов.
Как заблокировать индексацию выбранных подстраниц?
Лучший способ защиты от сканирования нежелательных адресов — это объединение следующих методов:
- nofollow в ссылках на этот адрес — благодаря этому робот не должен ходить по таким ссылкам. Этого метода недостаточно, потому что Google может найти ссылки на других страницах и в результате перейдет на эти подстраницы;
- блокировка в robots.txt — запрещает роботам вводить выбранные подстраницы, но если они уже проиндексированы, результат будет отображаться только в форме, отличной от стандартной, то есть в форме адреса подстраницы вместо заголовка;
- noindex — только так вы можете избавиться от подстраниц из результатов поиска.
Чтобы ускорить это, вы можете использовать опцию для удаления адресов с помощью инструментов для веб-мастеров.
В ближайшем будущем я намереваюсь написать также о дублирующемся контенте во многих доменах и проблемах, которые я наблюдал, связанных с этой проблемой. Я просто не знаю, смогу ли я сделать это на неделе или только на следующих выходных 😉