Боремся с клонами страниц

Клоны с точки зрения DataParkSerach Engine — это документы, имеющие одинаковые значения Hash32, вычисленной по всем секциям документа. Копии одного и того же документа имеют одинаковые значения Hash32. Это позволяет не индексировать дубликады страниц, находимые поисковым роботом.
Но следует отметить, что если в файле sections.conf определена только секция title, тогда все страницы с разными телами, но одинаковыми заголовками будут считаться клонами. (Секции страниц я описывал в предыдущей статье)

За определение клонов страниц отвечает директива DetectClones в файле indexer.conf. Она включает или выключает механихм определения и игнорирования «клонов» документов. При включении индексатор будет вычислять копии страниц, расположенных, например, на зеркалах, и не индексировать их повторно.
В зависимости от того, нужен-ли Вам механизм определения клонов, следует передать директиве параметр yes или no соотвтственно. По умолчанию этот механизм включен.
Если Вам он безразличен, то лучше его отключить, что снизит нагрузку на сервер при индексации:
DetectClones no

Поблагодарить автора

Оставить комментарий

Your email address will not be published. Required fields are marked *

*

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>