Боремся с клонами страниц

Категория: DataParkSearch Комментариев: 0

Клоны с точки зрения DataParkSerach Engine — это документы, имеющие одинаковые значения Hash32, вычисленной по всем секциям документа. Копии одного и того же документа имеют одинаковые значения Hash32. Это позволяет не индексировать дубликады страниц, находимые поисковым роботом.
Но следует отметить, что если в файле sections.conf определена только секция title, тогда все страницы с разными телами, но одинаковыми заголовками будут считаться клонами. (Секции страниц я описывал в предыдущей статье)

За определение клонов страниц отвечает директива DetectClones в файле indexer.conf. Она включает или выключает механихм определения и игнорирования «клонов» документов. При включении индексатор будет вычислять копии страниц, расположенных, например, на зеркалах, и не индексировать их повторно.
В зависимости от того, нужен-ли Вам механизм определения клонов, следует передать директиве параметр yes или no соотвтственно. По умолчанию этот механизм включен.
Если Вам он безразличен, то лучше его отключить, что снизит нагрузку на сервер при индексации:
DetectClones no

Автор: Кто-то   @   28 января 2009 Комментариев: 0
Метки : , ,

Поблагодарить автора

Webmoney Z163628999150, R617151845974

Комментариев: 0

Комментариев к этой записи поке нет. Ваш комментарий будет первым.
оставить комментарий

Предыдущая запись
«
Следующая запись
»