Клоны с точки зрения DataParkSerach Engine — это документы, имеющие одинаковые значения Hash32, вычисленной по всем секциям документа. Копии одного и того же документа имеют одинаковые значения Hash32. Это позволяет не индексировать дубликады страниц, находимые поисковым роботом.
Но следует отметить, что если в файле sections.conf определена только секция title, тогда все страницы с разными телами, но одинаковыми заголовками будут считаться клонами. (Секции страниц я описывал в предыдущей статье)
За определение клонов страниц отвечает директива DetectClones в файле indexer.conf. Она включает или выключает механихм определения и игнорирования «клонов» документов. При включении индексатор будет вычислять копии страниц, расположенных, например, на зеркалах, и не индексировать их повторно.
В зависимости от того, нужен-ли Вам механизм определения клонов, следует передать директиве параметр yes или no соотвтственно. По умолчанию этот механизм включен.
Если Вам он безразличен, то лучше его отключить, что снизит нагрузку на сервер при индексации:
DetectClones no
|
|
Webmoney Z163628999150, R617151845974
|