Архив спецвыпуска журнала Хакер на www.realsoft.by.ru, номер #028, стр. 028-032-4, RiSearch

Издательский дом ООО "Гейм Лэнд"

СПЕЦВЫПУСК ЖУРНАЛА ХАКЕР #28, МАРТ 2003 г.

RiSearch - замути свой поиск

Алексей Б. Беляев aka Alexys

Спецвыпуск Xakep, номер #028, стр. 028-032-4

$page_url=$url; #введенной переменной $page_url присваиваем как начальное значение значение $url (адреса файла)

$page_url =~s/http:\/\///g; #отрезание от адреса протокола (http://)

$page_url =~s/winfo//; #обрезаем winfo, остается "/arts/diskandcache.txt" (на месте winfo будет стоять домен твоего сайта)

substr ($page_url, 0, 1)=""; # удаление первого символа из строки (в данном случае слэша)

$page_url =~s/arts//; #аналогично удаляется arts

substr ($page_url, 0, 1)=""; #и еще один слэш

$page_url =~s/.txt/&act=read/; #отрезание расширения от имени файла (.txt)

$page_url='/cgi-bin/arts.pl?art='.$page_url; #генерация ссылки на нужный скрипт с нужными параметрами

Spider.pl

Spider ищет слова для базы не в тексте документов (статей, публикаций, текстов), а в тексте html-страниц, даже если они являются результатом работы cgi-скриптов. Но либо я чего-то не понимаю, но намного легче и быстрее подогнать под свои нужды index.pl, чем разобраться со спайдером. Хотя должно быть все наоборот. Для работы spidedr'а надо только в config.pl'е указать адреса, по каким надо пробегать паучку, а остальное он должен сделать сам.

# Стартовый УРЛ

@start_url = qw(

http://winfo

);

# Spider пройдется по адресам с этих серваков

@allow_url = qw(

http://winfo

);

Вроде можно бы даже не один, а 2-3 сайта проиндексировать. Но не все так просто и хорошо. Ошибок при индексации быть не должно. Но вот при наличии на сайте часто повторяемых слов (например, пункты меню) будет такая каша выдаваться, что кто угодно замучается ее разгребать. Поковырявшись с настройками, некоторые части html-кода можно выкинуть из строк индексации, но со всеми справиться не так легко. К примеру, будет на сайте всего одна статья, содержащая введенное юзером слово. А оно является пунктом меню, которое появляется на 100 страницах. Прям Иван Сусанин получается. Хотя таким образом можно хорошенько честным способом баннеропоказы накрутить :).

Что именно выбрать для своего сайта - index или spider - решать тебе, хотя мой совет очевиден. К тому же индексация index'ом проходит в несколько раз быстрее, чем spider'ом. Еще бы, ведь при spider'а сервак должен генерить кучу страниц, причем довольно быстро, а не просто по файлам пробегаться. Что для них общее, так это необходимость запускать их по мере пополнения материалов сайта. Но хранить их в том виде, как они есть, тоже не рекомендуется. Движок бесплатный, значит, знает про него не мало народу, ресурсов при индексации тратится много.... Повесить сервак или затормозить его работу проблем не составит никаких. Так что либо переименуй индексаторы, либо закачивай их, когда понадобится.

Назад на стр. 028-032-3 Содержание Вперед на стр. 028-032-5