Издательский дом ООО "Гейм Лэнд"СПЕЦВЫПУСК ЖУРНАЛА ХАКЕР #73, ДЕКАБРЬ 2006 г.

предприимчивый пекарь

АНДРЕЙ КАРОЛИК

Спецвыпуск: Хакер, номер #073, стр. 073-024-4


ПОСРЕДНИКИ

НЕКОТОРЫЕ ИДУТ ДАЛЬШЕ, НЕ ОГРАНИЧИВАЯСЬ ТОЛЬКО СВОИМИ РЕСУРСАМИ. ОНИ ПРЕДЛАГАЮТ ВЛАДЕЛЬЦАМ ДРУГИХ РЕСУРСОВ ПРОДАВАТЬ ССЫЛКИ С ИХ ТИТУЛЬНЫХ СТРАНИЦ, УДЕРЖИВАЯ ЗА ЭТО НЕКИЙ ПРОЦЕНТ (ОБЫЧНО 50%). А ПОСРЕДНИКИ, В СВОЮ ОЧЕРЕДЬ, КОНСОЛИДИРУЮТ НЕСКОЛЬКО РАЗНОШЕРСТНЫХ РЕСУРСОВ, ЧТО ПОЗВОЛЯЕТ ИМ ЛОББИРОВАТЬ СВОИ ИНТЕРЕСЫ КАК У КРУПНЫХ РЕКЛАМОДАТЕЛЕЙ, ТАК И У БРОКЕРОВ ИНТЕРНЕТ-РЕКЛАМЫ, ТАК КАК ОБОРОТ УЖЕ КРАТЕН КОЛИЧЕСТВУ САЙТОВ. ЕСТЬ НАГЛЯДНЫЕ ПРИМЕРЫ, КОГДА ПОСРЕДНИКИ УПРАВЛЯЮТ 20 И БОЛЕЕ САЙТАМИ. РЕКЛАМОДАТЕЛЯМ КУДА ИНТЕРЕСНЕЕ КУПИТЬ НЕСКОЛЬКО ССЫЛОК У ОДНОГО ЧЕЛОВЕКА, ДОГОВОРИВШИСЬ ОДИН РАЗ, ЧЕМ ПЫТАТЬСЯ НАЙТИ ОБЩИЙ ЯЗЫК С КАЖДЫМ.

НО ШИРОКОГО РАСПРОСТРАНЕНИЯ ПОСРЕДНИКИ НЕ ПОЛУЧИЛИ, ТАК КАК С ЭТИМ СВЯЗАНЫ ОПРЕДЕЛЕННЫЕ РИСКИ. ВЛАДЕЛЕЦ ПЛОЩАДКИ РИСКУЕТ БЫТЬ ОБМАНУТЫМ, А ПОСРЕДНИК — ПОТЕРЯТЬ НОВУЮ ПЛОЩАДКУ В ЛЮБОЙ МОМЕНТ, ТАК КАК ИСПОЛЬЗУЕТ ЕЕ НА ПТИЧЬИХ ПРАВАХ. ПОЭТОМУ СРЕДИ ПОСРЕДНИКОВ - ОБЫЧНО ТЕ, КТО ТАК ИЛИ ИНАЧЕ СВЯЗАН С МНОЖЕСТВОМ ХОРОШИХ ПЛОЩАДОК И ИМЕЕТ НЕКИЙ КРЕДИТ ДОВЕРИЯ.

Приманка для поисковых роботов

Поисковые серверы перед индексацией любого ресурса сперва ищут в корневом каталоге домена файл «robots.txt» (то есть www.имя_домена.ru/robots.txt). И этим можно эффективно пользоваться, сообщая роботам (их еще называют сетевыми пауками), какие файлы они могут индексировать, а какие нет.

[формат]

файла robots.txt несложный, он содержит несколько записей. Каждая запись состоит из двух или более строк: названия клиентского приложения (user-agent) и одной или нескольких строк, начинающихся с директивы Disallow. Важное правило — robots.txt должен создаваться в текстовом формате Unix.

Пример файла robots.txt

User-agent: *

Disallow: /css/

Disallow: /cgi-bin/

Disallow: /images/

Строка User-agent содержит название робота. Например:

ЛИСТИНГ

User-agent: googlebot

Для обращения ко всем роботам используй символ «*».

Если хочешь для каждого робота сделать свое правило, надо знать пауков поименно. Названия роботов можешь найти в логах своего веб-сервера. Для этого среди всех запросов отбери запросы к файлу robots.txt, они характерны как раз для поисковых роботов.

Вторая часть состоит из строк Disallow — директив для данного робота (либо всех, если стоит «*»). Они сообщают роботу, какие файлы и/или каталоги индексировать не надо. Если директиву Disallow оставить пустой, робот поймет, что индексировать можно ВСЕ файлы и каталоги.

ЕСЛИ ТЕБЯ ИНТЕРЕСУЮТ БОЛЕЕ СЛОЖНЫЕ ПРИМЕРЫ, ВЫТЯНИ ФАЙЛ ROBOTS.TXT С КАКОГО-НИБУДЬ КРУПНОГО ПОРТАЛА

[типичные ошибки.]

Чтобы robots.txt считался верным, как минимум одна директива Disallow должна присутствовать для каждого поля User-agent.

Назад на стр. 073-024-3  Содержание  Вперед на стр. 073-024-5