Administrator gnu.univ.gda.pl
, czyli kol. Wanted Sochacki zablokował dostęp do
http://gnu.univ.gda.pl/~tomasz/wblog
z powodu obciążenia systemu
spowodowanego indeksowaniem zawartości przez MSNbota.
Zwrócił też uwagę, że dla tego bota
nazbyt trudne mogą być URLe generowane w zestawieniu tagów (lewy/górny róg strony,
pod zdjęciem) oraz pod każdym wpisem po słowie tagi:
.
Oryginalnie linki te są tworzone tak, że kliknięcie w link taga zwracało dokument, w którym tenże tag był dodany do każdego linka w zestawienia tagów i do każdego linka pod każdym wpisem. Wyglądało to jakoś tak:
http://gnu.univ.gda.pl/~tomasz/cgi-bin/blosxom.cgi?-tags=docbook,mplayer,kolibki
Co oznaczało, że wyświetlone mają być dokumenty zawierające albo docbook
albo
mplayer
albo kolibki
. W następnym kliku można było dodać następnego
taga itd... Reset listy tagów w URLu następował po wybraniu
taga już znajdującego się na liście.
IMHO ww. sposób działania niewątpliwie generuje dużo, i w znakomitej większości zbędnych linków.
[Ale -- dalej IMHO -- nie generuje nieskończonej liczby URLi ani nie tworzy pętli.]
Najbardziej oczywiste dla mnie rozwiązanie, tj. zarąbać szkodliwego a bezużytecznego intruza (parafrazując Knutha, [TeXBook, s. 299]: If you have been so devious as to use MSN, [...] you will deserve no sympathy (w oryginale chodziło o komunikat o błędzie w systemie TeX:-), nie o MSN):
# msn search bot User-agent: msnbot Disallow: /
z niejasnych dla mnie przesłanek zostało określone przez Kol. Wanteda
jako pochopny krok. Skoro tak, to nie było innego wyjścia
jak zmodyfikować sposób działania blosxom.cgi
.
Żeby link do taga zwracał dokumenty zawierające ten tag, bez modyfikowania
linków innych tagów zmieniłem kod wtyczki tagging
w następujący sposób:
Wydaje się, że działa