[ Pobierz całość w formacie PDF ]
SZUKANIE IGýY W SIECI
Dawid WEI
1
Streszczenie
. Artyku przedstawia typowe problemy, z jakimi spotykaj si
u ytkownicy internetowych serwisw wyszukujcych: niewiedzy na temat
dostpnych narzdzi wspomagania procesu wyszukiwania informacji, braku
umiejtno(ci ich prawidowego wykorzystania oraz trudno(ci z interpretacj
wynikw. Zaprezentowane s rwnie perspektywy rozwojowe dla
serwisw wyszukujcych, ktre maj by* odpowiedzi na przedstawione
problemy.
Mo na powiedzie*, e szcz(cie u(miechno si do Billa Gatesa gdy wygasza swoje, synne ju ,
zdanie: á640 kilobajtw powinno wystarczy* ka demuÑ. Nie ujmujc w swej proroczej wizji rozmiaru i
szybko(ci sieci komputerowych unikn nara enia si na kompletn kompromitacj. Zreszt, trzeba to
przyzna* otwarcie, nikt chyba nie mg przewidzie* jak dynamicznie sieci komputerowe bd si
rozwija* i, co nie mniej wa ne, jak szybko i atwo wtopi si w codzienne ycie wielu ludzi. Nikogo ju
nie szokuje mo liwo(* sprawdzenia stanu konta bankowego przez Internet, wysanie SMSÓa czy te
u ywanie zamiast poczty konwencjonalnej, jej elektronicznego odpowiednika. Z mo liwo(ci, jakie daje
Internet korzystaj ju nie tylko zaszyci w ciemnych pomieszczeniach entuzja(ci z przekrwionymi
oczyma i zanikiem mi(ni wszystkich ko5czyn prcz doni. Sie* wykorzystuj osoby posiadajce o
komputerach wiedz szcztkow, wystarczajc na uruchomienie przegldarki, a czasem nawet na
wyczenie komputera bez uciekania si do wyjcia wtyczki z gniazdka.
Zasoby informacyjne Internetu szacowane byy w roku 1998 na ponad 100 terabajtw danych, czyli
mniej wicej tyle, co milion w peni zadrukowanych, czterystustronicowych ksi ek. Nale y sobie
jeszcze u(wiadomi*, co trafnie podkre(li Lawrence [LaGi], e to nie ilo danych stanowi tu o sile, lecz
ich dostpno - czyli dokadnie odwrotno(* bardzo yciowego prawa MurphyÓego mwicego, e
ksi ka, ktrej akurat najbardziej potrzebujemy z biblioteki bdzie ju wypo yczona. Po raz pierwszy w
historii dane s dostpne dla ka dego, o ka dej porze i z dowolnego miejsca na ziemi (oczywi(cie
mwi czysto teoretycznie nie biorc pod uwag adnego partykularnego operatora
telekomunikacyjnego). Gdzie wic tkwi problem? Ot Internet to Wielki Baagan, w ktrym wszystko
jest, ale nic na swoim miejscu. Baagan, gdzie do rozmiarw sztuki urasta odnalezienie akurat tych
danych, ktre przedstawiaj dla nas jakie( znaczenie. Baagan, ktry w poczeniu ze wspomnian coraz
wiksz liczb ludzi, dla ktrych osuga komputera sprowadza si do niezbdnego minimum, daje nader
1
Dawid Weiss jest pracownikiem Instytutu Informatyki Politechniki Pozna5skiej, zakadu Inteligentnych
Systemw Wspomagania Decyzji, adres e-mail: dweiss@man.poznan.pl
 ciekawy problem badawczy, ktry mo na wyrazi* pytaniem: jak usprawni* wyszukiwanie informacji w
Internecie i uczyni* ten proces przyjaznym dla przecitnego u ytkownika?
Chciabym poprzez ten artyku przybli y* nieco Czytelnikowi naukowe podej(cie do problemw,
jakie s obecne przy projektowaniu serwisw wyszukujcych, popularnych áwyszukiwarek
Jako, e
dziedzina to bardzo pragmatyczna, nie trzeba si obawia* wzorw - bd si raczej koncentrowa na
przedstawieniu trudno(ci i analizie istniejcych rozwiza5 majcych uatwi* u ytkownikowi proces
wyszukiwania informacji, abstrahowa za( od technicznych zagadnie5 zwizanych z metodami dziaania
przeszukiwarek (z jednym maym wyjtkiem). OdpowiedD na pytanie jak serwisy indeksujce gromadz
dane i skd je pobieraj nie le y w zakresie tego artykuu, jednak je(li tylko Czytelnicy wyra tak
ch*, mo e na ten temat powsta* odrbna publikacja z mojej strony.
Tak wic mo na wyr ni* trzy gwne klasy problemw, z jakimi borykaj si u ytkownicy
poszukujcy informacji w Sieci. Klasa pierwsza toÈ
Brak wiedzy o tym jak szukaę informacji w Sieci
Èczyli mwic wprost: jak korzysta* z narzdzi, ktre zostay w tym celu stworzone. Narzdzia, o
ktrych mowa, to gwnie wyszukiwarki, serwisy katalogowe oraz, do pewnego stopnia, grupy
dyskusyjne, ktrymi nie bdziemy si w tym artykule zajmowa*. Zale no(ci pomidzy nimi przedstawia
rysunek 1.
Rysunek 1. Podzia dostpnych narzdzi do poszukiwania informacji w Internecie
Pewnego wyja(nienia wymaga podzia wyszukiwarek na podgrupy. Jako gwne kryterium przyjto
tutaj Drdo danych, z jakiego korzysta dane narzdzie. Serwisy indeksujce same gromadz informacje
o zasobach Internetu, ktre pDniej udostpniaj u ytkownikom poprzez wyniki zapyta5. Meta
wyszukiwarki korzystaj z innych wyszukiwarek danych prezentujc informacje poczone i zazwyczaj
przefiltrowane, co w my(l zasady gdzie dwie gowy to nie jedna, daje na og lepsze wyniki ni ka de ze
Drde z osobna. Narzdzia klasyfikujce s prb poczenia funkcjonalno(ci predefiniowanych
katalogw i wyszukiwarek; takie hybrydowe podej(cie ma wiele atutw, o czym bdzie mowa w dalszej
cz(ci tego artykuu.
Wr*my jednak do braku do(wiadczenia u ytkownikw w posugiwaniu si wy ej wymienionymi
narzdziami. Zaskakujce s na przykad analizy u ycia wyszukiwarek Î okazuje si, e (rednio
zapytania s dwu lub trzy wyrazowe. Tak krtkie zapytanie daje zazwyczaj wynik w postaci milionw
pasujcych dokumentw, jest wic zbyt oglne i powinno zosta* uszczegowione. To jednak nie ma
2
Mam nadziej, e pury(ci jzykowi wybacz mi to argonowe okre(lenie - prawidowe nazewnictwo
polskie wa(ciwie nie istnieje (cho* spotyka si okre(lenie serwis indeksujcy i wyszukujcy). W tym
artykule bd u ywa okre(le5 potocznych jak áwyszukiwarkaÑ czy te áprzeszukiwarkaÑ.
 miejsca, bowiem u ytkownicy s bardzo niecierpliwi i po przejrzeniu okoo trzech do piciu
dokumentw ze ászczytuÑ listy wynikw zazwyczaj rezygnuj kompletnie z dalszego wysiku i
zniechceni uznaj, e czego( tam w Sieci ápo prostu nie maÑ, lub ánie da si znaleD*Ñ.
Wspomniany znaczcy procent ánieefektywnychÑ, zbyt oglnikowych zapyta5 wymusza na firmach
bdcych wa(cicielami wyszukiwarek jakie( (rodki zaradcze. Zwykle s to obszerne systemy pomocy
majce uatwi* formuowanie dokadnych zapyta5 zawierajcych operatory logiczne. C z tego, je(li
ka dy, kto mia kiedy( przyjemno(* uczenia si logiki wie, e operatory pana BooleÓa wcale do prostych
nie nale , szczeglnie, gdy mamy sformuowa* skomplikowane zapytania typu: ápodaj strony
zawierajce A, ale tylko wtedy, je(li wystpuje tam C chyba, e wystpi razem para C i BÑ. Zreszt,
przyznajmy otwarcie, chyba nie chodzi tu o wymuszanie na u ytkowniku my(lenia w kategoriach
operatorw i sw kluczowych, a bardziej o to, by inteligentny program by w stanie domy(li* si, czego
tak naprawd ten u ytkownik poszukuje i sam sobie dalej poradzi*. Zao enie takie prowadzi nas
bezpo(rednio do wykorzystania analizy jzyka naturalnego.
Niewiele jest wyszukiwarek, ktre staraj si by* przyjazne dla Internauty poprzez akceptowanie
zapyta5 w jzyku naturalnym. Dzieje si tak gwnie z powodu trudno(ci z semantyczn analiz tekstu,
ktra jest czasochonna, co przy setkach zapyta5 w cigu sekundy jest nieefektywne, ale i dlatego, e w
Sieci nie ma wa(ciwie adnych regu jzykowych ani gramatycznych, ktrych mo na byoby si
trzyma*. Kosmopolityczny Internet to setki jzykw i narzeczy, odmian kodowania znakw no i bdw
ortograficznych Î jaki jzyk przyj* za ten wa(ciwy? Aktualnie jedynym znanym mi komercyjnym
serwisem gdzie zapytania mo na wydawa* w jzyku naturalnym (angielskim) jest AskJeeves.com
(áSpytaj JanaÑ). Inne wyszukiwarki dodaj czasami opcj lematyzacji (ang. stemming), czyli
uniezale nienia si od formy fleksyjnej sowa w zapytaniu i poszukiwania wszystkich jego mo liwych w
danym jzyku wariacji. Przykadowo wpisujc zapytanie ázupy ogrkiÑ lematyzator zamieni je najpierw
na ázupa ogrekÑ i bdzie poszukiwa wszystkich form fleksyjnych tych wyrazw. Dokument
zawierajcy tekst: ázupa ogrkowaÑ znajdzie si wic w wyniku zapytania, co nie miaoby miejsca w
przypadku serwisu bez lematyzacji.
Rysunek 2. Niektre z mniej znanych wyszukiwarek posiadaj$ bardzo oryginaln$ szat graficzn$.
Cieszy poczucie humoru twrcw, szczeglnie w przypadku serwisu DogPile (ápsia kupkaÑ).
Uwzgldnienie fleksji nale y stosowa* z gow, bowiem niewa(ciwie u yte mo e prowadzi* do
nadmiarowego zbioru wynikw (ábabie latoÑ bdzie pasowao do ápojechali(my latem z moj bab na
wczasyÑ). Rwnie nale y pamita*, e reguy odmiany s spraw specyficzn dla danego jzyka i
u ycie lematyzacji wedug regu angielskiej gramatyki (co oferuje wiele serwisw, na przykad HotBot
czy MSN Search) nie ma sensu i przyniesie bezsensowne rezultaty gdy zaaplikowane do zapytania w
jzyku polskim.
Zabieg lematyzacji ma jednak, mimo puapek, niesamowite znaczenie. Brak uwzgldnienia fleksji
w wyszukiwarkach jest dla wielu u ytkownikw nieintuicyjny. Szkoda, e w polskich serwisach, biorc
pod uwag bogactwo gramatyczne naszego jzyka, taka opcja nadal jest rzadko(ci (posiada j jedynie
ONET).
Skadnia i fleksja to niestety nie wszystkie puapki, jakie czekaj na nie(wiadomego u ytkownika.
By efektywnie wyszuka* interesujce nas dokumenty nale y pamita* o detalach takich jak pisownia
sw kluczowych z, lub bez polskich znakw (ázolte zdzbloÑ i á te DdDboÑ to wedug ásieciowej
praktykiÑ to samo, mimo e bulwersujce dla polonisty), nie u ywaniu sw pospolitych (jak spjniki),
czy te prb u ywania synonimw, gdy wszystko inne zawodzi.
Nale y podkre(li*, i problem braku wiedzy o technikach wyszukiwania informacji, o tym jak
dziaaj serwisy przeszukujce i jak je poprawnie wykorzysta*, jest obecnie chyba najbardziej istotnym i
trudnym zadaniem, z jakim borykaj si u ytkownicy Internetu. Dla penego obrazu winni(my jedynie
wspomnie* zwyczajow abnegacj wszelkiego rodzaju plikw pomocy i dokumentacji, ktra, nawet je(li
istnieje, zazwyczaj pozostaje nieprzeczytana... W takiej sytuacji trudno jest o edukacj u ytkownika i
nale y poszukiwa* alternatywnych sposobw dotarcia do niego i uatwienia mu ycia.
Zakadajc jednak, e wiemy jak korzysta* z wyszukiwarek i katalogw nadal pozostaje...
Brak wiedzy o tym gdzie szukaę informacji
...i czym si posu y* by j znaleD*. Internet jest zbyt obszerny i zbyt dynamiczny na to, by istnia
sposb na okre(lenie, co w danej chwili si w nim znajduje i gdzie. Serwisy indeksujce mimo
rosncych mo liwo(ci technicznych nadal nie nad aj za (ledzeniem zmian w Sieci (zob. rysunek 3).
Liczba stron nawet w wiodcych wyszukiwarkach jak Altavista czy Google odzwierciedla uamek
wszystkich zasobw Internetu. Zreszt, nawet ten uamek nie jest kompletny, czego najlepszym
przykadem jest liczba tak zwanych ámartwych odno(nikwÑ. U
3
, czyli adres, ktry zwraca
wyszukiwarka jest uznawany za ámartwyÑ, gdy strona, na ktr on wskazuje, ju nie istnieje. Sytuacja
taka mo e mie* miejsce z paru przyczyn, przykadowo u ytkownik mo e zmieni* nazw pliku strony
(np. z index.html na index.php), zmieni* jej lokalizacj (bo inny dostawca usug internetowych okaza
si ta5szy), bdD te w ogle usun* j na stae z serwera (poniewa staa si nieaktualna). Przyczyn jest
wiele, za( efekt jeden Î wyszukiwarka posiada w swojej bazie danych jedynie ácie5Ñ takiej strony, jej
nieaktualny adres, ktry nie zapewnia do niej dostpu.
Na rysunku 4 przedstawiony jest szacowany procentowy udzia martwych stron dla najbardziej
popularnych serwisw. Wida*, e liczby te s zaskakujco du e. By zmniejszy* frustracj swoich
klientw niektre wyszukiwarki udostpniaj opcj obejrzenia kopii ka dej z zaindeksowanych stron w
momencie, gdy zostaa ona zarejestrowana w bazie danych. Mimo tego, problem niespjno(ci i
niekompletno(ci danych przechowywanych w serwisach wyszukujcych pozostaje faktem, poniewa
uaktualnienia kopii zaindeksowanych stron (ich ponowne odczytanie i weryfikacja adresu) s
wykonywane po okresie paru tygodni, czy te nawet miesicy [LaGi]. Trudno jest sobie wyobrazi*, by
kilkumiesiczna kopia strony gwnej serwisu informacyjnego CNN bya w stanie usatysfakcjonowa*
kogokolwiek (z pewno(ci byyby to ju ánie(wie eÑ aktualno(ci)... Przyczyn tak dugiej zwoki jest
par, mo na wymieni* ograniczenia w przepustowo(ci sieci po stronie serwera indeksujcego, co
limituje liczb sprawdzanych stron na sekund, trudno(ci w pielgnacji olbrzymich indeksw baz danych
wyszukiwarki, czy te po prostu wikszy priorytet przyznany eksploracji nowych zasobw Sieci, ni
od(wie aniu tych ju znanych.
3
URL (ang. Uniform Resource Locator) jest standardem odwoywania si do zasobw (niekoniecznie
stron WWW) w sieci Internet. Jednoznacznie precyzuje on gdzie dany zasb mo na znaleD*.
 Rysunek 3. Indeksowany przez wyszukiwarki procent istniej$cych zasobw WWW. Dane pochodz$ z roku 1999,
przy czym tendencja jest malej$ca - serwisy nie nad$2aj$ za rozwojem Sieci. 4rdo: [LaGi]
Rysunek 4. Procentowy udzia ámartwychÑ odnonikw dla r2nych wyszukiwarek.
Dane ukazuj$ procent w caym wyniku, jak i w pierwszych 400 odnonikach. 4rdo: [SESD]
Jak wic brzmi odpowiedD na pytanie gdzie szuka* by znaleD*, a najlepiej jeszcze w krtkim
czasie? Po pierwsze nie mo na przywizywa* si tylko do jednej wyszukiwarki i nale y prbowa*
wszystkich, ktre s dostpne. Pokrycie zaindeksowanych fragmentw sieci nawet midzy najwikszymi
serwisami jest nadal do(* niskie (dla zapytania skierowanego do 14 r nych wyszukiwarek, okoo 30%
[ Pobierz całość w formacie PDF ]
  • zanotowane.pl
  • doc.pisz.pl
  • pdf.pisz.pl
  • losegirl.htw.pl