Pri návrhu interfejsu vyhľadávania uplatníme model najlepšie výsledky sú na prvom mieste

Prof. PhDr. Soňa Makulová, PhD. 1. február 2011 v kategórii Informačná architektúra

Úvod

V roku 2010 vyšla publikácia Od Petra Morvilla a Jefferyho Callendera Search Patterns, ktorá vychádza z najnovších poznatkov a výskumov vo vyhľadávaní a pomôže nám pochopiť správanie používateľov pri vyhľadávaní informácií. Ak chceme navrhnúť úspešné vyhľadávanie, mali by sme vždy pri návrhu interfejsu vyhľadávania vychádzať zo správania používateľov. V publikácii autori rozlišujú 10 vzorov pri návrhu vo vyhľadávaní, ktoré vychádzajú z výskumov správania používateľov.

V januárovom čísle elektronického spravodaja sme v článku Návrh interfejsu vyhľadávania, ako jedného z najdôležitejších pilierov informačnej architektúry predstavili prvý vzor pri návrhu vyhľadávania, ktorým je automatické dopĺňanie a predpoveď dopytov (autocomplete a autosuggest). V dnešnom čísle elektronického spravodaja sa bližšie oboznámime s ďalším návrhom interfejsu pri vyhľadávaní, ktorý by sme mohli zhrnúť aj stručne, ako najlepšie výsledky sú umiestňované ako prvé.

Čo ovplyvňuje vyhľadávanie a usporiadanie dokumentov na výstupe

Uvedený problém môžeme formulovať aj ako problém relevancie a radenia dokumentov na výstupe. V prípade, že hľadáme viac všeobecnú informáciu, výsledkom býva väčšinou niekoľko tisíc záznamov, ktoré sú navyše nie vždy zoradené podľa miery relevancie.

Najväčším rozdielom medzi jednotlivými prieskumovými strojmi je veľkosť indexu, model indexovania webových stránok a mechanizmus radenia webových stránok na výstupe. V súčasnosti  prieskumové stroje určujú relevanciu na základe dvoch faktorov: tie, ktoré záležia od obsahu stránky a externých faktorov (Makulová, 2002).

Faktory vyplývajúce z obsahu stránky

  • Väčšina vyhľadávacích nástrojov analyzuje frekvenciu výskytu vyhľadávacích termínov v porovnaní s ostatnými termínmi v dokumente. Čím vyššia je frekvencia výskytu, tým sa dokument pokladá za relevantnejší. Pri výpočte sa berie do úvahy aj veľkosť dokumentu.
  • Počet termínov, ktoré vyhovujú rešeršnej požiadavke. Čím viac termínov vyhovuje rešeršnej požiadavke, tým získa stránka väčšie skóre.
  • Zriedkavosť výskytu termínov, spočíva v tom, že ak rešeršná požiadavka obsahuje termín so zriedkavým výskytom, vyššie skóre získa dokument, ktorý obsahuje aj tento termín, ako dokument, ktorý obsahuje všeobecné termíny.  
  • Váha podľa polí berie do úvahy aj umiestnenie vyhľadávacieho termínu v rámci dokumentu. Väčšiu váhu majú termíny umiestnené v titule, hlavičke a samozrejme v rámci meta prvkov ako termíny v tele textu.
  • Proximita termínov berie do úvahy vzdialenosť jednotlivých termínov. Čím je menšia, tým získa dokument vyššie skóre.
  • Niektoré vyhľadávacie nástroje berú do úvahy aj poradie, v akom používateľ naformuloval termíny na vyhľadávanie. Ak nájdený dokument obsahuje prvý termín, pripíše sa mu vyššia váha ako dokumentu, ktorý našiel iba druhý termín.
  • Varianty slov (pravostranné rozšírenie) - Niektoré vyhľadávacie nástroje dokážu rozlíšiť a nájsť aj kmene slov podobných s rešeršnou požiadavkou. Zväčšuje sa tým počet nájdených záznamov a frekvencia hľadaných termínov.
  • Rozlišovanie malých a veľkých písmen (case sensitivity) spočíva v tom, že prieskumové stroje hľadajú presnú zhodu medzi naformulovaným dotazom a jeho výskytom v dokumente.
  • Analýza dokumentov vyskytujúcich sa v databáze berie do úvahy asociáciu termínov, analýzu zhlukov a ďalšie lingvistické metódy.
  • Niektoré vyhľadávacie nástroje preferujú menšie dokumenty pred väčšími.
  • Do úvahy sa ďalej berie frekvencia aktualizácie webových sídiel. Čím je frekvencia častejšia a pravidelnejšia, tým sú stránky radené vyššie.
  • K dôležitým kritériám patrí aj dátum vytvorenia dokumentu, vyššie skóre získavajú novšie dokumenty.

Externé faktory

  • Popularita stránky spočíva v tom, že tie stránky, na ktoré vedie viac hypertextových spojení sa pokladajú za relevantnejšie. Popularita stránky sa vypočíta podľa počtu spojení vedúcich na túto stránku. Proti tomuto kritériu je pomerne veľa námietok. Správnejšie je brať do úvahy aj váhu stránky, z ktorej prichádzajú spojenia.
  • Popularita kliknutí (click popularity) spočíva v tom, že sa preferujú stránky s väčšou frekvenciou návštev.
  • Popularita podľa segmentov (sector popularity) spočíva v tom, že sídla, ktoré navštevujú určité demografické alebo sociálne skupiny majú prioritu. Tieto systémy vyžadujú informácie od používateľov stránok.
  • Hybridné vyhľadávacie nástroje, ktoré okrem prieskumového stroja obsahujú aj adresár väčšinou preferujú tie stránky, ktoré sa nachádzajú aj v adresári.
  • Na usporiadanie dokumentov na výstupe má veľký vplyv aj doména. Štatisticky je dokázané preferovanie domén com alebo org pred ďalšími doménami.
  • V poslednom čase sa stále viac využíva aj prístup na princípe spätnej väzby. Používatelia vyznačia na výstupe najrelevantnejšie dokumenty a pri najbližšej podobnej rešeršnej požiadavke sa najprv zobrazia tieto dokumenty. 

Najlepšie výsledky vyhľadávania sú umiestňované ako prvé

Všeobecne sa hovorí, že pri vyhľadávaní sme takí dobrí, ako prvé výsledky. Stále viac vyhľadávacích nástrojov sa snaží umiestniť na prvých miestach najrelevantnejšie výsledky. Dôvodom je aj skutočnosť, že podľa výsledkov výskumov publikovaných iProspect Blended Search Results Study (2008) 68% používateľov vyhľadávacích nástrojov kliká na výsledky vyhľadávania na prvej strane a  92% používateľov klikne na výsledky v rámci prvých troch strán. Znamená to, že je veľmi dôležité, aby sme sa umiestnili čo najvyššie vo výsledkoch vyhľadávania.

Na základe predchádzajúcich výskumov pozorujeme narastajúcu tendenciu kliknúť na prvú stranu 2008 (68%) v porovnaní s rokom 2006 (62%), 2004 (60%) a 2002 (48%).  Na druhej strane je stále menej používateľov ochotných si pozrieť výsledky za treťou stranou 2008 (8%) v porovnaní s rokom 2006 (10%), 2004 (13%) a 2002 (19%).

  2008 2006 2004 2002
Prvá strana nájdených záznamov 68% 62% 60% 48%
Prvé dve strany nájdených záznamov 17% 19% 20% 23%
Prvé tri strany nájdených záznamov 7% 9% 8% 10%
Viac ako tri strany nájdených záznamov 8% 10% 12% 19%


Tabuľka: Ako sa správajú používatelia pri klikaní na nájdené záznamy (iProspect Blended Search Results Study, April 2008).

Už z uvedeného je jasné, že používatelia majú predstavu, že najrelevantnejšie záznamy sú umiestňované ako prvé a podľa toho sa aj správajú. Túto taktiku plne podporuje väčšina vyhľadávačov, priam klasickým príkladom je Google.

Obr. Prvé záznamy na požiadavku informačná architektúra v Google

Obr. Prvé záznamy na požiadavku informačná architektúra v Google

Stratégia najlepšie výsledky sú zobrazované prvé je dôležité, aby bolo vyhľadávanie jednoduché, rýchle a relevantné. Preto stále viac vyhľadávacích nástrojov uplatňuje uvedenú stratégiu pri stanovení algoritmu pri vyhľadávaní. Algoritmus môže byť postavený na viacerých pilieroch.

Relevancia – tento algoritmus berie do úvahy relevanciu témy porovnávaním kľúčových slov v dotaze s obsahom dokumentu a metadátami. Do úvahy sa berie poradie termínov, ich blízkosť, lokácia, frekvencia, dĺžka dokumentu a pod. Často sa využívajú aj operátory Boolovej algebry. Relevancia býva často vyjadrená ako kompromis medzi úplnosťou a presnosťou.
Presnosť rešerše môžeme definovať ako pomer vyhľadaných relevantných dokumentov ku všetkým vyhľadaným dokumentom.
Úplnosť rešerše môžeme definovať ako pomer vyhľadaných relevantných dokumentov ku všetkým relevantným dokumentom. Znázorníme si to v nasledujúcej tabuľke.

Dokumenty Vyhľadané Nevyhľadané
Relevantné a b
Nerelevantné c d


Tabuľka na výpočet presnosti a úplnosti rešerše

Potom pre množiny dokumentov platia vzťahy:

Presnosť = a / (a + c) alebo pomer vyhľadaných relevantných dokumentov ku všetkým vyhľadaným dokumentov (vrátane nerelevantným).
Úplnosť  = a / (a + b) alebo pomer vyhľadaných relevantných dokumentov ku všetkým relevantným dokumentom.

Presnosť a úplnosť môžeme zlepšovať zjemňovaním a ladením rešeršnej požiadavky. Našou snahou je, aby sa blížila k číslu 1, ak ju vyjadríme percentuálne tak k 100%. Presnosť sa dá pomerne presne určiť, keď si prezrieme všetky nájdené záznamy. Horšie je to s úplnosťou, pretože môžeme iba veľmi ťažko odhadnúť, koľko relevantných dokumentov sa ešte v internete nachádza pri dnes niekoľko miliónových indexov.

Popularita - v súčasnosti predovšetkým vďaka rozvoju sociálnych sietí je popularita dôležitým kritériom, ktoré sa berie do úvahy pri radení záznamov. Typickým príkladom je Google PageRank, ktorý sme si predstavili v článku Význam PageRanku ako patentovanej techniky Google a jeho vplyv pri posudzovaní dôležitosti webovej stránky.

Podobné prístupy využíva Flickr (triedenie podľa počtu prezretí, záložiek, komentárov), Amazon (najviac predávané knihy), Martinus a pod.

Dátum - triedenie podľa dátumu je veľmi užitočné hlavne v prípade správ, e-mailov, vydaných publikácií a pod. Väčšinou používatelia preferujú, aby najnovšie záznamy boli umiestňované ako prvé.

Formát - triedenie podľa formátu predstavuje veľmi užitočný filter pri ladení a zjemňovaní rešerše.

Personalizácia - stále viac vyhľadávacích nástrojov umožňuje personalizáciu. Pod personalizáciou vyhľadávacích nástrojov rozumieme schopnosť webovej stránky zabezpečovať uspokojenie informačnej požiadavky používateľa na základe jeho profilu. Táto schopnosť môže byť jasne vyjadrená používateľom alebo je odvodená od správania sa používateľa pri vyhľadávaní informácií. Personalizované vyhľadávanie Google prispôsobí nájdené výsledky profilu používateľa, ktorý si sám nadefinoval. Tak napríklad ľudia zaujímajúci sa o rekreačné aktivity získajú iné záznamy na požiadavku “bass” (bas, basista ostriež) ako ľudia, ktorí v svojom profile nadefinovali hudbu.

Rôznorodosť - pri vyhľadávaní je veľmi dôležitá rôznorodosť, ktorou zabezpečujeme vysokú relevanciu záznamov a odstraňujeme duplicitné a nadbytočné záznamy.

Výskumy používateľov ukazujú, že títo preferujú relevantné, populárne a aktuálne výsledky. Preto je veľakrát namieste aj zásah editorov rôznych systémov. Uvedená služba je veľmi pekne naimplementovaná na stránkach National Cancer Institute. Ak si napríklad zadáme do políčka vyhľadávania lung cancer (rakovina pľúc), ako prvé dostaneme best bets (najlepšie tipy) pre rakovinu pľúc.

Obr. Na stránke National Cancer Institute sa využíva odporúčanie redaktorov na najlepšie časti webového sídla pre hľadané témy

Obr. Na stránke National Cancer Institute sa využíva odporúčanie redaktorov na najlepšie časti webového sídla pre hľadané témy

Podobný prístup nájdeme na stránkach mnohých predajcov kníh. Martinus napríklad ponúka najpredávanejšie a najželanejšie knihy za včerajší deň, týždeň a mesiac. Denník SME najčítanejšie články za určité časové obdobie a pod.

Záver

V dnešnom článku sme si predstavili stratégiu návrhu interfejsu najlepšie výsledky sú umiestňované ako prvé. Podľa nášho názoru vzhľadom na výskumy správania používateľov pri vyhľadávaní informácií ide o jednu z najdôležitejších stratégií. Pri návrhu algoritmu treba vždy vychádzať zo skúmania informačných potrieb používateľov webového sídla. Pretože platí, že spokojný používateľ nielenže na webovom sídle ostane, ale bude sa tam aj rád vracať.


Literatúra


a) iProspect Blended Search Results Study, (April 2008). [cit. 2011-01-28]. Available from: http://www.iprospect.com/premiumPDFs/researchstudy_apr2008_blendedsearchresults.pdf
b) Makulová, Soňa. 2002. Vyhľadávanie informácií v internete. Problémy, východiská, postupy.  Bratislava : EL&T, 2002. 376 s. ISBN 80-88812-16-X.
c) Morville, P., Callender, J.  2010. Search Patterns. 1. vyd. Sebastopol : O´Reilly Media, 2010, 180 s. ISBN 978-0-596-80227-1

Príspevok bol spracovaný v rámci grantovej úlohy KEGA 3/7275/09 Informačné štúdiá v podmienkach web 2.0 a nových technológií (INWENT).

Zdieľajte článok

Zasielajte mi nové články na e-mail:

Ďalšie články z kategórie Informačná architektúra

Buďte pripravení, že používatelia budú vyhľadávať informácie o Vašej univerzite aj na externých sídlach (Ako by mali vyzerať webové sídla univerzít)

1. august 2015

Úvod Webové sídla spoločností sú často prvým miestom, kde sa potenciálni klienti oboznámia s jej základným poslaním, históriou, štruktúrou a smerovaním....

Obsah webového sídla by mal zodpovedať vekovej hranici budúcich používateľov (Ako by mali vyzerať webové sídla univerzít)

1. júl 2015

Úvod Webové sídla spoločností sú často prvým miestom, kde sa potenciálni klienti oboznámia s jej základným poslaním, históriou, štruktúrou a smerovaním. Práve preto má stále väčší...

Spokojní klienti

Ceníme si dôveru mnohých významných klientov

Môžeme vám pomôcť?

Sme otvorení každej požiadavke. Radi využijeme naše skúsenosti vo váš prospech.