viernes, 16 de mayo de 2008

Sistemes de cerca a Internet (web search engines)

Es pot dir que Internet ha democratitzat el flux de la informació entre productors i consumidors. Actualment tothom pot obtenir informació però també produir-la i posar-la a l'abast de la resta d'usuaris de manera senzilla. El nombre de pàgines web segueix creixent de forma constant des de fa anys, segons un estudi d'IBM, el nombre de pàgines accessibles creix un 300% cada any (Doug Elix, [1]). La gran quantitat d'informació disponible és un atractiu més de la xarxa Internet, a pesar dels problemes evidents de manteniment i fiabilitat d'aquesta informació. Aquest fet determina que un dels principals usos que fan d'Internet els usuaris és la cerca d'informació per paraules clau, és a dir, buscar aquelles pàgines web que continguin uns certs termes, esperant trobar pàgines amb informació rellevant d'acord amb els termes de cerca. Per a
això s'utilitzen sistemes de cerca genèrics que permeten fàcilment realitzar aquesta tasca. Es poden destacar diversos sistemes de cerca: Yahoo, Lycos, Altavista i el que sembla ser el més usat, Google, a causa de la seva major rapidesa i major nombre de pàgines web trobades. També existeixen altres sistemes de cerca que s'anomenen meta-cercadors, sistemes que utilitzen més d'un cercador i mostren els resultats de forma resumida i ordenada. Una recopilació molt interessant de cercadors i meta-cercadors pot trobar-se en el projecte Spire [2], que resumeix tres fets que han de
considerar-se clau per a realitzar recerques a Internet: usar més d'un cercador, cap cerca és realment exhaustiva, i diferents tipus de cerca requereixen diferents sistemes de cerca.
Encara que antic des del punt de vista del món informàtic (és de l'any 1998), l'article de Sergey Brin i Lawrence Page [3] amb la proposta sobre l'estructura d'un nou sistema de cerca anomenat Google és molt interessant per dues raons: primer, descriu l'estructura interna i els detalls de l'arquitectura de Google, així com el sistema de puntuació utilitzat per a ordenar les pàgines oposades, i segon, permet veure com en només cinc anys les prediccions sobre el volum i necessitats per a la implementació del sistema de cerca s'han quedat desfasades, tal com es pot veure en un article recent on es descriu l'arquitectura interna actual de Google [4].

[1] http://wcit2002.dev.ignition2.com/repositories/files/2002031414374796/Elix.pdf
[2] http://spireproject.com/webpage.htm
[3] http://www7.scu.edu.au/programme/fullpapers/1921/com1921.htm
[4] http://www.computer.org/micro/mi2003/m2022.pdf

No hay comentarios: