Tue 15 Feb 2005
15 febbraio 2005
Latent Semantic Indexing. Il motore di ricerca ideale?
- PRIMA PARTE -
Il Thesaurus, una classificazione per keyword/keyphrase
A dire il vero, ci sono biblioteche dove la CDD non è affatto usata e dove invece è utilizzata la ricerca attraverso thesaurus, ovverosia attraverso parole-chiave; si tratta per lo più di biblioteche specialistiche, che trattano di argomenti molto specifici: armi da fuoco antiche, farmacologia, psicologia sociale e così via. In queste biblioteche specialistiche, il sistema di classificazione avviene per parole-chiave (keyword) o per frasi-chiave (key-phrase). Ad ogni documento (normalmente un libro) sono associate delle keyword o keyphrase, non più di dieci o quindici. Per fare un esempio: un libro che parla di William James avrà assegnate le seguenti keyword/keyphrase: William James, Pragmatismo, Filosofia Americana, Charles Sanders Peirce, Evoluzionismo, Charles Darwin, Filosofia dell’ottocento, Henry James, etc. Dietro a questa classificazione c’è un lavoro esclusivamente ‘umano’, ovverosia non meccanico o automatico; c’è un uomo, o una donna, una persona in carne ed ossa, che prende in mano un libro, ne guarda l’indice, lo sfoglia, analizza i capitoli, i paragrafi etc. e decide quali keyword/keyphrase assegnargli; ogni volta che quest’uomo (non sempre lo stesso ovviamente) analizzerà un testo da classificare, e vedrà che esso tratta di William James, gli attribuirà la keyphrase "William James"; quando arriverà un ‘utente’ interessato a documenti (libri) che trattano di William James, gli sarà sufficiente cercare con questa keyphrase e potrà visualizzare tutti i documenti; in questo caso molti potranno essere non filosofici, ma psicologici, oppure letterali, dando quindi un output ‘trasversale’ rispetto a quello che si sarebbe potuto ottenere solo attraverso una ricerca con la Classificazione Decimale Dewey.
Purtroppo, come abbiamo sopra ricordato, queste biblioteche che funzionano con una ricerca a Thesaurus sono tipicamente specialistiche e quindi il principio della trasversalità è più teorico che effettivo. Possiamo però dire che, se da un secolo a questa parte tutti i libri di tutte le biblioteche fossero stati classificati anche con questo sistema (oltre che con la CDD), oggi sarebbe molto più semplice rintracciare i testi che parlano di un autore, un argomento, una battaglia, etc., a prescindere dalla loro catalogazione ‘generica’ (libri di storia, di pedagogia, di filosofia, etc.).
Un pò di storia dei search engine
Nei primi anni’90 Internet è cominciato a essere conosciuto dal vasto pubblico e sono nati i motori di ricerca. Il sistema di ‘document retrieval‘ utilizzato dai motori di ricerca è sempre stato molto simile a quello delle biblioteche che utilizzano un thesaurus, dal momento che è fondato sulle keyword/keyphrase. La differenza tra un thesaurus bibliotecario e un motore di ricerca sono due; nel primo caso esiste uno staff di persone (o anche una sola persona) che decide quali keyword attribuire a ciascun documento, mentre per quanto riguarda i motori di ricerca sono gli stessi autori del sito ad attribuire le keyword; in secondo luogo, mentre nel caso di un thesaurus aziendale esiste un vero e proprio ‘libro’ che contiene tutte le keyword/keyphrase e relative relazioni, questo non accade nei motori di ricerca. Fatte queste debite distinzioni, che riprenderemo in seguito nella nostra analisi, possiamo dire pacificamente che il meccanismo dei motori di ricerca è molto più simile a un funzionamento ‘a thesaurus’ piuttosto che con la Classificazione Decimale Dewey.
Il primo motore di ricerca ‘popolare’ è stato Altavista. Altavista ’spiderava’ i siti del Web e ne raccoglieva le informazioni considerate necessarie; fra queste informazioni, avevano un ruolo privilegiato le meta keyword, ovverosia le keyword che gli stessi autori del sito avevano attribuito al proprio sito; quindi, quando un utente di Altavista cercava ‘William James’, visualizzava una lista di pagine all’interno del cui codice HTML era stata inserita la keyphrase "Wiliam James"; se un utente avesse cercato "William James libertà", sarebbero state visualizzate le pagine web contententi le meta keyword “William James” e “libertà”, o meglio le keyword "William", "James" e "libertà". Inutile dire che il sistema di output delle pagine web non era così semplicistico, ma possiamo affermare che il suo nucleo era proprio quello appena descritto.
Come è noto, finita la fase ‘naif’ di Internet, durata forse qualche mese, questo sistema di indicizzazione dei siti ha cominciato a mostrare delle forti lacune. I webmaster cominciavano ad attribuire ai siti delle keyword/keyphrase che non erano affatto attinenti con i contenuti del sito, al solo scopo di ottenere un maggiore traffico; siti pornografici inserivano fra le proprie meta keyword il termine "MP3" perché era una keyword molto ‘popolare’ e avrebbe quindi portato molto traffico, anche se non intenzionale. Dalla nascita di Altavista ad oggi è passato molto tempo, soprattutto molto "tempo internet", pari a decine di anni di un mercato consolidato della old economy e il meccanismo dei motori di ricerca si è modificato notevolmente. Oggi, il motore di ricerca leader non è più Altavista, ma Google. Non è argomento di questo articolo capire quali sono i meccanismi di funzionamento dello spidering, dell’indicizzazione e del posizionamento di Google, quello che però ci preme sottolineare è che, nonostante tutte le modifiche effettuate, il meccanismo che sta alla base del funzionamento di Google è il medesimo di quello di Altavista; la ricerca di documenti in Internet (siti) si basa ancora oggi sulle keyword/keyphrase.