February 2005


23 febbraio 2005 Latent Semantic Indexing. Il motore di ricerca ideale? - SECONDA PARTE - Una correzione 'umana' a monte e una questione aperta E’ qui che interviene il fattore umano a cui abbiamo accennato nel precedente paragrafo. Chi può sapere che in una pagina web di geografia è difficile che non si parli della regione quando si parla della provincia e che invece in una pagina web che tratta dei frattali sia normale che non venga citato il termine “matematica”? Evidentemente lo può sapere solo un uomo. E chi può sapere che il termine “dittatore” è sinonimo di “despota”? Chi può sapere che il melanoblastoma è un tipo di tumore e non che il tumore è un tipo di melanoblastoma? Non tratteremo in questo articolo dell’effettiva applicazione di un’archiviazione a Thesaurus a un motore di ricerca che si basa sul LSI, lasciando aperta la discussione per future trattazioni. Quello che possiamo certamente dire è che il LSI ha il pregio di cercare di avvicinarsi il più possibile all’area dei significati piuttosto che di rimanere ancorato ai “significanti”, ma non
23 febbraio 2005 Latent Semantic Indexing. Il motore di ricerca ideale? - SECONDA PARTE - Applicazione del LSI nei motori di ricerca Dopo avere analizzato forse troppo superficialmente gli elementi basilari del LSI, possiamo tornare al focus del nostro articolo, ovverosia l’applicazione di questa teoria alla pratica dell’attività di ricerca in Internet. Abbiamo detto che attualmente chi cercasse infatti con la keyword “Iraq” su Google non troverebbe motori di ricerca, anche il potentissimo Google, 'ragionano' solo in termini di presenza della keyword cercata; be nella SERP nessun sito che non contenga la parola-chiave “Iraq”. Con il sistema di LSI avremmo invece a disposizione anche una serie di pagine web che “hanno a che fare” con l’Iraq senza citare il termine Iraq; documenti su Saddam Hussein, sulla guerra del Golfo, sull’embargo petrolifero, sull’atavica contrapposizione tra sciiti e sanniti, etc. Senza dubbio, possiamo dire che il primo risultato, riprendendo le tre esigenze del 'web searcher' di cui parlavamo all’inizio dell’articolo, sarebbe una maggiore ampiezza dei risultati di ricerca. Il problema che ora si pone è quello della precisione, ovverosia l’assenza di documenti che nulla hanno a che fare con la keyword/keyphrase
23 febbraio 2005 Latent Semantic Indexing, Il motore di ricerca ideale? - SECONDA PARTE - Il LSI 'al lavoro' Prendiamo come esempio una pagina web, che è molto simile a una pagina di una rivista: contiene testo e immagini e il testo può essere maiuscolo, minuscolo, sottolineato, corsivo etc. Ora, in una pagina web (o di una rivista) moltissimi dei termini contenuti non sono utili per la defizione della sua area semantica. Il linguaggio naturale è pieno di ‘ridondanze’ e non tutte le parole che appaiono hanno un significato in sé; in tutte le lingue indoeuropee la maggior parte delle parole utilizzate sono parole funzionali, congiunzioni, preposizioni, pronomi, verbi ausiliari, etc. La prima operazione che deve essere utilizzata in fase di LSI è quella di eliminare tutti questi termini, in quanto inutili e ostacolo per l’analisi semantica della pagina, lasciando soltanto cioè che è veramente significativo. Quindi, data una pagina web si debbono: - Eliminare gli articoli, le preposizioni e le congiunzioni - Eliminare i
23 febbraio 2005 Latent Semantic Indexing, Il motore di ricerca ideale? - SECONDA PARTE - La TDM (Term Document Matrix) La TDM è una griglia che rappresenta ogni termine contenuto in un documento. Abbiamo visto sopra come un documento (una pagina web), scritto in linguaggio naturale, sia 'ridotto' ai suoi elementi essenziali. La TDM viene generata disponendo la lista di tutti i termini sull’asse verticale e disponendo la lista di tutti i documenti (le pagine web) sull’asse orizzontale. Non è necessario che venga rispettato un qualche ordine anche se normalmente sarà utilizzata una disposizione alfabetica. La TMD sarà quindi composta disponendo sull’asse verticale tutte i termini che lo compongono, una volta eliminate le parole non ritenute utili. Nella matrice, ovviamente, la presenza del termine nella pagina web sarà indicata con 1, mentre l’assenza sarà indicata con 0. Pagine Web 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
15 febbraio 2005 Latent Semantic Indexing. Il motore di ricerca ideale? - PRIMA PARTE - Internet sarebbe immaginabile senza market place; sarebbe immaginabile senza e-mall; anche senza siti porno sarebbe immaginabile; ma Internet non sarebbe immaginabile senza motori di ricerca. Tutti utilizzano i motori di ricerca; più del 90% degli user, durante una sessione di navigazione, utilizza i motori di ricerca e tutti i responsabili di siti web, dai webmaster di siti minuscoli ai direttori di grandi portali, sanno bene che il loro traffico, la loro clientela (da un punto di vista commerciale) sarebbero decimati se non esistessero i nuovi utenti provenienti dai motori di ricerca. Nei racconti fantascientifici di qualche decennio fa, si ipotizzavano navicelle spaziali 'casalinghe', autostrade sopraelevate di centinaia di metri dal suolo della città, sistemi di teletrasporto, di 'navigazione' nel tempo etc. Nessuno di questi autori ha mai però pensato a quella che è stata veramente la rivoluzione della fine dello scorso millennio: la possibilità di accedere a informazioni sino a pochi anni o pochi mesi prima irraggiungibili; la possibilità di essere collegati e di comunicare contemporaneamente in tutto il mondo istantaneamente: in sostanza, nessuno
15 febbraio 2005 Latent Semantic Indexing. Il motore di ricerca ideale? - PRIMA PARTE - Google come Altavista? A prescindere dall'importanza data da Google ai link (inbound, outbound, interni, etc), Google 'ragiona' (proprio come Altavista) per parole-chiave; non sono più le keyword contenute nelle TAG dell'HTML della pagina web, ma sono le keyword contenute o nell'url o nel testo della pagina o negli anchor che linkano al sito. Fate una qualsiasi ricerca su Google, per esempio: "Saddam Hussein"; potrete scorrere centinaia di risultati di ricerca ma non troverete un solo link a una pagina che non contiene i termini "Saddam" e "Hussein". Tralasciando i temi di ranking, ovverosia del 'peso' che viene dato a ciascun sito nella visualizzazione delle SERP (Search Engine Results Page), il legame tra il termine utilizzato nella query (ricerca) e quello che appare nei risultati visualizzati è evidente. Possiamo pacificamente dire che Google (come tutti gli altri motori di ricerca) 'ragiona', 'seleziona', 'visualizza' per keyword/keyphrase.
15 febbraio 2005 Latent Semantic Indexing. Il motore di ricerca ideale? - PRIMA PARTE - Il Thesaurus, una classificazione per keyword/keyphrase A dire il vero, ci sono biblioteche dove la CDD non è affatto usata e dove invece è utilizzata la ricerca attraverso thesaurus, ovverosia attraverso parole-chiave; si tratta per lo più di biblioteche specialistiche, che trattano di argomenti molto specifici: armi da fuoco antiche, farmacologia, psicologia sociale e così via. In queste biblioteche specialistiche, il sistema di classificazione avviene per parole-chiave (keyword) o per frasi-chiave (key-phrase). Ad ogni documento (normalmente un libro) sono associate delle keyword o keyphrase, non più di dieci o quindici. Per fare un esempio: un libro che parla di William James avrà assegnate le seguenti keyword/keyphrase: William James, Pragmatismo, Filosofia Americana, Charles Sanders Peirce, Evoluzionismo, Charles Darwin, Filosofia dell’ottocento, Henry James, etc. Dietro a questa classificazione c’è un lavoro esclusivamente 'umano', ovverosia non meccanico o automatico; c'è un uomo, o una donna, una persona in carne ed ossa, che prende in mano un libro, ne guarda l'indice, lo sfoglia, analizza i capitoli, i paragrafi etc. e decide quali keyword/keyphrase assegnargli; ogni volta che quest'uomo
08 febbraio 2005 L'importanza degli internal links per una buona SEO Ancora oggi, tutti i webmaster guardano a Google come al maggiore clicks provider sul mercato internazionale; i motori di ricerca sono tanti, i portali sono ancora di più, ma, quando qualcuno guarda le statistiche del proprio sito, vede bene che più di due terzi del traffico (come minimo) di nuovi utenti è proveniente da Google. Questo ha portato tutti i webmaster interessati a una buona indicizzazione e a un buon posizionamento a prestare una grandissima attenzione a quello che, giustamente, viene considerato il 'killer point' di ogni buona google otpimization, ovverosia gli inbound link (link in entrata sul proprio sito). Si può parlare di una vera e propria 'ossessione' di Google per il peso che viene dato da Google ai link in entrata e questa 'ossessione' è stata trasferita lentamente ma inesorabilmente a tutti i webmaster che vogliono ottenere traffico dal più grande motore di ricerca del mondo. Non c'è dubbio che avere tanti e buoni inbound link è per Google una delle cose più importanti, se non la più importante, ma è altrettanto vero che ci sono tanti altri fattori da considerare e che fra questi ci sono gli "internal links". Il principio di valutazione degli
08 febbraio 2005 L'importanza degli internal links per una buona SEO Un altro consiglio che ci sentiamo di dare pacificamente a tutti coloro che sono interessati a un buon posizionamento nei motori di ricerca (non solo in Google) è quello di pubblicare una mappa del sito, ovvero una 'hub page' dalla quale l'utente possa passare, con il minor numero di click anche alle pagine più 'profonde' del sito. Questa mappa è utilissima per il navigatore che ha così la possibilità di vedere sinotticamente tutte le parti e le pagine del sito e allo stesso tempo è un ottimo aiuto per il motore di ricerca che ha così la possibilità di spiderare, indicizzare e posizionare il maggior numero di pagine del sito in oggetto con il minimo sforzo. Anche il "foot links" sono senza dubbio apprezzati dai motori di ricerca (in primis, Google). Non bisogna essere parchi di link a piè delle pagine di un sito; è sempre consigliabile inserire i link alla home page, al "chi siamo" e a tutte le sezioni principali del sito; da queste pagine si dovrebbe poi potere arrivare a tutte le pagine del sito. Un sito troppo 'profondo' non è mai visto di buon occhio dai motori di ricerca dal momento che i
01 febbraio 2005 Quando Google ti lascia 'nella sabbia' Da ormai qualche mese si sente parlare sempre più spesso di nuovi 'filtri' applicati da Google per evitare fenomeni di spamming (o di spamindexing, per essere più precisi). Semplificando la rivoluzionarietà di Google, possiamo dire che essa è rappresentata dalla maggiore valutazione delle variabili 'off the page' rispetto a quelle 'on the page'; queste ultime sono tipicamente rappresentate dalle tag delle pagine html; le variabili 'off the page' sono invece fondamentalmente gli inbound links (link in entrata) e gli outbound links (links in uscita). I motivi che hanno spinto i fondatori di Google a questa modifica sono principalmente due. In primis, si è ritenuto che i link (inbound) sono una sorta di 'voto' che altri siti danno a un sito; più sono questi link e maggiore è il 'peso' dei siti da cui questi siti provengono, più alto sarà il voto dato al sito in oggetto e meglio esso dovrà essere posizionato nei risultati di ricerca; a questa considerazione se ne aggiungeva un'altra: mentre un webmaster può, in tutta autonomia, modificare i fattoti 'on the page' (presenza di testo attinente con il title, le meta keyword etc.), lo stesso non sarebbe potuto accadere con i fattori off the page. In breve, mentre è semplicissimo cambiare il title di una

Next Page »