\\ Home Page : Articolo : Stampa
Come Google raccoglie , valuta e posiziona i risultati
Di Admin (del 21/02/2006 alle 10:30:49, in Web Marketing, letto 1350 volte)
Tratto da www.cached.it
Come fa Google a decidere i risultati delle sue serp ? Alcunde delle domande più frequenti che mi faccio quasi tutti i giorni sono: come farà Google a stabilire i risultati per il posizionamento ? In base a cosa decide chi sta in prima pagina e chi in seconda ? Ho iniziato a cercare informazioni,dati,risultati ed esperienze personali e vi faccio una sintesi della mia ricerca. Vi posso dire che prima di vedere i dati che compongono i risultati di una pagina di ricerca molti fattori devono accadere e molti eventi capitare. Il primo step è la lettura dei miliardi di pagine indicizzate da Google. Questo lavoro viene fatto dal Googlebot che collega i nostri testi con i suoi server. Il bot non incamera direttamente le informazioni che compaiono nelle pagine dei siti web, ma bensì passa prima al suo server (o datacenter) gli hyperlink che sono scritte nella pagina per controllare se ci sono nuovi documenti da incamerare. A questo punto passa la fase di analisi che nella quale lo spider assegna ad ogni pagina un numerou univoco in modo da potersi riferire direttamente alla pagina indicizzata. Il bot immagazzina una quantità enorme di documenti, ma questi non sono immediatamente disponibili perchè non è ancora presente un indice per la ricerca. Infatti senza un indice, se noi cercassimo un termine come sistema solare i server dovrebbero leggere il testo completo di ogni documento ogni volta che viene cercato. Così il passo successivo sarà quello di creare un indice. Per fare questo dobbiamo invertire i dati dello spidering: invece di dovere esplorare ogni parola per ogni documento, il sistema in automatico crea l'indice dove ogni parola è presente. Ad esempio la parola "sistema" potrebbe essere nei documenti 3, 8, 22, 56, 68 e 92 e mentre la parola "solare" potrebbe trovarsi nei documenti 2, 8, 15, 22, 68 e 77. Una volta che l'indice viene realizzato, dobbiamo aspettare l'allineameto dei documenti sui datacenter e quanto il motore con i suoi algoritmi li riterrà relativi e pertinenti per la ricerca. Supponiamo di andare in Google e digitare la nostra chiave di ricerca : sistema solare Mi potrebbe venir mostrato le pagine che contengono la query che ho appena digitato in qualunque parte del testo Le pagine ordinate per rank Hanno sviluppato un sistema per velocizzare il punto 1. Anzichè usare un supercalcolatore che abbia sopra l'intero indice hanno preferito suddividere il lavoro su centinaia di computer, questo perchè dividendo il carico di lavoro su più macchine de-localizzate il risultato ci perverrà più velocemente. Proviamo a fare un esempio: supponiamo che dobbiamo trovare informazioni scritte su un libro di 30 pagine, una persona da sola ci metterebbe da sola alcuni secondi, ma se fossero tante persone a fare questa ricerca il tempo diminuerebbe notevolmente.Allo stesso modo Google suddivide i suoi dati su molte macchine proprio per trovare i documenti con una corrispondenza più veloce. Ma perchè allora ha scelto una pagina anzichè un'altra ?La parola sistema era nei documenti 3, 8, 22, 56, 68 e 92 e la parola solare invece era in quelli 2, 8, 15, 22, 68 e 77. Incrociamo i documenti e vediamo quali hanno entrambe le parole: Sistema 3 8 22 56 68 92 Solare 2 8 15 22 68 77 entrambe le parole 8 22 68 Organizzando i documenti in questo modo si noterà che le parole "sistema" e "solare" compaiono solo in 3 documenti (8,22 e 68). La lista dei documenti che contiene solo una parola è definito "posting list" mentre quella che contiene entrambi i termini è chiamata "intersecting a posting list" . I risultati per ranking Ora noi abbiamo un certo numero di pagine che contengono i termini ricercati dall'utente in qualunque parte della pagina e con queste pagine Google dovrà decidere la rilevanza che deve dare alla pagina per farla uscire nella serp. Google usa molti fattori per il ranking. Meglio conosciuto come Pagerank (PR) . Principalmente il Pagerank valuta 2 cose: Quanti link riceve la pagina da noi considerata Qualità di questi link Questo cosa significa ? Significa che se un sito riceve anche solo 5 o 6 link da siti autorevoli come repubblica.it, html.it, dmoz od altri siti Autorevoli avrà molta più considerazione che non con svariate decine di link da guestbook o dalle firme nei forum. Comunque ci sono molti altri fattori che determinano il pagerank di un sito. Per esempio se un documento contiene entrambe le parole "sistema" e "solare" seguito da altri termini pertinenti, sarà più rilevante di un documento che discutete di un "sistema abbronzante basato su filtro solare". In oltre una pagina che include nel titolo la frase "sistema solare" verrà considerata più pertinente e rilevante. Così come il numero di volte che le parole "sistema" e "solare" compariranno nella pagina avrà importanza per il rank della pagina. Come regola Google prova a trovare pagine che hanno sia reputazione che rilevanza. Se 2 pagine appaiono con entrambe le caratteristiche, salirà nelle posizioni quella che riceve link da siti più autorevoli. Ad esempio una pagina dedicata completamente al sistema solare è spesso più utile che un articolo che nomini tale frase su un sito più autorevole (es. Repubblica). Questo cosa significa ? Significa che se anche ho un sito con pochi link e con un pr basso quello che conta per salire nelle serp di Google sono in contenuti delle pagine che scriviamo. Una volta che è stata creato l'indice ed il suo "punteggio", vengono mostrati i documenti partendo da un più alto punteggio per scendere verso documenti meno rilevanti. Come si può ben vedere far funzionare un motore di ricerca richiede molte risorse di computo e di calcolo. Per ogni ricerca che ognuno di noi tutti i giorni esegue più di 500 computer lavorano per cercare i documenti migliori e tutto questo accade entro il secondo.