2 novembre 2007  11

Mettere in qualità il PageRank: riflessioni e osservazioni

Web 2.0 / Tecnologia 

Google Pagerank Mettere in qualità una collezione di dati significa a grandi linee definire degli standard procedurali da applicare per la loro omogeneizzazione: in parole povere definire delle specifiche rigide ed univoche che ne consentano il prelievo, la catalogazione e l'ordinamento. Con queste premesse vorrei analizzare quelle che, allo stato dell'arte, sono le caratteristiche che consentono il calcolo del Google PageRankW (da questo momento in poi PR) di un sito web, anzi, per essere più precisi, che consentono l'attribuzione di esso ad ogni singola pagina, dato che non è semanticamente corretto assegnare al sito stesso un valore che risulta dalla media matematica dei singoli PR.

Il calcolo del PR si basa su una formula matematica relativamente semplice, basata sostanzialmente sul calcolo del numero dei link in ingresso relativi ad una determinata pagina, pesato in base al PR stesso delle pagine che li hanno prodotti. In sostanza Google calcola il PR di una pagina non solo in base alla sua "popolarità", ovvero quante citazioni ha ricevuto da altrettante fonti, ma anche in base alla sua "autorevolezza", calcolata in base al valore del PR delle fonti stesse.

Il meccanismo, quindi, è molto simile a quello della "link popularity" usato per esempio da Technorati, che lo chiama, nel caso dei blog, "reaction", ma più raffinato perchè tiene conto anche della popolarità della fonte.

A questo punto è necessario analizzare il meccanismo di selezione dei link in ingresso: se infatti si parla di fattori come "popolarità" e "autorevolezza" bisognerebbe definire delle specifiche rigorose.

Consideriamo alcuni fattori:

  • Esiste una selezione nel calcolo dei backlink ? Apparentemente no: infatti vengono presi e valutati tutti allo stesso modo sia che puntino ad una pagina specifica relativa ad un dominio che al suo stesso indirizzo radice (vale a dire la home page).
  • Viene fatta una distinzione o una scrematura in base al dominio di provenienza ? Anche in questo caso sembrerebbe di no: lo stesso sito può, da pagine diverse, contenere link allo stesso dominio o pagina diretta, e fornirgli quindi più link in ingresso. Se le pagine del sito in questione, hanno un PR elevato, potrebbero potenzialmente distribuire ad uno stesso sito maggiore PR.
  • Esiste un controllo sulla circolarità dei backlink ? Anche qui si presenta una forte incognita, ma la risposta è molto probabilmente no. Infatti è possibile per un sito farsi linkare e linkare successivamente la sua fonte, naturalmente da pagine diverse, concorrendo quindi ad un aumento reciproco delle citazioni in ingresso.

 Alla luce di ciò, forse sarebbe possibile inserire alcuni correttivi:

  • Una citazione dovrebbe essere relativa sempre e solo una pagina specifica e non ad un dominio generico: indicando la pagina specifica, si puntualizzerebbe in maniera abbastanza rigorosa la preferenza per l'argomento in essa contenuto. Il link al dominio generico infatti costituisce a tutti gli effetti un'indicazione di massima e non uno specifico interesse; in ogni caso sarebbe auspicabile attribuirgli un peso minore, se non nullo.
  • Se un sito riceve un backlink da un altro, automaticamente, il dominio di provenienza dovrebbe essere scartato da ulteriori possibili citazioni, anche da pagine diverse. Questo perchè la preferenza dovrebbe essere unica e non moltiplicabile (in caso contrario si avrebbe un paradosso, come se, nella vita reale, un elettore potesse esprimere più preferenze per lo stesso partito, votando in seggi differenti)
  • Controllo dei link circolari: se presenti valutarli come un singolo peso da entrambe le parti.

Non è stato volutamente trattato l'argomento relativo ad un possibile utilizzo più sanzionatorio della proprietà rel="nofollow" ai link: è un meccanismo che non ho mai condiviso appieno e che, pensato principalmente per la lotta allo spammingW dei commenti, nè migliora nè peggiora il proliferare di questi ultimi.

L'analisi effettuata è solo un primo approccio. Un'esperienza più approfondita si potrebbe ottenere solo tracciando ed analizzando le migliaia di dati reali che passano nei database di Google. Compito gravoso: meglio affidarlo agli addetti ai lavori e limitarsi a commentare come semplici fruitori.

Esprimi il tuo giudizio

Commenti (11) -

Traffyk
Traffyk
03 nov 2007 alle 16:50  01
Ciao Cristiano condivido in pieno le tue ipotesi.. quasi quasi sostituirei la voce pagerank su wikipedia con questo tuo articolo ;) Purtroppo il problema è che quando scrivi articoli troppo completi poi pochi commentano ma sono sicuro che questa pagina la leggeranno in molti essendo un argomento considerato caldo Smile

PS: lo sai che anche Yahoo adotta un pagerank? Non rileva la differenza tra link followed e non ed io ho addirittura una pagina pr 9 solo che non riesco a capire dove si veda (me lo segnala linklift) e varie pagine con pr molto alti, la scala è sempre da 0 a 10.
Che dici magari si potrebbe approfondire sull'algoritmo "rivale" ?
Cristiano
Cristiano
03 nov 2007 alle 17:38  02
@Traffyk:
sei troppo generoso Smile
Riguardo l'eccessiva completezza non sei il solo ad avermelo fatto notare: una cara amica ieri mi ha invitato a "non sprecarmi" troppo nei miei articoli, per alimentare successivamente la discussione con i commenti. Raccolgo senz'altro il consiglio di entrambi.
Per ciò che concerne il "pagerank" di Yahoo mi stavo giusto documentando: si vede che siamo sulla stessa lunghezza d'onda. ;)
giovanna
giovanna
03 nov 2007 alle 19:06  03
ciao Cristiano,
interessante...  Non mi sono mai occupata di PR, ora almeno ne so qualcosa! Smile
Mi pare di poter condividere le tue osservazioni-correttivi.
Ti ringrazio per le info!
a presto Smile
g.
annarita
annarita
04 nov 2007 alle 02:46  04
Interessante, come al solito, il tuo post, inoltre chiaro,  dettagliato e scritto in un italiano ammirevole. Ciò nonostante, caro Crisitiano, la questione del PR continua ad essere  per me poco convincente.

Da quel che mi pare di aver compreso, il numero di accessi ad un sito non viene tenuto in considerazione da Google o almeno scarsamente. Per esemplificare, prendiamo il caso dei miei due blog didattici e di websomethingelse hanno tutti e tre PR=4 (che mi dicono non essere disprezzabile) al pari di altri siti che hanno un numero di accessi vertiginoso rispetto ai miei accessi. Addirittura il mio tumblr con 9 link in ingresso e appena 1000 accessi in totale ha PR=3!

No, questo algoritmo non mi convince nonostante tutte le buone spiegazioni fornite.
Cristiano
Cristiano
04 nov 2007 alle 14:13  05
@Annarita:
Il numero di accessi ad una pagina NON può essere considerato ai fini del calcolo del PR della pagina stessa per il semplice motivo che è un valore (permettimi l'espressione) facilmente TAROCCABILE.
E' abbastanza semplice scrivere un applicazione che, dato l'URI di una pagina, la bombardi di richieste HTTP simulando anche provenienze da IP differenti per simulare visite uniche.
Sulle anomalie del calcolo del PR se ne può discutere per ore: sappi comunque che se una pagina ha PR altissimo e questa contiene un link ad un'altra con PR basso o nullo, basta SOLO quel link per aumentargielo anche in maniera significativa.

Esempio concreto: il mio blog aveva PR 0 (zero) fino a qualche giorno fa: appena è stato linkato un mio articolo da Apogeonline (quindi con UN solo link), il PR è passato subito a 1 ... interessante, no ?
annarita
annarita
04 nov 2007 alle 15:37  06
Però che tristezza taroccare gli accessi! Sì,Cristiano, posso capire la distribuzione del PR da un sito che lo ha elevato ad un altro che lo  ha più basso. Ma nel caso del mio tumblelog  non ci sono link di ritorno da siti ad alto PR e comunque questo è uguale a 3.......mhhh non è tutto così lineare!
Cristiano
Cristiano
04 nov 2007 alle 15:47  07
@Annarita:
... appunto, non è lineare ! Qualcosa andrebbe corretto: e perchè non farlo avvalendosi della collaborazione degli utenti della rete, raccogliendo suggerimenti, idee e quant'altro ?
Non è forse questo l'obiettivo del WEB 2.0 ?
O forse il vero obiettivo di Google è di condurre lei i giochi ? Frown
Daniele Salamina
Daniele Salamina
04 nov 2007 alle 17:58  08
Cristiano il blog sembra che manchi il tema ? Cosa succede ? Wink
Cristiano
Cristiano
04 nov 2007 alle 18:35  09
@Daniele:
purtroppo è un problema di Aruba. Non so perchè ma in questi giorni ci sono delle grosse difficoltà di accesso alle pagine del mio sito: vengono caricate con tempistiche inaccettabili e a volte non vengono caricate affatto causando timeout.
Ho anche aggiornato il motore di BlogEngine.NET ad una release di sviluppo (quindi non uff. rilasciata) pensando che fosse un problema di tipo applicativo (anche se in locale funziona perfettamente): niente.
Adesso ho risolto disattivando la compressione del CSS in caricamento pagina: purtroppo è una funzionalità che consentiva un risparmio del 30% sul tempo di rendering.
Ovviamente Aruba ha dei tempi di risoluzione biblici ...
Mi scuso con tutti coloro che mi seguono: scriverò un post in merito.
Ti ringrazio per la segnalazione, non sei l'unico ad essertene accorto Smile
Daniele Salamina
Daniele Salamina
14 nov 2007 alle 19:52  10
Quello che posso dire è che con Google niente è lineare! Quello che pensi di aver capito dopo diverse letture in realtà si rileva falso dopo un pò di giri... io ci ho rinunciato!
annarita
annarita
14 nov 2007 alle 20:20  11
@Daniele: mi convinco sempre di più, anche se nella blogosfera ci sono entrata da poco, che tu abbia ragione, Daniele!

Aggiungi Commento

biucitecode
  • Commento
  • Anteprima
Loading


| |   |  

Codice QR

Codice QR - cristianofino.net

Ultimi Commenti