Link Analysis

Increasing use of blogs and forums for comments and reviews of products has driven companies to analyze them carefully. Users increasingly inquire the Web and are influenced by opinions and suggestions of other users.

Moreover, companies should not only focus on the users’ network but also relationship between websites and on the importance of every forum within the “blogosphere”. In fact, just like for web-users, we can classify blogs in the following way:

- “opinion leader”, these blogs influence the network

- “follower”, a blog influenced by surrounding network

- well-connected into network

- withdrawn, completely independent from Web

- renowned on Social Networks or having a good Google PageRank

- unknown in the Web

W. Pareto, through 80/20 rule, affirms that analyzing 20% of most important sources, it is possible to know 80% of the phenomenon.

Link analysis applied to the blogosphere focuses on this theme: it studies connections among websites (of a specific area), analyzing visibility on search engine, social shares and presence of links to/from other websites.

The process evolves in 4 phases.

1) It is necessary to surf the Net, exploring blogs to create a wide sample. The example reported below is on 41 blogs about comments and reviews on motorcycle.

2) Every single blog is then analyzed to provide some useful indicators about site:

- Google PageRank

- Number of links to the site

- Number of domains that link to the site

- Number of shares/likes on Social Network

- List of all links that point to the site

3) All of the above information is useful to understand the importance of each website within the Net. An N x N matrix (41 x 41 in this example) is the created, which describes links between websites, indicating the number of hyperlink of every blog to the others. All these links are put in a matrix M x 2, to list all the M connections among all the nodes of the network.

4) Subsequently, through applications specific for link analysis, it is possible to re-create the blogosphere and personalize it for our own aims.

The Motorcycle blogosphere we analyzed had these features:

- Oriented graphic

- node’s size depending of number of links

- node’s color depending of number of shares/likes on Social Network

- arrows’ size depending of number of links between blogs

Below is the graph of the blogosphere regarding motorcycles.

Blogosfera

Obviously it’s possible to enlarge the image and analyze every nodes of the network, focusing on rows, node’s features and position in the network.

Moreover link analysis produces some interesting and useful indicators to understand network connections and dynamics:

- in-degree: number of ingoing arrows

- out-degree: number of outgoing arrows

- betweeness centrality: skill of connection among different nodes (bridge capacity)

- closeness centrality: skill of interaction with other vertices

- eigenvector centrality: indicator of centrality in the network

- pagerank: score of the node in the blogosphere

- clustering coefficient: indicator of the presence of connections among close nodes

- reciprocated vertex pair ratio: ratio between ingoing and outgoing connections

It’s possible to affirm that link analysis is an ex-ante studying of blogs and websites, to understand blog dynamics even better.

This analysis can be very useful because it permits to focusing attention only on relevant websites (“opinion leader”) and to ignoring unknown blogs.

Otherwise another solutions is to introduce weight to posts of any blogs, according on their importance in the network.

Link Analysis

Il crescente utilizzo di blog e forum per esprimere commenti e recensioni su prodotti di ogni tipo, ha portato le aziende a analizzarli con sempre maggior attenzione. I clienti, prima dell’acquisto, si informano e navigano su internet, venendo influenzati da ciò che viene scritto sul Web.

Inoltre le aziende stanno iniziando a concentrarsi sulle relazioni che intercorrono tra i vari blog e sul peso di ciascun sito nella “blogosfera”. Esistono infatti varie classificazioni e tipologie di blog:

- “opinion leader”, che influenzano il network circostante

- “follower”, che seguono fedelmente i trend dei siti di riferimento

- ben connessi nella rete, che entrano in relazione con molti altri blog

- isolati, che sono indipendenti da ciò che accade nel network

- noti su Social Network o facilmente rintracciabili sui motori di ricerca

- poco pubblicizzati in rete

La famosa regola di Pareto (80/20 rule) afferma che analizzando il 20% delle fonti più autorevoli riguardanti una tematica, si riesce a studiare l’80% del fenomeno.

La link analysis si concentra proprio su questo tema: essa studia le connessioni esistenti tra siti/blog/forum di una certa area tematica, in funzione di visibilità sui motori di ricerca, presenza di link tra i siti e popolarità sui Social Network.

Il procedimento consta di 4 fasi.

1) La prima fase riguarda l’individuazione sul Web di un campione esteso su cui iniziare l’analisi dei blog del settore desiderato, non e’ necessario partire con una lista precisa e definitiva in quanto questa sara’ uno dei risultati della link analysis. Nell’esempio pratico riportato di seguito sono si e’ iniziato da 41 blog riguardanti recensioni e commenti su moto ed accessori.

2) Nel secondo step viene analizzato ogni singolo blog (in maniera automatica) per ottenere varie statistiche sulle pagine:

- Google PageRank

- Numero di link che puntano al sito

- Numero di domini che puntano al sito

- Numero di shares/like sui social network

- Elenco di tutti i link che puntano al sito

3) Tutte queste informazioni vengono utilizzate per iniziare a capire il “peso” dei siti sul Web. Successivemente viene costruita una matrice n x n (41 x 41 nel nostra esempio), che descrive il numero di link tra i vari blog del settore, come segno della correlazione che esiste tra i vari siti. Tutti i link sono poi elencati in una matrice m x 2 per descrivere tutte le m connessioni tra tutti i punti della rete.

4) Successivemente viene utilizzato un componente della link analysis per creare la blogosfera e personalizzarla a seconda dei fini aziendali.

La blogosfera creata per il settore motociclistico aveva queste caratteristiche:

- grafico orientato

- dimensione del nodo in funzione del numero di link che puntano al sito

- colore del nodo in funzione del numero di share/like sui social network

- dimensione delle frecce in funzione del numero di link tra blog e blog

L’output principale del procedimento è l’immagine della blogosfera; qui di seguito viene mostrata la blogosfera del settore motociclistico.

Blogosfera

Ovviamente è possibile ingrandire e analizzare nodo per nodo il network, soffermandosi su nodi in entrata e uscita, sulla grandezza delle frecce e sulla grandezza del singolo punto.

Oltre all’output grafico la link analysis genera alcuni indicatori interessanti per comprendere meglio le dinamiche della blogosfera:

- in-degree: numero nodi in entrata

- out-degree: numero nodi in uscita

- betweeness centrality: capacità di collegamento tra siti diversi

- closeness centrality: velocità di interazione con altri vertici

- eigenvector centrality: misura della centralità nella rete

- pagerank: punteggio della pagina nella blogosfera

- clustering coefficient: misura della presenza di connessioni tra nodi vicini

- reciprocated vertex pair ratio: rapporto tra link in entrata e uscita

Si può quindi affermare che la link analysis è uno studio ex-ante sui blog riguardanti al settore per comprendere meglio le dinamiche della blogosfera.

Può essere molto utile tale studio poichè permette di focalizzare le proprie attenzioni solo su siti “opinion leader”, tralasciare siti sconosciuti, individuare i trend di crescita di siti emergenti. Inoltre, e’ possibile pensare di “pesare” i post dei vari blog in funzione della loro importanza a seconda delle metriche forniteci dalla link analysis.

Una volta impostata la link analysis puo’ essere automattizzata per monitorare costantemente la blogosfera, di fatto la manualita’ e’ richiesta solo nella fase iniziale di impostazione.