la guida

Search Engine Optimization (SEO): cos’è, come funziona e come si evolve

Tutto quello che c’è da sapere sulla complessa materia della Search Engine Optimization (SEO): storia, evoluzione, tool, contenuti e futuro. Di fondo, un interrogativo: abbiamo forse ceduto troppo potere a Google tramite la “schiavitù” al Seo?

Pubblicato il 16 Apr 2019

Roberto Albanesi

divulgatore scientifico, Albanesi.it

La Search Engine Optimization (SEO) è una materia talmente complessa che fra gli addetti ai lavori non ci si accorda nemmeno sul genere dell’acronimo che molti citano al maschile (il SEO) e altri, a mio avviso correttamente, al femminile (la SEO).

La definizione dell’acronimo e della locuzione corrispondente indica le attività che tendono ad aumentare la visibilità di un sito web sui motori di ricerca per migliorare o mantenere il posizionamento nelle SERP (Search Engine Results Page, cioè le pagine che il motore restituisce in seguito alle interrogazioni –query– dell’utente).

In Italia la SEO si riduce praticamente ad analizzare le tecniche di ottimizzazione per Google, che ha una posizione dominante con il 95% delle ricerche.

Indice degli argomenti

SEO e traffico del sito

Il traffico di un sito Internet è collegato al concetto di SEO in modo strettamente legato alla tipologia di sito; infatti il traffico si può scomporre in organico (basato sulla ricerca organica, cioè la sezione gratuita delle pagine dei risultati di ricerca di Google, creata in base ai fattori di posizionamento), diretto (per accesso diretto al sito), proveniente da referral (link da altri siti), da social network ecc.

Se un sito vive di traffico organico, l’importanza della SEO è enorme, per un sito come un quotidiano nazionale, evidentemente, la SEO è molto meno critica.

Si deve notare che attualmente non esistono metodi affidabili per valutare il traffico globale di un sito. Anche tool come Alexa danno risultati molto imprecisi; altri tool che analizzano solo l’aspetto SEO, per quanto detto sopra, rischiano di dare risultati parziali e globalmente inaffidabili. Basti pensare che, secondo i tool SEO (che analizzano solo il traffico organico), il sito di Beppe Grillo lotta per entrare nei primi 1.000 in Italia ed è ampiamente superato da siti praticamente sconosciuti, ma che vivono di sola SEO.

Per capire quanto poco attendibili siano gli strumenti attuali di valutazione del traffico globale, basta riferirsi a tutti quei tool che forniscono anche il valore di un sito (espresso in termini di resa pubblicitaria): da un’analisi di quanto offre il mercato, l’errore (per difetto o per eccesso) può essere anche di un fattore 5!

La storia della SEO

La SEO è passata attraverso varie fasi che è corretto ripercorrere per capire come il concetto non solo si sia evoluto, ma anche quanto approssimativo sia stato il modo con cui si è tentato di gestirlo.

Si possono sostanzialmente definire tre fasi:

la prima generazione – regole statiche, di tipo logico-linguistico;
la seconda generazione – entrano per la prima volta considerazioni di tipo tecnologico, come il dispositivo o la velocità di caricamento delle pagine;
la terza generazione – entra, ancora un po’ fumosamente, il concetto di intelligenza artificiale.

La prima generazione

In questa fase la SEO era pensata per obbedire a regole statiche, di natura logico-linguistica. Senza entrare nel dettaglio, citiamo le più importanti dal punto di vista storico con una valutazione (da zero a tre asterischi) sulla loro attuale utilità.

Titolo della pagina (***) – Quello di solito genericamente identificato dal tag HTML h1. L’analogo di un titolo di un libro; se parliamo di Napoleone, un titolo del tipo “Il francese più importante della storia” non è certo il massimo per la comprensione della materia trattata.

URL della pagina (***) – Stesso discorso del titolo; se contiene caratteri strani è più difficile che Google lo capisca.

Titolo SEO (***) – Collegato al tag title, può essere visibile nella parte alta del browser all’apertura della pagina e nella SERP collegata alla nostra pagina.

Sitemap (***) – Serve per far capire al motore come navigare meglio all’interno del sito e come la pagina è collocata nel progetto generale.

Suddivisione in sottotitoli coerenti e relazionati alla keyword (**) – Un tempo si pensava che i tag HTML h2, h3 ecc. fossero fondamentali.

Immagine e dell’attributo alt associato (**) – L’attributo serve per far capire ai motori di ricerca che cosa l’immagine rappresenta. Come per i sottotitoli, le immagini sono importanti solo se realmente utili alla comprensione dei contenuti.

Link interni (**) – Ovviamente, una pagina che non punta a nessun link interno dà al motore l’impressione di essere una pagina non correlata con i contenuti trattati principalmente nel sito.

Meta description (*) – Una specie di anteprima che può comparire nella SERP; un sommario della pagina. In teoria non serve per il posizionamento e nemmeno per la comparsa nello snippet; in alcuni casi serve per aiutare l’utente a “scegliere” la nostra pagina piuttosto che un’altra; la sua importanza è stata decisamente superata dal titolo SEO.

Backlink (*) – Si può parlare di SEO offline quando ci riferiamo alla gestione dei link su altri siti che puntano al nostro. Originariamente, i fondatori di Google, Brin e Page, ritenevano che le pagine citate con un maggior numero di link fossero le più importanti e autorevoli. Ovviamente, link provenienti da siti importanti erano valutati meglio di altri provenienti da siti con poco traffico. Nacque il concetto di Page Rank di una pagina e la formula che lo calcolava è stata per anni mantenuta segreta, finché Google non ridimensionò questo fattore e rese nota la formula. Il ridimensionamento fu reso necessario (vedasi l’algoritmo Penguin) dal fenomeno dello scambio link, nel quale due siti, con circa uguale traffico, si scambiano link reciproci per avere un migliore Page Rank. Attualmente l’importanza dei back link è diminuita anche perché il costo per ottenerli in modo spontaneo e ben accetto a Google è decisamente elevato; altre pratiche decisamente sconvenienti sono l’uso di siti satelliti che puntano solo al nostro o l’acquisto di link). In moltissime SERP, anche per keyword importanti, sono in prima posizione pagine con un numero nullo di backlink, ma su siti con importante traffico, tanto che si può pensare che siano il traffico e il numero di utenti che visitano la pagina i fattori che hanno in parte o totalmente sostituito i backlink.

Di seguito citiamo regole troppo meccaniche che, di fatto, sono ormai superate: la densità della parola chiave, la distribuzione della parola chiave nel testo, la lunghezza del testo, i link in uscita, l’uso di sinonimi ecc.

Anche la vecchia regola di non duplicare contenuti (sia all’interno del proprio sito sia “copiando” integralmente da altri) fa parte di quelle regole di puro buon senso sullo scrivere contenuti di qualità.

Come tool di prima generazione possiamo citare Yoast che è ancora ampiamente usato, ma che continua a dare eccessiva importanza alle regole statiche. Basta scorrere l’elenco di quelle che abbiamo definito come “superate” per comprendere come abbiano un senso per chi non sa scrivere contenuti di buona qualità e/o cerca di ingannare il motore di ricerca con strategie che nulla hanno a che fare con i contenuti. Yoast stesso ha più volte rivisto le sue indicazioni per evitare che gli utenti, prendendole alla lettera, esagerassero in senso contrario! In alcuni casi ha pubblicamente ammesso l’inutilità della regola, come nel caso dei link esterni verso altri siti, operazione considerata “di cortesia”, ma di nessuna utilità pratica ai fini della SEO.

La seconda generazione

L’era della prima generazione SEO è durata parecchi anni, c’era un immobilismo che permetteva di utilizzare quello che nella consulenza finanziaria andava molto di moda negli anni ’90, sfruttando vari fattori che in quegli anni erano in fase: il senno di prima. Si analizzava quello che era successo nel recente passato e si dava per scontato che sarebbe accaduto in futuro, tanto più l’analisi era approfondita e tanto più si sarebbero ottenuti grandi risultati.

Analogamente, nella SEO le vecchie regole avevano permesso grandi successi per tutti coloro che le applicavano correttamente. Il vero motivo del successo era che mancava una reale concorrenza e che era facile “scrivere una grande pagina web”. Ancora oggi le vecchie regole funzionano, se la concorrenza è limitata. Se voglio essere nelle prime posizioni nella ricerca di “educatori cinofili Trapani” probabilmente anche un qualunque “esperto SEO” riuscirebbe nell’intento, semplicemente applicando le vecchie regole.

Con l’aumento della concorrenza, su una specifica keyword sono aumentate le pagine web in competizione, moltissime delle quali avevano lo stesso “punteggio SEO”. Questa prolificità del web ha costretto Google ad affinare notevolmente i suoi algoritmi, cambiando radicalmente il suo modo di valutare: non conta più quanto una pagina è ben fatta, ma quanto più si avvicina a ciò che l’utente vuole!

L’aspetto tecnologico della prima generazione riguardava soprattutto il codice della pagina, quindi era sempre e comunque qualcosa di logico. La seconda generazione nacque a seguito di due fattori:

il miglioramento della cultura informatica media dell’utente;
l’uso crescente del mobile e di soluzioni come la ricerca vocale.

Possiamo fissare la nascita della seconda generazione SEO attorno al 2013 con l’uscita dell’update Google Colibrì (hummingbird). Nella seconda generazione si comincia a sottolineare l’importanza di spostare l’interesse dalla singola parola chiave alla fruizione della ricerca da parte dell’utente. Diventano importanti:

l’autorevolezza della fonte;
lo scopo della ricerca (search intent);
la velocità di fruizione e l’interazione con l’utente.

In realtà, questa seconda fase è di transizione perché, come nel caso della prima generazione, cercava di implementare l’innovazione con regole troppo statiche che spesso generavano effetti di rimbalzo negativi.

Nella seconda generazione il primo punto non è stato vissuto con grande chiarezza; anche Google ha gestito questa fase in modo piuttosto confuso; si pensi per esempio al tentativo di dare autorevolezza alla pagina con il concetto di authorship, la citazione dell’autore, poi rapidamente abbandonata. Oppure l’importanza dei social, oggi diminuita (forse anche per l’abbandono di Google+), avendo compreso che “più popolare” non significa “più autorevole”.

Il secondo punto è rappresentato dall’impiego sempre più frequente di keyword a coda lunga (long tail; il termine risalente al 2003 si riferisce a una tecnica di vendita al dettaglio, ma è stato poi trasferito alla SEO). Si diffuse la consapevolezza che è meglio cercare di entrare in SERP con stringhe meno cercate, più marginali, dove c’è meno concorrenza, rispetto alle keyword principali. La strategia divenne sempre più interessante con il miglioramento della coscienza informatica dell’utente. Se all’inizio l’utente cercava solo termini come “mononucleosi”, a poco a poco aveva imparato a raffinare la sua ricerca con qualcosa che rappresentasse veramente ciò che cercava, per esempio con la stringa “durata mononucleosi”. Nella SEO ci sono due significati della locuzione “long tail”:

l’uso come keyword di una stringa che contenga la keyword principale (come abbiamo visto, “durata mononucleosi”);
l’uso di una keyword che sintatticamente non ha nulla a che fare con la keyword, ma ne costituisce un suo sottoinsieme semantico (per esempio, posso tentare di entrare nella SERP di Google con “cani da caccia” oppure con il sottoinsieme “bracco francese”, keyword sicuramente meno cercata in assoluto, ma probabilmente cercata con maggiore “intento” da chi vuole proprio un cane di quella razza).

Il terzo punto è stato gestito nella seconda generazione in modo ancora piuttosto grossolano. Google stesso ha fornito strumenti come PageSpeed Insights o la funzione audit di Chrome che continuavano ad analizzare la pagina in modo troppo astratto, fornendo spesso alcuni “consigli” che ormai nessuno seguiva più perché si basavano su una tecnologia superata, altri che entravano in conflitto con le necessità di business dei siti (per esempio con la pubblicità) e altri infine che erano orami da tutti implementati perché inglobati nei tool e nei plugin di sviluppo.

La terza generazione

Con un’analogia, 10-15 anni fa, scrivere una pagina web era analogo a prendere un bel voto in un compito in classe di italiano, oggi equivale a venderla al grande pubblico, a scrivere un libro o un giornale creativi, efficienti, piacevoli ecc. Occorre “avere successo”. Il punto critico è che probabilmente nemmeno Google sapeva come valutare le “opere letterarie” (le pagine web) che gli venivano proposte: era necessario un approccio ancora più globale che finalmente rendesse meno critici i tre elementi presenti nella seconda generazione.

La fine della seconda generazione e l’inizio della terza può essere fissata nell’uscita dell’update Google Mobile-Index First (MIF, marzo 2018). Con tale update Google ha chiaramente indicato che l’ormai preponderante segmento di traffico mobile sarà quello che avrà un impatto maggiore sulla SEO. Il concetto non compreso da molti esperti SEO è che, con l’update MIF, Google ha voluto evidenziare non tanto che venivano classificati meglio siti con grande velocità mobile (infatti le pagine AMP, un altro importante progetto Google, sembrano non avere per ora un grande impatto sulla SEO) quanto che erano sicuramente penalizzati siti con una velocità scadente. L’obiettivo della SEO è quindi di raggiungere la soglia di sufficienza.

Gli strumenti della seconda generazione diventano quindi importanti ai fini di penalizzare siti scadenti, non tanto di promuovere oltre misura siti eccellenti come interazione con l’utente.

Non a caso, nella terza generazione Google ha dato chiari cenni su come la pubblicità su un sito non debba essere invasiva, aderendo alla Coalition for better Ads. Era chiaro da tempo che un fornitore di pubblicità come Google non potesse penalizzare a livello SEO siti che vivevano comunque di grandi risorse derivanti dalla pubblicità. Tecnicamente si poteva limitare l’invasività della pubblicità solo promuovendo o bocciando certi formati. Non bastava più che, come nelle prime due generazioni, gli script collegati alla pubblicità fossero asincroni, ma dovevano essere tali da generare annunci non invasivi e comunque non lesivi della fruizione dei contenuti.

Un punto ancora critico, spesso non compreso dagli esperti di settore, è la pericolosità del native nella SEO. Il native advertising (pubblicità nativa) genera interesse negli utenti assumendo l’aspetto dei contenuti del sito sul quale è ospitata. Questo tipo di pubblicità è quella che io chiamo fake matter; un falso contenuto. Lo spider del motore di ricerca può essere ingannato da un native troppo “incluso” nel testo e, se l’argomento del native, non è particolarmente coerente con il contenuto, la pagina può essere penalizzata.

Per quanto riguarda la search intent, la terza generazione ha ormai introdotto il concetto di intelligenza artificiale: Google è in grado di capire e valutare il testo come la maggioranza degli utenti (concetto di Neural Matching che riguarda circa il 30% delle ricerche). Non si tratta solo di regole sintattiche e semantiche, ma anche di valutare il testo come la maggioranza degli utenti vuole che sia. Per esempio, un professionista potrà sottotitolare un paragrafo con “trattamento della patologia”; in realtà, nessun utente non professionale utilizza il termine “trattamento”, preferendogli “cura” oppure “rimedi”. Non si tratta solo di terminologia, il modo in cui le persone ricercano è spesso diverso dalle informazioni su cui le persone scrivono soluzioni.

I moderni tool di supporto SEO (come SemRush, ma soprattutto il più moderno SeoZoom che non risente dei parametri, alcuni ormai obsoleti, delle prime due generazioni) sono in grado di aiutare nella search intent, ma l’aiuto “simula” con strumenti tradizionali quello che Google fa con l’intelligenza artificiale. Molti non sanno che Google ha sviluppato un programma per giocare a scacchi (AlphaZero) che ha imparato i rudimenti del gioco giocando contro sé stesso; messo alla prova con l’allora campione del mondo dei motori scacchistici (molto più forti dell’attuale campione del mondo “umano”, Magnus Carlsen), ha vinto facilmente il match. Tornando alla SEO, prestare attenzione alla search intent resta fondamentale e il miglior modo di farlo è di non barare con i vecchi trucchi di gestione dei contenuti, trucchi ormai troppo rozzi e meccanici: scrivere un buon (e comprensibile!) contenuto non per Google, ma per l’utente che lo leggerà.

La terza generazione non ha ancora del tutto risolto l’autorevolezza della fonte, problema particolarmente grave per la minaccia delle fake news. Ancora dieci anni fa prosperavano siti che vendevano fake news come se fossero verità scientifiche inoppugnabili; oggi le fake news vengono diffuse disseminate qua e là su siti anche di una certa autorevolezza e con un certo traffico.

Nell’algoritmo di agosto 2018 Google ha affidato a redattori umani l’analisi dei siti nei settori più a rischio di fake news, come la salute o il legale. Il risultato però è stato piuttosto disastroso con siti anche autorevoli praticamente ridotti a traffico zero e altri che hanno barato sul loro nome (per esempio, nome di fantasia, Istituto nazionale ricerca oncologica) o sulla loro presentazione che erano saliti alle stelle perché il redattore umano non era stato in grado di valutarli bene con il poco tempo a disposizione. Dopo pochi mesi (fine novembre 2018) Google ha rivisto l’algoritmo ottenendo buoni risultati, probabilmente con un mix di valutazione umana, intelligenza artificiale e semplice valutazione algoritmica.

Un ulteriore update (marzo 2019) ha ulteriormente raffinato la valutazione sull’autorevolezza dei siti, non dissolvendo del tutto i dubbi sulla “stabilità del sistema”, dubbi che potranno essere sciolti solo con una certa continuità nella valutazione.

La volatilità di Google

Ovviamente valutazioni che continuano a cambiare mostrano che Google stesso non ha ancora trovato la strada per una valutazione corretta delle pagine web. Ciò può provocare gravi danni sia economici sia d’immagine.

Cosa caratterizza gli algoritmi della terza generazione? I terremoti che provocano! L’update Marzo 2019 ha fatto migliorare circa il 58% dei siti americani di medie-grandi dimensioni, mentre ha ridimensionato il 42% di essi. Fra i “vincenti” si va da un normale +18% di everydaypowerblog.com al top scorer, gossipcop.com, con un 133% di incremento; fra i perdenti si va da un -16% di time.com a un disastroso -47,7% di theatlantic.com. In Italia ci sono siti importanti che hanno subito perdite che vanno da un -20 a un -40%.

I tool SEO

Per sfruttare i nuovi algoritmi di valutazione di Google si sono affermati tool di analisi (come SemRush o SeoZoom) che cercano di introdurre altri parametri molto importanti. Se in alcuni casi (SemRush) c’è ancora un’impronta tradizionale, in altri (SeoZoom) c’è un deciso abbandono della vecchia via per imboccare nuove strade e vedere nuovi orizzonti.

I tool SEO più performanti cercano di diventare intelligenti come Google inserendo relazioni fra la keyword e ricerche comunque a essa collegata. Gestiscono le correlate, che altro non sono che ricerche long tail che contengono la keyword; gestiscono la search intent, un concetto che diventerà sempre più importante. Per capire quanto ancora si sia distanti da tool veramente intelligenti, citiamo alcuni punti critici.

Volume – Attualmente sono in grado solo di dare dati corretti sul ranking, mentre il traffico viene solo stimato. Curiosamente però spesso i dati non corrispondono a quelli di GoogleTrends che dovrebbe rimanere la fonte più attendibile.

Ranking e impression generate – La relazione fra ranking e impression è molto approssimativa. Per esempio, si suppone che la nona posizione corrisponda a circa un 2% del volume globale generato dalla keyword. In realtà, questa percentuale è solo una media. Esistono keyword a ricerca singola e keyword a ricerca multipla a seconda che l’utente tenda a consultare una o più pagine. Per esempio, se l’utente cerca “quanti anni ha Madonna” probabilmente cercherà solo una pagina (a volte è Google stesso che indica la risposta!), se invece è interessato a una patologia e alla sua cura per un problema personale, probabilmente consulterà anche una decina di pagine; ciò comporta che a volte, a parità di volume, una keyword in decima posizione generi più impression di una in seconda.

Variazioni – Anche i tool di terza generazione sono spesso troppo ricchi di dati che, se non interpretati, rischiano di generare flussi di informazione nei quali l’analisi affoga. In particolare, se sono molto attenti alla posizione di una keyword non riescono a calcolare la derivata della stessa, cioè la velocità con cui la keyword sale o scende. Se è vero che danno le keyword in salita e in discesa, tali insiemi di dati non sono significativi perché non eliminano il naturale fluttuare della keyword nel ranking; così capita che una keyword sia data in discesa un giorno e in salita il giorno successivo. Solo dall’analisi umana dei grafici della posizione della keyword nel tempo si è in grado di stimare se il fenomeno è indipendente dalla normale fluttuazione nel ranking (fluttuazione che a volte può comportare anche 4-5 posizioni).

I contenuti: formazione e informazione

Molti ottimisti continuano a fornire come prioritaria l’indicazione che “i contenuti sono la vera arma vincente”, ma appare chiaro che una pagina web potrebbe diventare come un programma televisivo: essere di altissima qualità, ma non avere nessuna popolarità semplicemente perché lontana dal sentire della gente (cioè dal modo in cui la gente cerca le informazioni).

In Rete non è ancora chiara la differenza fra formazione e informazione. Sul cartaceo, il discorso è chiaro: l’informazione è fatta dai giornali e la formazione è fatta dai libri. Sul web c’è una certa confusione con siti che propongono sia l’una sia l’altra, spesso nello stesso contenitore. Ciò deprime la qualità del contenuto perché i modi di scrivere su una stessa materia devono essere naturalmente diversi.

Un giornalista sa gestire molto bene l’informazione (è il suo lavoro!), ma spesso non lo sa fare altrettanto bene con la formazione (continuando nell’analogia, ci sono ottimi giornalisti che sono anche abili scrittori e altri no). Nell’informazione sono importanti dettagli che non lo sono nella formazione, l’informazione deve toccare/interessare il lettore, mentre la formazione deve soprattutto educarlo.

Nella formazione si può evidenziare una netta suddivisone fra professionale e generale; il primo discorso è il campo dei professionisti del settore della materia, il secondo dei divulgatori. Come per i giornalisti, ci sono professionisti che sanno essere anche ottimi divulgatori e altri che invece non lo sono. Pensiamo a una pagina di medicina gestita da uno specialista della materia. Se scritta in modo professionale, la pagina risulterà poco chiara alla maggioranza del pubblico; esattamente come molte pagine di matematica o di fisica di Wikipedia risultano incomprensibili anche a chi ha una cultura scientifica media-superiore. In questo scenario non è il professionista o il giornalista portato a fare informazione piuttosto che formazione che può scrivere la pagina vincente, ma il “divulgatore” della materia trattata.

Il futuro della SEO

Purtroppo, il futuro non è del tutto roseo perché, di fatto, si è sempre più in balia di Google i cui algoritmi possono fare il bello e il cattivo tempo.

Nessuno può spiegare in dettaglio come scrivere un bestseller letterario; analogamente, oggi la SEO è incapace di descrivere una pagina web di sicuro successo.

Un fattore alla base dei vari algoritmi è (e probabilmente resterà) sempre il traffico del sito, parametro sul quale non si può “barare” (a differenza per esempio del fattore backlink). Per i siti più piccoli, i vari algoritmi non sembrano comportarsi sempre allo stesso modo, alcuni praticamente polverizzando siti di piccole di piccole dimensioni, altri cercando di risollevarli, se i contenuti sono buoni.

Anche ammesso (e non concesso!) che la SEO sia in grado di “anticipare” i cambi di rotta di Google o per lo meno di starvi al passo, il costo di redazione di una pagina SEO-oriented sta diventando sempre più elevato, tanto da essere sostenibile solo da siti importanti o, paradossalmente, da siti no-profit, basati sull’entusiasmo individuale dell’autore della pagina. Va da sé che, rimanendo a permanere importanti fattori come il traffico del sito, combinando i tantissimi fattori che ora sono inglobati nella SEO, sopravviveranno solo siti di medie-grandi dimensioni che avranno capacità tecniche e ottima qualità nei contenuti.