seo

Fare scraping dei meta dati in Fogli Google

Fogli di Google è uno strumento semplice quanto versatile, capace di automatizzare la risoluzione di noiose operazioni di routine in maniera rapida ed efficace.

Esistono soluzioni interessantissime che si integrano in Fogli come risorse aggiuntive (penso a cose come Supermetrics, o Analytics Canvas per citare due esempi notissimi). Eppure, Fogli consente di fare mille cose già con le funzioni base.

Veniamo dunque all’esempio.
Parto dall’esigenza di ricavare, data una lista di URL, il contenuto dei tags Titolo, Meta Description e Meta Keywords.
Fare cioè un po’ di scraping di base, come si dice nel gergo seo…

In Fogli la soluzione è di una semplicità disarmante.

Per prima cosa apro un nuovo foglio e lo chiamo come voglio.

Nelle celle A1, B1, C1, D1 metto i titoli:
“URL”,”Titolo”,”Descrizione”,”Meta Keywords”.

Ora mi posiziono in A2 e incollo la lista delle URL da analizzare.

In B2 ecco la formula magica :). E’ proprio semplice come sembra, e funziona.

=IMPORTXML (A2;"//title/text ()")

Analogamente in C2:

=IMPORTXML(A2; "//meta[@name='description']/@content")

E in D2:

=IMPORTXML(A2;"//meta[@name='keywords']/@content")

Ora evidenzio le celle B1,C1,D1 e vado nell’angolo in basso a destra.
Mi compare il simbolo del +

Trascino verso il basso fino ad arrivare all’ultima riga dove è presente una URL.

Fatto! I campi si popoleranno in pochi secondi con i dati richiesti.

paolo

View Comments

  • Buongiorno,
    ho trovato l'articolo molto interessante soprattutto per la "finezza" di mettere in A1 i link: così facendo le espressioni nelle caselle successive sono molto più semplificate.

    Io sono alle prime armi ma ho provato a fare delle prove: estrapolo dati di alcuni ristoranti per vedere se hanno cucina celiaca.
    Quindi nelle prime righe avrei:
    link;nome ristorante; indirizzo; telefono;web;mail;tipo di cucina;

    Ora...partendo dal link https://www.tripadvisor.it/Restaurant_Review-g1006068-d1011772-Reviews-Ristorante_Due_Spade-Cernusco_sul_Naviglio_Province_of_Milan_Lombardy.html

    vado a mettere in:
    A2 link da cui estrarre dati
    B2: =IMPORTXML (A2;"//title/text ()")
    C2: =IMPORTXML(A2;"//*[@id=""component_35""]/div/div[3]/span[1]/span/a")
    D2: =IMPORTXML(A2;"//span[@class=""_15QfMZ2L""]")

    e fin qui tutto bene.

    Il problema lo ho quando devo estrarre il link al sito. Dopo molteplici prove e test ho inserito l'espressione
    =IMPORTXML(A2;"//*[@id=""component_35""]/div/div[3]/span[3]/span/a")

    Ma nemmeno questa volta mi da il risultato. Dove sbaglio?

Recent Posts

Il peeking problem: perché sbirciare l’A/B test gonfia i falsi positivi

Il 21 gennaio 2015 Optimizely — una delle piattaforme di A/B testing più usate al…

2 giorni ago

Regressione verso la media: l’ottimizzazione SEO che ha funzionato… per caso

Nell'aeronautica militare israeliana, racconta Daniel Kahneman, gli istruttori erano convinti di una cosa: lodare un…

3 giorni ago

Correlazione: Pearson, Spearman e Kendall (e perché non è causazione)

Chi guarda i dati di un sito lo fa di continuo, spesso senza nemmeno accorgersene,…

6 giorni ago

Effect size e power analysis: quanto è grande l’effetto (e quanti dati servono)

Abbiamo chiuso l'articolo sul calcolatore di significatività con una promessa. Dicevamo che il p-value risponde…

1 settimana ago

Calcolatore di Significatività per A/B Test

Il nostro A/B test è arrivato alla fine: la variante B mostra un tasso di…

2 settimane ago

La biblioteca di Statistica e SEO: i libri che consiglio (e perché)

C'è una domanda che torna, puntuale, ogni volta che pubblico un articolo di questo percorso:…

2 settimane ago