seo

Fare scraping dei meta dati in Fogli Google

Fogli di Google è uno strumento semplice quanto versatile, capace di automatizzare la risoluzione di noiose operazioni di routine in maniera rapida ed efficace.

Esistono soluzioni interessantissime che si integrano in Fogli come risorse aggiuntive (penso a cose come Supermetrics, o Analytics Canvas per citare due esempi notissimi). Eppure, Fogli consente di fare mille cose già con le funzioni base.

Veniamo dunque all’esempio.
Parto dall’esigenza di ricavare, data una lista di URL, il contenuto dei tags Titolo, Meta Description e Meta Keywords.
Fare cioè un po’ di scraping di base, come si dice nel gergo seo…

In Fogli la soluzione è di una semplicità disarmante.

Per prima cosa apro un nuovo foglio e lo chiamo come voglio.

Nelle celle A1, B1, C1, D1 metto i titoli:
“URL”,”Titolo”,”Descrizione”,”Meta Keywords”.

Ora mi posiziono in A2 e incollo la lista delle URL da analizzare.

In B2 ecco la formula magica :). E’ proprio semplice come sembra, e funziona.

=IMPORTXML (A2;"//title/text ()")

Analogamente in C2:

=IMPORTXML(A2; "//meta[@name='description']/@content")

E in D2:

=IMPORTXML(A2;"//meta[@name='keywords']/@content")

Ora evidenzio le celle B1,C1,D1 e vado nell’angolo in basso a destra.
Mi compare il simbolo del +

Trascino verso il basso fino ad arrivare all’ultima riga dove è presente una URL.

Fatto! I campi si popoleranno in pochi secondi con i dati richiesti.

paolo

View Comments

  • Buongiorno,
    ho trovato l'articolo molto interessante soprattutto per la "finezza" di mettere in A1 i link: così facendo le espressioni nelle caselle successive sono molto più semplificate.

    Io sono alle prime armi ma ho provato a fare delle prove: estrapolo dati di alcuni ristoranti per vedere se hanno cucina celiaca.
    Quindi nelle prime righe avrei:
    link;nome ristorante; indirizzo; telefono;web;mail;tipo di cucina;

    Ora...partendo dal link https://www.tripadvisor.it/Restaurant_Review-g1006068-d1011772-Reviews-Ristorante_Due_Spade-Cernusco_sul_Naviglio_Province_of_Milan_Lombardy.html

    vado a mettere in:
    A2 link da cui estrarre dati
    B2: =IMPORTXML (A2;"//title/text ()")
    C2: =IMPORTXML(A2;"//*[@id=""component_35""]/div/div[3]/span[1]/span/a")
    D2: =IMPORTXML(A2;"//span[@class=""_15QfMZ2L""]")

    e fin qui tutto bene.

    Il problema lo ho quando devo estrarre il link al sito. Dopo molteplici prove e test ho inserito l'espressione
    =IMPORTXML(A2;"//*[@id=""component_35""]/div/div[3]/span[3]/span/a")

    Ma nemmeno questa volta mi da il risultato. Dove sbaglio?

Recent Posts

Calcolatore Sample Size per A/B Test

Una delle domande più ricorrenti quando si progetta un A/B test è: quanti utenti mi…

1 settimana ago

Anomaly detection: come identificare valori anomali nei dati

Tre metodi statistici per identificare valori anomali nei dati: z-score, IQR di Tukey e test…

3 settimane ago

Statistica bayesiana: come imparare dai dati, un passo alla volta

Abbiamo avuto modo di esaminare, nel corso dei precedenti articoli, l'inferenza statistica da una prospettiva…

3 settimane ago

A/B Testing: come condurre esperimenti statisticamente validi (e gli errori da evitare)

Abbiamo avuto modo di esaminare, nel corso dei precedenti articoli, come funziona il test delle…

3 settimane ago

Il Teorema del Limite Centrale: perché la statistica funziona (anche quando i dati non sono normali)

Abbiamo avuto modo di esaminare, nel corso dei precedenti articoli, la distribuzione normale e le…

3 settimane ago

Intervalli di confidenza: cosa sono, come calcolarli (e cosa NON significano)

Abbiamo avuto modo di esaminare, nel corso dei precedenti articoli, come funziona il test delle…

4 settimane ago