Argomento 2 Raccolta e pre-elaborazione dei dati

La raccolta dei dati è una fase cruciale prima di creare un modello di apprendimento automatico. Non importa quanto sia ben progettato il modello se non impara nulla dai dati. I dati non devono essere perfetti, ma devono essere raccolti correttamente. I difetti nella raccolta dei dati possono generare dati spam con valori mancanti, distorsioni e correlazioni elevate, causando problemi nella costruzione del modello.

Dove trovare i dati?

È possibile accedere gratuitamente a diversi dati sul web:

  1. Web Scraping: Estrazione automatica di dati strutturati dai siti web. È utile per attività come il confronto dei prezzi e la raccolta di informazioni come nomi di aziende, e-mail e numeri di telefono.
  2. Web Crawling: Ispirato alle ragnatele, il web crawling prevede l’indicizzazione e l’estrazione di informazioni dalle pagine web. I motori di ricerca come Google utilizzano il web crawling per fornire risultati di ricerca.

Raccolta di dati da Web scraping e Web crawling

I dati raccolti dal Web possono essere utilizzati per l’elaborazione del linguaggio naturale e la classificazione delle immagini. Per esempio, se si sta costruendo un classificatore di razze di cani, si possono trovare immagini di razze di cani online.

Alcune fonti offrono API ufficiali per facilitare l’accesso ai dati.

Pre-elaborazione dei dati

Dopo aver raccolto i dati, è necessario affinarli e formattarli per la costruzione del modello. I dati possono essere strutturati (tabelle, file CSV) o non strutturati (testo, immagini, audio). Le macchine capiscono solo gli 1 e gli 0, quindi i dati devono essere formattati di conseguenza.

Tipi di dati

  1. Dati categorici: Rappresentati da insiemi di valori (ad esempio, Vero/Falso, giorni della settimana).
  2. Dati numerici: Valori continui o interi (ad esempio, altezza, peso).

Tecniche di pre-elaborazione dei dati

  1. Valutazione della qualità dei dati: Identificare e gestire i valori mancanti, nulli e duplicati.
  2. Aggregazione delle caratteristiche: Combinare dati simili per ottenere una visione di alto livello e ridurre il numero di oggetti di dati.
  3. Ingegneria delle caratteristiche: Selezionare e manipolare gli elementi dati, con o senza sostituzione.
  4. Riduzione della dimensionalità: Ridurre la dimensione dei dati mantenendo le caratteristiche utili, rendendo i modelli più comprensibili e visualizzabili.
  5. Codifica delle caratteristiche: Codificare i dati in base al loro tipo (nominale, ordinale, intervallare, rapportabili).

Suddivisione dei dati

  • Dati di addestramento: Utilizzati per addestrare il modello e rilevare il sovradattamento o il sottoadattamento
  • Dati di prova: Utilizzati per verificare le previsioni del modello basate sull’addestramento.
  • Convalida: Utilizzata per trovare gli iperparametri del modello.