Attività chiave nella fase di elaborazione dei dati:
* Pulizia dei dati: Questa è spesso la parte che richiede più tempo. Implica l'identificazione e la correzione o la rimozione di dati inaccurati, incompleti, irrilevanti, duplicati o incoerenti. Le tecniche includono la gestione dei valori mancanti (imputazione o la rimozione), levigare i dati rumorosi e la risoluzione delle incoerenze.
* Trasformazione dei dati: Questa fase si concentra sulla conversione dei dati in un formato più adatto per l'analisi. Le trasformazioni comuni includono:
* Conversione del tipo di dati: Modifica dei dati da un tipo a un altro (ad esempio, stringa in numerico).
* Aggregazione dei dati: Combinando i dati da più fonti in statistiche di riepilogo (ad esempio, calcolando medie, somme, conteggi).
* Normalizzazione dei dati: Ridimensionamento dei dati su un intervallo specifico per prevenire le funzionalità con valori più grandi dall'analisi dominante.
* Ingegneria di funzionalità: Creazione di nuove funzionalità da quelle esistenti per migliorare l'accuratezza del modello (ad esempio, combinando le funzionalità di data e ora per creare una funzionalità del giorno della settimana).
* Riduzione dei dati: Ciò mira a ridurre le dimensioni del set di dati preservando le informazioni importanti. Le tecniche includono:
* Riduzione della dimensionalità: Ridurre il numero di variabili (caratteristiche) mantenendo la maggior parte delle informazioni pertinenti. L'analisi dei componenti principali (PCA) è un metodo comune.
* Riduzione della numerosità: Sostituzione dei dati con rappresentazioni più piccole (ad es. Utilizzo di modelli parametrici o istogrammi).
* Compressione dei dati: Ridurre lo spazio di archiviazione richiesto per i dati.
* Integrazione dei dati: Combinando i dati da più fonti in una vista unificata. Ciò richiede un'attenta gestione delle incoerenze e potenziali licenziamenti.
* Convalida dei dati: Verificare l'accuratezza e la coerenza dei dati elaborati per garantire che soddisfi gli standard di qualità. Ciò potrebbe comportare il confronto dei dati elaborati con i dati di origine o dell'utilizzo di regole di convalida.
l'output della fase di elaborazione dei dati:
Il risultato è un set di dati pulito, coerente e trasformato che è pronto per ulteriori analisi, modellazione o visualizzazione. Questi dati elaborati sono in genere archiviati in un data warehouse o da data lake per un facile accesso e recupero.
I passaggi e le tecniche specifici utilizzati nella fase di elaborazione dei dati dipendono fortemente dal tipo di dati, dagli obiettivi dell'analisi e dagli strumenti e dalle risorse disponibili. È spesso un processo iterativo, che richiede più passaggi attraverso i diversi passaggi per raggiungere il livello desiderato di qualità e idoneità dei dati.
software © www.354353.com