Home Hardware Networking Programmazione Software Domanda Sistemi
Conoscenza Informatica >> software >> Software Database >> .

Dati Teorie pulizia

Gli errori possono essere effettuate durante la raccolta dei dati e l'integrazione , e gli analisti hanno bisogno di sapere come identificare e correggere questi errori . Questo è chiamato pulizia dati , o scrubbing dati . Questa non è una scienza esatta , e, talvolta, la decisione di cosa fare si basa sul giudizio dell'analista , tuttavia , sa che non solo è importante avere una quantità sufficiente di dati - deve essere di qualità rispettabile , troppo . Semantica e formattazione

Una operazione di pulizia di dati comune comporta la rimozione errori nella formattazione . Questo potrebbe essere qualcosa di semplice come errori ortografici fatte durante la raccolta dei dati o voce , fino a problemi con il simbolo usato per separare le voci . Per esempio , immaginate il seguente pezzo di dati è all'interno di un insieme di dati in cui un apostrofo è usato per separare le voci :

birdwatching ' Club'42 Beacon Street'Boston

Questo sarebbe stato letto come :

Uccello WatchersClub42 Beacon StreetBoston

query automatizzate e programmi sono spesso utilizzati per pulire i dati di questo errore .
Integrazione

Alcuni insiemi di dati sono benissimo da solo, ma diventano problematici , una volta che sono integrati in un repository più grande o di un data warehouse . Ad esempio , l'età può essere memorizzata come data di nascita :

gg /mm /YYMM /gg /aaaa

O per fascia :

20-30 , 30-40 , 40-5015-25 , 25-35 , 35-45

In alcuni casi , come la data di nascita di formattazione , è abbastanza semplice da individuare strutture semantiche e standardizzare le voci . In casi come le fasce di età , tuttavia, le ipotesi devono essere fatte . Ad esempio , è il numero di persone di età compresa tra 25-35 la media delle persone di età compresa tra 20-30 e 30-40

 

software © www.354353.com