Come (e Perché) per Utilizzare i valori anomali Funzione in Excel

0
2456

Un outlier è un valore significativamente più alto o più basso rispetto alla maggior parte dei valori dei dati. Quando si utilizza Excel per analizzare i dati, valori anomali possono distorcere i risultati. Per esempio, la media di un set di dati può veramente riflettere i vostri valori. Excel fornisce alcune utili funzioni per gestire i tuoi valori anomali, così diamo un’occhiata.

Un Esempio Veloce

Nell’immagine di seguito, i valori anomali sono abbastanza semplici da individuare il valore di due assegnato a Eric e il valore di 173 assegnato a Ryan. In un set di dati come questo, è abbastanza facile da individuare e trattare con i valori anomali manualmente.

In un set di dati più grande, che non sarà il caso. Essere in grado di identificare i valori anomali e rimuoverli dai calcoli statistici è importante, ed è quello che vedremo come fare in questo articolo.

Come Trovare i valori anomali nei Dati

Per trovare i valori anomali in un set di dati, si usa la seguente procedura:

  1. Calcolare 1 ° e 3 ° quartile (parleremo di ciò che quelle sono solo un po’).
  2. Valutare il range interquartile (ci sarà anche spiegare a questi un po ‘ più in basso).
  3. Restituire i limiti superiore e inferiore del nostro intervallo di dati.
  4. L’uso di questi limiti per identificare le periferiche punti di dati.

L’intervallo di celle a destra del set di dati si vede nell’immagine qui di seguito saranno utilizzati per memorizzare questi valori.

Let’s get started.

Primo passo: Calcolare i Quartili

Se si dividono i dati in quarti, a ciascuno di questi insiemi è chiamato un quartile. Il più basso del 25% di numeri nell’intervallo compongono il 1 ° quartile, il prossimo 25% per il 2 ° quartile, e così via. Prendiamo questo passaggio perché il più largamente utilizzati per la definizione di un outlier è un punto che è più di 1,5 range interquartili (IQRs) al di sotto del 1 ° quartile, e a 1,5 range interquartili sopra il 3 ° quartile. Per determinare tali valori, dobbiamo prima capire che cosa i quartili sono.

Excel fornisce un QUARTILE funzione per calcolare i quartili. Richiede due tipi di informazioni: la matrice e il quart.

=QUARTILE(array, quart)

La matrice è l’intervallo di valori che si sta valutando. E il quarto è un numero che rappresenta il quartile si desidera restituire (ad esempio, 1 per il 1 ° quartile, 2 per il 2 ° quartile, e così via).

Nota: In Excel 2010, Microsoft ha rilasciato i QUARTILE.INC e il QUARTILE.EXC funzioni come miglioramenti per il QUARTILE funzione. QUARTILE è più compatibile all’indietro quando si lavora su più versioni di Excel.

Torniamo al nostro esempio di tabella.

Per calcolare la 1 ° Quartile si può utilizzare la seguente formula nella cella F2.

=QUARTILE(C2:C14,1)

Come si immette la formula, Excel fornisce un elenco di opzioni per il quarto argomento.

Per calcolare il 3 ° quartile, siamo in grado di immettere una formula simile alla precedente nella cella F3, ma utilizzando tre invece di uno.

=QUARTILE(C2:C14,3)

Ora, noi abbiamo il quartile punti dati visualizzati nelle celle.

Passo Due: Valutare il Range Interquartile

Il range interquartile (o IQR) è la metà 50% dei valori dei dati. Esso è calcolato come la differenza tra il 1 ° quartile valore e il 3 ° quartile valore.

Stiamo andando a utilizzare una semplice formula nella cella F4, che sottrae il 1 ° quartile dal 3 ° quartile:

=F3-F2

Ora, possiamo vedere il nostro range interquartile visualizzato.

Fase Tre: Restituire i Limiti Inferiore e Superiore

I limiti inferiore e superiore sono il più piccolo e il più grande dei valori dell’intervallo di dati che si desidera utilizzare. I valori più piccoli o più grandi di queste vincolato valori sono i valori anomali.

Calcoliamo il limite inferiore limite nella cella F5 moltiplicando il IQR valore di 1,5 e poi sottraendo il Q1 punto dati:

F2 =-(1.5*F4)

Nota: Le staffe in questa formula non sono necessari, poiché la moltiplicazione parte di calcolare prima la sottrazione di parte, ma che rendono la formula più facile da leggere.

Per calcolare il limite superiore nella cella F6, ti moltiplicare il IQR da 1.5 nuovo, ma questa volta, aggiungere al Q3 punto dati:

=F3+(1.5*F4)

Fase Quattro: Identificare gli Outliers

Ora che abbiamo tutti i nostri dati sottostanti a posto, è il momento di identificare il nostro outlying punti dati—quelli che sono inferiori rispetto al valore di limite inferiore o superiore al valore limite superiore.

Useremo la funzione O per eseguire questo test logico e vedi i valori che soddisfano questi criteri, inserendo la seguente formula nella cella C2:

=O(B2<$F$5,B2>$F$6)

Provvederemo quindi a copiare tale valore nella nostra C3-C14 cellule. Il valore TRUE indica un outlier, e come potete vedere, abbiamo due i nostri dati.

Ignorando i valori anomali quando si calcola la Media

Utilizzando il QUARTILE funzione calcoliamo lo scarto interquartile e lavorare con i più diffusi definizione di un outlier. Tuttavia, quando si calcola la media di un intervallo di valori e ignorando outlier, c’è un modo più veloce e più facile utilizzo di una funzione. Questa tecnica non identificare un outlier come prima, ma ci permetterà di essere flessibili con quello che potremmo considerare il nostro outlier parte.

La funzione di cui abbiamo bisogno è chiamato TRIMMEAN, e si può vedere la sintassi di seguito:

=TRIMMEAN(array, %)

La matrice è l’intervallo di valori che si desidera medio. La percentuale è la percentuale di punti dati per escludere dalla parte superiore e inferiore del set di dati (è possibile immettere una percentuale o di un valore decimale).

Abbiamo inserito la seguente formula nella cella D3, nel nostro esempio, calcolare la media e di escludere il 20% dei valori anomali.

=TRIMMEAN(B2:B14, 20%)

Quindi ci sono due diverse funzioni per la gestione delle anomalie. Se si desidera identificare le loro esigenze di reporting o di escluderli dai calcoli quali medie, Excel ha una funzione per soddisfare le vostre esigenze.