Hoe (en Waarom) voor het Gebruik van de Uitschieters Functie in Excel

0
2428

Een uitschieter is een waarde die aanzienlijk hoger of lager dan de meeste van de waarden in uw gegevens. Bij het gebruik van Excel om gegevens te analyseren, uitschieters vertekenen de resultaten. Bijvoorbeeld, het gemiddelde van een set gegevens kan geven een goed beeld van je waarden. Excel bevat een paar handige functies voor het beheren van uw uitschieters, dus laten we een kijkje nemen.

Een Snel Voorbeeld:

In de afbeelding hieronder, de uitschieters zijn redelijk makkelijk te herkennen—de waarde van de twee toegewezen aan Eric en de waarde van 173 toegewezen aan Ryan. In een gegevensverzameling als deze, het is gemakkelijk genoeg om te spotten en gaan met die uitschieters handmatig.

In een grotere set van gegevens, dat is niet het geval. Het kunnen identificeren van de uitschieters en verwijder ze uit de statistische berekeningen is het van belang—en dat is wat we zullen kijken hoe dat te doen in dit artikel.

Hoe Vindt u de Uitschieters in de Gegevens

Om de uitschieters in een set gegevens, gebruiken we de volgende stappen:

  1. Het berekenen van de 1e en 3e kwartiel (dan praten we ook over wat mensen zijn gewoon een beetje).
  2. Het evalueren van de interkwartielafstand (we zullen ook uitleggen van deze een beetje verder naar beneden).
  3. De terugkeer van de bovenste en onderste grenzen van onze gegevens bereik.
  4. Gebruik deze grenzen te identificeren van de verschillende meetpunten.

Het celbereik op van het recht van de data-set te zien in de afbeelding hieronder zal worden gebruikt voor het opslaan van deze waarden.

We gaan aan de slag.

Stap Één: het Berekenen van de Kwartielen

Als u deelt uw gegevens in wijken, elk van deze sets is wel een kwartiel. De laagste 25% van de getallen in het bereik make-up van de 1e kwartiel, de volgende 25% van de 2e kwartiel, enzovoort. Wij nemen deze eerste stap, omdat de meest gebruikte definitie van een uitbijter is een gegeven dat meer dan 1,5 interkwartiel bereik (IQRs) onder de 1e kwartiel, en op 1,5 interkwartiel bereik boven het 3e kwartiel. Om te bepalen welke waarden, moeten we eerst achterhalen wat de kwartielen zijn.

Excel biedt een KWARTIEL functie voor het berekenen van de kwartielen. Het vereist twee soorten informatie: de matrix en de kwart.

=KWARTIEL(array, quart)

De matrix is het bereik van de waarden die u bij het evalueren. En de vierde is een getal dat staat voor het kwartiel u wenst terug te keren (bv., 1 voor het 1e kwartiel 2 voor de 2e kwartiel, enzovoort).

Opmerking: In Excel 2010 bracht Microsoft het KWARTIEL.INC en KWARTIEL.U functies zoals verbeteringen aan het KWARTIEL van de functie. KWARTIEL is meer achterwaarts compatibel bij het werken op meerdere versies van Excel.

Laten we terugkeren naar ons voorbeeld tabel.

Voor het berekenen van de 1e Kwartiel kunnen we gebruik maken van de volgende formule in cel F2.

=KWARTIEL(C2:C14,1)

Als u de formule invoert, Excel bevat een lijst van opties voor het vierde argument.

Voor het berekenen van de 3e kwartiel, kunnen we een formule invoeren als de vorige in cel F3, maar met behulp van een drie in plaats van één.

=KWARTIEL(C2:C14,3)

Nu, wij hebben het kwartiel gegevenspunten die worden weergegeven in de cellen.

Stap Twee: het Evalueren van de interkwartielafstand

De interkwartielafstand (of IQR) is de middelste 50% van de waarden in uw gegevens. Het wordt berekend als het verschil tussen de 1e kwartiel en het 3e kwartiel.

We gaan gebruik maken van een eenvoudige formule in cel F4, dat trekt de 1e kwartiel van het 3e kwartiel:

=F3-F2

Nu, we zien ons interkwartielafstand weergegeven.

Stap Drie: de Terugkeer van de onder-en Bovengrens

De boven-en ondergrenzen zijn de kleinste en grootste waarden van het bereik gegevens die we willen gebruiken. Alle waarden kleiner of groter is dan deze gebonden waarden zijn de uitschieters.

We berekenen de ondergrens van de limiet in cel F5 door het vermenigvuldigen van de IQR waarde van 1,5 en vervolgens af te trekken van de Q1 gegeven:

=F2-(1.5*F4)

Opmerking: De haakjes in deze formule zijn niet nodig, omdat de vermenigvuldiging deel zal berekenen voor het deel aftrekken, maar zij maken de formule eenvoudiger te lezen.

Voor het berekenen van de bovengrens in cel F6, we vermenigvuldigen de IQR met 1,5 opnieuw, maar dit keer toevoegen aan de Q3 gegeven:

=F3+(1.5*F4)

Stap Vier: zoek de Uitschieters

Nu we al onze onderliggende gegevens worden ingesteld is het tijd om onze afgelegen data punten—degenen die lager zijn dan de ondergrens waarde of hoger is dan de bovengrens van de waarde.

We zullen gebruik maken van de functie het uitvoeren van deze logische test en tonen de waarden die voldoen aan deze criteria door het invoeren van de volgende formule in cel C2:

=OF(B2<$F$5,B2>$F$6)

We kopieer deze waarde in op onze C3-C14-cellen. Een waarde TRUE geeft een uitschieter, en zoals je kunt zien, hebben we twee in onze gegevens.

Het negeren van de Uitschieters bij de Berekening van de Gemiddelde

Met behulp van de functie KWARTIEL laat het ons berekenen van de IQR en werken met de meest gebruikte definitie van een uitschieter. Echter, bij de berekening van het gemiddelde voor een bereik van waarden en het negeren van uitschieters, er is een sneller en gemakkelijker functie te gebruiken. Deze techniek niet identificeren met een uitschieter als voorheen, maar het zal ons in staat stellen om flexibel te zijn met wat we overwegen onze uitschieters gedeelte.

De functie die we nodig hebben is genoemd TRIMMEAN, en ziet u de syntaxis voor het onderstaande:

=TRIMMEAN(array procent)

De matrix is het bereik van de waarden die u wilt gemiddelde. Het percentage is het percentage van de data punten uit te sluiten van de boven-en onderkant van de data set (u kunt deze opgeven als een percentage of een decimale waarde).

We gingen de onderstaande formule in cel D3 in ons voorbeeld voor het berekenen van de gemiddelde in-en uitsluiten 20% van de uitschieters.

=TRIMMEAN(B2:B14, 20%)

Daar heb je twee verschillende functies voor het verwerken van uitschieters. Of u wilt om ze te identificeren voor sommige rapportage behoeften of uit te sluiten van berekeningen, zoals gemiddelden, Excel heeft een functie om uw behoeften te passen.