Computer

Come eseguire un test di normalità in Excel: bontà di adattamento chi-quadrato

Autore: Peter Berry
Data Della Creazione: 18 Luglio 2021
Data Di Aggiornamento: 9 Maggio 2024
Anonim
Come eseguire un test di normalità in Excel: bontà di adattamento chi-quadrato - Computer
Come eseguire un test di normalità in Excel: bontà di adattamento chi-quadrato - Computer

Contenuto

Ho aiutato numerosi esperti di marketing e studenti di economia a capire come utilizzare le statistiche aziendali per risolvere i problemi del mondo reale.

Come eseguire il test di normalità più semplice e robusto di Excel

Questo articolo mostra istruzioni dettagliate e facili da seguire esattamente come eseguire il test di bontà di adattamento chi quadrato in Excel. Ogni volta che esegui un test t e una regressione, una correlazione o ANOVA, dovresti assicurarti di lavorare con dati normalmente distribuiti, altrimenti la tua analisi non sarà probabilmente valida. Il test Excel più semplice e affidabile per la normalità è il test di bontà di adattamento chi quadrato. Ecco come farlo.

Che cos'è il test di bontà di adattamento del chi quadrato?

Per verificare se stai lavorando con dati distribuiti normalmente, il test Excel veloce e sporco consiste semplicemente nel lanciare i dati in un istogramma di Excel e osservare la forma del grafico. Se c'è ancora una domanda, il prossimo (e più semplice) test di normalità è il test di bontà di adattamento chi-quadrato.


Questo test è meno noto di altri test di normalità come il test di Kolmogorov-Smirnov, il test di Anderson-Darling o il test di Shapiro-Wilk. Il test di bontà di adattamento del chi quadrato è, tuttavia, molto meno complicato, altrettanto robusto e molto più facile da implementare in Excel (di gran lunga) rispetto a qualsiasi test di normalità più noto. Facciamo un esempio.

I dati iniziali

Il passaggio iniziale del test di normalità consiste nel rappresentare graficamente i dati in un istogramma di Excel. Ecco i dati iniziali che stiamo testando per la normalità:

L'istogramma

L'istogramma Excel creato dai dati iniziali è il seguente:

L'istogramma sopra assomiglia in qualche modo a una distribuzione normale, ma dovremmo comunque applicarvi un test più robusto per esserne sicuri. Il test di bontà di adattamento del chi quadrato in Excel è robusto e facile da eseguire, comprendere e spiegare agli altri. Ecco come eseguire questo test sui dati sopra.


Applicazione della funzione di statistica descrittiva

Il primo passaggio del test di bontà di adattamento del chi quadrato in Excel consiste nell'applicare la funzione "Statistiche descrittive" di Excel ai dati di esempio.

Abbiamo bisogno di conoscere la media, la deviazione standard e la dimensione del campione dei dati che stiamo per testare per la normalità. Utilizzare lo strumento Excel delle statistiche descrittive per ottenere queste informazioni. In Excel 2003, questo strumento è disponibile in Strumenti / Analisi dei dati / Statistiche descrittive.

Come funziona il test di bontà di adattamento del chi quadrato

Ora che abbiamo la media del campione, la deviazione standard e la dimensione del campione, siamo pronti per eseguire il test di bontà di adattamento del chi quadrato sui dati in Excel.

Questo è un test di ipotesi. Le ipotesi null e alternative in fase di test sono:


  • H0 = I dati seguono la distribuzione normale.
  • H1 = I dati non seguono la distribuzione normale.

Riepilogo rapido del test

Dividiamo i campioni osservati in gruppi che hanno gli stessi confini dei contenitori stabiliti quando l'istogramma è stato creato in Excel. In questo caso, i campioni osservati sono caduti nei seguenti contenitori:

  • Da 3 a 4 - 1 campione aveva un valore in questo intervallo
  • Da 4 a 5 - 1 campione aveva un valore in questo intervallo
  • Da 5 a 6 - 2 campioni avevano un valore in questo intervallo
  • Da 6 a 7 - 4 campioni avevano un valore in questo intervallo
  • Da 7 a 8 - 6 campioni avevano un valore in questo intervallo
  • Da 8 a 9 - 7 campioni avevano un valore in questo intervallo
  • Da 9 a 10 - 7 campioni avevano un valore in questo intervallo
  • Da 10 a 11 - 4 campioni avevano un valore in questo intervallo
  • Da 11 a 12 - 4 campioni avevano un valore in questo intervallo
  • Da 12 a 13 - 3 campioni avevano un valore in questo intervallo
  • Da 13 a 14 - 1 campione aveva un valore in questo intervallo

Le figure sopra rappresentano il numero di campioni osservato in ogni intervallo di bin. Dobbiamo ora calcolare quanti campioni ci aspetteremmo che si verifichi in ogni intervallo se il campione fosse normalmente distribuito con la stessa media e deviazione standard del campione preso (media = 8,634 e deviazione standard = 2,5454).

Il numero previsto di campioni in ogni contenitore viene calcolato con la seguente formula:

(Area della curva normale delimitata dai limiti superiore e inferiore del contenitore) x (Numero totale di campioni prelevati)

Ad esempio, se ci fossero solo 2 bin che si incontrano alla media, la curva normale corrispondente avrebbe 2 regioni con un confine alla media della curva normale. Ciascuna delle due regioni della curva normale conterrebbe il 50% dell'area sotto l'intera curva normale. Ci aspetteremmo quindi che il 50% del numero totale di campioni prelevati cada in ciascun contenitore. Se, ad esempio, venissero prelevati 42 campioni, ci aspetteremmo che si verifichino 21 campioni in ogni contenitore se i campioni fossero normalmente distribuiti.

Dati gli intervalli di contenitori che abbiamo stabilito per l'istogramma di Excel e il numero di campioni osservati in ogni contenitore, ora dobbiamo calcolare il numero di campioni che ci aspetteremmo di trovare in ogni contenitore. Partiamo dal presupposto che i campioni siano normalmente distribuiti con la stessa media e deviazione standard misurate dal campione effettivo. Alla luce di questi presupposti, utilizziamo il metodo descritto sopra per calcolare quanti campioni ci si aspetterebbe di trovare in ogni contenitore.

Come calcolare la statistica chi-quadrato

Una volta che conosciamo il numero di campioni osservato e atteso in ogni bin, calcoliamo la statistica chi-quadrato.

Una statistica chi-quadrato viene creata dai dati utilizzando questa formula:

Statistica chi quadrato = Σ [[(Expected num. - Observed num.) ^ 2] / (Expected num.)]

Un valore p viene calcolato in Excel da questa formula di Excel:

Valore p = CHIDIST (statistica chi-quadrato, gradi di libertà)

Prendiamo tutti i campioni e li dividiamo in gruppi. Questi gruppi sono chiamati contenitori. Useremo gli stessi contenitori usati durante la creazione dell'istogramma in Excel. I contenitori sono i seguenti:

La dimensione del valore p determina se partiamo dal presupposto che i campioni siano distribuiti normalmente.

La regola decisionale

Se il valore p risultante è inferiore al livello di significatività, rifiutiamo l'ipotesi nulla e affermiamo che non possiamo affermare entro il grado di certezza richiesto che i dati siano normalmente distribuiti. In altre parole, se volessimo affermare con una certezza del 95% che i dati possono essere descritti dalla distribuzione normale, il Livello di significatività è del 5%. Il livello di significatività = 1 - Grado di certezza richiesto. Se il valore p risultante è maggiore di 0,05, possiamo affermare con almeno il 95% di certezza che i dati sono normalmente distribuiti.

Rompere la curva normale in regioni

Il test della bontà di adattamento del chi quadrato richiede che la distribuzione normale venga suddivisa in sezioni. In ogni sezione contiamo quanti si verificano. Questo è il nostro numero osservato per ogni sezione. La funzione Istogramma di Excel lo ha già fatto per noi. Ancora una volta, ecco l'output dell'istogramma di Excel:

Quando abbiamo creato l'istogramma Excel dai dati, dovevamo specificare in quanti "contenitori" sarebbero stati suddivisi i campioni. Excel ha contato il numero di campioni osservati in ciascun bin e quindi ha tracciato i risultati nell'istogramma sopra.

Poiché Excel ha già conteggiato il numero di campioni osservati in ogni contenitore, utilizzeremo anche i contenitori come sezioni per il test di bontà di adattamento del chi-quadrato. Sappiamo quanti campioni effettivi sono stati osservati in ogni contenitore. Dobbiamo ora calcolare quanti campioni ci si sarebbe aspettati di trovare in ogni contenitore.

Calcolo del numero previsto di campioni in ogni scomparto

La dimensione di ogni contenitore determina quanti campioni ci si sarebbe aspettati di trovarsi in quel contenitore. Ogni bin rappresenta una percentuale dell'area totale sotto la curva di distribuzione che stiamo valutando. Quella percentuale dell'area totale associata a un contenitore rappresenta la probabilità che ogni campione osservato venga prelevato da quel contenitore.

Ecco un semplice esempio che, si spera, chiarirà il paragrafo precedente. Se stessimo valutando un set di dati per la normalità, proveremmo a determinare se i dati si adattano alla curva normale. Dobbiamo determinare in quali intervalli di contenitori divideremo i dati. La disposizione più semplice dei contenitori consiste nel posizionare tutti i dati solo in due contenitori su entrambi i lati della media del campione. Se i dati fossero distribuiti normalmente, ci aspetteremmo che metà dei campioni si trovasse in ogni contenitore.

In altre parole, se i contenitori fossero posizionati lungo l'asse x rispetto alla media del campione in modo che ogni contenitore fosse direttamente sotto il 50% di una curva normale con la stessa media, allora ci aspetteremmo che il 50% dei campioni si verifichi in ciascuno bidone. Se fossero stati prelevati 60 campioni totali, ci saremmo aspettati 30 campioni in ogni contenitore.

Il numero previsto di campioni per un singolo contenitore = Exp.

Exp. = (Area sotto la curva normale sopra la parte superiore del contenitore) x (Numero totale di campioni)

Calcolo del CDF

Possiamo ottenere l'area della curva normale su ogni bin utilizzando la funzione di distribuzione cumulativa (CDF). Il CDF in qualsiasi punto dell'asse x è l'area totale sotto la curva a sinistra di quel punto. Possiamo ottenere la percentuale di area nella curva normale per ogni bin sottraendo il CDF al valore x del limite inferiore del bin dal CDF al valore x del limite superiore del bin.

La distribuzione normale che stiamo cercando di adattare ai dati ha come due e unici parametri la media e la deviazione standard del campione.

Il CDF di questa distribuzione normale in qualsiasi punto dell'asse x può essere determinato dalla seguente formula di Excel:

CDF = DISTRIB.NORM (valore x, media campionaria, deviazione standard campionaria, TRUE)

Ancora una volta, questa formula calcola il CDF a quel valore x, che è l'area sotto la curva normale a sinistra del valore x. Quella curva normale ha come parametri la media e la deviazione standard del campione.

Galleria CDF

Calcolo dell'area in contenitori

Sopra sono questi calcoli eseguiti in Excel utilizzando gli intervalli di bin dell'istogramma e una media campionaria di 8,643 e una deviazione standard di 2,5454.

Calcolo del numero previsto di campioni in ogni scomparto

Ora possiamo calcolare il numero previsto di campioni in ogni contenitore con la seguente formula:

Exp. numero di campioni in ogni bin =

(Percentuale dell'area della curva in quel contenitore) x Numero totale di campioni

Questo calcolo per ogni bin viene completato nella prima colonna di seguito. Ci sono 42 campioni totali presi per questo esercizio.

Calcolo della statistica del chi quadrato

Il risultato finale dei calcoli Excel di cui sopra è la colonna finale di (Exp. - Oss.) ^ 2 / Exp. per ogni bidone. Queste cifre vengono quindi sommate come segue per fornirci la statistica chi-quadrato complessiva per i dati del campione. In questo caso, le statistiche chi quadrato dei dati del campione sono 4,653.

Calcolo dei gradi di libertà

Il test Chi-Square-Goodness-Of-Fit richiede il calcolo del numero di gradi di libertà per il test specifico in esecuzione. La formula per questo è la seguente:

Gradi di libertà = df = (numero di contenitori pieni) - 1 - (numero di parametri calcolati dal campione)

Il numero di contenitori pieni = 12

Abbiamo calcolato la media e la deviazione standard dal campione. Si tratta di 2 parametri.

df = 12 - 1 - 2 = 9

Ora possiamo calcolare il valore p dalle statistiche chi-quadrato e dai gradi di libertà come mostrato direttamente sopra.

L'interpretazione grafica del valore p

L'interpretazione grafica del valore p è mostrata di seguito. Il valore p rappresenta la percentuale dell'area (in rosso) a destra di X = 4,653 sotto una distribuzione Chi-quadrato con 9 gradi di libertà. Se il valore p (.8634) è maggiore del livello di significatività (0,05), non rifiutiamo l'ipotesi nulla.

In questo caso, affermiamo che non rifiutiamo l'ipotesi nulla e non abbiamo prove sufficienti che i dati non siano distribuiti normalmente.

Questo articolo è accurato e fedele al meglio delle conoscenze dell'autore. Il contenuto è solo a scopo informativo o di intrattenimento e non sostituisce consulenza personale o consulenza professionale in questioni aziendali, finanziarie, legali o tecniche.

Le tue opinioni, domande e commenti sono molto importanti per noi. Non vediamo l'ora di sentire la tua opinione!

Nik il 26 aprile 2019:

Non sono sicuro di come ti sia venuta in mente la Lower e Upper Bin Ranges. Avrebbe più senso per me se l'intervallo di bin più basso iniziasse con un numero negativo elevato e il numero di bin più alto terminasse con un numero positivo grande (ad esempio -10 ^ (- 7) e 10 ^ 7). Quindi, i numeri effettivi dei contenitori verranno utilizzati per costruire gli intervalli intermedi dei contenitori. Ad esempio, BR_1 leggerà [-10 ^ (- 7), 3], BR_2 leggerà [3, 4] e così via fino a quando l'ultima riga BR_13 leggerà [14, 10 ^ 7]. Perché non è così? Mi sembra che il metodo prescritto distorca leggermente l'area normale che ogni contenitore dovrebbe contenere.

Pubblicazioni

Per Te

Come aggiornare il disco rigido nel laptop Alienware M15x
Computer

Come aggiornare il disco rigido nel laptop Alienware M15x

am lavora come anali ta di rete per una ocietà di trading algoritmico. Ha con eguito la laurea in informatica pre o l'UMKC.In que to hub ti mo trerò come aggiornare il di co rigido nel ...