Articles

Quali sono i valori T e P nelle statistiche?

Se non sei uno statistico, guardare attraverso l’output statistico a volte può farti sentire un po ‘ come Alice nel paese delle Meraviglie. All’improvviso, entri in un mondo fantastico dove strani e misteriosi fantasmi appaiono dal nulla.

Ad esempio, considera T e P nei risultati del test T.

” Più curioso e più curioso!”potresti esclamare, come Alice, mentre guardi la tua uscita.

One-Sample T test output

Quali sono veramente questi valori? Da dove vengono? Anche se hai usato il valore p per interpretare la significatività statistica dei tuoi risultati mille volte, la sua origine effettiva potrebbe rimanere oscura per te.

T& P: Il Tweedledee e il Tweedledum di un T-test

T e P sono inestricabilmente collegati. Vanno a braccetto, come il Tweedledee e il Tweedledum. Ecco perché.

Quando si esegue un t-test, di solito si cerca di trovare prove di una differenza significativa tra la media della popolazione (2-campione t) o tra la media della popolazione e un valore ipotizzato (1-campione t). Il valore t misura la dimensione della differenza rispetto alla variazione nei dati di esempio. In altre parole, T è semplicemente la differenza calcolata rappresentata in unità di errore standard. Maggiore è la grandezza di T, maggiore è la prova contro l’ipotesi nulla. Ciò significa che c’è una maggiore evidenza che c’è una differenza significativa. Più T è vicino a 0, più è probabile che non ci sia una differenza significativa.

Ricorda, il valore t nell’output viene calcolato da un solo campione dell’intera popolazione. Se hai preso campioni casuali ripetuti di dati dalla stessa popolazione, otterrai valori t leggermente diversi ogni volta, a causa di un errore di campionamento casuale (che in realtà non è un errore di alcun tipo–è solo la variazione casuale prevista nei dati).

Quanto sono diversi i valori t di molti campioni casuali della stessa popolazione? E in che modo il valore t dei dati di esempio si confronta con i valori t attesi?

Puoi usare una distribuzione t per scoprirlo.

Utilizzando una distribuzione t per calcolare la probabilità

A titolo illustrativo, si supponga di utilizzare un t-test a 1 campione per determinare se la media della popolazione è maggiore di un valore ipotizzato, ad esempio 5, basato su un campione di 20 osservazioni, come mostrato nell’output del test t precedente.

  1. In Minitab, scegliere Grafico> Diagramma di distribuzione di probabilità.
  2. Selezionare Visualizza probabilità, quindi fare clic su OK.
  3. Dalla Distribuzione, selezionare t.
  4. In Gradi di libertà, immettere 19. (Per un test t a 1 campione, i gradi di libertà sono uguali alla dimensione del campione meno 1).
  5. Fare clic su Area ombreggiata. Selezionare il valore X. Seleziona la coda destra.
  6. Nel valore X, immettere 2.8 (il valore t), quindi fare clic su OK.

La parte più alta (picco) della curva di distribuzione mostra dove ci si può aspettare che la maggior parte dei valori t cada. La maggior parte delle volte, ti aspetteresti di ottenere valori t vicini a 0. Ha senso, vero? Perché se si selezionano casualmente campioni rappresentativi da una popolazione, la media della maggior parte di questi campioni casuali dalla popolazione dovrebbe essere vicina alla media complessiva della popolazione, rendendo le loro differenze (e quindi i valori t calcolati) vicine a 0.

Valori T, valori P e mani di poker

Valori T di grandezze maggiori (negative o positive) sono meno probabili. Le “code” all’estrema sinistra e destra della curva di distribuzione rappresentano istanze di ottenere valori estremi di t, lontani da 0. Ad esempio, la regione ombreggiata rappresenta la probabilità di ottenere un valore t pari o superiore a 2,8. Immagina un dardo magico che potrebbe essere lanciato per atterrare casualmente ovunque sotto la curva di distribuzione. Qual è la possibilità che atterrerebbe nella regione ombreggiata? La probabilità calcolata è 0,005712…..che arrotonda a 0,006…cioè…il valore p ottenuto nei risultati del test t!

In altre parole, la probabilità di ottenere un valore t di 2,8 o superiore, quando si campiona dalla stessa popolazione (qui, una popolazione con una media ipotizzata di 5), è di circa 0,006.

Quanto è probabile? Non molto! Per confronto, la probabilità di essere trattati 3-of-a-kind in una mano di poker 5 carte è oltre tre volte più alta (≈ 0.021).

Dato che la probabilità di ottenere un valore t così alto o più alto quando si campiona da questa popolazione è così bassa, cosa c’è di più probabile? È più probabile che questo campione non provenga da questa popolazione (con la media ipotizzata di 5). È molto più probabile che questo campione provenga da una popolazione diversa, una con una media maggiore di 5.

A wit: Poiché il valore p è molto basso (< livello alfa), si rifiuta l’ipotesi nulla e si conclude che esiste una differenza statisticamente significativa.

In questo modo, T e P sono inestricabilmente collegati. Considerali semplicemente diversi modi per quantificare l ‘”estrema” dei tuoi risultati sotto l’ipotesi nulla. Non è possibile modificare il valore di uno senza modificare l’altro.

Maggiore è il valore assoluto del valore t, minore è il valore p e maggiore è l’evidenza contro l’ipotesi nulla.(È possibile verificare questo inserendo valori t inferiori e superiori per la distribuzione t nel passaggio 6 sopra).

Prova questo follow-up a due code…

L’esempio di distribuzione t mostrato sopra si basa su un test t a coda singola per determinare se la media della popolazione è maggiore di un valore ipotizzato. Pertanto l’esempio di distribuzione t mostra la probabilità associata al valore t di 2.8 solo in una direzione (la coda destra della distribuzione).

Come useresti la distribuzione t per trovare il valore p associato a un valore t di 2.8 per il test t a due code (in entrambe le direzioni)?

Suggerimento: in Minitab, regola le opzioni nel passaggio 5 per trovare la probabilità per entrambe le code. Se non si dispone di una copia di Minitab, scaricare una versione di prova gratuita di 30 giorni.