Articles

Vad är T-värden och P-värden i statistik?

Om du inte är statistiker kan du ibland känna dig lite som Alice i Underlandet genom att titta igenom statistisk produktion. Plötsligt går du in i en fantastisk värld där konstiga och mystiska phantasmer dyker upp från ingenstans.

tänk till exempel på T och P i dina T-testresultat.

”nyfiken och nyfiken!”du kanske utropar, som Alice, när du tittar på din produktion.

ett prov t testutgång

vad är dessa värden egentligen? Var kommer de ifrån? Även om du har använt p-värdet för att tolka den statistiska betydelsen av dina resultat femtiotal gånger, kan dess faktiska ursprung förbli grumligt för dig.

T & P: Tweedledee och Tweedledum för ett T-test

T och P är oupplösligt länkade. De går arm i arm, som Tweedledee och Tweedledum. Här är varför.

När du utför ett T-test försöker du vanligtvis hitta bevis på en signifikant skillnad mellan populationsmedel (2-prov t) eller mellan populationsmedelvärdet och ett hypotetiskt värde (1-prov t). T-värdet mäter storleken på skillnaden i förhållande till variationen i dina provdata. På ett annat sätt är T helt enkelt den beräknade skillnaden representerad i enheter med standardfel. Ju större storleken på T, desto större bevis mot nollhypotesen. Det betyder att det finns större bevis för att det finns en signifikant skillnad. Ju närmare T är 0, desto mer sannolikt finns det ingen signifikant skillnad.

Kom ihåg att t-värdet i din produktion beräknas från endast ett prov från hela populationen. Det du tog upprepade slumpmässiga prover av data från samma population, du skulle få lite olika t-värden varje gång på grund av slumpmässigt provtagningsfel (vilket verkligen inte är ett misstag av något slag–Det är bara den slumpmässiga variationen som förväntas i data).

hur olika kan du förvänta dig att t-värdena från många slumpmässiga prover från samma population ska vara? Och hur jämför t-värdet från dina provdata med de förväntade t-värdena?

Du kan använda en t-distribution för att ta reda på det.

använda en t-distribution för att beräkna Sannolikhet

för illustrationens skull, anta att du använder ett 1-prov T-test för att avgöra om populationsmedelvärdet är större än ett hypotetiskt värde, till exempel 5, baserat på ett prov av 20 observationer, som visas i ovanstående t-testutgång.

  1. I Minitab väljer du Graf> Sannolikhetsfördelningsdiagram.
  2. välj Visa sannolikhet och klicka sedan på OK.
  3. från Distribution, välj t.
  4. i frihetsgrader anger du 19. (För ett 1-prov T-test är frihetsgraderna lika med provstorleken minus 1).
  5. Klicka på skuggat område. Välj X-Värde. Välj Höger Svans.
  6. I X-värdet anger du 2.8 (T-värdet) och klickar sedan på OK.

den högsta delen (topp) av distributionskurvan visar var du kan förvänta dig att de flesta av T-värdena faller. För det mesta förväntar du dig att få t-värden nära 0. Det är vettigt, eller hur? För om du slumpmässigt väljer representativa prover från en population, bör medelvärdet för de flesta av dessa slumpmässiga prover från befolkningen vara nära det totala populationsmedelvärdet, vilket gör deras skillnader (och därmed de beräknade t-värdena) nära 0.

t-värden, p-värden och pokerhänder

t-värden med större storheter (antingen negativa eller positiva) är mindre troliga. De längst till vänster och höger ”svansarna” i distributionskurvan representerar instanser för att erhålla extrema värden på t, långt ifrån 0. Till exempel representerar den skuggade regionen sannolikheten för att erhålla ett t-värde på 2,8 eller högre. Föreställ dig en magisk pil som kan kastas för att landa slumpmässigt var som helst under distributionskurvan. Vad är chansen att det skulle landa i den skuggade regionen? Den beräknade sannolikheten är 0,005712…..vilket rundar till 0.006…vilket är…p-värdet som erhållits i t-testresultaten!

med andra ord är sannolikheten för att erhålla ett t-värde på 2,8 eller högre vid provtagning från samma population (här en population med ett hypotetiskt medelvärde på 5) ungefär 0,006.

hur troligt är det? Inte så mycket! Som jämförelse är sannolikheten att bli behandlad 3-of-a-kind i en 5-korts pokerhand över tre gånger så hög (0,021).

Med tanke på att sannolikheten för att få ett T-värde så högt eller högre när provtagning från denna population är så låg, vad är mer troligt? Det är mer troligt att detta prov inte kommer från denna population (med det hypotetiska medelvärdet av 5). Det är mycket mer troligt att detta prov kommer från olika populationer, en med ett medelvärde större än 5.

till vitt: Eftersom p-värdet är mycket lågt (< alfa-nivå) avvisar du nollhypotesen och drar slutsatsen att det finns en statistiskt signifikant skillnad.

På detta sätt är T och P oupplösligt kopplade. Tänk på dem helt enkelt olika sätt att kvantifiera ”extremeness” av dina resultat under nollhypotesen. Du kan inte ändra värdet på det ena utan att ändra det andra.

ju större absolutvärdet av T-värdet är, desto mindre är p-värdet och desto större är beviset mot nollhypotesen.(Du kan verifiera detta genom att ange lägre och högre t-värden för t-fördelningen i steg 6 ovan).

prova denna två-tailed uppföljning…

t-fördelningsexemplet som visas ovan är baserat på ett en-tailed t-test för att avgöra om medelvärdet av befolkningen är större än ett hypotetiskt värde. Därför visar t-fördelningsexemplet sannolikheten associerad med t-värdet på 2,8 endast i en riktning (distributionens högra svans).

hur skulle du använda t-distributionen för att hitta p-värdet associerat med ett t-värde på 2,8 för två-tailed t-test (i båda riktningarna)?

tips: i Minitab, justera alternativen i steg 5 för att hitta sannolikheten för båda svansarna. Om du inte har en kopia av Minitab, ladda ner en gratis 30-dagars provversion.