Hvad er T-værdier og P-værdier i statistik?
Hvis du ikke er statistiker, kan du se gennem statistisk output nogle gange få dig til at føle dig lidt som Alice i Eventyrland. Pludselig træder du ind i en fantastisk verden, hvor mærkelige og mystiske fantasmer vises ud af ingenting.
overvej f.eks. T og P i dine T-testresultater.
” Curiouser og curiouser!”du kan udbryde, ligesom Alice, når du ser på din output.
Hvad er disse værdier, virkelig? Hvor kommer de fra? Selvom du har brugt p-værdien til at fortolke den statistiske betydning af dine resultater umpteen gange, kan dens faktiske oprindelse forblive uklar for dig.
T & P: en T-test
T og P er uløseligt forbundet. De går arm i arm, som Tævefisk og Tævefisk. Her er hvorfor.
når du udfører en t-test, forsøger du normalt at finde tegn på en signifikant forskel mellem populationsmidler (2-prøve t) eller mellem populationsgennemsnittet og en hypotetisk værdi (1-prøve t). T-værdien måler størrelsen af forskellen i forhold til variationen i dine eksempeldata. Sagt på en anden måde, T er simpelthen den beregnede forskel repræsenteret i enheder af standardfejl. Jo større størrelsen af T er, desto større er beviset mod nulhypotesen. Dette betyder, at der er større bevis for, at der er en betydelig forskel. Jo tættere T er på 0, jo mere sandsynligt er der ikke en signifikant forskel.
Husk, at t-værdien i din output beregnes ud fra kun en prøve fra hele befolkningen. Det tog du gentagne tilfældige prøver af data fra samme population, du ville få lidt forskellige t-værdier hver gang på grund af tilfældig prøveudtagningsfejl (hvilket virkelig ikke er en fejl af nogen art–det er bare den tilfældige variation, der forventes i dataene).
hvor forskellige kan du forvente, at t-værdierne fra mange tilfældige prøver fra samme population er? Og hvordan sammenlignes t-værdien fra dine prøvedata med de forventede t-værdier?
Du kan bruge en t-distribution til at finde ud af.
brug en t-fordeling til at beregne Sandsynlighed
for illustrationens skyld, Antag at du bruger en 1-prøve t-test til at bestemme, om populationsgennemsnittet er større end en hypotetisk værdi, såsom 5, baseret på en prøve på 20 observationer, som vist i ovenstående t-testoutput.
- i Minitab skal du vælge graf> sandsynlighedsfordeling Plot.
- Vælg vis sandsynlighed, og klik derefter på OK.
- fra Distribution skal du vælge t.
- i frihedsgrader skal du indtaste 19. (For en 1-prøve t-test er frihedsgraderne lig med prøvestørrelsen minus 1).
- Klik på skraveret område. Vælg En Værdi. Vælg Højre Hale.indtast 2.8 (t-værdien) i værdi, og klik derefter på OK.
den højeste del (top) af fordelingskurven viser dig, hvor du kan forvente, at de fleste af t-værdierne falder. Det meste af tiden ville du forvente at få t-værdier tæt på 0. Det giver mening, ikke? For hvis du tilfældigt vælger repræsentative prøver fra en population, skal gennemsnittet af de fleste af disse tilfældige prøver fra populationen være tæt på det samlede populationsgennemsnit, hvilket gør deres forskelle (og dermed de beregnede t-værdier) tæt på 0.
t-værdier, p-værdier og pokerhænder
t-værdier med større størrelser (enten negative eller positive) er mindre sandsynlige. De yderste venstre og højre “haler” af fordelingskurven repræsenterer tilfælde af opnåelse af ekstreme værdier af t, langt fra 0. For eksempel repræsenterer det skraverede område sandsynligheden for at opnå en t-værdi på 2,8 eller derover. Forestil dig en magisk pil, der kunne kastes til land tilfældigt hvor som helst under fordelingskurven. Hvad er chancen for, at den lander i den skyggefulde region? Den beregnede sandsynlighed er 0,005712…..som runder til 0.006…hvilket er…p-værdien opnået i t-testresultaterne!
med andre ord er sandsynligheden for at opnå en t-værdi på 2,8 eller højere, når prøveudtagning fra samme population (her en population med et hypotetisk gennemsnit på 5) er cirka 0,006.
hvor sandsynligt er det? Ikke meget! Til sammenligning er sandsynligheden for at blive behandlet 3-of-a-kind i en 5-korts pokerhånd over tre gange så høj (kr.0,021).
i betragtning af at sandsynligheden for at opnå en t-værdi, der er så høj eller højere, når prøveudtagning fra denne population er så lav, Hvad er mere sandsynligt? Det er mere sandsynligt, at denne prøve ikke kommer fra denne population (med det hypotetiske gennemsnit af 5). Det er meget mere sandsynligt, at denne prøve kommer fra forskellige populationer, en med et gennemsnit større end 5.
til hvid: Fordi p-værdien er meget lav (< alfa-niveau), afviser du nulhypotesen og konkluderer, at der er en statistisk signifikant forskel.
på denne måde er T og P uløseligt forbundet. Overvej dem simpelthen forskellige måder at kvantificere “ekstremiteten” af dine resultater under nulhypotesen. Du kan ikke ændre værdien af den ene uden at ændre den anden.
jo større den absolutte værdi af t-værdien er, desto mindre er p-værdien, og jo større er beviset mod nulhypotesen.(Du kan bekræfte dette ved at indtaste lavere og højere t-værdier for T-fordelingen i trin 6 ovenfor).
prøv denne to-tailed opfølgning…
t-fordelingseksemplet vist ovenfor er baseret på en one-tailed t-test for at bestemme, om gennemsnittet af befolkningen er større end en hypotetisk værdi. Derfor viser t-fordelingseksemplet sandsynligheden forbundet med t-værdien på 2,8 kun i en retning (fordelingens højre hale).
hvordan ville du bruge T-fordelingen til at finde p-værdien forbundet med en t-værdi på 2,8 til to-tailed t-test (i begge retninger)?
tip: i Minitab skal du justere indstillingerne i trin 5 for at finde sandsynligheden for begge haler. Hvis du ikke har en kopi af Minitab, hente en gratis 30-dages prøveversion.
Leave a Reply