Istotność statystyczna (p-value)
Czym jest istotność statystyczna (p-value)
Wartość p (p-value) odpowiada na pytanie: jeśli hipoteza zerowa (H₀) jest prawdziwa, jak prawdopodobne jest uzyskanie danych co najmniej tak skrajnych jak te, które zebrałem?
Formalnie: p = P(dane ≥ tak ekstremalne | H₀ prawdziwa).
Dwie krytyczne definicje, których nie należy mylić z powyższą:
- p NIE jest prawdopodobieństwem, że hipoteza zerowa jest prawdziwa.
- p NIE jest miarą wielkości efektu ani praktycznej doniosłości wyników.
Gdy p jest małe, oznacza to, że zaobserwowane dane byłyby rzadkie, gdyby H₀ była prawdziwa — co skłania do jej odrzucenia. Ale sama ta informacja mówi wyłącznie o zgodności danych z H₀, nic więcej.
Kiedy używać
Wartość p towarzyszy każdemu testowi statystycznemu — testowi t, ANOVA, chi-kwadrat, korelacji i innym. Podajesz ją zawsze wtedy, gdy przeprowadzasz wnioskowanie statystyczne z próby na populację.
Samo p nigdy nie jest wystarczające — zawsze raportuj je razem z:
- miarą wielkości efektu (d Cohena, η², r, V Craméra),
- przedziałem ufności dla szacowanego parametru.
Jak interpretować
Próg α = 0,05 to konwencja, nie prawo natury — wywodzi się z tradycji Fishera i bywa arbitralny. W zależności od dyscypliny stosuje się różne progi:
| Próg α | Kontekst |
|---|---|
| 0,05 | nauki społeczne, psychologia (standard) |
| 0,01 | badania kliniczne, farmakologia |
| 0,001 | genetyka, fizyka (wielkie próby, wiele testów) |
Istotność statystyczna ≠ istotność praktyczna. Przy bardzo dużej próbie (np. n = 10 000) nawet trywialnie mała różnica (d = 0,05) może dać p < 0,001. Odwrotnie — przy małej próbie duży efekt może nie osiągnąć progu α. Dlatego sama wartość p bez kontekstu jest myląca.
Rola liczebności próby: im większa próba, tym mniejszy błąd standardowy, tym łatwiej o istotny wynik — nawet dla efektów bez żadnego praktycznego znaczenia.
P-hacking (selektywne raportowanie analiz do momentu uzyskania p < 0,05) jest poważnym błędem metodologicznym — zawyża odsetek fałszywych odkryć w literaturze.
Przykład
W badaniu testem t-Studenta porównujesz skuteczność dwóch programów treningowych (n₁ = n₂ = 40). Wynik: t(78) = 2,14, p = 0,036, d = 0,24.
Interpretacja: wynik jest istotny przy α = 0,05, co oznacza, że tak duża różnica jest mało prawdopodobna przy H₀. Jednocześnie efekt jest mały (d = 0,24) — różnica może nie mieć praktycznego znaczenia. Przedział ufności 95% dla różnicy średnich (np. [0,3; 8,5 punktu]) doprecyzowuje, jak duża mogłaby być różnica w populacji.
Typowe błędy
- „p < 0,05 oznacza udowodnienie hipotezy” — test statystyczny nie udowadnia niczego; odrzuca lub nie odrzuca H₀ na przyjętym poziomie błędu.
- „p = prawdopodobieństwo, że H₀ jest prawdziwa” — to błędna interpretacja; p zakłada H₀ jako prawdziwą i liczy prawdopodobieństwo danych.
- Raportowanie tylko p, bez wielkości efektu — wynik p = 0,049 przy d = 0,10 i n = 5000 jest praktycznie bez znaczenia.
- P-hacking — testowanie wielu podgrup lub zmiennych i raportowanie tylko tych z p < 0,05 prowadzi do fałszywych odkryć.
- Traktowanie p = 0,051 jako „nieistotnego” — granica α jest arbitralna; różnica między p = 0,049 a p = 0,051 jest znikoma i powinna być opisana jako taka.
Nie wiesz, jak zinterpretować wyniki swojej analizy?
Pomogę dobrać odpowiedni test, opisać wartości p w kontekście wielkości efektu i przygotować sekcję wyników zgodną z wymogami APA. Skontaktuj się →
Powiązane hasła
Autor: dr Błażej Mroziński, adiunkt SWPS. Aktualizacja: 19.06.2026.