Istotność statystyczna (p-value)

Czym jest istotność statystyczna (p-value)

Wartość p (p-value) odpowiada na pytanie: jeśli hipoteza zerowa (H₀) jest prawdziwa, jak prawdopodobne jest uzyskanie danych co najmniej tak skrajnych jak te, które zebrałem?

Formalnie: p = P(dane ≥ tak ekstremalne | H₀ prawdziwa).

Dwie krytyczne definicje, których nie należy mylić z powyższą:

p NIE jest prawdopodobieństwem, że hipoteza zerowa jest prawdziwa.
p NIE jest miarą wielkości efektu ani praktycznej doniosłości wyników.

Gdy p jest małe, oznacza to, że zaobserwowane dane byłyby rzadkie, gdyby H₀ była prawdziwa — co skłania do jej odrzucenia. Ale sama ta informacja mówi wyłącznie o zgodności danych z H₀, nic więcej.

Kiedy używać

Wartość p towarzyszy każdemu testowi statystycznemu — testowi t, ANOVA, chi-kwadrat, korelacji i innym. Podajesz ją zawsze wtedy, gdy przeprowadzasz wnioskowanie statystyczne z próby na populację.

Samo p nigdy nie jest wystarczające — zawsze raportuj je razem z:

miarą wielkości efektu (d Cohena, η², r, V Craméra),
przedziałem ufności dla szacowanego parametru.

Jak interpretować

Próg α = 0,05 to konwencja, nie prawo natury — wywodzi się z tradycji Fishera i bywa arbitralny. W zależności od dyscypliny stosuje się różne progi:

Próg α	Kontekst
0,05	nauki społeczne, psychologia (standard)
0,01	badania kliniczne, farmakologia
0,001	genetyka, fizyka (wielkie próby, wiele testów)

Istotność statystyczna ≠ istotność praktyczna. Przy bardzo dużej próbie (np. n = 10 000) nawet trywialnie mała różnica (d = 0,05) może dać p < 0,001. Odwrotnie — przy małej próbie duży efekt może nie osiągnąć progu α. Dlatego sama wartość p bez kontekstu jest myląca.

Rola liczebności próby: im większa próba, tym mniejszy błąd standardowy, tym łatwiej o istotny wynik — nawet dla efektów bez żadnego praktycznego znaczenia.

P-hacking (selektywne raportowanie analiz do momentu uzyskania p < 0,05) jest poważnym błędem metodologicznym — zawyża odsetek fałszywych odkryć w literaturze.

Przykład

W badaniu testem t-Studenta porównujesz skuteczność dwóch programów treningowych (n₁ = n₂ = 40). Wynik: t(78) = 2,14, p = 0,036, d = 0,24.

Interpretacja: wynik jest istotny przy α = 0,05, co oznacza, że tak duża różnica jest mało prawdopodobna przy H₀. Jednocześnie efekt jest mały (d = 0,24) — różnica może nie mieć praktycznego znaczenia. Przedział ufności 95% dla różnicy średnich (np. [0,3; 8,5 punktu]) doprecyzowuje, jak duża mogłaby być różnica w populacji.

Typowe błędy

„p < 0,05 oznacza udowodnienie hipotezy” — test statystyczny nie udowadnia niczego; odrzuca lub nie odrzuca H₀ na przyjętym poziomie błędu.
„p = prawdopodobieństwo, że H₀ jest prawdziwa” — to błędna interpretacja; p zakłada H₀ jako prawdziwą i liczy prawdopodobieństwo danych.
Raportowanie tylko p, bez wielkości efektu — wynik p = 0,049 przy d = 0,10 i n = 5000 jest praktycznie bez znaczenia.
P-hacking — testowanie wielu podgrup lub zmiennych i raportowanie tylko tych z p < 0,05 prowadzi do fałszywych odkryć.
Traktowanie p = 0,051 jako „nieistotnego” — granica α jest arbitralna; różnica między p = 0,049 a p = 0,051 jest znikoma i powinna być opisana jako taka.

Nie wiesz, jak zinterpretować wyniki swojej analizy?

Pomogę dobrać odpowiedni test, opisać wartości p w kontekście wielkości efektu i przygotować sekcję wyników zgodną z wymogami APA. Skontaktuj się →

Powiązane hasła

Autor: dr Błażej Mroziński, adiunkt SWPS. Aktualizacja: 19.06.2026.