Regresja liniowa

Czym jest regresja liniowa

Regresja liniowa to model statystyczny opisujący, jak zmienia się zmienna zależna (wynikowa, y) w zależności od wartości jednej lub więcej zmiennych niezależnych (predyktorów, x). Model wyraża się równaniem prostej:

y = a + b · x

gdzie:

a (wyraz wolny, intercept) — przewidywana wartość y, gdy x = 0
b (współczynnik kierunkowy, nachylenie) — o ile zmienia się y przy wzroście x o 1 jednostkę

Gdy mamy kilka predyktorów, mamy do czynienia z regresją wielokrotną (multiple regression):

y = a + b₁x₁ + b₂x₂ + … + bₖxₖ

Każdy współczynnik bₖ opisuje efekt danego predyktora przy kontrolowaniu pozostałych.

Kiedy używać

Stosuj regresję liniową, gdy chcesz:

przewidzieć wartości zmiennej ciągłej na podstawie jednego lub kilku predyktorów (np. wynik testu na podstawie godzin nauki)
ocenić siłę i kierunek związku między zmiennymi
kontrolować wpływ jednej zmiennej, badając efekt innej

Przed analizą zweryfikuj cztery kluczowe założenia:

Liniowość — związek między x a y jest liniowy (sprawdź wykres punktowy)
Niezależność reszt — reszty (residua) nie wykazują autokorelacji (test Durbina-Watsona)
Homoskedastyczność — wariancja reszt jest stała na całym zakresie x (wykres reszt vs. wartości dopasowane)
Normalność reszt — reszty mają rozkład zbliżony do normalnego (wykres Q-Q lub test Shapiro-Wilka)

Jak interpretować

Miernik	Co opisuje
b (współczynnik)	Zmiana y o b jednostek przy wzroście x o 1 jednostkę
a (intercept)	Wartość y przy x = 0 (nie zawsze ma sens rzeczowy)
R² (R-kwadrat)	Odsetek wariancji y wyjaśniony przez model
p dla b	Czy efekt predyktora jest istotny statystycznie

Wartość R² interpretuj następująco:

R²	Interpretacja orientacyjna
< 0,10	Model wyjaśnia mało wariancji
0,10–0,30	Słabe, ale realne efekty (typowe w naukach społecznych)
0,30–0,50	Umiarkowane dopasowanie
> 0,50	Dobre dopasowanie (zależy od dziedziny)

Przykład

Badasz, czy liczba godzin nauki (x) przewiduje wynik egzaminu (y, skala 0–100). Na próbie n = 80 studentów otrzymujesz:

y = 42 + 4,8 · x, R² = 0,38, p < 0,001

Interpretacja: student uczący się 0 godzin uzyska średnio 42 punkty; każda dodatkowa godzina nauki wiąże się ze wzrostem wyniku o 4,8 punktu. Model wyjaśnia 38% zmienności wyników egzaminu. Efekt jest istotny statystycznie (p < 0,001).

W pracy magisterskiej piszesz: „Liczba godzin nauki istotnie przewidywała wyniki egzaminu (b = 4,8; p < 0,001). Model wyjaśniał 38% wariancji wyników (R² = 0,38)”.

Typowe błędy

Wnioskowanie o przyczynowości — regresja pokazuje związek, nie przyczynę. Więcej godzin nauki koreluje z lepszym wynikiem, ale model nie dowodzi, że powoduje poprawę.
Ekstrapolacja poza zakres danych — jeśli dane obejmują 1–10 godzin nauki, przewidywanie dla 30 godzin jest ryzykowne; równanie prostej może tam zupełnie nie obowiązywać.
Ignorowanie założeń i reszt — nieznormalizowane reszty, heteroskedastyczność lub nieliniowość unieważniają wnioski. Zawsze sprawdzaj wykresy diagnostyczne.
Mylenie R² z R — R² to kwadrat korelacji Pearsona między wartościami obserwowanymi a dopasowanymi; R to sama korelacja. W prostej regresji R² = r².
Pominięcie standaryzacji — przy porównywaniu siły kilku predyktorów używaj standaryzowanych współczynników β, bo surowe b zależą od skali zmiennych.

Chcesz poprawnie zaraportować wyniki regresji?

Pomogę zbudować model, sprawdzić założenia i opisać wyniki w formacie APA — gotowy fragment do wklejenia w Twoją pracę. Zobacz usługi →

Powiązane hasła

Autor: dr Błażej Mroziński, adiunkt SWPS. Aktualizacja: 19.06.2026.