Regresja liniowa
Czym jest regresja liniowa
Regresja liniowa to model statystyczny opisujący, jak zmienia się zmienna zależna (wynikowa, y) w zależności od wartości jednej lub więcej zmiennych niezależnych (predyktorów, x). Model wyraża się równaniem prostej:
y = a + b · x
gdzie:
- a (wyraz wolny, intercept) — przewidywana wartość y, gdy x = 0
- b (współczynnik kierunkowy, nachylenie) — o ile zmienia się y przy wzroście x o 1 jednostkę
Gdy mamy kilka predyktorów, mamy do czynienia z regresją wielokrotną (multiple regression):
y = a + b₁x₁ + b₂x₂ + … + bₖxₖ
Każdy współczynnik bₖ opisuje efekt danego predyktora przy kontrolowaniu pozostałych.
Kiedy używać
Stosuj regresję liniową, gdy chcesz:
- przewidzieć wartości zmiennej ciągłej na podstawie jednego lub kilku predyktorów (np. wynik testu na podstawie godzin nauki)
- ocenić siłę i kierunek związku między zmiennymi
- kontrolować wpływ jednej zmiennej, badając efekt innej
Przed analizą zweryfikuj cztery kluczowe założenia:
- Liniowość — związek między x a y jest liniowy (sprawdź wykres punktowy)
- Niezależność reszt — reszty (residua) nie wykazują autokorelacji (test Durbina-Watsona)
- Homoskedastyczność — wariancja reszt jest stała na całym zakresie x (wykres reszt vs. wartości dopasowane)
- Normalność reszt — reszty mają rozkład zbliżony do normalnego (wykres Q-Q lub test Shapiro-Wilka)
Jak interpretować
| Miernik | Co opisuje |
|---|---|
| b (współczynnik) | Zmiana y o b jednostek przy wzroście x o 1 jednostkę |
| a (intercept) | Wartość y przy x = 0 (nie zawsze ma sens rzeczowy) |
| R² (R-kwadrat) | Odsetek wariancji y wyjaśniony przez model |
| p dla b | Czy efekt predyktora jest istotny statystycznie |
Wartość R² interpretuj następująco:
| R² | Interpretacja orientacyjna |
|---|---|
| < 0,10 | Model wyjaśnia mało wariancji |
| 0,10–0,30 | Słabe, ale realne efekty (typowe w naukach społecznych) |
| 0,30–0,50 | Umiarkowane dopasowanie |
| > 0,50 | Dobre dopasowanie (zależy od dziedziny) |
Przykład
Badasz, czy liczba godzin nauki (x) przewiduje wynik egzaminu (y, skala 0–100). Na próbie n = 80 studentów otrzymujesz:
y = 42 + 4,8 · x, R² = 0,38, p < 0,001
Interpretacja: student uczący się 0 godzin uzyska średnio 42 punkty; każda dodatkowa godzina nauki wiąże się ze wzrostem wyniku o 4,8 punktu. Model wyjaśnia 38% zmienności wyników egzaminu. Efekt jest istotny statystycznie (p < 0,001).
W pracy magisterskiej piszesz: „Liczba godzin nauki istotnie przewidywała wyniki egzaminu (b = 4,8; p < 0,001). Model wyjaśniał 38% wariancji wyników (R² = 0,38)”.
Typowe błędy
- Wnioskowanie o przyczynowości — regresja pokazuje związek, nie przyczynę. Więcej godzin nauki koreluje z lepszym wynikiem, ale model nie dowodzi, że powoduje poprawę.
- Ekstrapolacja poza zakres danych — jeśli dane obejmują 1–10 godzin nauki, przewidywanie dla 30 godzin jest ryzykowne; równanie prostej może tam zupełnie nie obowiązywać.
- Ignorowanie założeń i reszt — nieznormalizowane reszty, heteroskedastyczność lub nieliniowość unieważniają wnioski. Zawsze sprawdzaj wykresy diagnostyczne.
- Mylenie R² z R — R² to kwadrat korelacji Pearsona między wartościami obserwowanymi a dopasowanymi; R to sama korelacja. W prostej regresji R² = r².
- Pominięcie standaryzacji — przy porównywaniu siły kilku predyktorów używaj standaryzowanych współczynników β, bo surowe b zależą od skali zmiennych.
Chcesz poprawnie zaraportować wyniki regresji?
Pomogę zbudować model, sprawdzić założenia i opisać wyniki w formacie APA — gotowy fragment do wklejenia w Twoją pracę. Zobacz usługi →
Powiązane hasła
Autor: dr Błażej Mroziński, adiunkt SWPS. Aktualizacja: 19.06.2026.