Regresja Logistyczna
Jedną z najpopularniejszych odmian analizy regresji jest regresja logistyczna. Najważniejszą cechą regresji logistycznej jest to, że zmienna zależna (wyjaśniana, przewidywana) jest zmienną dychotomiczną, czyli przyjmuje dwie wartości, najczęściej 0 i 1. Sytuacja taka występuje w przypadku, gdy określamy wystąpienie bądź brak wystąpienia pewnego zdarzenia, zjawiska, np: śmierć, choroba (z tego też względu regresja logistyczna została spopularyzowana przez medycynę, choć jest również szeroko stosowana w innych dziedzinach nauki).
W klasycznej analizy regresji - model liniowy analizowaliśmy zależność pomiędzy dwiema zmiennymi mierzonymi na skali ilościowej. Zastosowanie modelu liniowego dla zmiennej zależnej mierzonej na skali dychotomicznej dałoby błędną interpretację, ponieważ model taki zakłada występowanie wartości poniżej 0 lub powyżej 1, a w przypadku zmiennej dychotomicznej nie mamy takich przypadków, coś może wystąpić bądź nie. Dlatego też zastosowanie klasycznej regresji liniowej dla zmiennych dychotomicznych jest nieodpowiednim podejściem analitycznym.
Podejście matematyczne. Nie wchodząc zbyt "głęboko" w matematyczne podstawy regresji logistycznej można powiedzieć, że wartości zmiennej dychotomicznej możemy przekształcić w postać prawdopodobieństwa wystąpienia danego zdarzenia, które przyjmuje wartości pomiędzy 0 i 1. Gdy zastosuje się transformację logit możliwe jest zlinearyzowanie modelu regresji logistycznej i przedstawienie go w postaci regresji liniowej.
W przypadku klasycznej liniowej analizy regresji w celu oszacowania modelu regresji stosuje się metodę najmniejszych kwadratów. W przypadku regresji logistycznej korzystamy z metody największej wiarygodności (ang. maximum likehood). Obliczenia poszukują takich wartości współczynników predyktorów wprowadzonych do modelu, aby wiarygodność była jak największa.
Przykład zastosowania. Badacz chciał sprawdzić, czy wielkość dochodów badanych osób ma wpływ palenie przez badane osoby papierosów. Przy czym wielkość dochodów (predyktor) mierzona była tutaj na skali ilościowej (od 0 do ...) a zmienna zależna (palenie papierosów) przyjmuje dwie wartości (0 - nie pali; 1 - pali). W wyniku przeprowadzenia analizy regresji logistycznej wykazał, że poziom dochodów istotnie statystycznie przewiduje to, czy dana osoba pali czy nie pali papierosy. Wyniki analizy wykazały, że im osoby więcej zarabiają tym jest mniejsza szansa na to, że są osobami palącymi.
Analiza regresji logistycznej (tak jak regresja liniowa) umożliwia nam oszacowanie czy wartości predyktora, zmiennej niezależnej, wyjaśniającej (lub grupy zmiennych niezależnych) "przewidują" wynik zmiennej zależnej. Jednakże w regresji logistycznej wynikiem nie jest wartość liczbowa jak w regresji ilościowej lecz szansa wystąpienia danego zdarzenia (jak w przykładzie: palenie papierosów). Za pomocą tej metody określamy zatem, czy wzrost/spadek wartości zmiennej niezależnej przewidują mniejsze czy większe prawdopodobieństwo wystąpienia danego zdarzenia.
Analizując regresję logistyczną określamy czy dany predyktor, zmienna niezależna jest istotna statystycznie w przyjętym modelu regresji. Dzięki temu możemy weryfikować postawione hipotezy badawcze, że dana zmienna ma wpływ na zmienną zależną. Ponadto możemy określić tzw. parametr exp(B), czyli eBi, nazywanym ilorazem szans dla danego predyktora. Parametr ten ma podobną interpretację co kierunek współczynnika β w modelu regresji liniowej. Na jego podstawie oceniamy, czy wzrost wartości predyktora powoduje spadek czy wzrost szansy wystąpienia analizowanego zdarzenia.
Analiza regresji logistycznej obarczona jest mniejszą liczbą założeń w porównaniu do klasycznej regresji liniowej. Ponadto, jako predyktory możemy wprowadzać zmienne zarówno mierzone na skali ilościowej jak i zmienne mierzone na skali porządkowej czy nominalnej. Najważniejszą charakterystyką regresji logistycznej jest fakt, że predyktorem jest zmienna dychotomiczna 0-1.