DROGOWSKAZ_3_rozdzial_1.pdf

(1192 KB) Pobierz
ROZDZIAŁ 1
Regresja prosta
15
Sylwia Bedyńska
Szkoła Wyższa Psychologii Społecznej w Warszawie
Monika Książek
Szkoła Główna Handlowa w Warszawie
część i
modele regresji
rozdział
Regresja prosta
1
W tym rozdziale dowiemy się o tym:
jaki jest wzór linii prostej – modelu regresji
jak dopasowywana jest linia regresji oraz jakie jest znaczenie
jej poszczególnych parametrów, w tym współczynnika beta
jak przeprowadzić analizę regresji w programie IBM SPSS
Statistics i zinterpretować oraz opisać uzyskane wyniki.
WPROWADZENIE
Poszukiwanie zależności między zmiennymi jest niezwykle ważnym elementem
postępowania naukowego. Choć analiza korelacji nie ma takiej mocy jak poszuki-
wanie przyczyny i skutku w badaniach eksperymentalnych, to jednak pozwalając
prześledzić wzajemne zależności dużej liczby zmiennych, przygotowuje podstawy
do projektowania eksperymentów. Dzięki tej technice możliwe jest bowiem zna-
czące zawężenie zmiennych uwzględnianych potem w badaniach eksperymental-
nych. Schemat korelacyjny może więc stanowić ważne źródło inspiracji dla ekspe-
rymentów, gdzie niemożliwe staje się uwzględnienie zbyt dużej liczby zmiennych
jednocześnie. Oczywiście relacje badań eksperymentalnych i  korelacyjnych są
wzajemne – zidentyfikowane w eksperymencie kluczowe dla danej sfery zmienne
mogą zostać następnie uwzględnione w badaniu korelacyjnym, które pozwala prze-
śledzić bardziej skomplikowane relacje między konstruktami, a w konsekwencji –
budowanie złożonych teorii naukowych.
Skoro relacje są takie ważne, to analiza regresji stanowi istotne narzędzie odpo-
wiadania na pytania badawcze o zależności zmiennych. W swej klasycznej postaci
wymaga, by zarówno predyktory (zmienne niezależne czy objaśniające), jak i zmienna
zależna (czy objaśniana) były ilościowe, ale jak pokażemy w jednym z rozdziałów,
możliwe jest także uwzględnienie dychotomicznych predyktorów. Możemy je wpro-
wadzać do regresji, dlatego że metoda ta jest bardziej ogólną techniką analityczną
należącą do rodziny metod kryjących się pod nazwą Ogólnego Modelu Liniowego.
Do tej samej grupy technik należą także testy
t-Studenta
i analiza wariancji, ale
nie są one tak wszechstronne jak regresja. Ograniczenie dla regresji stanowi jednak
liczba zmiennych zależnych – nie może ona przekroczyć jednej.
W tym rozdziale przedstawimy szczegółowo najprostszą analizę z wykorzysta-
niem jednej zmiennej niezależnej i jednej zmiennej zależnej. Dzięki temu, że model
będzie tak prosty, możliwy się stanie bardzo szczegółowy i precyzyjny opis podstaw
logicznych analizy regresji i sposobu interpretacji jej wyników. Zaczniemy jednak
od statystyk opisowych, które pozwalają podsumować współzmienność dwóch
zmiennych: kowariancji i korelacji
r
Pearsona. Następnie pokażemy na wykresach
rozrzutu, jak wyglądają dane o określonych wartościach współczynnika korelacji
r
Pearsona. Opiszemy także metodę dopasowania linii regresji oraz interpretację
parametrów opisujących tę linię. W  ostatniej części rozdziału zaprezentujemy
sposób wykonania obliczeń w  programie IBM SPSS Statistics i  zapis wyników
w raporcie empirycznym.
ZMIENNA NIEZALEŻNA
(OBJAŚNIAJĄCA)
ZMIENNA ZALEŻNA
(OBJAŚNIANA)
ROZDZIAŁ 1
Regresja prosta
17
KOWARIANCJA I KORELACJA
JAKO MIARY WSPÓŁZMIENNOŚCI
By zaprezentować logikę analizy regresji, cofniemy się na chwilę do dwóch statys-
tyk opisowych:
kowariancji i korelacji.
Ta pierwsza nie jest zbyt popularna, ale
zrozumienie sensu jej obliczania jest niezbędne, by swobodnie korzystać z  niej
w znajdującym się w dalszej części książki modelowaniu strukturalnym. Kowa-
riancję można uznać za prekursorkę korelacji, więc to, co teraz będziemy robić, to
po trosze archeologiczne wykopaliska.
Kowariancja wykorzystuje wariancję wyników, czyli odległości wyników od
średniej arytmetycznej. Opiera się na obserwacji, że jeśli dwie zmienne mają jakiś
specyficzny układ wartości względem siebie, to przykładowo u danej osoby wynik
powyżej średniej powinien współwystępować z wynikiem powyżej średniej w dru-
giej zmiennej. Możliwy jest też taki układ, że wynik poniżej średniej w obrębie
jednej zmiennej współwystępuje u danej osoby z wynikiem powyżej średniej w obrę-
bie drugiej zmiennej. A zatem kowariancja to inaczej współzmienność wyników
dwóch zmiennych, którą szacujemy, sprawdzając, w jakim kierunku odchylają się
wyniki obu zmiennych od odpowiednich średnich. Przykład obliczania kowariancji
dla czterech wyników można znaleźć w tabeli 1.1.
Kroki obliczania kowariancji:
KOWARIANCJA
Obliczamy
średnie
dla obu zmiennych.
Odejmujemy wynik osoby w danej zmiennej od średniej dla tej zmiennej.
Obliczamy więc
odległości
wyników w danej zmiennej od jej średniej.
Dla każdej osoby
mnożymy obie odległości
wyników zmiennych od ich
średnich.
Dodajemy do siebie iloczyny odległości
– to jest licznik kowariancji.
By uzyskać wartość kowariancji, dzielimy obliczoną w kroku 4 sumę przez
liczbę obserwacji pomniejszoną o 1.
Jak w niej widać, obliczamy ją w kilku krokach. Najpierw musimy znaleźć śred-
nie dla obu podsumowywanych zmiennych, następnie odnieść każdy wynik do tej
średniej, odejmując wynik od średniej. Mnożymy tak uzyskane odległości dla każ-
dej pary wyników i sumujemy je, uzyskując licznik kowariancji. Teraz już wystar-
czy tylko podzielić rezultat obliczeń przez liczbę wyników minus 1 i uzyskamy
wartość kowariancji. W tym przykładzie będzie to wartość –2,5.
No dobrze, policzyliśmy kowariancję, ale jak ją teraz zinterpretować? Niestety,
poważnym ograniczeniem tej statystyki jest to, że
możemy jedynie określić kie-
runek zależności.
Ujemna wartość świadczy o  tym, że niskie wartości jednej
INTERPRETACJA
KOWARIANCJI
18
CZĘŚĆ I
MODELE REGRESJI
Tabela 1.1.
Kolejne kroki obliczania wielkości kowariancji dla zmiennych
X
oraz
Y
Wartości
zmiennej X
1
2
3
4
5
średnia = 3
Wartości
zmiennej Y
5
4
3
2
1
średnia = 3
Odległość
od średniej
dla X
–2
–1
0
1
2
Odległość
od średniej
dla Y
2
1
0
–1
–2
Iloczyn
odległości
–4
–1
0
–1
–4
suma: –10
zmiennej współwystępują z wysokimi drugiej zmiennej i odwrotnie, a dodatnie, że
niskie wartości współwystępują z niskimi, a wysokie z wysokimi. Nie jesteśmy jed-
nak w stanie określić, czy zależność między zmiennymi jest silna czy słaba. Dzieje
się tak, dlatego że wielkość kowariancji zależy silnie od jednostek pomiarowych –
będzie większa, gdy podamy wartość wzrostu w centymetrach, niż gdy będziemy ją
obliczać na podstawie tych samych wartości, ale zapisanych w metrach. By poko-
nać tę trudność, Robert Pearson zaproponował współczynnik korelacji nazwany
później współczynnikiem
r
Pearsona, który ze względu na to, że liczony jest dla
wystandaryzowanych wyników, pozwala określić dwa aspekty relacji: siłę i kierunek.
Przyjrzyjmy się zatem
współczynnikowi korelacji
r
Pearsona.
Dla powyż-
szych danych będzie on obliczany następująco: pierwszy krok jest kluczowy,
bo zamiast odnosić wyniki obu zmiennych do ich średnich, standaryzujemy je,
a więc podajemy odległość od średniej, ale w jednostkach odchylenia standardo-
wego. Następnie postępujemy identycznie jak w przypadku obliczania kowarian-
cji: mnożymy przez siebie pary wartości dla danej osoby, dodajemy te iloczyny do
siebie i dzielimy przez liczbę osób badanych pomniejszoną o 1. Efektem tego jest
wartość współczynnika
r
Pearsona wynosząca dokładnie –1. Kolejne kroki obli-
czania korelacji dla przykładowych danych przedstawia tabela 1.2.
Współczynnik korelacji
r
Pearsona może przyjmować wartości od –1 do 1. Znak
współczynnika oznacza kierunek zależności – tak jak w przypadku kowariancji.
Kroki obliczania współczynnika korelacji
r
Pearsona:
Obliczamy średnie i odchylenia standardowe dla obu zmiennych.
Standaryzujemy wyniki każdej zmiennej, odejmując od każdego wyniku
średnią i dzieląc tę różnicę przez odchylenie standardowe.
Dla każdej osoby mnożymy wystandaryzowane wyniki dla obu zmiennych.
Dodajemy do siebie iloczyny wystandaryzowanych wyników – to jest licznik
współczynnika korelacji
r
Pearsona.
By uzyskać wartość korelacji, dzielimy obliczoną w kroku 4. sumę przez liczbę
obserwacji pomniejszoną o 1.
ROZDZIAŁ 1
Regresja prosta
19
Tabela 1.2.
Kolejne kroki obliczania wielkości korelacji dla zmiennych
X
oraz
Y
Wartości
zmiennej
X
1
2
3
4
5
średnia = 3
SD = 1,6
Wartości
zmiennej
Y
5
4
3
2
1
średnia = 3
SD = 1,6
Wystandaryzowana
odległość od średniej
dla
X
(Xi – M)/SD
–1,26
–0,63
0,00
0,63
1,26
Wystandaryzowana
odległość od średniej
dla
X
(Xi – M)/SD
1,26
0,63
0,00
–0,63
–1,26
Iloczyn
odległości
–1,6
–0,4
0,0
–0,4
–1,6
suma: –4
Dodatkowo jednak możemy określić siłę zależności: im wartość współczynnika
bliższa wartościom maksymalnym –1 oraz 1, tym silniejsza zależność. Gdy wartość
współczynnika znajduje się blisko 0, wówczas mówimy, że nie ma współzależności,
przy czym musimy pamiętać, że myślimy wtedy o zależność prostoliniowej – mono-
tonicznej i proporcjonalnej (a więc o zmianie o identyczną liczbę jednostkę jednej
zmiennej wraz ze zmianą drugiej zmiennej o jedną jednostkę). Tutaj mamy więc
do czynienia z idealną korelacją ujemną, ponieważ współczynnik korelacji
r
= –1.
Kowariancja
pozwala określić jedynie kierunek zależności, ale nie siłę relacji.
Wielkość kowariancji zależy silnie od jednostek pomiarowych.
Korelacja
umożliwia określenie zarówno kierunku, jak i siły zależności. Wiel-
kość korelacji nie zależy od jednostek pomiarowych, bo przed policzeniem
korelacji zmienne są standaryzowane.
Operacje w  programie IBM SPSS Statistics (ANALIZA–KORELACJE–
PARAMI), gdy wpiszemy te dane do edytora danych, potwierdzają poprawność
wcześniejszych obliczeń (zob. tab. 1.3).
Zerknijmy teraz, jak taka zależność wygląda na wykresie rozrzutu, na którym
na osiach
X
oraz
Y
umieszczone są wartości obu zmiennych. Aby wykonać wykres,
wchodzimy do górnego menu programu IBM SPSS Statistics i  wybieramy opcję
WYKRESY–WYKRESY TRADYCYJNE–ROZRZUTU/PUNKTOWY. Domyślnie
w oknie tym zaznaczony jest wykres PROSTY, a taki właśnie chcemy wykonać, więc
klikamy przycisk DEFINIUJ, by określić, które zmienne przedstawimy na wykresie.
Zmienną
X
umieszczamy na osi
X,
a zmienną
Y
na osi
Y.
Zwykle zmienną, którą
traktujemy jako wyjaśnianą, umieszczamy na osi
Y,
a wyjaśniającą na osi
X.
Potwier-
dzamy chęć wykonania operacji przyciskiem OK i uzyskujemy wykres (zob. rys. 1.1).
Jak widać na rysunku 1.1, punkty układają się dokładnie na linii prostej,
ponieważ mamy do czynienia z  idealną korelacją ujemną. Biegną od lewego
górnego rogu do dolnego prawego, bo korelacja jest ujemna. Dla dodatniej korelacji
Zgłoś jeśli naruszono regulamin