MASII.pdf
(
308 KB
)
Pobierz
Analiza wielopoziomowa (analiza losowych współczynników)
Założenia:
1. Zmienna wynikowa –
rozkład normalny
(zyskujemy moc i elastyczność modelowania)
2. Reszty
– rozkład normalny
3. Reszty nieskorelowane, ale analizę wielopoziomową prowadzi się gdy są skorelowane?
4. Losowe wyrazy wolne i losowe współczynniki nachylenia –
rozkład normalny
5. Dodatkowo spr czy nie ma wartości odstających,
Analiza wielopoziomowa
efektywny sposób korygowania dla zmiennych jakościowych
nie są estymowane wszystkie współ. kierunkowe prostych, lecz szacowana jest ich wariancja
metodologia analizy danych o złożonej zmienności, z naciskiem na skupione źródła zmienności
główny model- hierarchiczny liniowy, rozszerzenie wielokrotnej regresji liniowej do modelu
zawierającego czynniki zagnieżdżone
pożądanym schematem losowania jest próbkowanie wielowarstwowe
dają poprawne odpowiedzi na standardowe błędy współczynników regresji (chronią przed
niepoprawnymi wnioskami)
modelowanie wariancji daje ramy na wyższy zakres pytań
współ uznany za losowy tylko na poziomie wyższym niż ten na którym był mierzony
Naiwna regresja–ignoruj
skupinie danych, fakt, że obserwacje pacjentów tego samego lekarza są skorelowane.
Test stosunku wiarygodności-
daje odp na pytanie czy warto dodawać losowy współczynnik do modelu
(różnica log wiarygodności dla modeli, rozkład chi-kwadrat).
Model z
losowym współczynnikiem nachylenia-szacowanie
jednego parametru wariancji dla różnych
nachyleń linii regresji dla różnych lekarzy
Interclass correlation coefficient (ICC)
–w studiach poprzecznych wartość nie wyższa 0,2
MW rozpoznają
strukturę hierarchiczną
zwracając uwagę na zróżnicowanie składników losowych na każdym
poziomi hierarchii.
Najwyższy poziom powinien mieć max 20 jednostek.
Struktury danych:
1. Hierarchiczna
2. Hierarchiczna- powtórzone miary
3. Hierarchiczna- o wielu zmiennych
4. Nie hierarchiczna- klasyfikacja krzyżowa
5. Nie hierarchiczna- wielokrotne uczestnictwo
Na AW wpływają:
Analiza kontekstowa- efekty kontekstu społecznego w zachowaniach indywidualnych
Modele efektów mieszanych- statystyczne modele w analizie wariancji i regresji, zakłada się, że część
czynników jest stała, część losowa
Przykład
Szacowanie zmienności międzyszkolnej oraz predyktorów poziomu szkół (np. płeć) możliwe dzięki
założeniom MW.
Zw zagnieżdżone i krzyżowe: okazje pomiaru zagnieżdżone w uczniach; nauczyciele krzyżują się z
kohortą: uczą więcej niż jedną kohortę, kohorta jest uczona przez kilku nauczycieli.
Wielokrotne uczestnictwo- wpływ na wyniki uczniów mają nauczyciele z poprzednich lat.
Gdy uczniowie zmieniają obszar- nie są już zagnieżdżeni w obszarach
Macierz wyników:
1. wartość- wariancja wyrazów wolnych, ostatnia- wariancja nachyleń, pozostała-
kowariancja
pom losowym wyr wolnym a losowym nachyleniem: ujemna- odwrotna zależność pom los
wyr wolnym a los nachyleniem
Scentrowanie wartości zmiennej niezależnej-lepsza możliwość interpretacyjna, odjęcie średniej od obserwacji,
nowa średnia=0
Regresja logistyczna
P-stwo zdarzenia wyznaczane w oparciu o f łączącą liniowy predyktor z p-stwem zdarzenia.
Odds ratio(Xi)=exp(βi) wyraża przyrost ryzyka względnego w wyniku działania xi
exp(βi) > 1 to Xi działa stymulująco na default
np. dla zmiennej płeć: βi=0.81 odds ratio=exp(βi)=2.25 - iloraz ryzyka względnego default wzrasta o
125% przy jednostkowej zmianie X, czyli w grupie mężczyzn (X=1) w porównaniu z (X=0)
Przykładowa interpretacja:
Stała = -
względem Y=0 wynosi 46%
= 6.024 Przy ustalonych wartościach pozostałych zmiennych, X1=‘A’ ma
sześciokrotnie wyższe szanse Y=1, niż X1~=‘A’
Testy istotności
• Test ilorazu wiarygodności– porównuje wartość logarytmu funkcji wiarygodności dla modelu pełnego
oraz zredukowanego (z usuniętą zmienną Xi)
• Test Walda
Miary jakości
• Uogólniony R2
• Max-rescaled R2 - uogólniony R2 podzielony przez max wartość
• Współczynnik ilorazu wiarygodności
Para zgodna
(concordant) jeżeli p dla )<p dla 1
Para niezgodna (disconcordant) jeżli p1>p2
Para powiązana (tied) jeżeli p1=p2
Istotność pojedynczych zmiennych/kategorii
– test Walda
Analiza ocen maksymalnej wiarygodności” ,Chi-kwadrat Walda =
Łączna istotność każdej ze zmiennych
Analiza efektów typu 3”
Dla zmiennych ciągłych – ten sam rezultat, co test Walda
Dla zmiennych jakościowych L = [1 1 1 1] i
test punktowy (score test)
Łączna istotność zmiennych możliwych do wprowadzenia
•„Test resztowy chi-kwadrat’
•test punktowy
•Bardzo słaby test (bardzo wiele testowanych parametrów)
Przedziały ufności
•Oparte na statystyce Walda lub na statystyce ilorazu wiarygodności
•Nieistotność: gdy przedział ufności dla parametru zawiera 0, gdy dla ilorazu szans zawiera 1
Model logitowy – problemy
Interakcja
występuje wtedy, gdy wpływ jednej zmiennej zależy od innej zmiennej. Interakcja zmiennych
jakościowych to iloczyny każda z każdą wszystkich zmiennych 0-1 utworzonych dla ich kategorii
Zbieżność algorytmu numerycznego
Zjawisko (quasi) kompletnej separacji – np. gdy uwzględniamy zmienną jakościową, która dla jednego z
poziomów ma takie same wartości Y (0 lub 1)
Współliniowość – trudno uzyskać oszacowania oddzielnego wspływu zmiennych skorelowanych na
zmienną niezależną
Wielomianowa regresja logistyczna uporządkowana -
dla zmiennej zależnej dyskretnej ale porządkowej,
funkcja łącząca – logit skumulowany
STEPWISE
–w selekcji krokowej zmienna która zostaje dodana do modelu niekoniecznie tam zostaje. Na
każdym kroku testowane są zarówno przydatności zmiennych będących już w modelu jak i istotność tych
jeszcze nie włączonych. Dla zmiennej binarnej test chi-kwadrat, dla ciągłej-F
Selekcja zmiennych objaśniających
1.Zastosowanie korelacji Spearmana pomiędzy zmiennymi a zmienną objaśnianą (binarną) z uzupełnieniem o
takie miary jak statystyka Hoeffdinga (D).
2.Estymacja modeli z wszystkimi możliwymi kombinacjami zmiennych
3.Metody krokowe: Stepwise Selection (może ominąć istotne zmienne i niekoniecznie znaleźć optymalny
zestaw zmiennych), Forward Selection i Backward Selection (bezpieczniejsza niż Stepwise Selection)
4.Metoda wyboru zmiennych najmniej ze sobą skorelowanych (ograniczenie: tylko dla zmiennych
numerycznych).
5.Preselekcja na podstawie modelu jednoczynnikowego (nie uwzględnia związków i wpływu pomiędzy
zmiennymi objaśniającymi).
Test Hosmer and Lemeshow
–do weryfikacji jak p-stwa prognozowane są dopasowane do p-stw
obserwowanych. Mała wartość p-value świadczy o słabym dopasowaniu, wysoka wartość świadczy do dobrym
dopasowaniu. Wartość 0,24 jest wartością średnią świadczącą o umiarkowanej precyzji dopasowania.
Moc predykcyjna (dyskryminacja) modelu
Moc dyskryminacyjną modelu można mierzyć za pomocą miar lub statystyk określających jak dobrze model
odróżnia klientów „złych” od „dobrych”:
- Pomiar odległości pomiędzy rozkładami p-stw dla tych dwóch grup klientów, im bardziej te rozkłady
zachodzą na siebie tym słabszy jest model. Miarą ogólną jest tzw. statystyka
Dywergencji
oparta na różnicy
średnich pomiędzy rozkładami. Innym sposobem jest zastosowanie testu t na różnicę dwóch średnich
- Znany ogólnie jest test
Kołmogorowa-Smirnowa
oparty na róznicy dystrubuant. Statystyka testująca D
przyjmuje wartości 0-1 im bliżej 0 tym słabszy model, im bliżej 1 tym lepsza separacja.
- Najbardziej odpornym na kształt rozkładu testem jest test
Wilcoxon-Mann-Whitney
odpowiadający polu pod
krzywą ROC. Pole pod krzywą ROC odpowiada współczynnikowi Giniego (2*c-1=AR czyli Gini)
Accuracy
(prawdziwe pozytywne+prawdziwe negatywne)/(ogółem)
Błąd ogółem:
(fałszywe pozytywne+fałszywe negatywne)/(ogółem)
Sensytywność
(Sensitivity) (prawdziwe negatywne)/(ogółem aktualne negatywne)
Specyficzność
(Specificity) (prawdziwe pozytywne)/(ogółem aktualne pozytywne)
Krzywa ROC
jest wykresem zależności
Sensitivity
od (1-Specificty) dla wszystkich możliwych wartości cut-off
czyli inaczej dla wartości p-stwa decydującego czy dana obserwacja jest zaklasyfikowana do „złych” czy do
„dobrych” klientów. Cut-off można ustalić na dowolnym punkcie np.0.5 lub 0.3
Dla idealnej sytuacji ROC byłby krzywą poziomą w 1, czyli statystyka c wynosiła by 1.Statystyka c przyjmuje
wartości 0-1, nie powinna jednak być niższa niż 0,5. 0,5 to model losowy czyli nie dyskryminuje klientów.
Statystyka c wynosi 0,82 czyli AR=0,82*2-1=0,64. Poziom współczynnika Giniego 64% dla karty scoringowej
jest poziomem zadowalającym.
Oversampling
kiedy w próbie do budowy modelu jest bardzo mała liczba obserwacji ze zdarzeniem czyli tzw
defaultów a bardzo duża liczba obserwacji nie-default gdzie odsetek defaultów wynosi poniżej kilku %, należy
do próby deweloperskiej włączyć wszystkie defualty i wylosować nie-defaulty w proporcji max. 1:5 a następnie
dokonać korekty wyników np. poprzez dodanie czynnika skalującego.
Zmienne nieistotne lub współliniowe
ale istotnych z punktu widzenia merytorycznej zawartości - można
zastosować metodę głównych
Współliniowości zmiennych lub redukcji wymiaru
można dokonać stosując analizę skupień-pogrupowanie
zmiennych w skupienia, które są wewnątrz najsilniej skorelowane a pomiędzy skupieniami jak najsłabiej.
Nadawanie ocen punktowych tzw. scorów.
Jeżeli oprócz decyzji „tak” „nie” interesuje nas nadanie klientowi
oceny punktowej wówczas można wykorzystać procedurę PROC SCORE.
Modele nieparametryczne –
postać analityczna rozkładu nieokreślona, metody opisowe, nie wykorzystują
regresji, analiza rozkł zmiennej czasowej bez przyjmowania konkretnej postaci rozkładu.
Funkcja dożycia:
S(t)=P(T>=t)=1-F(t)
Zalety:
Brak konieczności zakładania postaci rozkładu zmiennej czasowej
Łatwe do wyliczenia i zinterpretowania
Otrzymanie estymatora f dożycia
Weryfikacja hipotezy o równości f dożycia w różnych grupach wyznaczonych w oparciu o zmienną
kategoryczną
Dobry wstęp do dalszych, zaawansowanych analiz zmiennej czasowej/ryzyka wyst zdarzenia
Brak restrykcyjnych założeń
Wady:
Brak możliwości pomiaru ilościowego wpływu zmiennych objaśniających na zmienna czasową
Dla ciągłych zmiennych trzeba je kategoryzować w celu porównania f dożycia między grupami
qx=2niMi/(2+niMi)
Mi-współ zgonów w itym przedziale wieku, ni- rozpiętość przedziału wieku
Metoda tradycyjna
Konieczność grupowania czasu obserwacji w przedziały o jednakowej długości
Duża liczba epizodów
Metoda K-M
Konstrukcja zestawu ryzyka dla każdego okresu czasu
Konieczność uszeregowania epizodów według czasu ich trwania
Problem gdy dwa zdarzenia następują dokładnie w tym samym czasie
Gdy ostatnia obserwacja ocenzurowana, f dożycia nie jest równa 0 na koniec =niezdefiniowana
Metoda N-A
Do mało licznych prób
Porównanie tradycyjnej i K-M
Obie metody analizują dane z ocenzurowanych i nieocenzurowanych obserwacji, obserwacja
ocenzurowana nie brana pod uwagę przy szacowaniu ryzyka po ocenzurowaniu
KM pozwala szacować f dożycia w każdym punkcie czasowym, tradycyjna w określonym przedziale
W KM f dożycia stała pomiędzy kolejnymi zdarzeniami, w tradycyjnej stała w przedziałach czasowych
Porównanie różnych f dożycia na wykresie(która wyżej) potem testy czy różnica statystycznie istotna
(test log-rank,Wilcoxon, Tarone-Ware, Peto-Peto, test wiarygodności)
Model Coxa
Spełnione ma być jedno założenie:
Dokładnie nieznana zależność hazardu i czasu
Brak mocnych podstaw do stosowania parametrycznego
1.MODELE MIESZANE
cel:
1. Zdefiniowanie efektów stałych i losowych 2. Zdefiniowanie i wyjaśnienie istoty modelu mieszanego
df: modele, w których niektóre czynniki są efektami stałymi a niektóre losowymi nazywamy modelami
mieszanymi
Bloki:
to grupy jednostek doświadczenia formowane tak, by jednostki wewn bloków były jednorodne tak jak to
możliwe
Bloki: to prawie zawsze efekty losowe w projektach modeli mieszanych
Blokowanie o ograniczenie losowości
Metoda estymacji : procedura MIXED, lub GLM
mixed: dostarcza ona 6 metod estymacji dla parametrów kowariancji :
GLM- jest procedura stałych efektów, dlatego nie jest polecane stosowanie jej do analiz modeli
mieszanych!.
Założenia liniowego modelu mieszanego:
-efekty losowe i reszty maja rozkład normalny ze średnia zero i macierzą kowariancji G i R, odpowiednio
-efekty losowe i reszty są od siebie niezależne
-Średnie (wartości oczekiwane zmiennych objaśniających są liniowo związane ze zmiennymi objaśniającymi
(liniowo w kategoriach parametrów stałych)
Efekty stałe –
efekt nazywany jest stałym, jeśli poziomy w badaniu reprezentują wszystkie możliwe poziomy,
co, do których ma zostać przeprowadzone wnioskowanie.
Efekty czynnika są losowe, – jeśli
są użyte w badaniu do reprezentowania tylko próby (najlepiej próby
losowe) większego zbioru potencjalnych poziomów. Efekty czynnika odpowiadającego większemu zbiorowi
tworzą populacje o rozkładzie prawdopodobieństwa. Czynnik jest uznany za losowy, jeśli jego poziomi
reprezentują większa populacje o rozkładzie prawdopodobieństwa.
Efekty losowe reprezentują prawdziwe
losowanie, zakłada się, że mają rozkłady prawdopodobieństwa.
Zakładamy, ze rozkład efektu losowego ma średnią =0 i wariancje sigma 'a'kwadrat, 'a' odnosi się do np.
wariancji efektów terapii : jeśli leki byłyby losowe, oznaczałoby to wariancje wśród efektów leków w populacji
leków. (efekty stałe greckimi literami losowe łacińskimi)
Model mieszany
zawiera efekty stałe i losowe.
Modelowanie struktury wariancji
jest najważniejszą cechą modeli mieszanych., to oddziela je od
konwencjonalnych modeli liniowych. Jest to rozszerzenie poza strukturę wariancji do uwzględnienia korelacji
między obserwacjami. (np. w układach powtórzonych pomiarów , pomiary zebrane od tej samej osoby w
małych odstępach czasu są dużo bardziej skorelowane niż pomiary oddalone od siebie w czasie.
Przykłady.
1.model efektów losowych
2.20 opakowań próbką losową z populacji. Log liczby mikrobów ma rozkład normalny. Opakowania
reprezentują większa populacje o rozkładzie prawdopodobieństwa, można założyć, że efekty opakowań są
losowe. Oraz próby wewnątrz opakowań są losowe. Czyli tylko średnia ogólna jest parametrem efektów
stałych, reszta losowych.
3.Przykład wielu lokacji (Multi location – example)
4.Czyli, która alokacja ma być efektem losowym, lub stałym
5.Eksperymenty z powtarzanymi pomiarami Split-plot, etc.
6.one są modelowane za pomocą nieliniowego modelu regresji.
Modele mieszane –
są matematycznym opisem średniej warunkowej w kategoriach parametrów stałych modelu
efektów losowych modelu i różnych stałych opisujących schemat badania. Beta to wektor parametrów stałych,
X macierz stałych opisujących strukturę badania ze względu na efekty stałe(to obejmuje schemat traktowania,
zmienne objaśniające i predykatory regresji, etc.), Z macierz stałych opisujących strukturę badania ze względu
na efekty losowe (to obejmuje schemat blokowania, zmienne objaśniające w schematach o współczynnikach
losowych).
Plik z chomika:
plumblum
Inne pliki z tego folderu:
20140611_174222.jpg
(2443 KB)
20140611_174241.jpg
(2473 KB)
20140611_174233.jpg
(2164 KB)
20140611_174209.jpg
(2227 KB)
20140611_174158 (1).jpg
(1595 KB)
Inne foldery tego chomika:
Badania marketingowe
egzaminy.kibr
Ekonomia pracy
finanse
fuzje i przejęcia
Zgłoś jeśli
naruszono regulamin