Pokazywanie postów oznaczonych etykietą Metody Komputerowej Analizy Danych. Pokaż wszystkie posty
Pokazywanie postów oznaczonych etykietą Metody Komputerowej Analizy Danych. Pokaż wszystkie posty

17 sierpnia 2009

Funkcja produkcji Koba Duglasa, Regresja

Metody komputerowej analizy danych, Statistica 5.5 - Ćwiczenia 10 -

zależności nieliniowe, z pojawiającymi sie problemami - rachunkowe - numeryczne

funkcja produkcji Koba Duglasa - nieliniowa

V (produkcja) = α*x1b * x2c * ....
szacujemy α1 2 3
sprowadzamy do liniowanego
x = 1/z lub np logarytmujemy
ln V = ln a + b ln x1 + c ln x2
V' = a' + bx1' + cx2'

dane: funkcja produkcji
regresja wielokrotna |

nieliniowo
estymacja nieliniowa - wybieramy coś zdefiniowanego v3=a*v1**b *v2**c
liniowo
dodajemy 3 zmienne - logarytmujemy zmienne poprzednie (log(v1)) tak by stworzyć model liniowy

Regresja wielokrotna cz. 3

Tematyka zajęć: wyznaczanie modelu oraz parametrów na podstawie danych.

Moduły regresja wielokrotna oraz estymacja nieliniowa w programie Statistica 5.5 tyczą się MNK czyli metody najmniejszych kwadratów. Różnica dotyczy tego jaki model chcemy tworzyć - liniowy czy nieliniowy.

Generalnie łatwiej jest tworzyć model liniowy, jeżeli jednak mamy do czynienia z nieliniowym to łatwiej jest mimo wszystko przerobić go na liniowy i analizować jako liniowy.

Nieliniowa funkcja hiperboliczna

Y = (A / X) + B

Sposób linearyzacji: podstawiamy

Z = 1 / X

i wychodzi:

Y = A*Z + B

Nieliniowa funkcja paraboli - funkcja wielomianowa

Y = b1x2 + b2x + b3, gdzie b1 <> 0

Podstawienie

Z = X2

Nieliniowa funkcja potęgowa

Y = A * x1b1 * x2b2 * x3b3

Sposób linearyzacji: obustronnie logarytmujemy, podstawiając zmienne za logarytmy otrzymujemy

W = ln(Y), zi=ln(xi)

Powstało

W = B1x1 + B2x2 + B3x3 + c

Nieliniowa funkcja wykładnicza

Y = A * eB1x1 + B2x2 + ... + Bnxn

Sposób linearyzacji: obustronnie logarytmujemy, podstawiając zmienne za logarytmy otrzymujemy

W = B1x1 + B2x2 + ... + Bnxn + C

Regresja

Metody komputerowej analizy danych, Statistica 5.5 - Ćwiczenia 8 - 24.11.2006

Regresja wielokrotna cz. 2

zmienne objaśniające dla modeli którymi się zajmujemy (modele regresyjne)
badany wpływ pewnych zmiennych na zachowanie się Y

w modelach regresyjnych ocenia się wpływ czynników na zmienną zależną - dla modeli ekonometrycznych tworzone jest sprzężenie zwrotne - celem manipulacji

zmienne objaśniające zależą od ustawień nie od losu

formalnie jednak zasady budowy modeli regresyjnych i ekonometrycznych to to samo

test darvina - watsona

należy jednak mieć inne założenia co do zmiennych objaśniających

Dla modelu y = α0 + α1 x1 + α2 x2 + ... + αk xk

α to parametry populacyjne - tyczą sie całej populacji wiec dla próbki może być inaczej

Budownictwo

po lewej zmienne:
po prawej zmienne:

pytanie - od czego zależy stan gałęzi budownictwa

kombinacje parametrów α wykonuje się w ramach budowy/oceny modelu - działania na macierzach

założenia do MNK po raz kolejny

Regresja wielokrotna | dane | nie powinno być wśród zmiennych objaśniających zależności (katalizy) | należy ocenić stopień skorelowania
Statystyki podstawowe | korelacje - każdy - każdy

Wyszło, że skorelowanie zmiennych pomiedzy sobią jest silne

Dla MNK liczba pomiarów nie może być mniejsza od liczby szacowanych parametrów

W wynikach p oznacza poziom istotności dla różnicy parametrów od zera - nie potrzebne w modelu

Dla R2 bliskiego |1| mamy bardzo dobre wpasowanie się w model

Przy wyrzucaniu zmiennych R^2 nie powinno się zmniejszać, można wyrzucać dotacje czy dochody indywidualne (budownictwo) - usuwamy kolejne zmienne i patrzymy czy pozostałe w sensowny i stosowny sposób opisują daną zmienną zależną tworząc sensowny model.

wyłącz domyślną analizę | metoda | krokowa, postępująca (dołączanie potrzebnych zmiennych), wsteczna (eliminacja z maksymalnego modelu)

Tworzymy modele z jak najmniejszą liczbą zmiennych objaśniających. Jest wtedy przejrzystszy.

Korelacja cech

Metody komputerowej analizy danych, Statistica 5.5 - Ćwiczenia 7 - 17.11.2006

Koło - Statistica 5.5 - Anova cz. II - Dokładaniejsza analiza średnich międzygrupowych.

Anova | [otwórz dane - niech będą te z poprzedniego paragrafu] | Menu - Analiza | Panel początkowy lub wznów analizę

Zmienne niezależne: V3, V4, V5 - płeć, wykształcenie, miejsce zamieszkania
Zmienne zależne: V6 - dochód miesięczny

kody dla czynników międzygrupowych | wszystkie | ok | ok | porównania post hoc | czynniki - wszystkie 3 | ok | 2 pierwsze opcje - średnie lub test NIR, planowane porównanie

post hoc - łac., po tym, a więc wskutek tego (przykład błędnego wyprowadzania stosunku przyczyny i skutku ze zwykłego następstwa w czasie

W średnich mamy teraz wyliczone wartości średnich dla wszystkich podgrup składających się na całą próbkę. Możemy opowiedzieć o różnicach w stosunku do globalnej średniej. Oraz skrajnych przypadkach - czyli grupach zarabiających najmniej, lub najwięcej.

Test NIR - to już zupełnie inna sprawa. Po prawidłowym odpaleniu pojawia się wielka tablica, która jest symetryczna względem przekątnej diagonalnej. Jest to więc macierz diagonalna. Wektor opisujący nazwy danych jest kolumnach jest transpozycją wektora dla wierszy i z niego możemy odczytać pełne nazwy. Dla uproszczenia wiersze i kolumny są indeksowane.

Test NIR; zmienna DOCHMIES - Prawdopodobieństwo dla testów post hoc - INTERAKCJA 1 x 2 x 3

Jak teraz interpretować wyniki. Co prawda nie jest to cała tabela - ale resztę można zrobić w sposób analogiczny. Oryginalna tabela dla 3 zmiennych niezależnych i jednej zależnej będzie miała 12 x 12 pól. Aż tyle ponieważ należy aby uwzględnić wszystkie podgrupy należy połączyć je każdy z każdym a badane cechy V3, V4 i V5 są jakościowe i posiadają odpowiednio 2, 3 i 2 różnych wartości. Wynik 12 to zwyczajny iloczyn 2*3*2.

Dla przykładu weźmy sobie dowolne pole, gdzie wartość jest mniejsza od 0,05. Odczytujemy w pierwszym wierszu i kolumnie czego dotyczy wynik np 11/1 (11 wiersz, 1 kolumna). Mężczyźni z wykształceniem wyższym mieszkający w mieście zarabiają w istotny sposób inaczej niż kobiety z miasta ale z wykształceniem podstawowym. średnie ich dochodów przy żądanym poziomie istotności (0,05) są znacząco różne. Wysokość tych średnich można odczytać na górze: 766,67 do 3931,25 zł.
W ten sposób możemy opowiedzieć o zależnościach występujących w całej tej macierzy odzwierciedlających prawidłowości, zależności i związki znajdujące się w badanej próbce.

Zajęcia - Współzależność cech (nie)zależnych - Analiza regresji liniowej wielu (2) zmiennych, ekonometria again (przyp. aut.).

Podstawowe statystyki | Menu - Analiza | Macierze korelacji | Wyniki [1,2,3] | Opcje [3x puste] | 2 listy zmiennych - wzrost/waga | OK

Współczynniki korelacji liniowej Pearsona -1 <= r <=1; r~-1 korelacja umemna (analogie do y=-x); r~1 korelacja dodatnia (korelacje do y=x). R~0 - brak korelacji - wszystkie koliście. Trzeba pamiętać, że jest to wynik na istnienie korelacji liniowej a nie jakiejś innej np. nieliniowej ;p. A więc innego typu korelacji test nie wykaże.

Statystyki nieparametryczne | Panel początkowy | Korelacje (Spearmana, tau Kendalla) | OK |

Współczynnik korelacji rang Spearmana -1 <= s <= 1 (podobnie jak dla Pearsona). Teraz zmienne przypadki należy interpretować jako kolejne liczby całkowite - te podejście pozwala ominąć problem występujących z każdej próbce osobników znacznie odbiegającyh od głównej tendencji.

MNK, Metoda Najmniejszych kwadratów - szacujemy parametry modelu ekonometryczngo. Dla dwóch zmiennych sprowadza się to znalezienia parametrów a0, a1 pochodzących z wzoru: y = a0 + a1 x1.

Oczywiście zanim przystąpimy do badania - obliczeń na zdrowy rozsądek należy ocenić czy to wzrost zależy od wagi; czy może jednak waga od wzrostu (przykładowa analiza 2 cech). Oczywiście siła zależności nie musi być super mocna, ale dobrze by było, żeby to jednak miało jakiś sens ponieważ mogą się potem pojawić problemy przy próbie sensownej interpretacji wynków jakie otrzymamy z takich danych.

Aby oszacować wielkość tych parametrów należy spełnić założenia MNK, jednym z nich jest niezależność poszczególnych zmiennych objaśniających. Dla prostego modelu y = a0 + a1 x1 zjawisko zależności zmiennych ni jak wystąpić nie ma szans. Jednak palenie i stan zdrowia będą odwrotnie proporcjonalne i nici z solidnych obliczeń. Nie można w każdym razie zapominać o założeniach metody jaką się stosuje.

Należy również rozeznać się zo należy zrobić ze zmiennymi typu: stan cywilny czy tak/nie. Cóż, nie należy ich odznaczać do bezpośrednich obliczeń - dodaje je się oddzielnie jako kawaler/zamężny czy t/n. Ale to już temat nieco z innej beczki

Do dzieła...

Moduł - Regresja wielokrotna | Dane | Panel początkowy | zmienne | ok | OK | Podsumowanie regresji (2) lub Korelacje 2 zmiennych (Q)

Parametry oszacowanego modelu przy zadanym poziomie istotności ukryte są we współczynnikach B, no i jeszcze przydało by się pamiętać - co od czego jest zależne w danym teście. Na szczęście w tabelach Statistica 5.5 podaje X od Y i Y od X.

Aby wynki były bardziej wiarygodne to na początku w SC - Select Cases odznaczyć należy kobiety i mężczyzn oddzielnie. Wykres można potem zapisać. A potem do kolejnego:

plik | przyłącz wykres

Na wykresie poza wizualizacją poszczególnych wartości Statistica 5.5 rysuje prostą / proste - tzw. krzywą regresji - która ma symbolizować wartość oczekiwaną z 95% prawdopodobieństwem (95% przedział ufności).

Posiadając teraz wykres i parametry modelu - wpływu jednej zmiennej na drugą można dodać do tego trochę opisów.

Niestety Statistica 5.5 nie chodzi pod XP tak jak byśmy chcieli, za co jednych chórem podziękujmy programistom rodem z Redmond.

16 sierpnia 2009

Statystyki nieparametrczne

Metody komputerowej analizy danych, Statistica 5.5 - Ćwiczenia 4 - 27.10.2006

Statystyki nieparametryczne itp

Mamy cechę X (rozkład normalny N) N(m, sigma)
P{śr(x) - błąd oszacowania <= ?? <= śr(x) + błąd oszacowania} = 1 - alpha
Popularne rozkłady do ztestowania N, t-studenta, Mana-Witneya

Ocena normalności rozkładu

stat. ogólne | test dla prób niezależnych [zależnych]
p - prawdopodobieństwo, że się mylimy, kiedy przyjmujemy ze słuszną hipotezę ...
nauczyć się porównanie ze względu na cechę - np ze względu na płeć

Cechy niemierzalne

płeć, rodzaj studiów

Związki pomiędzy dwoma cechami

Analiza | tabele korelacji
Wyniki - tablelaryzacja

Jaki procent w próbie posiada daną cechę, a jaki inną

podstawowe statystyki | panel początkowy | tabele liczebności
Oczywiście wszystko dla odpowiedniej zmiennej

Ocena symetryczności rozkładu

Należy obliczyć skośność danej zmiennej, dodatkowo można zbudować histogram częstości i wizualnie ocenić symetryczność rozkładu

Metody komputerowej analizy danych, Statistica 5.5 - Ćwiczenia 5 - 03.11.2006

test ze staroci :-(

Statistica - Anova (analiza wariancji) - Metody wielowymiarowe

Dla zmiennej X: N(m, sigma)
H0 - wszystkie zarobki równe
H1 - istnieje wśród wszystkich co najmniej jedna para gdzie jest inaczej

p ~ 0 - odrzucenie H0
p ~ 1 - brak podstaw do odrzucenia H0

Wyniki - interpretacja
1 - cecha 1
2 - cecha 2
12 - interakcje pomiędzy cechami 1 i 2

Metody komputerowej analizy danych, Statistica 5.5 - Ćwiczenia 6 - 10.11.2006

Ciąg dalszy modułu Anova. Może po kolei. Na początek jak wykonać podstawowe zadania w tym module. Należy wynaleźć dane... Biorąc pod uwagę, że jest to w sumie najtrudniejsza sprawa - ponieważ większość z nich zawiera jakieś mankamenty typu BD, czyli brak danych, lub jest ich tam zbyt wiele, to mając ten etap za sobą mamy już zdecydowanie z górki :-D

Moduły | Anova/Manova | [Otwórz dane] | Menu - Analiza | Panel początkowy

Teraz wybieramy zmienne niezależne (tymczasowo uznajemy je jako niezależne wobec cechy badanej). Powiedzmy, że będą to V3,V4 i V5 a więc płeć, wykształcenie oraz miejsce zamieszkania. Teraz należy sprawdzić, czy owe zmienne wpływają na zmienną V6 czyli dochód miesięczny. Wpływ ten należy ocenić dla wszystkich oraz każdej z osobna oraz interakcji pomiędzy zmiennymi. Bez modułu Anova analiza taka - wielowymiarowa nie była by możliwa.

OK | Kody dla czynników między grupowych | Wszystkie | OK | OK | średnie/wykresy

Zaznaczmy opcję odpowiednią dla potrzeb. Gwoli wyjaśnienia na liście efektów znajdują się teraz 3 pozycje w postaci wybranych wcześniej zmiennych niezależnych oraz kilka innych 12, 13, 23, 123 - to są właśnie interakcje. Teraz możemy potestować sobie wszystkie z tych opcji - należy zaznaczyć aktualnie oceniany związek / zmienną / interakcje i OK. Pojawiają się tabele w których wybieramy kolejność zmiennych na wykresie, inaczej mówiąc reprezentacje odpowiednich osi. W zasadzie nie ma znaczenia jak to wybierzmy. Można jednak przypuszczać, że bardziej sensowny jest podział na miasto i wieś czy płeć niż na wysokość dochodu ;p. To może nie jest zbyt dobry przykład, gdyż Anova zajmuje się cechami jakościowymi - jako zmiennymi niezależnymi. Przejrzystość wykresu dodatkowo wymaga więc odpowiedniego doświadczenia w doborze kolejności cech. To może na początek niech zostanie zaznaczone domyślnie.

Opcja ta również powoduje automatyczne wyliczenie elementów pełnej tabeli wszystkich efektów. Następnie zostanie wyświetlone okno dialogu pozwalające wybrać efekty proste i wyświetlić wykres średnich (interakcji) lub arkusz wyników (nieważonych) średnich. Opcja ta stanowi najszybszy sposób badania istotnych efektów w przypadku złożonych układów ANOVA.

O ile Statistica się nie wywaliła - nie należy do rzadkości. Mamy przed sobą wykres / kilka wykresów przetawiających linie np łamane. Często są one równoległe. Czasem skośne wobec siebie. Czasem dla kilku wykresów mają one inną orientację. Czasem nawet się przecinają. Najprostszym podejściem w ich interpretacji jest zaznaczenie, że gdy są równoległe (w miarę) to interakcje wymienionych zmiennych nie powodują znaczącego wpływu na zmienną badaną - w tym wypadku dochodu. Kiedy zmieniają orientację - można wywnioskować z tego o pewnych różnicach występujących dla różnych grup. Kiedy się krzyżują bądź wykresy znacznie odbiegają od siebie oznacza, że najprawdopodobniej interakcje cech mają wpływ na wynik. Interakcje których cech? No tych, które właśnie widnieją na osiach. Aby zmienić osie należy wycofać się do etapu wyboru odpowiedniego wiersza - zmienne lub 12 czyli interakcje cechy 1 i 2. I od początku lecieć jak wcześniej. Tym sposobem możemy dla badanych cech opisać wszystkie zależności pomiędzy nimi ich wzajemnym wpływem a wynikiem w postaci zmiennej zależnej (bądź wcale niezależnej od nich).

O ile interpretacja graficzna jest potencjalnie łatwa do oceny to nie daje 100% wiarygodności testu. Dlaczego? Ponieważ do próbki, którą badamy "powrzucano" co miano. Próbka może być niejednorodna lub co gorsza niedoreprezentowana. Tzn., że poszczególne grupy mają różną liczbę reprezentantów. Na przykład badamy wpływ płci na zarobki mając do dyspozycji 2 kobiety i 200 mężczyzn. Porównanie zostanie wykonane - ale jaka jest jego reprezentatywność. Żadna!
Aby więc potwierdzić bądĽ oddalić hipotezę o potencjalnym związku pewnej cechy z inną. Należy wykonać testy statystyczne.

OK | Kody dla czynników między grupowych | Wszystkie | OK | OK | średnie/wykresy Wszystkie efekty

Pojawia się tabela z wierszami 1, 2, 3, 12, 13, 23, 123 czyli podobnie jak wtedy wpływ zmiennych oraz interakcji zmiennych na badaną cechę. Tym razem zamiast wykresu mamy tablicę, której ostatnia kolumna to p. Jest to prawdopodobieństwo z testu statystycznego.

Jeżeli p < 0.05 oznacza to, że należy odrzucić hipotezę H0 mówiącą o jednolitym, równym wpływie badanej cechy czy związku na wynik. H1 - mówi, że co najmniej jedna para odchyla się od te prawidłowości i ma konsekwencje we wpływie na cechę zależną.

Wartość-p: Kolumna ta zawiera poziomy-p powiązane ze statystykami R Rao dla każdego efektu.

Rozkład statystyki R Rao: Gdy analiza dotyczy (1) dowolnej liczby grup z dwoma zmiennymi zależnymi, (2) dwóch grup z dowolną liczbą zmiennych zależnych lub (3) trzech grup z dowolną liczbą zmiennych, wówczas rozkład statystyki R Rao (będącej przekształceniem lambdy Wilksa) podlega dokładnemu rozkładowi F z liczbami stopni swobody podanymi w Tabeli wszystkich efektów. We wszystkich pozostałych warunkach transformacja stosowana do wyliczania R Rao (patrz Lindeman, Merenda i Gold, 1980; Rao, 1952; Tatsuoka, 1971) podlega w przybliżeniu rozkładowi F z liczbą stopni swobody podaną w Tabeli wszystkich efektów.

Dla uproszczenia, Statistica 5.5 wyróżnia cechy które istotnie wpływają badaną cechę. Na czerwono podświetliło się 2, 13 i 123. W skrócie można powiedzieć, że istotny wpływ na dochód ma wykształcenie, interakcje płci i miejsca zamieszkania oraz interakcje wszystkich zmiennych zależnych. Dokładnie jaki, czyli opisanie przebiegu tej zależności na dochód może zostać przeprowadzone z pomocą średnich/wykresów, które omówiłem na początku tego rozdziału. Trzeba jednak pamiętać, że wyznacznikiem bardziej obiektywnym są testy statystyczne, które uwzględniają błędy związane z pewnym stopniem losowości przypadków.

Metody komputerowej analizy danych - ćwiczenia 1,2

Metody komputerowej analizy danych, Statistica 5.5 - Ćwiczenia 1 - 06.10.2006

Cechy ilościowe - wzrost, waga itp
Cechy jakościowe - płeć, zawód - zwrócić uwagę, że z nich nie należy liczyć wielu różnych wielkości statystycznych

Metody komputerowej analizy danych, Statistica 5.5 - Ćwiczenia 2 - 13.10.2006

import eksport z excel-a
nagłówki oddzielnie, nagłówki razem
- transpozycja macierzy
- zamiana wartości w tekst
- ctrl + shift + enter - działania na macierzach (excel)

zwrócić uwagę na format zapisu stat 6.0 -> 5.5

BD - brak danych - ustawiane dla kolumn - co ma być pomijane w czasie obliczeń

zamiana wartosci na dane w kolumnach dla statistica 5.5

grupowanie wartości danej cechy - np wzrost <165 i wzrost > 165
uwaga na usuwanie/dodawanie cech - powinno się dokonywać na samym końcu tak by nie popsuć kolumn wyliczalnych

opcje przekodowania mozna zapisać do pliku - skrypt VB

powtórka kopiowanie stat<->excel
transponowanie danych (do nagłówków)
grupowanie danych
przedziały dla wzrostu <165 itd... trzeba pamiętać: jeśli 165-170 to 165 nie wchodzi do przedziału a 170 wchodzi ... albo odwrotnie :p do sprawdzenia zmienne | przekoduj | przedziały ... kurde w 6.0 inaczej to wygląda

moduł zarządzanie danymi
- filtrowanie
- scalanie - zmienne, przypadki
- rozdzielanie - zmienne, przypadki
- standaryzacja
- zastępowanie braków danych
- cofanie

Kopiowanie, przenoszenie danych Statistica - Excel

Statistica - Excel

- zwyczajnie zaznaczamy fragment CTRL C oraz CTRL V
- kopiujemy razem z nagłówkami (edycja | kopiuj z nagłówkami)

Excel - Statistica:

- otwieramy plik, wybieramy odpowiedni .xls, dalej wybierając odpowiedni opcje można wybrać import danych do nagłówków (wcześniej w arkuszu .xls muszą znajdować się odpowiednie dane...)

Transponowanie danych

- dane należy wprowadzić do excela
- zaznaczmy fragment komórek
- ctrl+c
- wstawiamy kursor w inne miejsce ...
- menu | edycja | wklej specjalnie (odznaczmy opcję wartości (lub wszystko), transpozycja)
- gotowe... powinno być ;p

Zamiana wartości w tekst

Zmiany dokonuje się w formatowaniu komórek.

Statistica 5.5 - Scalanie danych

Zarządzanie danymi | otwórz plik | dane | scal | [zmienne / przypadki] | wybierz drugi plik | Relacyjne (wybrać klucze czyli kolumnę łączącą - indeks)

Scalanie zmiennych

Jeżeli do tabeli zawierającej grupę zestaw zmiennych no i grupę przypadków chcemy dodać tabelę zawierającą kolejne zmienne (rozszerzenie tabeli danych w bok). Należy najpierw upewnić się czy obie tabele zawierają pewien zestaw danych wspólnych dla nich obu. Najprościej gdy jest to kolumna z indeksami.Indeks z jednej tabeli powinien odpowiadać indeksowi z dołączanej tabeli. Aby więc scalanie odbyło się bez problemów ta wspólna kolumna w obu tabelach powinna być jednakowa. To samo tyczy się kolejności przypadków. Jeżeli będą w różnym porządku to po scaleniu, kolejność danych w dodanych kolumnach może nie odpowiadać poprzednim. Tak więc zostanie utracony sens całej operacji. Najlepiej więc kolumnę kluczową - pierwszą - uprzednio posortować. Typ sortowania nie ma znaczenia - ważne jest jedynie to, aby w obu tabelach sortowanie opierało się na tej samej relacji porządkującej.

Niestety po tej operacji tabela wynikowa zawiera dwie jednakowe kolumny (dawne indexy). Aby usunąć jedną z nich należy zmienić jej nazwę na dowolną unikalną; i dalej
zmienne | usuń | nazwa zmiennej

Scalanie przypadków

Aby scalać pliki według przypadków. Oba pliki powinny zawierać takie same zmienne. (przynajmniej niektóre ;p).

Statistica - Nakładanie etykiet na zmienne

Wystarczy kliknąć na nagłówek danej kolumny reprezentującej naszą zmienną. Tam wybierając etykiety tekstowe można ponadawać odpowiednie nazwy.
Równocześnie można w oknie zmiennej wpisać w długiej nazwie formułę na przykład:
=(v2 >= 0) + (v2 > 10)
wtedy wartość z zmiennej V2 (druga w kolejności) przekraczająca 0 otrzyma 1 a przekraczająca 10 otrzyma dodatkowe 1. Daje to efekt w postaci: zmienne z przedziału [0, 10] otrzymają wartość 1, natomiast (10, ∞) wartość 2. Teraz wystarczy wpisać odpowiednie etykiety tekstowe dla wartości 1 oraz 2 i wszystko ładnie się przekształci.

Statistica - Przekoduj

Wybieramy zmienną | Menu | Dane | Przekoduj | wpisujemy warunki
Rada! Najpierw zapisać te warunki, kolejne punkty będą bowiem wymagały przesunięcia zmiennych i przyda się na 100%.

Interpretacja wyników

No cóż to chyba najtrudniejsze. Na początek próba jednorodna / niejednorodna. Np mężczyźni oraz kobiety nie mogą być wrzucani do jednego worka w przypadku mierzenia wagi czy wzrostu - zarysują się bowiem dwa maksima itp. Próby te są niejednorodne.
Trzeba pamiętać również o tym czy próba jest prosta

Aby podejrzeć jak wygląda rozkład danej zmiennej należy:
ppm | podręczne wykresy statystyczne | histogram | zwykły
i gotowe. Tylko trzeba pamiętać czy histogram jest czegoś sensownego - czyli np próby jednorodnej.

Zwiększenie / zmiana liczby przedziałów dla tego histogramu może odbyć się poprzez moduł statystki nieparametryczne
Statystyki nieparametryczne | analiza | panel początkowy | dopasowanie rozkładu
inne ciekawe - kalkulator statystyczny
statystyki podstawowe | analiza | kalkulator prawdopodobieństwa

select cases zawężanie danych z kolumny które przeznaczone się do analizy

statystyki podstawowe | analiza | statystyki opisowe

Testy nieparametryczne

błąd standardowy średniej: Se = s / sqrt(n); gdzie s to odchylenie standardowe

Populacja: N(m, b); Próba (x, s)
α=0.05; to 95% przedział ufności - że w zakresie od (punkty wyznaczane z tablic lub statisticą) znajduje się nieznany parametr n.
Aby zwiększyć tą pewność należy albo rozszerzyć ten przedział albo zwiększyć próbkę pobieraną z populacji

Aby sprawdzić jaki rozkład mają obrabiane dane należy porównywać ich wykres z wykresem odpowiedniego rozkładu.

Skośność -0.5 < sk < 0.5 - w miarę symetryczny
-1.5 < sk < 1.5 - skrajnie niesymetryczny

Kurtoza - stopień spłaszczenia

9 sierpnia 2009

Metody Komputerowej Analizy Danych

Metody Komputerowej Analizy Danych

Szczegółowy program zajęć na studiach dziennych

Liczba godzin:30 godz.

Ćwiczenia w laboratorium wyposażonym w pakiet STATISTICA - semestr IX

Przedmioty poprzedzające: matematyka, informatyka, statystyka, ekonometria, prognozowanie, badania marketingowe.

Ćwiczenia 1-3

Interfejs użytkownika pakietu STATISTICA. Wprowadzanie danych i modyfikowanie arkusza danych. Składnia i wykorzystanie formuł arkusza danych. Zarządzanie arkuszami danych i wyników. Skoroszyt. Import i eksport plików. Scalanie plików i tworzenie podzbiorów. Sortowanie danych.

Literatura:

Stanisz A.: Przystępny kurs statystyki w oparciu o program STATISTICA PL, tom I, StatSoft Polska, Kraków 2001: rozdziały 2, 3, 4.

Ćwiczenia 4-5

Opis statystyczny z pakietem statystycznym. Miary opisu statystycznego. Szereg rozdzielczy i histogram. Ocena symetryczności rozkładu empirycznego. Ocena normalności rozkładu empirycznego. Przedział ufności. Stosowanie testów t-Studenta innych testów parametrycznych. Stosowanie testów nieparametrycznych.

Literatura:

Stanisz A.: Przystępny kurs statystyki w oparciu o program STATISTICA PL, tom I, StatSoft Polska, Kraków 2001: rozdziały 5, 6, 7, 8, 9, 13.

Dobosz M.: Wspomagana komputerowo statystyczna analiza wyników badań. Akademicka Oficyna Wydawnicza EXIT, Warszawa 2001: rozdziały 3, 4, 5, 6.

stat.columbia.edu

Ćwiczenia 6-8

Analiza wariancji.

Planowanie badań i interpretacja wyników. Ocena współzależności między cechami mierzalnymi. Analiza regresji. Budowa modeli liniowych i nieliniowych. SEPATH - modelowanie ekonometrycznych równań strukturalnych. Metoda Kaplana-Meiera analizy bezawaryjności.

Literatura:

Stanisz A.: Przystępny kurs statystyki w oparciu o program STATISTICA PL, tom I, StatSoft Polska, Kraków 2001: rozdziały 10, 11.

Stanisz A.: Przystępny kurs statystyki w oparciu o program STATISTICA PL, tom II, StatSoft Polska, Kraków 2000: rozdziały 1, 2, 3, 4, 5, 6, 9.

Dobosz M.: Wspomagana komputerowo statystyczna analiza wyników badań. Akademicka Oficyna Wydawnicza EXIT, Warszawa 2001: rozdziały 7, 8, 9, 10, 11.

Ćwiczenia 9

Analiza wyników badań marketingowych i innych sondaży. Sposoby kodowania różnych typów pytań, pytania z wieloma możliwymi odpowiedziami, interpretacja wyników, prezentacja przy pomocy odpowiednio dobranych typów wykresów. Analiza współzależności między cechami niemierzalnymi. Analiza log-liniowa.

Literatura:

Stanisz A.: Przystępny kurs statystyki w oparciu o program STATISTICA PL, tom I, StatSoft Polska, Kraków 2001: rozdział 12.

Stanisz A.: Przystępny kurs statystyki w oparciu o program STATISTICA PL, tom II, StatSoft Polska, Kraków 2000: rozdział 8.

Dobosz M.: Wspomagana komputerowo statystyczna analiza wyników badań. Akademicka Oficyna Wydawnicza EXIT, Warszawa 2001: rozdział 16.

Ćwiczenia 10-11

Analiza danych wielowymiarowych. Analiza skupień. Problem redukcji wymiarów. Wybrane metody graficzne analizy danych (metoda składowych głównych, skalowanie wielowymiarowe, Drzewa klasyfikacyjne).

Literatura:

Dobosz M.: Wspomagana komputerowo statystyczna analiza wyników badań. Akademicka Oficyna Wydawnicza EXIT, Warszawa 2001: rozdziały 12, 14, 15.

Ćwiczenia 12-13

Statystyczne sterowanie procesami. Karty kontrolne. Analiza Pareto. Planowanie badań. Wykorzystanie pakietu statystycznego we wdrażaniu norm ISO 9000 i QS 9000.

Literatura:

Greber T.: Statystyczne sterowanie procesami - doskonalenie jakości z pakietem STATISTICA. StatSoft Polska, Kraków 2000: rozdziały 4, 5, 6, 7, 8.

Ćwiczenia 14-15

Prezentacja i omówienie wyników analizy danych zebranych przez studentów.

Literatura uzupełniająca:

Dokumentacja programu STATISTICA.Dąbkowski J.: O problemie redukcji wymiarów (dla "niestatystyków"). Polskie Towarzystwo Inżynierii Rolniczej, Kraków, 2000.

Grabiński T.: Metody taksonometrii. Akademia Ekonomiczna w Krakowie, Kraków 1992.

Metody taksonomii numerycznej w modelowaniu zjawisk społeczno-gospodarczych. Pod red. naukową A. Zeliasia, PWN, Warszawa 1989.

(ksero) Walesiak M.: Metody klasyfikacji wielowymiarowej. Przegląd. Prace Naukowe Akademii Ekonomicznej we Wrocławiu nr 686, Wrocław 1994.

Walesiak M.: Metody analizy danych marketingowych. PWN, Warszawa 1996.

(oryginał)Wydawnictwo AE Wrocław: Klasyfikacja i analiza danych - teoria i zastosowania, Taksonomia, zeszyty 1-9.

Ciekawe strony

  • Materiały IT, np: Bazy danych - Oracle - czyli od programowania po tutoriale
  • Siedziba Świętego Mikołaja - Finlandia kraj dalekiej północy. Wszystko o Finlandii.
  • Jesteś studentem Zarządzania? Koniecznie zajrzyj na Informatyka Gospodarcza
  • Naucz się błyskawicznie najciekawszych sztuczek Excel-a, napisz nowe pomocne funkcje w języku VBA
  • Kostka Rubika to nic trudnego. Układaj błyskawicznie i pochwal się znajomym!
  • Brakuje Ci jakiegoś programu? Nie chcesz korzystać z płatnych aplikacji. Zapraszam na darmowe programy czyli zbiór najlepszych bezpłatnych tools-ów
  • Sprawdź swoje zewnętrzne IP czyli takie pod jakim widać Cię z Internetu
  • Wakacje na Mazurach. Domek letniskowy w Serwach do wynajęcia
  • Zobacz! Ciekawe zdjęcia kotków