Analiza danych - proces obróbki statystycznej danych w celu otrzymania na ich podstawie wniosków i informacji. W zależności od rodzaju danych i stawianych problemów (predykcyjnych, klasyfikacyjnych, deskrypcyjnych) może to oznaczać użycie metod statystycznych.
Dane zastane możemy podzielić ze względu na (Makowska red. 2013):
1. Charakter:
• Ilościowe http://biznes.metodolog.pl/
• Jakościowe
2. Formę http://www.metodolog.pl/
• Dane opracowane
• Dane surowe
3. Sposób powstania
• Pierwotne
• Wtórne
4. Dynamikę
• Ciągła rejestracja zdarzeń
• Rejestracja w interwałach czasowych
• Rejestracja jednorazowa
5. Poziom obiektywizmu
• Obiektywne
• Subiektywne
6. Źródła pochodzenia
• Dane publiczne
• Dane prywatne
Badania wykorzystujące dane zastane to: desk research, analiza treści i wtórna analiza statystyczna (Makowska red. 2013)
M. Makowska (red.) 2013. Analiza danych zastanych. Przewodnik dla studentów. Wydawnictwo Naukowe Scholar
http://pl.wikipedia.org/wiki/Analiza_danych
Analiza częstości - jest to czynność statystyczna, która umożliwia statystyczne i graficzne reprezentowanie danych. Jest to użyteczne podczas eksploracji danych. Od analizy częstości powinien być rozpoczęty proces przeglądania danych. http://www.metodolog.pl/
Tabele i procenty są źródłem praktycznego opisu danych o różnym rodzaju rozkładów. Większość statystyk podsumowujących dane, takich jak średnia artmetyczna lyb odchylenie standardowe jest oparta o teorie rozkładu normalnego i są one odpowiednie dla danych będących danymi ilościowymi o symetrycznych rozkładach wyników. Są też statystyki odpornościowe jak mediana, kwartyle i percentyle. Są one odpowiednie dla pomiarów ilościowych, które mają rozkład inny niż normalny.
Podczas analizy częstości najczęściej przeprowadza się inspekcje następujących wartości - liczebności, procenty, procenty skumulowane, średnia, mediana, dominanta, odchylenie standardowe, wariancja, zakres, wartości minimum i maksimum, błąd standardowy średniej, skośność i kurtoza (obie wraz z błędami standardowymi), kwantyle, percentyle wykresy słupkowe, wykresy kołowe, histogramy, wykresy mozaikowe, wykresy rozrzutu.
Percentyle - Dzielą rozkład zmiennych ilościowych na uporządkowane odcinki. Pewna grupa obserwacji jest poniżej wartości percentyla a pewna powyżej. Kwartyle przykładowo dzielą obserwacje na cztery grupy o jednakowej wielkości. Są to punkty podziału ze względu na ustaloną liczbę grup. Np. Kiedy chcemy podzielić grupę osób pod względem zarobków. Możemy podzielić dzięki kwartylom obserwacje na te, które zarabiają bardzo mało, mało, dużo oraz bardzo dużo. Uzyskamy w ten sposób grupki liczące po 25% całości analizowanej próby. http://www.nauka.metodolog.pl/
Można również dzielić na więcej percentyli w zależności co chcemy uzyskać. Np. dzieląc zbiór na 100 percentyli, możemy dokonać analiz tylko na osobach mających wartość zarobków powyżej lub poniżej percentyla 85.
http://www.nauka.metodolog.pl/
Statystyki tendencji centralnej - Są to statystyki opisujące rozkład zmiennych ilościowych w skład tych statystyk wchodzi średnia arytmetyczna, mediana, moda oraz suma wszystkich wartości.
Średnia - Jedna z miar tendencji centralnej. Jest to suma podzielona przez liczbę przypadków.
Mediana - Mediana jest statystyką dzielącą rozkład obserwacji na pół. Jest to 50 percentyl. Jeśli np. mediana wieku w próbie wynosi 28 lat, to znaczy, że połowa obserwacji ma wiek niższy niż 26 lat, a druga połowa ma wyższy wiek niż 26 lat. Przeciwnie do średniej arytmetycznej, która jest wrażliwa na wartości odstające, mediana jest estymatorem odpornym na wartości skrajne lub odstające. Mediana przydaje się często w momencie wypełniania braków danych w zbiorze. http://www.nauka.metodolog.pl/
Dominanta - Często nazywana modą . Oznacza wartość zbioru która pojawia się najczęściej. Moda/dominanta przydaje się często w momencie wypełniania braków danych w zbiorze.
Miary dyspersji - są to statystyki podające informacje o zmienności i rozrzucie wyników. Miary te to odchylenie standardowe, wariancja, rozstęp, min-max oraz standardowy błąd średniej.
http://www.nauka.metodolog.pl/
Odchylenie standardowe - Miara odchylania się wyników od średniej. W kontekście teoretycznego rozkładu normalnego około 68% obserwacji znajduje się w strefie oddalonej o jedno odchylenie standardowe od średniej. W przypadku odchylenia o 2 odchylenia standardowe znajduje się 95% obserwacji, a w przypadku 3 odchyleń ~99,8. Przykładowo jeśli średnia inteligencja wynosi 100, a odch http://www.metodolog.pl/ ylenie standardowe 15 to znaczy, że 68% populacji badanej ma inteligencję w przedziale 85 -115 punktów, a 95% populacji 70 - 130 punktów.
Wariancja - Wariancja jest podstawową miarą wnioskowania statystycznego. Jest to suma podniesionych do kwadratu odchyleń od średniej dzielona przez liczbę przypadków - 1. Wariancja jest mierzona w jednostkach, które są kwadratami odchyleń dla pomiaru z którego jest liczona.
Rozstęp - Jest to różnica między najniższą a najwyższa wartością zbioru zmiennej.
Min/Max - Minimalna i maksymalna wartość ze zbioru.
Błąd standardowy dla średniej - nie jest miarą rozproszenia wyników pomiarowych, lecz określa stopień dokładności, z jaką możemy określić wartość średniej arytmetycznej w populacji na podstawie wyznaczenia średniej w analizowanej próbie.
Skośność - Jest to miara asymetrii/dyspersji rozkładu. Opisuje ona kształt i symetrię analizowanego rozkładu zmiennej ilościowej. W przypadku kiedy skośność jest prawostrona znaczy to tyle, że wyniki są skoncentrowane przy niskich wartościach cechy. Jeśli rozkład jest lewo skośny, czyli jest lewostronna to znaczy, że wyniki są skoncentrolne przy wysokich wartościach cechy.
Kurtoza - Jest to miara koncentracji wyników wokół średniej. Jeśli wartość kurtozy jest większa niż zero, to znaczy, że wyniki są skoncentrowane blisko średniej. Jeśli jednak kurtoza jest niższa niż zero, to rozkład jest bardziej smukły i wartości koncentrują się bliżej średniej.
Eksploracja danych - eksploracja danych pozwala na tworzenie statystyk podsumowujących oraz wizualizacje danych pozwalające na szczegółowy przegląda wyników w różnych konfiguracjach grup i zmiennych. Eksploracja http://www.metodolog.pl/ pomaga w klasyfikowaniu danych, identyfikacji obserwacji skrajnych, ich opisaniu, sprawdzeniu założeń, przekształcaniu zmiennych. Pozwala także na identyfikacje różnic pomiędzy podgrupami obserwowanych zmiennych. Eksploracja danych pozwala na ustalenie jakich metod estymacji i jakich metod statystycznych można użyć w dalszej analizie. Niezależnie od podejścia np. data mining, big data czy modelowania, zawsze pierwszym etapem jest wizualna i mniej formalna eksploracja danych.
Skalowanie wielowymiarowe (Multidimensional Scaling - MDS) - procedura statystyczna mająca na celu wykrycie zmiennych nieobserwowalnych które wyjaśniają podobieństwa i różnice między badanymi obiektami. MDS dąży do tego aby w przestrzeni wielowymiarowej obiekty podobne do siebie znajdowały się bliżej, a różne od siebie dalej. Jest to technika wykorzystywana często w rozstrzygania sporów sądowych dotyczących podobieństwa marek. Nieuczciwi przedsiębiorcy wypuszczają w obieg produkt który jest już podobny do znanych marek, co wiąże się z tym że produkt ten wykorzystuje dobroczynne właściwości zdobytej przez konkurencyjną markę opinię konsumentów. Produkt podobny może być mylony przez podobieństwo do oryginalnej marki, przez co producent traci wypracowane zyski. Procedura skalowania wielowymiarowego może badać podobieństwo percepcyjne (tak jak konsumenci widzą markę), emocjonalne (związane uczucia z nią) oraz znaczeniowe ( znaczenia i pojęcia jakimi myślą konsumenci o danej marce). Statlab używa trzech metodologii zbierania danych do tworzenia map percepcyjnych, pierwszą metodą jest SpAM, drugą Classic (Pairwise), a trzecią Total-Set (Pairwise). Procedura może wykazać podobieństwa pomiędzy materiałami obrazowymi (zdjęcia, rzeczywiste przedmioty ), abstrakcyjnymi (pojęcia) lub zmysłowymi zapach, dźwięki aukustyczne). Czas realizacji badania jest zależny od badanych bodźców i wybranej metodologii badawczej. Przy braku presji czasowej możemy przeprowadzić badanie obarczone minimalnym błędem pomiaru co daje możliwość wglądu w rzeczywiste związki pomiędzy badanymi obiektami. Procedura ta jest dostępna w większości poakietów statystycznych (analiza SPSS, analiza SAS, analiza Statistica, analiza GNU R, analiza orange ). http://www.nauka.metodolog.pl/
Test Hosmera-Lemeshowa - Test weryfikuje hipotezę o równości wartości obserwowanych i przewidywanych. Jeśli wartości obserwowane i przewidywane są wystarczająco bliskie, wówczas można założyć, model jest dobrze dopasowany do danych. Brak istotności tego testu jest pożądany. Jest to główna statystyka diagnostyczna modelu regresji logistycznej.
Tabela krzyżowa - Przedstawiają łączne rozkłady dwóch lub większej liczby zmiennych. Tabele krzyżowe prezentowane są zazwyczaj w postaci macierzowej. podczas gdy rozkład częstości informuje o rozkładzie jednej zmiennej, tablica krzyżowa/kontyngencji opisuje jednocześnie rozkład dwóch lub większej liczby zmiennych. Każda komórka pokazuje liczbę respondentów (lub po prostu wystąpień), którzy udzielili określonej kombinacji odpowiedzi. Tabele krzyżowe jako jeden z bardzo niewielu testów weryfikuje hipotezę o równości częstości kolejnych komórkach tabeli. Tabele krzyżowe przydają się w problemach kiedy mamy do czynienia z korelacją zmiennych zakodowanych na skalach jakościowych np. kolor włosów i płeć lub rodzaj wykorzystywanej oferty a rodzaj posiadanego konta bankowego. Najczęściej wykorzystywanym testem weryfikującym proporcję w komórkach tabeli krzyżowej jest test Chi Kwadrat Pearsona, iloraz wiarygodności Chi Kwadrat, test dokładny Fishera (poprawka na małe liczebności w komórkach lub liczebnościach komórek mniejszych niż 5).
Współczynnik kontyngencji - Jest to statystyka pozwalająca na wykazanie siły związku pomiędzy zmiennymi w kolumnach i wierszach dla zmiennych nominalnych. Jeśli wartość współczynnika kontyngencji wynosi 0 to znaczy, że zmiennej nie są ze sobą w ogóle powiązane np. kolor włosów i rodzaj jedzonego włoskiego makaronu. Jeśli wartość jest bliska 1 to znaczy, że istnieje silny związek pomiędzy zmiennymi np. rodzajem posiadanych kategorii prawa jazdy a rodzajem prowadzonych pojazdów. Współczynnik ten jest wyliczany dla pomiarów na skalach nominalnych.http://www.nauka.metodolog.pl/
Miara Phi i V Cramera - Jest to statystyka pozwalająca na wykazanie siły związku pomiędzy zmiennymi w kolumnach i wierszach. Jeśli wartość współczynnika kontyngencji wynosi 0 to znaczy, że zmiennej nie są ze sobą w ogóle powiązane np. kolor włosów i rodzaj jedzonego makaronu. Jeśli wartość jest bliska 1 to znaczy, że istnieje silny związek pomiędzy zmiennymi np. wykształcenie i wysokość zarobków. Miara Phi jest dedykowana dla tabel krzyżowych o wymiarach 2x2. Miara V Cramera jest dedykowana dla tabel większych niż 2x2.
Współczynnik Lambda - Miara ta ukazuje to czy na podstawie zmiennej niezależnej można przewidywać wartość zmiennej zależnej. Wartość lambda bliska 1 daje informacje o tym, że jednoznacznie da sie przewidzieć wartość zmiennej zależnej. Wartość Lambda równa 0 wskazuje, że zmienna nie przewiduje jednoznacznie wartości zmiennej zależnej. Wartość ta jest wyliczana dla nominalnych tabel 2x2.
Współczynnik niepewności - Miara ta określa błąd predykcji. W przypadku kiedy wynosi ona np. 0,55 to znaczy, że znajomość wartości jednej zmiennej redukuje błąd w przewidywaniu wartości zmiennej zależnej o 55%. Współczynnik ten jest wyliczany dla tabel krzyżowych ze zmiennymi nominalnymi.
Współczynnik Gamma - Jest to miara pomiędzy dwiema zmiennymi porządkowymi. Współczynnik przyjmuje wartości od -1 do 1. Wartości bliskie bezwzględnej wartości 1 wskazują na bardzo silne powiązanie zmiennych np. związek między wykształceniem a płacami w firmie "X".
Współczynnik d Somersa - Jest to miara pomiędzy dwiema zmiennymi porządkowymi. Współczynnik przyjmuje wartości od -1 do 1. Wartości bliskie bezwzględnej wartości 1 wskazują na bardzo silne powiązanie zmiennych np. związek między wykształceniem a płacami w firmie "X".
Współczynnik tau B Kendalla - Jest to miara pomiędzy dwiema zmiennymi porządkowymi lub rangowanymi biorąca poprawkę na wiązania. Współczynnik przyjmuje wartości od -1 do 1. Wartości bliskie bezwzględnej wartości 1 wskazują na bardzo silne powiązanie zmiennych np. związek między wykształceniem a płacami w firmie "X".
Współczynnik tau C Kendalla - Jest to miara pomiędzy dwiema zmiennymi porządkowymi lub rangowanymi nie biorąca poprawki na wiązania. Współczynnik przyjmuje wartości od -1 do 1. Wartości bliskie bezwzględnej wartości 1 wskazują na bardzo silne powiązanie zmiennych np. związek między wykształceniem a płacami w firmie "X". Warte podkreślenia jest to, że współczynnik ten wyliczany jest tylko dla tabel w których są zmienne z taką samą ilością poziomów zmiennej.
Miara ETA - Jest to miara siły powiązania. Współczynnik przyjmuje wartości od 0 do 1. Miara eta jest dedykowana dla tabel krzyżowych w których zmienna niezależna jest pomiarem na skali nominalnej a zmienna zależna pomiarem na skali przedziałowej.
Miara Kappa Cohena - Jest to współczynnik statystyczny mierzący oceny sędziów kompetentnych oceniających tą samą rzecz. Im bliżej wartości 1 tym sędziowie są bardziej zgodni w ocenie. Im bliżej 0 tym oceny są bardziej rozbieżne (losowe).
Statystyka McNemar - Jest to nieparametryczny test statystyczny stosowany dla pomiarów powiązanych ze sobą porządkowo. Sprawdza on np. zmianę w odpowiedziach przy pomocy testu Chi Kwadrat. Statystyka ta sprawdza się przy planach eksperymentalnych polegających na układzie pretest-posttest.
Współczynnik Cochrana i Mantela Heanszela - jest to statystyka sprawdzająca zależność pomiędzy zmiennymi nominalnymi w przypadku kontrolowania innej zmiennej
Reszty niestandaryzowane w tabeli krzyżowej - Reszty przedstawiają sytuację w której jest różnica pomiędzy tym jakie wartości występują w tabeli ( obserwowane) a jakie są oczekiwane. Im wyższa wartość reszty tym wyższa zależność pomiędzy zmiennymi w tabeli krzyżowej. Reszta dodatnia/ujemna mówi o tym, że w celce tabeli krzyżowej jest większa/mniejsza częstość występowania wartości niż powinna być w przypadku kiedy zmienne byłby ze sobą nie powiązane.
Reszta standaryzowana w tabeli krzyżowej - Reszty przedstawiają sytuację w której jest różnica pomiędzy tym jakie wartości występują w tabeli ( obserwowane) a jakie są oczekiwane. Im wyższa wartość reszty tym wyższa zależność pomiędzy zmiennymi w tabeli krzyżowej. Reszta dodatnia/ujemna mówi o tym, że w celce tabeli krzyżowej jest większa/mniejsza częstość występowania wartości niż powinna być w przypadku kiedy zmienne byłby ze sobą nie powiązane. Reszty standaryzowane nazywają się resztami Pearsona, średnia dla tych reszt wynosi 0 a odchylenie jest równe 1.
Błąd standardowy kurtozy - Jeśli błąd standardowy kutrozy przekroczy wartość bezwzględną 2 można odrzucić hipotezę o normalności rozkładu wyników. Wysoka dodatnia wartość kurtozy świadczy o długich ogonach rozkładu normalnego. Ujemna wartość kurtozy świadczy o bardzo krótkich ogonach rozkładu.
Błąd standardowy skośności - Jeśli błąd standardowy skośności przekroczy wartość bezwzględną 2 można odrzucić hipotezę o normalności rozkładu wyników. Wysoka dodatnia wartość skośności świadczy o długim prawym ogonie rozkładu wyników. Ujemna wartość skośności świadczy o bardzo długim lewym ogonie rozkładu.
Test t Studenta dla prób niezależnych - Test t studenta weryfikuje hipotezę o równości średnich w dwóch grupach. np. może weryfikować hipotezę o tym, że płeć różnicuje wyniki Body Mass Index. Test wymaga zmiennej grupującej na dwóch poziomach np. płeć oraz pomiaru wyrażonego na skali ilościowej. Założenia testu t Studenta wymagają tego aby zmienność wyników(wariancja) była równa w porównywanych grupach, obserwacje powinny być włączone do testowania w sposób losowy a ich proporcja powinna być równoliczna. Wymagane jest też również minimum liczebności wynoszącej około 15 obserwacji na grupę. W przypadku odstępstwa od założeń dotyczących równości wariancji można użyć poprawki. W sytuacji braku normalności porównywanych rozkładów w grupach nie ma co płakać. Test t jest odporny na złamanie założeń o normalności przy próbkach większych niż 30 obserwacji.
http://www.metodolog.pl/
Test t Studenta dla prób zależnych - Test t studenta weryfikuje hipotezę o równości średnich w dwóch pomiarach. np. może weryfikować hipotezę o tym, że pomiar zdrowia po farmakologii jest wyższy niż przed farmakologią. Założenia jakie muszą spełnić dane to, że obserwacje powinny być testowane tak samo ( trafność wewnętrzna), a wyniki różnic pomiędzy pomiarami powinny mieć rozkład normalny. Procedura ta jest dostępna w większości pakietów statystycznych (analiza SPSS, analiza SAS, analiza Statistica, analiza GNU R, analiza orange ).
Test t Studenta dla jednej próby - test ten weryfikuje hipotezę o równości średniej uzyskanej z próby badawczej a wartością stałą (np. normą lub wartością referencyjną). Przykładowo można sprawdzić czy średnia ocen w danej klasie różni się istotnie od średniej ocen dla ogółu klas. Test ten weryfikuje hipotezę o tym, że różnica pomiędzy średnią z próby a średnią teoretyczną jest większa niż 0. W teście tym wymagany jest rozkład normalny wyników otrzymanych z próby.
ANOVA - jednoczynnikowa analiza wariancji dla prób w schemacie grup niezależnych - test ten weryfikuje hipotezę o równości średnich w grupach większych niż 2. Analiza wariancji jest zaawansowaną wersją testu t Studenta.
Analiza wariancji prócz weryfikacji hipotezy o różnicach między średnimi może wykazać planowane różnice pomiędzy średnimi ( dzięki analizie kontrastów możemy zaplanować porównania grupowe) oraz przeprowadzić analizę post hoc (porównania każdej grupy z każdą). Przykładowo dzięki analizie wariancji można sprawić czy rodzaj papieru drukarskiego ma wpływ na ilość zużytego tuszu. Dzięki testowaniu różnych papierów na tych samych typach maszyn możemy zweryfikować pobór tuszu wyrażony w zużytych mililitrach tuszu. Można do tego użyć porównań wielokrotnych ( post hoc ) i sprawdzić, który papier pochłania więcej lub mniej tuszu, albo można przeprowadzić analizę kontrastów (apriori) i porównać ze sobą różne kategorie papieru.
ANOVA wymaga pomiaru zmiennej wyjaśnianej na skali ilościowej oraz zmiennej grupującej mającej więcej niż 2 kategorie (choć dla dwóch kategorii też można ją przeprowadzić).
Założenia Analizy wariancji wymagają tego aby zmienność wyników(wariancja) była równa w porównywanych grupach, obserwacje powinny być włączone do testowania w sposób losowy a ich liczebność powinna być równa. Wymagane jest też również minimum liczebności wynoszącej około 15 obserwacji na grupę. W przypadku odstępstwa od założeń dotyczących równości wariancji można użyć poprawki Welscha lub Jamesa Forsytha. W sytuacji braku normalności porównywanych rozkładów w grupach nie ma co płakać. ANOVA jest odporna na złamanie założeń o normalności przy próbkach większych niż 30 obserwacji. Procedura ta jest dostępna w większości pakietów statystycznych (analiza SPSS, analiza SAS, analiza Statistica, analiza GNU R, analiza orange ). http://www.metodolog.pl/
post hoc NIR - statystyka ta porównuje testem t studenta wszystkie pary zmiennej niezależnej. Metoda ta nie bierze żadnej poprawki na wielokrotność porównań. Stosuje się kiedy jest spełnione założenie o równości wariancji. Post hoc NIR nic ma najczęściej zastosowanie w analizie wariancji (ANOVA).
http://www.metodolog.pl/
post hoc Bonfferoniego - statystyka ta porównuje testem t studenta wszystkie pary zmiennej niezależnej przy jednoczesnej kontroli ilości porównań. Zwrócona istotność różnic pomiędzy grupami, zawiera już poprawkę na ilość wykonanych porównań. Daje dokładniejsze wyniki kiedy porównań miedzy parami pomiarów lub grup jest mało. Stosuje się kiedy jest spełnione założenie o równości wariancji. Post hoc Bonferroniego nic ma najczęściej zastosowanie w analizie wariancji (ANOVA). Przy analiza wariancji w większości oprogramowań statystycznych jest wyliczany automatycznie.
post hoc Tukeya - statystyka ta porównuje testem t studenta wszystkie pary zmiennej niezależnej i dostosowuje poziom istotności dla porównań wielokrotnych. Daje dokładniejsze wyniki kiedy porównań miedzy parami pomiarów lub grup jest dużo. Stosuje się kiedy jest spełnione założenie o równości wariancji. Post hoc Tukeya nic ma najczęściej zastosowanie w analizie wariancji (ANOVA). Przy analiza wariancji w większości oprogramowań statystycznych jest wyliczany automatycznie.
post hoc Scheffe - statystyka ta wykonuje porównania pomiędzy wszystkimi parami średnich wykorzystując do tego celu statystykę F. Poza porównywaniem par, można go wykorzystać do weryfikacji liniowych kombinacji średnich. Stosuje się kiedy jest spełnione założenie o równości wariancji.
post hoc SNK - statystyka ta wykonuje porównania pomiędzy wszystkimi parami średnich wykorzystując do tego celu studentyzowany rozstęp. Dla prób równolicznych dokonuje porównań średnich pomiędzy sobą w obrębie jednolitych podzbiorów. Stosuje się kiedy jest spełnione założenie o równości wariancji.
post hoc Gabriel - statystyka ta wykonuje porównania pomiędzy wszystkimi parami średnich wykorzystując studentyzowany moduł. Sprawdza się gry porównywane grupy nie są równoliczne. Stosuje się kiedy jest spełnione założenie o równości wariancji.
post hoc DUNNETT - statystyka ta wykonuje porównanie wyników w odniesieniu do jednej średniej kontrolnej. Średnią kontrolną może być pierwsza lub ostatnia kategoria. Stosuje się kiedy jest spełnione założenie o równości wariancji.
post hoc T2 Tamhane'a - statystyka ta wykonuje porównanie grup w oparciu o statystykę t. Odpowiedni przy heterogenicznych wariancjach.
post hoc T3 Dunneta - statystyka ta wykonuje porównanie średnich wyników w grupach w oparciu o studentyzowany rozkład t. Odpowiedni przy heterogenicznych wariancjach. Post hoc Dunneta T3 nic ma najczęściej zastosowanie w analizie wariancji (ANOVA) przy poprawce na nierówność wariancji Welcha lub Jamesa Forsytha. Przy analiza wariancji w większości oprogramowań statystycznych jest wyliczany automatycznie.
post hoc Gamesa Howella - statystyka ta wykonuje porównanie wyników grup. Liberalny test. Odpowiedni przy heterogenicznych wariancjach. Post hoc Gamesa Howella ma najczęściej zastosowanie w analizie wariancji (ANOVA) przy poprawce na nierówność wariancji Welcha lub Browna Forsytha. Przy analiza wariancji w większości oprogramowań statystycznych jest wyliczany automatycznie.
http://www.metodolog.pl/ http://www.biznes.metodolog.pl/ http://www.nauka.metodolog.pl/
Test Levene'a - Weryfikuje on hipotezę o równości wariancji w grupach. Przeprowadza się go standardowo dla sprawdzenia założeń przed przeprowadzeniem testów parametrycznych ( testy t, analizy wariancji, ANOVA, ANCOVA) . Wyniki tego testu nie są zależne od normalności rozkładów.
Poprawka Brown-Forysthe - Statystykę oblicza się w celu przetestowania równości średnich grupowych w momencie kiedy jest złamane założenie o równości wariancji grupowych. W momencie silnej istotności testu Levene'a powinno się korzystać z korekty Browna - Forystha. Procedura ta jest dostępna w większości pakietów statystycznych (analiza SPSS, analiza SAS, analiza Statistica, analiza GNU R, analiza orange ). http://www.metodolog.pl/
Poprawka Welcha - Statystykę oblicza się w celu przetestowania równości średnich grupowych w momencie kiedy jest złamane założenie o równości wariancji grupowych. W momencie silnej istotności testu Levene'a powinno się korzystać z korekty Welcha. Procedura ta jest dostępna w większości pakietów statystycznych (analiza SPSS, analiza SAS, analiza Statistica, analiza GNU R, analiza orange ).
Ogólny Model Liniowy - Dzięki ogólnemu modelowi liniowy (OML), możemy przeprowadzić analizę regresji oraz analizę wariancji dla jednej lub wielu zmiennych pod względem wpływu różnej liczby czynników i zmiennych. Zmienne grupujące dzielą obserwacje na podgrupy. W ogólnym modelu liniowym można weryfikować hipotezy o wpływie czynników na zmienną lub zmienne wyjaśniane oraz sprawdzać zmiany interakcyjne zachodzące między czynnikami biorąc pod uwagę zmienne kontrolujące lub czynniki losowe. Dla analizy regresji zmienne wyjaśniające mogą być określane jako kowarianty lub współzmienne.
Przykładowo możemy weryfikować wpływ takich czynników jak ubiór ( formalny/nieformalny ), płeć (K/M), atrakcyjność (niska/wysoka) na postrzeganie tej osoby pod względem fachowości/sprawności wykonywanych zadań przy jednoczesnym kontrolowaniu wzrostu prezentowanej osoby. http://www.metodolog.pl/ http://www.biznes.metodolog.pl/ http://www.nauka.metodolog.pl/
Ogólny model liniowy wymaga zmiennej wyjaśnianej lub zmiennych wyjaśnianych wyrażonych na skali ilościowej. Zmienna wyjaśniająca (czynniki) muszą być jakościowe. Współzmienne (kowarianty) muszą mieć charakter ilościowy oraz muszą być powiązane ze zmienną wyjaśnianą. Procedury te są dostępnę w większości pakietów statystycznych (analiza SPSS, analiza SAS, analiza Statistica, analiza GNU R, analiza orange ).
Niestandaryzowana wartość przewidywana - Wartość która jest przewidywana przez zbudowany model predykcyjny lub klasyfikacyjny. Wartość ta jest wyrażona w jednostce pomiaru.
Niestandaryzowane wartości przewidywane - Wartości które są przewidywane przez zbudowany model predykcyjny lub klasyfikacyjny i są wyrażone w jednostce pomiaru.
Wartość przewidywana błędu standardowego - Wartość która jest przewidywana przez zbudowany model predykcyjny lub klasyfikacyjny. Jest to przewidywanie odchylenia standardowego średniej wartości przewidywanej dla każdej obserwacji o takiej samej konfiguracji zmiennych niezależnych/zależnych.
Diagnostyka miarą odległości Cooka - Statystyka pokazująca ile zmienią się wskaźniki reszt kiedy daną obserwacje usunie się z analizy. Duże wartości statystyki Cooka sugerują status obserwacji nietypowej ( umownie przyjmuje się wartość większą niż 0,5 jako wartą zainteresowania się ). http://www.metodolog.pl/ http://www.biznes.metodolog.pl/ http://www.nauka.metodolog.pl/
Diagnostyka miarą odległości Mahanalobisa - Statystyka pokazująca wpływ każdej obserwacji na dopasowanie modelu do danych.
Reszta niestandaryzowana - Różnica między wartością z próby a wartością przewidywaną przez model predykcyjny lub klasyfikacyjny.
Reszta standaryzowana - Różnica między wartością standaryzowaną z próby a wartością przewidywaną przez model predykcyjny lub klasyfikacyjny.
Reszty usunięte - Statystyka pokazująca resztę dla danej obserwacji po wykluczeniu jej z analizy. Jest to różnica pomiędzy zmienną wyjaśnianą a jej skorygowaną, o usunięcie, wartością przewidywaną.
Korelacja - korelacje mierzą zależności między zmiennymi lub rangami. Są bardzo czułe na odstające obserwacje oraz nieliniowe zależności. Np. Wzrost i waga są silnie powiązane. Związek ma charakter liniowy wraz ze wzrostem jednej zmiennej wzrasta druga. Są jednak związki które takiego charakteru nie mają i dlatego powinno się szukać dla nich innych metod weryfikacji np. uogólnionego modelu liniowego. Wspołczynniki korelacji przyjmują wartości od -1 (idealna relacja ujemna) do +1 (idealna relacja dodatnia).
Liniowa korelacja Pearsona - Weryfikuje hipotezę o liniowym powiązaniu zmiennych ilościowych. Zakłada, że zmienne mają rozkład normlany lub są symetryczne. Wspołczynniki korelacji przyjmują wartości od -1 (idealna relacja ujemna) do +1 (idealna relacja dodatnia).
http://www.metodolog.pl/ http://www.biznes.metodolog.pl/ http://www.nauka.metodolog.pl/
Liniowa korelacja Spearmana i Tau B Kendalla - alternatywy Weryfikuje hipotezę o liniowym powiązaniu zmiennych ilościowych. Zakłada, że zmienne mają porządek lub są rangowane. Wspołczynniki korelacji przyjmują wartości od -1 (idealna relacja ujemna) do +1 (idealna relacja dodatnia).
Korelacja cząstkowa - korelacja cząstkowa umożliwia wyliczenie współczynników korelacji cząstkowej która jest liniowym powiązaniem dwóch zmiennych, przy uwzględnieniu wpływu na tę relacje innych zmiennych. Dzięki tej procedurze można kontrolować wpływ innych zmiennych na związek pomiędzy dwoma pomiarami. Np. możemy sprawdzić korelacje pomiędzy wzrostem a wagą kontrolując przy tym wpływ wieku na obie zmienne.
Miara niepodobieństwa dla danych przedziałowych - Odległość euklidesowa, Kwadrat odległości euklidesowej, Odległość Czebyszewa, Odległość miejska, Odległość Minkowskiego lub Odległość analityka.
http://www.metodolog.pl/ http://www.biznes.metodolog.pl/ http://www.nauka.metodolog.pl/
Miara niepodobieństwa dla danych liczebnościowych - Odległość chi-kwadrat lub Odległość phi-kwadrat.
http://www.metodolog.pl/ http://www.biznes.metodolog.pl/ http://www.nauka.metodolog.pl/
Miara niepodobieństwa dla danych binarnych - Odległość euklidesowa, Kwadrat odległości euklidesowej, Rożnica wielkości, Rożnica wzoru, Miara wariancyjna, Kształt lub Miara Lance'a i Williamsa. Ważne jest aby w tej procedurze zdefiniowac dwie wartości. Te które występują i nie występują.
Modele liniowe - modele które przewidują zmienną ilościową za pomocą liniowych relacji między zmienną przewidywaną a jednym lub większa ilością zmiennych wyjaśniających. Np. Firma chce podczas rozmowy oszacować koszt transportu określonego ładunku, na podstawie podliczenia charakterystyk danych zamawianego transportów może oszacować ile mniej więcej będzie kosztować transport i w przybliżeniu wiedzieć z jakimi kosztami będzie się to wiązać. Najczęściej używaną procedurą do przewidywania liniowych zależności jest analiza regresji liniowej.
http://www.metodolog.pl/ http://www.biznes.metodolog.pl/ http://www.nauka.metodolog.pl/
Regresja liniowa - jest różdżką ! Regresja liniowa służy przewidywaniu jakiejś zmiennej ilościowej za pomocą jakiejś ilości zmiennych potencjalnie mogących ją wyjaśnić. Np. na podstawie cech charakteru, terminowości spłat zobowiązań oraz danych demograficznych (wiek, płeć, miejsce zamieszkania) można oszacować przyznawany limit kredytu. Regresja daje wyniki zbliżone do prawdziwych kiedy zmienne w modelu mają rozkład normalny oraz zależność ma charakter liniowy. Zmienność wyników zmiennej wyjaśnianej powinna być podobna dla wszystkich wartości zmiennych wyjaśniających. Ponad to zmienne wyjaśniające nie mogą być powiązane ze sobą ( co się rzadko zdarza, ale wymagane jest aby te związki nie były zbyt silne). Procedura ta jest dostępna w większości pakietów statystycznych (analiza SPSS, analiza SAS, analiza Statistica, analiza GNU R, analiza Orange ).
Wprowadzanie zmiennych wyjaśniających do modelu metodą wprowadzania (enter) - procedura ta polega na wprowadzeniu wszystkich zmiennych do modelu.
http://www.metodolog.pl/ http://www.biznes.metodolog.pl/ http://www.nauka.metodolog.pl/
Wprowadzanie zmiennych wyjaśniających do modelu metodą krokową - W każdym kroku jest wprowadzana do modelu jedna istotna zmienna wyjaśniająca nie będąca jeszcze w analizie. Jeśli pozostanie istotna to pozostaje w równaniu, jeśli nie to jest ona usuwana z równania. Procedura się kończy na etapie kiedy nie ma już żadnej istotnej zmiennej wyjaśniającej.
Odległość Mahalanobisa - statystyka ta przedstawia miarę w jakiej wartość zmiennych niezależnych dla danej wartości w zbiorze różni sie od wartości średniej dla wszystkich obserwacji.
Wartość wpływu - Miara ta jest statystyką mierzącą wpływ danej obserwacji w zbiorze danych na dopasowanie linii regresji. Wartość zaczyna się w punkcie 0 (brak infulecji na położenie linii regresji) i kończy sie na N-1/N.
http://www.metodolog.pl/ http://www.biznes.metodolog.pl/ http://www.nauka.metodolog.pl/
DFbety - różnica wynikająca z usunięcia obserwacji ze zbioru w szacowaniu równania regresji lini http://www.metodolog.pl/ http://www.biznes.metodolog.pl/ http://www.nauka.metodolog.pl/ owej
Standaryzowane DF Bety - różnica wynikająca z usunięcia obserwacji ze zbioru w szacowaniu równania regresji liniowej. Bezwzględne wartości większe niż 2 sugerują na obserwację nietypową.
DF FIT - Statystyka podająca różnice pomiędzy dopasowaniem do wartości przewidywanej wynikającą z wyłączenia danej obserwacji z oszacowania równania regresji liniowej.
Dopasowanie modelu (regresja liniowa) - są to statystyki R, R Kwadrat, skorygowane R Kwadrat, standardowy błąd oszacowania zmiennej zależnej. Wskazują one jak model jest dopasowany do danych.
Zmiana - R - Kwadrat (regresja liniowa) - wyliczana jest istotność zmiany porcji wyjaśnionej wariancji przez model po usunięciu lub dodaniu kolejnej zmiennej wyjaśniającej.
VIF ( Test współliniowości) - współliniowość jest nie pożądana. Znaczy ona tyle co silna liniowa korelacja pomiędzy zmiennymi wyjaśniającymi. Statystyki VIF bliskie 10 oznaczają, że dany predyktor jest silnie powiązany z innym i należy się zastanowić nad jego usunięciem lub agregacją z innym predyktorem.
Analiza najbliższego sąsiedztwa - analiza ta jest metodą klasyfikacji. Bazuje ona na podstawie podobieństwa do innych obserwacji. Obserwacje będące podobne do siebie (mające małą odległość od siebie) nazywają się sąsiadami i są jedną grupą.
Metryka euklidesowa - jest to odległość między dwiema obserwacjami. Jest to pierwiastek kwadratowy sumy we wszystkich wymiarach, różnic pomiędzy wartościami podniesionymi do kwadratu.
Metryka miejska/ manhattańska - podobna miara do metryki euklidesowej z tym, że wartość odległości jest wyliczana z bezwzględnych różnic pomiędzy wartościami obserwacji.
Analiza dyskryminacyjna - umożliwia budowanie modelu klasyfikacji do grup. Model dyskryminacyjny jest budowany w oparciu o funkcje dyskryminacyjne ( lub w przypadku więcej ilości grup zestawu funkcji dyskryminacyjnych) na podstawie liniowych kombinacji predyktorów, które zapewniają najlepsze rozróżnienie między grupami. Funkcje są wyliczane ze zbioru obserwacji o znanej przynależności. Funkcje otrzymane z modelu dyskryminacyjnego mogą być użyte do klasyfikowania nowych obserwacji dla których przynależność nie jest znana. Przykładowo chcemy oszacować, na podstawie danych o wieku, płci, wysokości dochodów, ilości dzieci oraz wydatkach, to czy ktoś spłaci zobowiązanie kredytowe lub nie. Funkcja dyskryminacyjna może przybrać postać D= a*wiek + b*płeć + c*dochody + d*ilość dzieci + e*wydatki.
Wyniki funkcji dyskryminacyjnej będą się różnić dla osób które spłacają i nie spłacają zobowiązań kredytowych. Analiza dyskryminacyjna ma dużo założeń. Obserwacje powinny być niezależne. Zmienne dyskryminujące powinny mieć wielowymiarowy rozkład normalny, a macierz wariancji-kowariancji powinna być podobna w każdej z grup. Analiza jest najefektywniejsza kiedy predyktory nie są skorelowane. Procedura ta jest dostępna w większości pakietów statystycznych (analiza SPSS, analiza SAS, analiza Statistica, analiza GNU R, analiza orange ).
Test M BOXA - Test równości macierzy kowariancji grupowych. Jeśli jest istotny znaczy, że macierze kowariancji w grupach się różnią. Jeśli nie jest istotny oznacza to, że kowariancje/korelacje w grupach są podobne. Test jest wrażliwy na niespełnienie założenia o wielowymiarowym rozkładzie normalnym.
Współczynnik funkcji Fishera - jest to zestaw współczynników używanych do klasyfikowania obserwacji. Przypadek klasyfikuje się do tej grupy, dla której ma on najwyższą ocenę dyskryminacyjną.
Klasyfikacja a priori do grup w analizie dyskryminacyjnej - można je wyliczyć na podstawie wielkości grup. W taki sposób prawdopodobieństwa przynależności do grup mogą mieć różny próg. Np. jeśli jedna grupa ma 60% obserwacji, druga ma 40% to współczynniki klasyfikacji będą dopasowywane tak aby zwiększać prawdopodobieństwo przynależności do grupy pierwszej. Podobnie jak w regule Bayesa, algorytm ustawia prawdopodobieństwo aprioryczne.
Mapa terytorialna - Jest to wykres budowany w oparciu o funkcje dyskryminacyjne wykorzystywany do wizualizacji klasyfikowanych obserwacji do grup. Zwykle obserwacje są oznaczone cyframi znaczącymi przynależność do danych grup. Średnie dla grup są zwykle oznaczane symbolami. Mapa terytoriów nie jest rysowana dla jednej funkcji dyskryminacyjnej.
Analiza czynnikowa - Analiza czynnikowa jest statystyczną metodą redukcji danych, które wyjaśniają wzory korelacji. Analiza czynnikowa w swej wewnętrznej logice redukuje dużą ilość skorelowanych ze sobą zmiennych w celu wyjaśniania tego samego zjawiska mniejsza ilością pomiarów. Analiza czynnikowa jest wykorzystywana do klasyfikowania zmiennych w celu dalszego przetwarzania przez bardziej formalne analizy np. Dzięki analizie czynnikowej można sprawdzić współliniowość predyktorów w analizie regresji liniowej lub logistycznej.
Analiza czynnikową jest bardzo dobra metodą i zostało dla niej opracowanych dużo sprawnych statystyk. Procedura ta jest dostępna w większości pakietów statystycznych (analiza SPSS, analiza SAS, analiza Statistica, analiza GNU R, analiza orange ).
Miara K M O i test sferyczności Bartleta - Jest to miara adekwatności doboru zmiennych wejściowych do analizy czynnikowej. Wartość powyżej 0,5 sygnalizuje zasadność przeprowadzenia analizy czynnikowej. Test sferyczności Bartleta weryfikuje hipotezę o jednostkowej macierzy korelacji. Jeśli jest istotny to znaczy, że model czynnikowy jest nieodpowiedni dla analizowanych zmiennych.
Analiza głównych składowych (analiza czynnikowa) - metoda wyodrębniania czynników, wykorzystywana do tworzenia nieskorelowanych zmiennych obserwowalnych. Pierwszy czynnik wyjaśnia najwięcej wariancji, a kolejne coraz mniej. Analiza głównych składowych jest przydatna przy wstępnym rozeznaniu w danych.
Metoda największej wiarygodności (analiza czynnikowa) - Jest to metoda wyodrębniania czynników. Metoda ta stara się oszacować takie wartości parametrów, które z największym prawdopodobieństwem odtworzą macierz korelacji. Wymagane jest jednak założenie o wielowymiarowym rozkładzie normalnym.
Wykres osypiska - Jest to wykres zmienności powiązanej z każdym z czynników. Stosowany do przybliżenia ilości czynników w analizie czynnikowej. Wykres osypiska opiera się o oszacowania wartości własnych.
Nierotowane rozwiązanie czynnikowe (macierz modelowa) - przedstawia nierotowane wartości korelacji pomiarów z czynnikami.
Rotacja metodą VARIMAX - metoda ta pozwala wyodrębnić ładunki czynnikowe przez obrót ortogonalny (niezależne czynniki) upraszczając w ten sposób strukturę danych.
Rotacja metodą prostej OBLIMIN - metoda ta pozwala wyodrębnić ładunki czynnikowe przez obrót ukośny (dla czynników skorelowanych ze sobą). Kiedy parametr Delta jest równy 0 (wartość default) osie czynników są maksymalnie skośne. Poprzez zmianę Delty od 0 do 0,9 można regulować skośność. Im bliżej wartości 0,9 tym rotacja jest mniej skośna.
Rotacja metodą QUARTIMAX - Metoda rotacji czynników, która minimalizuje ilość czynników do wyjaśnienia każdej zmiennej. Metoda ta najbardziej upraszcza interpretowanie obserwowanych zmiennych.
Rotacja metodą EQUAMAX - Rotacja ta minimalizuje liczbę zmiennych, które mają wysokie ładunki czynnikowe oraz samą ilość czynników potrzebnych do wyjaśniania zmiennych w analizie.
Rotacja metodą PROMAX - jest to rotacja ukośna czynników i pozwala na wyodrębnienie skorelowanych rozwiązań czynnikowych.
Analiza skupień metoda dwustopniowego grupowania - Jest to bardzo powszechna i praktyczna metoda analizy skupień. Dzięki niej można wybrać automatycznie najodpowiedniejszą ilość skupień oraz wybrać różne modele. W tej opcji jest możliwość jednoczesnego używania zmiennych jakościowych i ilościowych. Dwustopniowe grupowanie jest optymalnym rozwiązaniem przy analizie dużych zbiorów danych. Pomimo tego że analiza jest odporna na niespełnienie założeń o normalności rozkładu i niezależności danych wejściowych to warto wiedzieć, przy analizie, na ile te założenia zostały spełnione.
Hierarchiczna analiza skupień - Hierarchiczne rozwiązanie skupień ma zastosowanie do mniejszych wolumenów danych. Można dzięki tej procedurze można klasyfikować zmienne (podobnie jak w analizie czynnikowej) oraz obserwacje. Ma możliwość zapisu minimalnej i maksymalnej ilości skupień oraz zapisania informacji o przynależności. Metoda ta jest bogata w metody formowania skupień, przekształceń zmiennych oraz pomiaru podobieństwa/niepodobieństwa pomiędzy skupieniami. Niestety mankamentem hierarchicznej analizy skupień jest to, że wymaga ona jednolitego typu danych (liczebności, ilościowych i zmiennych jakościowych) oraz zastosowania odpowiednich miar odległości lub podobieństwa dla rodzaju analizowanych danych. Analiza hierarchiczna jest metodą eksploracyjną, wyniki analizy powinny być poddawane bardziej formalnym procedurom. Dla zmiennych ilościowych dedykowane są odległości : euklidesowe, kwadrat odległości euklidesowej, korelacja Pearsona, odległość miejska (prostokątna), odległość Mińkowskiego-Harabasza, odległość Czybyszewa. Dla zmiennych porządkowych dedykowana jest odległość chi kwadrat i phi kwadrat. W przypadku zmiennych binarnych są dedykowane odległości: euklidesowa, kwadrat odległości euklidesowej, różnica wielkości, lambda, miara Dice'a, miara Kulczyńskiego, miara Ochiai oraz Q Yule'a. Procedura ta jest bardzo uniwersalna można ją stosować w postępowaniu eksploracyjnym BIG DATA, drążeniu danych, biostatyce, biometrii i psychometrii. Ta procedura analityczna jest dostępna w większości pakietów statystycznych (analiza SPSS, analiza SAS, analiza Statistica, analiza GNU R, analiza Orange Canvas ).
Analiza skupień metodą K - Średnich ( K - Means ) - Metoda ta bazuje tylko na wyliczaniu skupień opartych na pomiarach ilościowych (najlepiej je wcześniej wystandaryzować, bez tego analiza może dawać zniekształcone wyniki ze względu na różne jednostki pomiaru). W tej procedurze trzeba ustalić ilość skupień lub ich zakres. Można dzięki temu obserwować odległość obserwacji od centrów skupień. Np. Można dzięki niej dokonać segmentacji klientów w celach marketingowych, można dokonać klasyfikacji klientów banku pod względem częstości korzystania z danych ofert lub usług bankowych. Zaleca się w celach opisowych zastosować po wyliczeniach analizę wariancji w celu oszacowania siły różnic pomiędzy profilami pod względem danych wejściowych do analizy skupień k - średnich. Procedura ta jest bardzo uniwersalna można ją stosować w BIG DATA i DATA MINING, biostatyce, biometrii i psychometrii.
Logarytm wiarygodności (miara odległości) - miara ta stosuje rozkład prawdopodobieństwa do zmiennych. W tej metryce zakłada się że zmienne ilościowe mają rozkład normalny, a zmienne jakościowe mają rozkład wielomianowy. Zmienne powinny być niezależne.
Odległość euklidesowa (miara odległości) - miara ta jest odległością wyrażoną w linii prostej między skupieniami. Dedykowana jest tylko dla zmiennych ilościowych.
Porównanie występowania wartości empirycznych z hipotetycznymi - Jest to porównanie wartości uzyskanych z próby ze znanym rozkładem. Np. test dwumianowy weryfikuje hipotezę o proporcji dwóch zdarzeń (0/1), a test Chi Kwadrat sprawdza to dla zmiennych o kategoriach więcej niż 2. Test Kołmogorowa Smirnowa weryfikuje hipotezę o zgodności rozkładu z próby z teoretycznym rozkładem np. Gaussa lub Poissona.
Test Kołmogorowa Smirnowa - weryfikuje hipotezę o zgodności rozkładu z próby z teoretycznym rozkładem np. normalnym lub poissona.
Test sekwencji na losowość (test Walda Wolfowitza )- test SERII testuje hipotezę o losowości występowania sekwencji danych. Dzieli zmienną na pół i sprawdza je pod kątem losowości.
Jednoczynnikowa analiza wariancji Kruskala Wallisa - Jest to nieparametryczny odpowiednik jednoczynnikowej analizy wariancji (ANOVA). Przeprowadza się go w momencie hardkorowego niespełnienia założeń testów parametrycznych.
Test Chi Kwadrat dobroci dopasowania - Procedura ta pozwala na wyliczenie statystyki Chi Kwadrat i weryfikacje przewidywania o dopasowaniu wartości z próby do oczekiwanych częstości dla każdej kategorii zmiennej. Użytkownik może przyjąć, że wszystkie kategorie są równe lub ustawić swoją proporcję.
Test dwumianowy - test ten porównuje istotność częstości obserwowanych dwóch poziomów zmiennej jakościowej (tak/nie, prawda/fałsz, 0/1 itd) z oczekiwaną wartością prawdopodobieństwa. Najczęściej stosowanym parametrem prawdopodobieństwa dla obu grup jest wartość 0,5. Test ten sprawdza się idealnie do weryfikacji hipotezy o losowości rzutu monetą.
Test Serii - test ten sprawdza czy wystąpienia dwóch wartości ma charakter losowy. Seria wystąpień jest sekwencją kolejno występujących po sobie wartości zmiennej. Np. przeprowadzono eksperyment dotyczący percepcji wzrokowej. Zrekrutowano badanych i okazało się, że wszyscy są w wieku 20 lat. Test serii ustala czy próba była dobrana w sposób randomizowany.
Test Z Kołmogorowa Smirnowa - Test statystyczny mający dosyć ogólniejszy charakter. Porównuje on położenie oraz kształt rozkładów. Test KS jest oparty na maksymalnej różnicy bezwzględnej między obserwowanymi funkcjami skumulowanego rozkładu (dystrybuant) dla dwóch prób.
Test Friedmana - Jest nieparametrycznym odpowiednikiem testu ANOVA dla pomiarów powtarzanych. Statystyka testu jest wyliczana z rang.
Test W Kendalla - jest to statystyka podająca informację o zgodności między oceniającymi. Każdy rekord w bazie jest oceniającym. Miara W Kendalla przyjmuje wartości od 0 do 1. Im bliżej 1 tym oceny oceniających są bardziej zgodne.
Test Q Corchana - jest testem podobnym do testu Friedmana lecz jest dedykowany dla zmiennych binarnych. Pomiary muszą dotyczyć tego samego obiektu lub prób zależnych (powtarzanych pomiarów). Statystyka Q zastępuję statystykę F.
Alfa Cronbacha (analiza rzetelności) - Jest to statystyka rzetelności oparta na wewnętrznej spójności odpowiedzi. Wyliczana jest ze średniej korelacji między pozycjami. Dane mogą być mierzone na skali dychotomicznej, porządkowej lub ilościowej. Współczynnik Alfa przyjmuje wartości od 0 do 1. Jeden oznacza doskonałą skalę pomiarową. Współczynnik ten bardzo często używany jest w psychometrii.
Model połówkowy (analiza rzetelności) - Procedura ta dzieli skalę na dwie części. Po podziale jest wyliczana korelacja między połowami testu. Dane mogą być mierzone na skali dychotomicznej, porządkowej lub ilościowej. Dla modelu połówkowego jest wyliczana korelacja między połówkami oraz statystyka Alfa Cronbacha dla każdej z połówek. Wartości statystyk im są bliższe 1 tym pomiar skalami jest bardziej rzetelny.
Test T Kwadrat Hotellinga - Weryfikuje hipotezę o tym, że wszystkie średnie skali pomiarowej mają podobną wartość średnią. Współczynnik ten bardzo często używany jest w psychometrii.
Krzywa ROC - Pole pod krzywą ROC informuje o jakości klasyfikatora. Pole pod krzywą ROC wynoszące 0,5 informuje o tym, że zbudowany model klasyfikacyjny wykonują swoją pracę nie lepiej i nie gorzej niż rzut monetą. Im pole bliżej 1 tym model jest trafniejszy w przewidywaniu kategorii klasyfikacji obserwacji. Krzywa ROC jest praktyczna i dzięki niej można porównywać różne modele klasyfikacyjne np. model regresji logistycznej z modelem sieci neuronowej i drzewa decyzyjnego. Standardowo dla krzywej ROC są wyliczane statystyki błędu standardowego oraz dostępne jest ustawienie przedziałów ufności. Analizy krzywej ROC często używa się w biostatyce / statystyce medycznej / analizie ryzyka kredytowego by porównywać modele klasyfikacyjne.
Jednoczynnikowa analiza wariancji ( ANOVA) - Analiza wariancji to metoda statystyczna stworzona w latach dwudziestych przez Ronalda Fishera. W schemacie jednoczynnikowym (jednoczynnikowa analiza wariancji) sprawdza czy jedna zmienna niezależna (czynnik) wpływa na wyniki jednej zmiennej zależnej. Należy jednak pamiętać, że w przeciwieństwie do testu t Studenta stosowana jest ona w przypadku gdy zmienna niezależna ma 3 poziomy lub więcej (na przykład gdy porównujemy czas reakcji na ból w grupie dzieci, młodzieży oraz osób dorosłych).
Polega ona (w wielkim skrócie) na porównaniu wariancji międzygrupowej do wariancji wewnątrzgrupowej. Zależeć nam powinno na tym, aby wariancja międzygrupowa była duża (duże różnice między badanymi ludźmi z różnych grup badawczych) a wariancja wewnątrzgrupowa była jak najmniejsza (możliwie małe różnice w zakresie badanej zmiennej zależnej “wewnątrz” jednej grupy).
Jeśli statystyka F (od Fishera:) jest mniejsza od 1 oznacza to, że wariancja niewyjaśniona (wewnątrzgrupowa) jest większa od wariancji wyjaśnionej (międzygrupowej). To zazwyczaj bardzo trudna dla badaczy sytuacja, w której występują duże, losowe, niezaplanowane różnice między badanymi a stosunkowo niewielkie różnice, które zaplanowaliśmy, które miały być wynikiem naszej manipulacji eksperymentalnej. Mówimy w takim wypadku o braku efektu. Jeśli współczynnik F jest większy od 1 możemy dopiero sprawdzić czy test jest istotny statystycznie. Mimo wszystko pożądany poziom istotności mniejszy od 0,05 uzyskuje się zazwyczaj dopiero gdy statystyka F jest przynajmniej równa lub większa od 2.
Sam wynik jednoczynnikowej analizy wariancji mówi nam jednak tylko o tym, że co najmniej jedna z grup różni się od innej grupy. Jeśli porównujemy średnie 4 grup to ta informacja jest niewystarczająca. Nie wiemy czy grupa A różni się od grupy B, a może tylko grupa B różni się od C i D. Dlatego też kolejnym krokiem jest przeprowadzenie testów POST HOC (po fakcie) lub tak zwaną analizę kontrastów (porównania planowane). Dzięki nim dowiadujemy się , które grupy różnią się między sobą istotnie statystycznie na poziomie p<0,05.
Warto pamiętać, że jednoczynnikową analizę wariancji wykonać można zarówno w przypadku prób niezależnych jak i prób zależnych (powtarzanych pomiarów). Ponadto jest to test parametryczny więc warto mieć na uwadze założenia takich testów: normalność rozkładu zmiennej zależnej w porównywanych grupach, równe wariancje, równoliczne grupy oraz przynajmniej przedziałowy poziom pomiaru zmiennej zależnej.
Błąd drugiego rodzaju - Błąd drugiego rodzaju podobnie jak błąd pierwszego rodzaju jest pojęciem związanym z weryfikacją hipotez. Błąd drugiego rodzaju polega jednak na nieprawidłowym odrzuceniu hipotezy zerowej. Jest ona nieprawdziwa (np. wynik testu jest istotny na poziomie p<0,05 i mówi o tym, że zachodzą istotne różnice w średnich) a my uznajemy, że jest prawdziwa trzymając się kurczowo przekonania, że nasze wyniki są dziełem przypadku.
Prawdopodobieństwo popełnienia błędu drugiego rodzaju wiąże się z tzw. mocą testu statystycznego i oznaczony jest mała grecką literą beta. Moc testu to po prostu 1 minus Beta. Warto pamiętać o tym, że błąd I i II rodzaju są ze sobą ściśle powiązane. Im łatwiej będziemy odrzucać hipotezę zerową tym większe ryzyko popełnienia błędu I rodzaju, ale mniejsze ryzyko popełnienia błędu II rodzaju. Z kolei jeśli będziemy bardziej restrykcyjni w poszukiwaniu dowodów na to, że hipoteza zerowa jest nieprawdziwa (nie będziemy jej tak łatwo odrzucać) to oczywiście spada prawdopodobieństwo popełnienia błędu I rodzaju, ale rośnie prawdopodobieństwo popełnienia II rodzaju czyli tzw. moc testu spada.
Błąd Pierwszego rodzaju - Błędem pierwszego rodzaju nazywamy sytuację, w której odrzucamy hipotezę zerową gdy jest ona prawdziwa. Jest to błąd, którego za wszelką cenę staramy się uniknąć gdyż jego nadmierne popełnianie sprawi, że zaczniemy tworzyć artefakty. Tego zdecydowanie nie chcemy. Niestety projektując badanie najczęściej zależy nam na uzyskaniu różnic istotnych statystycznie lub istotnych związków między zmiennymi. Bardzo często studenci studiów magisterskich przeprowadzając badanie w ramach swojej pracy dyplomowej uważają wyniki nieistotne za takie, które oddalą ich od pozytywnego wyniku obrony pracy mgr. Starają się tak manipulować analizami, lub wręcz zmieniać surowe wyniki by odrzucić hipotezę zerową. Popełniają przy tym bardzo często błąd pierwszego rodzaju.
W statystyce oszacowanie prawdopodobieństwa popełnienia błędu pierwszego rodzaju określa się małą grecką literą alfa i najczęściej to akceptowalne prawdopodobieństwo wynosi 5%. Odrzucając hipotezę zerową na rzecz hipotezy alternatywnej chcemy mieć 95 procentowe lub większe prawdopodobieństwo, że to dobry wybór. Dajemy sobie tym samym 5% (lub mniej %) szans na popełnienie tego rodzaju błędu.
We własnym gronie niekiedy błąd I rodzaju nazywamy błędem podekscytowanego badacza gdyż jego ekscytacja i ogromne pragnienie potwierdzenia swoich przypuszczeń sprawia, że bardzo często odrzuca prawdziwe hipotezy zerowe.
Poniżej zamieszczamy tabelę, dzięki której z łatwością zapamiętacie skutek poprawnych i błędnych decyzji. Wynika z niej, że jeśli w rzeczywistości prawdziwą jest hipoteza zerowa a my przyjmujemy hipotezę alternatywną to popełniamy błąd pierwszego rodzaju.
Estymacja przedziałowa - Estymacja przedziałowa, której twórcą (a dokładniej rzecz ujmując tego pojęcia :)) był statystyk polskiego pochodzenia Jerzy Spława-Neyman, to metoda służącą do oszacowania przedziału na podstawie wyników z próby, który prawdopodobnie zawiera prawdziwą wartość z populacji (której nie znamy i zapewne nigdy nie poznamy). Dla ułatwienia zrozumienia tego pojęcia będziemy omawiali przedział ufności dla średniej. Oczywiście przedział ufności możemy wyznaczać dla różnych miar w naszym badaniu lub serii badań – np. dla średniej, mediany, odchylenia standardowego, różnicy dwóch średnich czy współczynnika korelacji.
Przedział ufności jest zakresem, który prawdopodobnie “łapie” prawdziwą wartość estymowanego parametru (np. średniej w populacji). Wyznaczając ten przedział nie informujemy jednak czytelników naszej pracy dyplomowej czy też artykułu naukowego jedynie o możliwej wartości parametru w populacji, ale przede wszystkim o “jakości” naszej procedury badawczej (ze szczególnym naciskiem na dobór próby). Sprawa z estymacją przedziałową i przedziałami ufności jest dość skomplikowana… a jeśli nie jest, to prowadzi do błędnej interpretacji przedziałów ufności. Napisaliśmy już pobieżnie czym jest przedział ufności więc z chęcią podzielę się z Wami wiedzą dotyczącą tego, czym taki przedział nie jest i o czym nie mówi. Dla przykładu wyobraźmy sobie, że z populacji wszystkich ryb z jeziora Mamry wylosowaliśmy (a racze udało nam się złapać:)) 50 ryb. Powiedzmy, że wszystkie je ważymy i obliczamy średnią wagę złowionych ryb, która wynosi M = 1,5 kg. Czy średnia wszystkich ryb w tym jeziorze to 1,5kg? Zapewne nie. Może jest to 1,2 kg a może 2,3kg… a może 700 gram? Nie dowiemy się tego dopóki nie złowimy każdej jednej ryby z jeziora co jest zapewne mało wykonalne. Mimo wszystko możemy wyznaczyć przedział ufności , który prawdopodobnie zawiera prawdziwą średnią z całej populacji ryb z jeziora Mamry (będziemy niebawem pokazywali w tutorialu jak to zrobić). Przyjmijmy, że nasz przedział ufności wyliczony na podstawie złowionych 50 ryb to <1,1kg – 1,9kg>. Czym jest ten przedział i o czym mówi to magiczne 95%?
Mianowicie, 95%-owy przedział ufności mówi o tym, że jeśli całe nasze życie poświęcimy na łowienie 50-cio elementowych grupek ryb, będziemy to powtarzać tyle razy ile tylko nam się uda i za każdym razem wyznaczać przedział ufności (praktycznie zawsze będzie on trochę inny od pozostałych) to 95 takich przedziałów na 100 będzie zawierało prawdziwą średnią z populacji wszystkich ryb z jeziora Mamry.
1. Przedział ufności nie mówi o tym, że na 95% prawdziwa średnia w populacji jest gdzieś pomiędzy 1,1kg a 1,9kg. Prawdziwa średnia waga w populacji ryb jest wartością stała i nieznaną. Nie możemy odnosić się do średniej w populacji mówiąc o jakimkolwiek prawdopodobieństwie jej dotyczącym. Ta wartość wynosi X (nie wiemy ile) KONIEC I KROPKA. Jeśli mówimy, że na 95% średnia wartość w populacji zawiera się w jakimś przedziale to tak jakbyśmy mówili, że raz wynosi tyle, a raz wynosi tyle, że “porusza się” bezustannie i na 95% wpadła nam do naszego przedziału. NIE. Prawdziwa średnia w populacji albo jest w tym przedziale, albo jej tam nie ma. Żadne prawdopodobieństwo nie jest w to zamieszane.
Wyobraźcie sobie, że jesteście stwórcami tego świata i wiecie, że średnia waga wszystkich ryb w jeziorze Mamry to 1,3kg. Patrzycie z góry na jakiegoś wędkarza, który złowił przez cały tydzień 50 ryb i przez to, że korzystał ze specjalnej przynęty złowił same duuuże, ciężkie ryby. Jego średnia w próbie wyniosła 3,3 kg a przedział ufności wyniósł <3kg – 3,6kg>. Czy prawdziwe będzie stwierdzenie mówiące o tym, że prawdziwa średnia wynosząca 1,3kg na 95% jest w jego przedziale? NIE. Jej tam nie ma na 100%. Gdyby złowił mniejsze ryby, a wyliczony przez niego przedział wyniósłby <1kg – 1,6kg> to moglibyśmy powiedzieć, że TAK, na 100% prawdziwa średnia jest w jego przedziale.
Pamiętajcie, że to nasze przedziały zmieniają się z badania na badanie, a nie prawdziwa wartość estymowanej średniej w populacji. Ona się nie zmienia dlatego nie możemy mówić o prawdopodobieństwie w nawiązaniu do niej tylko w nawiązaniu do przedziału ufności.
Nam pozostaje jedynie wierzyć i trzymać mocno kciuki za to, że próba, na podstawie której obliczyliśmy przedział ufności dla jakiejś wartości jest na tyle dobra, że nasz przedział należy do tych 95% przedziałów które zawierają prawdziwą wartość z populacji a nie do tych 5%, które jej nie zawierają.
2. Przedział ufności nie oznacza też, że 95% wszystkich ryb w jeziorze Mamry waży nie mniej niż 1,1kg oraz nie więcej niż 1,9%. Możliwe, że jakimś dziwnym trafem złowimy 10 malutkich płotek ważących po kilkadziesiąt gram. Może zasadzimy się na suma i złowimy ich kilkanaście, a każdy z nich będzie ważył przynajmniej 20 kilogramów. Nie wiemy gdzie w porównaniu do całej populacji ryb w jeziorze znajduje się nasza próbka. Wiemy tylko, że zapewne zrobiliśmy wszystko co w naszej mocy, żeby była ona reprezentatywną i odpowiednio liczną próbką całej populacji.
Możliwych błędów jest jeszcze kilka, ale z dwoma powyższymi spotkałem się najczęściej. Wszystkim, którzy chcą zgłębić temat bardziej niż pobieżnie polecam wpisanie w googlach “confidence interval misconception” oraz/lub zapoznanie się z wynikami ciekawego badania (choć naszym skromnym zdaniem przeprowadzonym w nienajlepszy sposób)
Hoekstra, R., R. D. Morey, J. N. Rouder, E-J. Wagenmakers, 2014. Robust misinterpretation of confidence intervals. Psychonomic Bulletin Review, w druku.
Estymacja punktowa - Estymacja punktowa to metoda statystyczna mająca na celu oszacowanie wartości badanej zmiennej. Chodzi tu o znalezienie konkretnej liczby (nie przedziału), która jest estymatorem parametru w populacji (w odróżnieniu od estymacji przedziałowej).
PRZYKŁAD: Kiedy chcemy sprawdzić jaki średni czas zajmuje mężczyznom w populacji przebiegnięcie dystansu z punktu A do punktu B.
Eta Kwadrat - Jest to tak zwana miara siły efektu. Jej wartość może znajdować się w przedziale od 0 do 1. Wskaźnik ten pokazuje jaki procent zmienności w zakresie zmiennej A (zmiennej zależnej) jest wyjaśniany przez zmienną B (zmienną niezależną). Najczęściej liczymy go w przypadku wieloczynnikowej analizy wariancji, gdy chcemy dowiedzieć się, która ze zmiennych niezależnych “bardziej wpływa” na wyniki zmiennej zależnej.
Pamiętajcie, że SPSS wylicza tzw. cząstkowe eta kwadrat a nie “zwykłe” eta kwadrat. Jak już wspomnieliśmy powyżej najbardziej zasadne jest liczenie cząstkowej ety kwadrat w przypadku schematów wieloczynnikowych. Przy schematach z jedną zmienną niezależną najbardziej zalecane jest obliczanie współczynnika omega kwadrat , ale niestety trzeba to zrobić ręcznie
PRZYKŁAD: W badaniu chcemy dowiedzieć się czy ilość opadów i temperatura powietrza wpływają na słodki smak truskawek. Wyobraźmy sobie, że obie te zmienne wpływają istotnie statystycznie na słodycz truskawek. Jeśli jednak eta kwadrat dla ilości opadów wynosi 0,15 a dla temperatury powietrza wynosi 0,33 to oznacza, że temperatura powietrza wyjaśnia 33% zmienności wyników słodkiego smaku truskawek a ilość opadów tylko 15%. Zatem temperatura bardziej różnicuje to jak słodkie truskawki jemy.
Hipotezy (zerowa i alternatywna) - Hipoteza to pewne twierdzenie wynikające z naszego pytania badawczego. Nasze pytanie badawcze z kolei wynika ze zgłębienia pewnego obszaru wiedzy jakiejś dziedziny nauki (lub wielu dziedzin różnych nauk). Hipoteza zazwyczaj jest postawiona po to by ją potwierdzić lub odrzucić. W statystyce stawiamy zazwyczaj dwa rodzaje hipotez – zerową i alternatywną.
Hipoteza zerowa (H0), którą poddajemy weryfikacji/falsyfikacji mówi o tym, że czegoś nie ma …ale czego? Tego na czym najczęściej nam zależy . Jeśli badamy wpływ naszego leku na poprawę pamięci hipoteza zerowa będzie mówiła o tym, że lek nie wpływa na poprawę pamięci. Jeśli sprawdzamy czy IQ uczniów jest skorelowane z ich poziomem agresji hipoteza zerowa będzie mówiła o tym, że inteligencja nie jest powiązana z agresją.
Do hipotezy zerowej zawsze formułujemy hipotezę alternatywną (H1). Jest ona zaprzeczeniem hipotezy zerowej i mówi właśnie o tym na czym najczęściej nam zależy. Analogicznie do powyższych przykładów hipoteza alternatywna będzie mówiła, że pamięć badanych będzie lepsza po podaniu leku niż przed jego podaniem lub, że iloraz inteligencji jest istotnie powiązany z agresją uczniów w szkołach.
Wszystkie analizy statystyczne będziemy wykonywać po to by próbować odrzucić hipotezę zerową. Jeśli nam się to nie uda będziemy musieli ją przyjąć. Pamiętajcie, że właśnie hipoteza zerowa jest tą, na której pracujemy. To do niej odnosimy wyniki uzyskane w toku analiz statystycznych. Punktem wyjścia jest fakt, że nie ma żadnych różnic, związków, zależności itp. Jeśli wynik testu będzie istotny na poziomie p<0,05 będziemy mogli ją odrzucić. W przeciwnym wypadku zostaje tak jak jest.
Czasami studentom pierwszych lat nauk społecznych niełatwo jest zrozumieć jaka jest różnica między dążeniem do odrzucenia hipotezy zerowej (to co robimy) a dążeniem do potwierdzenia hipotezy alternatywnej (tym czego nie robimy).
Żeby im to ułatwić porównujemy zawsze proces przeprowadzania analiz statystycznych (czyli weryfikacji hipotez) do rozprawy sądowej i tak zwanej zasady domniemania niewinności. Kiedy przed sądem staje oskarżony to jest on na pozycji hipotezy zerowej. Nie jest mu przypisane domyślnie to o co się go oskarża. W trakcie trwającego dochodzenia/procesu sądowego prokurator stara się udowodnić, że oskarżony jest winny. Stara się zatem odrzucić hipotezę zerową i wsadzić złoczyńcę za kratki (czyli przyjąć hipotezę alternatywną – ten człowiek jest winny). Jeśli zdobędzie dostatecznie dużo dowodów będzie mógł to zrobić. W przeciwnym wypadku nie będzie mógł odrzucić hipotezy zerowej i oskarżonego uznać za winnego.
W tym miejscu widać również jak ważne jest nie popełnianie błędu I rodzjau. Chyba nikt z nas nie chciałby znaleźć się w więzieniu będąc niewinnym. Tak niestety dzieje się kiedy nie mając dostatecznie dużo dowodów w postaci istotnych statystycznie wyników lub mając złamane istotne założenia testów parametrycznych i istotne wyniki testów weryfikujących hipotezy nie bacząc na nic przyjmujemy hipotezę alternatywną.
Homogeniczność (równość, jednorodność) wariancji - Homogeniczność wariancji jest ważnym założeniem testów parametrycznych takich jak analiza wariancji lub test t Studenta. Homogeniczność to inaczej jednorodność lub po prostu równość. Wariancja to zapewne znana Wam miara mówiąca o zróżnicowaniu wyników w danej grupie (próbie).
Gdy chcemy na przykład dowiedzieć się czy zjedzenie 100g czekolady poprawia samopoczucie mierzone na skali od 0 do 100 projektujemy i przeprowadzamy eksperyment, wprowadzamy wyniki do SPSSa oraz wykonujemy analizę testem t Studenta dla prób niezależnych. Zanim odczytamy wyniki testu musimy sprawdzić czy wariancje w obu porównywanych grupach są homogeniczne/jednorodne/równe. Najczęściej pakiety do analiz statystycznych dysponują testem Levene’a, który nam w tym pomoże. Powinno zależeć nam, żeby zmienność wyników między dwiema badanymi grupami była duża (duże różnice w samopoczuciu między dwiema grupami – jedzącej 100g czekolady oraz niejedzącej czekolady). Z kolei zmienność wyników w zakresie mierzonej zmiennej wewnątrz każdej z grup powinna być jak najmniejsza. W obu grupach przebadano po 4 osoby. Jak widać osoby, które nie zjadły czekolady mają niższą średnią, a zatem gorsze samopoczucie. Osoby, które zjadły 100 gram czekolady mają samopoczucie trochę lepsze. Pytanie o statystyczną istotność tych różnic zostawmy na razie bez odpowiedzi. Chcielibyśmy pokazać Wam, że nierówne wariancje (które na pewno są w zilustrowanym przykładzie) sprawiają, że nasza interpretacja i wnioskowanie o całej populacji może być obarczone błędem gdy wariancje nie są równe. Niestety prawdopodobnie nie mielibyśmy racji twierdząc, że ludzie po czekoladzie mają lepsze samopoczucie. To prawda, że uzyskali wyższą średnią, ale wśród badanych nie jedzących czekolady również mamy 2 dość wysokie słupki (nawet 1 wyższy od tych w grupie po czekoladzie!). Oznaczać to może, że wcale nie nasza czekolada różnicuje wyniki samopoczucia a jakaś inna, niekontrolowana przez nas zmienna.
Dlatego właśnie równość wariancji jest taka ważna. Pamiętajcie o tym
Testy nieparametryczne - Testy nieparametryczne to testy statystyczne wykorzystywane do weryfikacji nieparametrycznych hipotez. Wspominana w nazwie “nieparametryczność” mówi o tym, że testy te w odróżnieniu od innych klasycznych metod statystycznych nie polegają na estymacji parametrów z góry założonego rozkładu zmiennej losowej w populacji.
Testy nieparametryczne możemy (powinniśmy) stosować gdy nie mamy spełnionych istotnych założeń dla testów parametrycznych.
* ilościowa skala pomiaru zmiennej zależnej (lub obu zmiennych dla analizy korelacji) – wiecie już, że przeprowadzając na przykład test t Studenta musimy mieć zmienną niezależną na dwóch poziomach oraz zmienną zależną mierzoną na skali ilościowej. Jeśli chcemy porównać dwie grupy pod względem jakiejś zmiennej, która jest mierzona na skali porządkowej to powinniśmy wykorzystać nieparametryczny odpowiednik testu t Studenta.
* obserwacje odstające – testy nieparametryczne należą do rodziny tak zwanych odpornych metod statystycznych (ang. robust methods). Oznacza to, że duże odchylenia od przeciętnych wartości nie wpływają negatywnie na nasze wyniki tak jak ma to miejsce w przypadku metod parametrycznych
* rozkład normalny – jak wspomniano w pierwszym akapicie w przypadku wykorzystywania metod nieparametrycznych nie musimy martwić się tym, aby nasze zmienne ilościowe miały rozkład zgodny z rozkładem normalnym. W ogóle rozkład zmiennych w przypadku nieparametrycznych testów jest mało istotny
* równoliczność grup – jest to również stosunkowo istotne założenie dla testów parametrycznych, które porównują dla nas średnie w kilku grupach. Jeśli chcemy sprawdzić czy istotnie najwięcej zarabiają ludzi o wykształceniu podstawowym, średnim czy może wyższym i w grupie 1 mamy 10 badanych, w grupie 2 mamy 18 badanych a w grupie 3 mamy 67 badanych to dobrze jest wybrać test nieparametryczny zamiast parametrycznego
Testy nieparametryczne, z którymi prawdopodobnie spotkacie się najczęściej to:
1. Test Manna-Whitney’a – odpowiednik testu t Studenta dla prób niezależnych
2. Test Kruskala-Wallisa – odpowiednik jednoczynnikowej analizy wariancji (ANOVA) dla prób niezależnych
3. Test Wilcoxona – odpowiednik testu t Studenta dla prób zależnych
4. Test Friedmana – odpowiednik jednoczynnikowej analizy wariancji (ANOVA) dla prób zależnych
5. Korelacje nieparametryczne – rho Pearmana i tau b Kendalla
6. Test Chi kwadrat zgodności rozkładu lub test Chi kwadrat niezależności
Operacjonalizacja zmiennych - Operacjonalizacja polega na zdefiniowaniu pojęć poprzez odniesienie ich do konkretnych operacji w wyniku których uzyskamy wiedzę o zmiennych.
Innymi słowy dokonując operacjonalizacji decydujemy się w jaki sposób dana zmienna będzie mierzona. Za przykład weźmy taką zmienną jak wytrzymałość fizyczna. Zanim zbadamy wytrzymałość kobiet i mężczyzn oraz testem t Studenta potwierdzimy nasze przypuszczenia, że wytrzymałość kobiet jest mniejsza niż wytrzymałość mężczyzn musimy zdecydować jak będziemy ową wytrzymałość mierzyć. Musimy zoperacjonalizować tą zmienną. Możemy to zrobić zazwyczaj na wiele różnych sposobów.
Wytrzymałość możemy liczyć jako dystans przebiegnięty w ciągu 2godzinnego biegu. Możemy wytrzymałość zdefiniować jako ilość zrobionych pompek lub “brzuszków”. Można też ją mierzyć jako odpowiedź na pytanie “Jak oceniasz swoją wytrzymałość na skali od 0 do 100?“.
Drugim przykładem może być taka zmienna jak otwartość na doświadczenia. Jak zoperacjonalizować tą zmienną? Co zrobić by ją zmierzyć, by okreslić, że ktoś jest mniej otwarty a ktoś bardziej otwarty? Może zapytać o liczbę kilometrów przemierzonych w podróży (im więcej tym większa otwartość). Może zdefiniować ją jako ilość działań, w które dana osoba zaangażowała się pierwszy raz w życiu? A może w końcu stworzyć jakieś narzędzie psychometryczne (kwestionariusz), które da nam odpowiedź na pytanie o otwartość na doświadczenia?
Rangowanie - W celu uniezależnienia się od rozkładu zmiennej oraz zmniejszenia wrażliwości na obserwacje odstające można zastosować rangowanie uzyskanych wyników. Pozwala to również na analizę danych wyrażonych na skali porządkowej. W najprostszy sposób rangi przypisuje się, porządkując wyniki rosnąco i numerując kolejno (licząc od 1). W przypadku wystąpienia wielu obserwacji o tej samej wartości- np. dwie osoby w naszym badaniu uzyskały taką samą liczbę punktów- rangi (rangi wiązane) dla poszczególnych obserwacji sumuje się, a następnie dzieli przez liczbę tych obserwacji. Tak otrzymaną wartość przypisuje się jako rangę każdemu z identycznych wyników.
Przykład:
uzyskaliśmy następujące wyniki:
x1= 23; x2=45; x3=11; x4=66; x5=11; x6=11; x7=59; x8=57; x9=26; x10=11;
po uszeregowaniu ich rosnąco, można przypisać kolejne rangi
1 2 3 4 5 6 7 8 9 10
x3=11; x6=11; x10=11; x5=11; x1=23; x9=26; x2=45; x8=57; x7=59; x5=66;
a następnie uwzględnić rangi wiązane
(1+2+3+4)/4= 2,5
2,5 2,5 2,5 2,5 5 6 7 8 9 10
x3=11; x6=11; x10=11; x5=11; x1=23; x9=26; x2=45; x8=57; x7=59; x5=66;
Rangowanie jest wykorzystywane w rangowych testach nieparametrycznych, do których zalicza się np.test Manna-Whitney’a czy test Kruskala-Wallisa.
Rozkład normalny - rozkład normalny jest symetryczny
- każdy rozkład normalny ma 2 parametry: średnią i odchylenie standardowe
- średnia jest równa medianie i dominancie (M=Me=Mo)
- ponad 68% wyników leży w maksymalnej odległości jednego odchylenia standardowego od średniej natomiast aż ponad 95% wyników znajduje się w odległości 2 odchyleń od średniej
- napotkanie wyników większych od średniej o 3 odchylenia standardowe jest niemal nieprawdopodobne (takie wyniki stanowią jedynie 0,2% całości)
Współczynnik determinacji R Kwadrat - Współczynnik r kwadrat jest miarą jakości dopasowania modelu. Mówi on o tym, jaki procent jednej zmiennej wyjaśnia zmienność drugiej zmiennej. Przyjmuje on wartości od 0 do 1.
Najczęściej spotykamy się z nim i wykorzystujemy go w trakcie przeprowadzania analizy regresji. Jest on jednak niekiedy interpretowany w przypadku wieloczynnikowej analizy wariancji. Jest to jedna z wielu metod oceny i porównywania modeli wyjaśniających.
W celu wyjaśnienia tej miary sposobem “na chłopski rozum” przeanalizujmy taki oto przykład. Wyobraźmy sobie, że chcemy sprawdzić, czy liczba lat nauki szkolnej człowieka może być oszacowana na podstawie wiedzy o dochodzie gospodarstwa domowego, w którym żyje, oraz liczbą lat nauki szkolnej ojca. Dowiemy się tego właśnie dzięki przeprowadzeniu analizy regresji, w której automatycznie wyliczany jest współczynnik r kwadrat.
Z tabel wygenerowanych przez oprogramowanie wynika, że liczbę lat nauki szkolnej jakiejś osoby można istotnie przewidzieć zarówno na podstawie dochodu jej gospodarstwa domowego, jak i liczby lat nauki szkolnej jej ojca. Przyglądając się statystyce r kwadrat okazuje się, że dla dochodu r2=0,22, natomiast dla lat nauki szkolnej r2=0,45.
Informacja płynąca z dwóch powyższych wartości jest następująca – to liczba lat nauki szkolnej ojca ma większy wpływ na naszą liczbę lat nauki szkolnej niż dochody gospodarstwa domowego, w którym żyjemy. Bardziej profesjonalny zapis/interpretacja będzie mówił o tym, że dochód gospodarstwa domowego, w którym żyjemy wyjaśnia 22% zmienności (inaczej wariancji) w zakresie naszej liczby lat nauki szkolnej. Zatem 78% wariancji lat nauki wyjaśnione jest innymi czynnikami niż dochód gospodarstwa domowego. Z kolei lata nauki szkolnej ojca wyjaśniają aż 45% wariancji w zakresie zmiennej zależnej (czyli naszej liczby lat nauki szkolnej) zatem “tylko” 55% wariancji wyjaśnione jest innymi czynnikami.
Dzięki współczynnikowi determinacji r kwadrat możemy się dowiedzieć jak bardzo zmiany jakiejś wartości (np. wagi człowieka) są zdeterminowane zmianami w zakresie innej cechy (np. wzrostu).
Pamiętajcie jednak, że współczynnik determinacji r kwadrat w analizie regresji rośnie zawsze gdy dodamy jakiś kolejny predyktor. Nawet gdy ten nie wnosi nic nowego do wyjaśnienia zmienności naszej zmiennej objaśnianej. Dlatego też jeśli w modelu mamy więcej niż 1 predyktor to należy odczytywać wartość skorygowanego r kwadrat.
R kwadrat możecie także liczyć w przypadku analizy korelacji. Wystarczy podnieść współczynnik r Pearsona (lub inne – np. rho Spearmana) do kwadratu. Należy jednak pamiętać, że liczenie współczynnika determinacji dla korelacji nieparametrycznych (Spearmana i Kendalla) jest szeroko krytykowane zatem odradzalibyśmy jego liczenie i opisywanie.
Ponadto r kwadrat wylicza nam się przy wieloczynnikowej analizie wariancji informując nas o tym jaki procent wariancji jest wyjaśniony przez efekty wprowadzonych przez nas zmiennych. Wieloczynnikowa analiza wariancji to w końcu też ogólny model liniowy.
Testy POST HOC - Testy POST HOC (po fakcie) wykonuje się jako kolejny krok analizy wariancji. Znane są również pod nazwą porównań wielokrotnych. Sama analiza wariancji mówi nam o tym czy różnice w porównywanych średnich występują czy nie. Nie wiemy jednak między którymi grupami zachodzą te różnice. Istotny współczynnik F wskazuje jedynie na słuszność (lub brak słuszności) odrzucenia hipotezy zerowej. Jeśli ją odrzucimy musimy dowiedzieć się czy wszystkie średnie różnią się między sobą czy tylko niektóre. Stąd też nazwa “po fakcie” – wykonujemy je dopiero po sprawdzeniu czy wynik F jest istotny statystycznie. Jeśli nie jest, nie musimy wykonywać testów POST HOC.
Testów POST HOC mamy całkiem sporo i tylko od nas zależy, który z nich wybierzemy. Należy jednak mieć pełną świadomość słabych i mocnych stron każdego z testów dlatego poniżej pokrótce opiszemy kilka z nich. Po pierwsze jednak chcielibyśmy zapoznać Was z podstawowym ich podziałem. Mianowicie, dzielą się one na dwie duże grupy – testów dla równych wariancji oraz testów dla nierównych wariancji. Te dwie grupy dzielą się z kolei na jeszcze dwie grupy – testów konserwatywnych i testów liberalnych. Warto wyjaśnić w tym miejscu, że pojęcie “testy konserwatywne” rozumiane jest jako testy, w których trudniej jest uzyskać wynik istotny statystycznie, a “testy liberalne” to testy, w których łatwiej jest uzyskać istotne różnice w średnich.
POST HOC NIR – Jest to najstarszy test wielokrotnych porównań, zaproponowany w 1949 przez samego Ronalda Fishera. Skrót NIR rozwija się jako Najmniejszych Istotnych Różnic. Wszyscy ludzie eksperymentujący z narkotykami z wielką łatwością zapamiętują jego anglojęzyczny skrót LSD (Least Significant Difference). Niestety ryzyko popełnienia błędu polegającego na wskazaniu istotnych różnic w przypadku gdy są one nieistotne jest bardzo duże. Spowodowane jest to tym, że test NIR robi dla nas po prostu szereg testów t Studenta (dla każdej porównywanej pary średnich). Przekłamuje on prawdopodobieństwo nie biorąc poprawki właśnie na wspomnianą ilość porównań. Jeśli w ramach odpowiedzi na jedną hipotezę porównujemy grupę A z B, A z C, B z C a później jeszcze to samo w “drugą stronę” czyli test B z A, C z A i C z B to kumuluje nam się prawdopodobieństwo popełnienia błędu I rodzaju. Dlatego też test ten można wykonywać tylko kiedy wariancje w porównywanych grupach są jednorodne, grupy są równoliczne, a i tak najczęściej używa się go tylko do potwierdzenia wyników innych testów POST HOC.
POST HOC BONFERRONIEGO – Test ten znany jest głównie pod nazwą “poprawka Bonferroniego”. Wyliczany jest on “tak samo” jak test NIR, ale bierze poprawkę na ilość wykonywanych porównań. Jeśli mamy 3 porównania w przypadku potwierdzania jednej hipotezy to poziom istotności 0,05 dzieli na 3 (=0,0167). Zatem dopiero wynik istotności w przybliżeniu mniejszy od 0,017 będzie uznawany za istotny statystycznie a nie tak jak do tej pory mniejszy od 0,05. Bardzo dobrze spisuje się w przypadku małej liczby porównań. Na wymiarze konserwatywny-liberalny umieścilibyśmy go raczej po stronie konserwatywnych testów.
POST HOC SIDAKA - Ten test z kolei jest bardzo podobny do powyższego. W trochę inny sposób dokonuje on jednak korekcji poziomu istotności (alfa). Jeśli naszą granicę ustawiamy na poziomie 0,05 to test SIDAKA ma trochę większą moc niż test Bonferroniego (łatwiej otrzymać istotne różnice jeśli faktycznie takowe występują). Jeśli jednak za poziom istotności przyjmujemy 0,01 to praktycznie nie ma różnicy, który z tych testów wybierzemy.
POST HOC DUNCANA – Test Duncana klasyfikowany jest w literaturze jako bardziej liberalny od poprawki Bonferroniego. Oparty jest on na tak zwanym studentyzowanym rozstępie. Przyjade się szczególnie gdy chcemy porównać jedną grupę (np. grupę kontrolną) do kilku innych grup (np. paru grup eksperymentalnych).Warto również wspomnieć, że w jego przypadku im bardziej średnie są od siebie oddalone, tym łatwiej uzyskać wynik istotny statystycznie.
POST HOC SCHEFFE – Jest to najbardziej konserwatywny test. Jego stosowanie będzie zatem skutkowało najmniejszą ilością istotnych różnic między średnimi. Jeśli ogólny wynik wynik analizy wariancji F będzie nieistotny to na pewno nie będzie żadnej istotnej różnicy między średnimi (co np. często zdarza się w przypadku stosowania testu NIR). Jeśli porównujemy 3 średnie to test Bonferroniego dzieli poziom 0,05 na 3 natomiast test Scheffe dzieli istotność na 6! Zatem wynik różnicy między średnimi mniejszy od 0,0083 będzie pokazany jako istotny statystycznie.
POST HOC TUKEYA – Jest to test chyba najbardziej polecany do porównywania par średnich. Jest bardziej liberalny od testu Scheffe i jednocześnie bardziej konserwatywny niż test NIR.
POST HOC GT2 HOCHBERGA – Ten test jest zalecany gdy nasze grupy są nierównoliczne.
POST HOC GAMESA-HOWELLA – Bierze on poprawkę na nierówne wariancje w porównywanych grupach jak również na różnice w ich liczebnościach. Jest to stosunkowo liberalny test.
POST HOC T2 TAMHANE’A – Jest to konserwatywny (na pewno bardziej niż Gamesa-Howella) test oparty na rozkładzie t Studenta. Do wyznaczenia poziomu istotności wykorzystuje taką samą procedurę jak test Sidaka.
Modification Indices (analiza ścieżek / modelowanie równań strukturalnych/ SEM) - jest to wskaźnik informujący o tym o ile zmieni się dopasowanie modelu kiedy zmodyfikujemy model według wskazań
Test for nomnality & outliers ( analiza ścieżek / modelowanie równań strukturalnych/ SEM ) - test ten weryfikuje hipotezę o normalności rozkładu badanych zmiennych.
Squared multiple correlations r2 ( analiza ścieżek / modelowanie równań strukturalnych/ SEM ) - dostarcza informacji o procencie wyjaśnionej wariancji danego pomiaru.
Wskaźnik dopasowania Chi Kwadrat χ2 ( analiza ścieżek / modelowanie równań strukturalnych/ SEM ) - test Chi kwadrat weryfikuje hipotezę o dopasowaniu modelu do danych. Kiedy istotność jest mniejsza niż 0,05 wtedy model wyjaśniający nie jest dopasowany do danych. Kiedy istotność jest większa, model jest dopasowany dodanych. Bardzo często przy bardzo liczebnych próbach wyniki tego testu są istotne.
RMSEA ( analiza ścieżek / modelowanie równań strukturalnych/ SEM ) -Jest to średni błąd aproksymacji próby do populacji idealnej. Model jest dopasowany do danych kiedy wartość tego wskaźnika jest mniejsza niż 0,05. Dopuszcza się wynik 0,08. Co ciekawe dla tego wyniku można uzyskać przedziały ufności.
AGFI/GFI ( analiza ścieżek / modelowanie równań strukturalnych/ SEM ) - Jest to współczynnik wyjaśnionej wariancji przez model ścieżkowy. Im bliżej 1 tym lepiej. Progowa wartość przy, której akceptuje się model wynosi 0,9.
CFI / TLI ( analiza ścieżek / modelowanie równań strukturalnych/ SEM ) - Współczynniki mierzące dopasowanie modelu strukturalnego do danych. Im bliżej 1 tym lepiej. Progowa wartość przy, której akceptuje się model wynosi 0,9.
SRMR ( analiza ścieżek / modelowanie równań strukturalnych/ SEM ) - Współczynniki wskazujące na stopień błędnego dopasowania. Podobnie jak przy wskaźniku RMSEA, Model jest dopasowany do danych kiedy wartość tego wskaźnika jest mniejsza niż 0,05. Dopuszcza się wynik 0,08.
CMIN / DF ( analiza ścieżek / modelowanie równań strukturalnych/ SEM ) - Pod względem tych wskaźników mierzy się dopasowanie modelu równań strukturalnych do danych. Współczynnik ten nie powinien przekraczać wartości równej 5.
Czas przeżycia / czas życia - jest to okres między stanem początkowym a momentem wystąpienia zdarzenia (np. śmiercią pacjenta, awarią silnika, odejściem klienta z firmy itp. itd. ).
Funkcja przeżycia - zdaje prawdopodobieństwo, że obserwacja przeżyje dłużej niż wyznaczony czas, inaczej - że dożyła do pewnego wyznaczonego przez funkcję momentu.
Funkcja hazardu - przeciwnie do funkcji przeżycia skupia się na pojawieniu niekorzystnego zdarzenia, na przykład śmierci. Przedstawia jakby "negatywne" uzupełnienie informacji niesionej przez funkcję przeżycia. Wartość funkcji hazardu w pewnym czasie traktujemy jako chwilowy potencjał pojawiającego się zdarzenia (np. śmierci pacjenta, awarii silnika, odejścia klienta), pod warunkiem że osoba dożyła czasu t
Porównywanie krzywych przeżycia - pozwala ocenić działanie np. nowych bloków silnikowych w sytuacji, gdy występują obserwacje ucięte. Dzięki temu można porównywać przeżycie ze względu na dany czynnik. Dla każdego z bloków silnika można oszacować przeżycie, a potem dokonać porównania czasów życia. Ponieważ życie nie ma rozkładu normalnego, stosuje się estymację nieparametryczną.
Proporcjonalny Hazard Coxa - jest jednym z najczęściej stosowanych modeli regresji w analizie przeżycia. Nie ma on wymagań co do założeń dotyczących kształtu rozkładu przeżycia. Model ten wyraża ryzyko w czasie t dla badanego zestawu zmiennych wyjaśniających. Analizy hazardu COXa często używa się w biostatyce / statystyce medycznej / biometrii/ analizie odejścia klienta (business intelligence).
Analiza przeżycia ( survival analysis ) - jest to zestaw procedur statystycznych, dla których badana zmienna wyjaśniana jest czasem pojawienia się jakiegoś określonego zdarzenia. Obecnie ma szerokie spektrum zastosowań, od przewidywania życia pacjenta po operacji po szacowanie czasu szukania nowej pracy po jej stracie.
Obserwacje ucięte (obserwacje cenzurowane w analizie przeżycia) - Przykładami sytuacji w których mamy do czynienia z obserwacjami uciętymi (cenzurowanymi) są :
- zakończenie badanie kiedy osoba lub obiekt nadal żyje
- strata obiektu w trakcie badania
- usunięcie z badań z powodu niekontrolowania niepożądanych czynników np. podanie nieodpowiedniego leku lub uszkodzenia mechaniczne przedmiotu.
W sytuacji pojawienia się obserwacji uciętych występuje potrzeba użycia odpowiednich statystyk, zaś szacowanie funkcji przeżycia i ryzyka śmierci obiektu wymaga głębszej analizy. Analizy przeżycia często używa się w biostatyce / statystyce medycznej / biometrii.
Analiza dyskryminacyjna - jest metodą statystyczną polegającą na opisaniu różnic pomiędzy grupami obiektów w oparciu o zestaw zmiennych niezależnych w momencie kiedy zmienna zależna jest pomiarem na skali jakościowej. Metoda analizy dyskryminacyjnej jest bardzo pojemną metodą, dzięki niej można odróżniać od siebie obiekty oraz zbudować model klasyfikujący i na jego podstawie wnioskować o przynależności do grupy nowe obserwacje. Analiza ta ma dwa główne cele :
1. Dyskryminacja - graficzny i matematyczny opis różnych właściwości obiektów należących do kilku grup. ANALITYK POSZUKUJE W TEN SPOSÓB OPTYMALNEJ ilości dyskryminatorów których zmienność wyników separuje badane grupy.
2. Klasyfikacja - przyłączenie obiektów do dwóch lub więcej zbiorów. Badacz szuka dzięki tej analizie wzoru za pomocą którego zaklasyfikuje nowe obiekty do właściwych zbiorów. Analizy dyskryminacyjnej często używa się w biostatyce / statystyce medycznej / ryzyku kredytowym / przemysłowej analizie danych.
Modele równań strukturalnych (analiza ścieżek / SEM ) - Metoda równań strukturalnych ma swoich zwolenników i krytyków ponieważ posiada bardzo wiele zalet oraz równie wiele wad. Modelowanie równań strukturalnych zawsze rozpoczyna się od poznania podstaw teoretycznych, tylko na podstawie teorii lub różnych jej wariantów można budować model. Do jego budowy niezbędne są wskazówki jakie daje teoria lub bardzo silna intuicja, bez poznania tych wskazań można zbudować model wyjaśniający dopasowany do danych ale mający niewiele wspólnego z rzeczywistością.
W skrócie, analiza równań strukturalnych zwana też analizą ścieżek daje wgląd w badane zjawisko w jego bardzo zaawansowanym wydaniu. Dzięki zaplanowaniu korelacji w równaniu między zmiennymi wyjaśniającymi, które jednocześnie wpływają na zmienną wyjaśnianą można dojrzeć osobliwy wpływ/korelację każdej zmiennej. Nie mniej jednak przy modelowaniu równań strukturalnych trzeba przygotować się na alternatywne scenariusze planowania ścieżek korelacji/wpływów. Nie zawsze teoria przez, którą patrzymy na naturę jak taka jak dane uzyskane z badania. Dlatego warto przygotować odrobinę zmienione struktury korelacji/wpływów by móc porównywać modele pod względem dobroci dopasowania do danych oraz wyjaśnionej interesującej zmienności.
Dzięki analizie ścieżkowej można badać strukturę testów psychologicznych. W tej odsłonie jest to metoda konfirmacyjna, która potwierdza założenia o strukturze czynnikowej walidowanego testu oraz pozwala na budowanie alternatywnych jego wersji by wybrać ten najlepiej dopasowany do danych.
Błąd średni kwadratowy - Funkcja jakości działania sieci neuronowej w procesie uczenia oznacza wartość średnią (oczekiwaną) zmiennej losowej. Wartość oczekiwana liczona jest po wszystkich zbiorach par uczących. Zakładamy przy tym, że wybory kolejnych par uczących są niezależne od siebie.
Sieć neuronowa (budowa sztucznego neuronu)- wejścia - reprezentują sygnały zewnętrzne, które
wpływają do neuronu (wymuszenia)
• wagi - determinują względną własność poszczególnych wejść
• pobudzenie (łączne) - wypadkowa wartość skalarna odzwierciedlająca aktywność neuronu. Jest to zależne od funkcji (np. sigmoidalna ), która określa sposób obliczania pobudzenia na podstawie wejść oraz wag
• wyjście - wartość sygnału wyjściowego neuronu
• funkcja aktywacji - determinuje stan wyjścia na podstawie pobudzenia; określa charakterystykę neuronu
Sieć nauronowa to cenna procedura w podejściu BIG DATA i DATA MINING.
Cel uczenia sieci neuronowej - rozwiązanie pewnego problemu klasyfikacji nominałów lub problemu regresji (decyzje numeryczne). Niezastąpiona procedura analizy statystycznej w podejściu BIG DATA i DATA MINING.
Biostatystyka (biometria) – Statystyka medyczna to nauka z pogranicza biologii i statystyki, adaptacja metod statystycznych na potrzeby prac badawczych w dziedzinie biologii, związanych przede wszystkim z medycyną, genetyką, fizjologią, antropologią, ekologią i rolnictwem.
Przykładowymi zastosowaniami biostatystyki są badania obserwacyjne, badania promujące leki oraz usługi analizy danych dla badań klinicznych, obserwacyjnych oraz badań biorównoważności.
Prace badawcze prowadzone w ramach biostatystyki obejmują: projektowanie eksperymentów biologicznych, zbieranie, agregowanie i analizowanie danych pochodzących z tych badań oraz interpretowanie wyników i formułowanie wniosków już w kontekście nauki (poza biostatystyką i biometrią).
Statystyka medyczna - analiza statystyczna wykonywana w kontekście nauk o zdrowiu. Jest to bardzo wąska dziedzina statystyki. Wymaga posługiwania się metodami ściśle dedykowanymi dla analizy statystycznej w medycynie / biostatyce/ biometrii.
Standaryzacja pomiarów - Standaryzacja zmiennych w statystycznej analizie danych jest to przekształcenie pomiarów wyrażonych w różnych jednostkach pomiaru na skale wyrażone w tej samej jednostce pomiaru - wystandaryzowanej jednostce pomiaru. Jest to jakby przetłumaczenie różnych zmiennych na różnych jednostkach np. wiek, zarobki, Body Mass, Index itd na wspólny "statystyczny język" jakim jest pomiar wystandarzyowany (jest to odchylenie wyników od średniej wynoszącej 0). Dzięki standaryzacji zmiennych możemy ujednolicić wnioskowanie statystyczne i określić siłę wpływu różnych zmiennych na badane zjawisko oraz identyfikować zmienne odstające od oszacowań.
Estymacja / szacowanie - jest to szacowanie pewnych wartości na podstawie dostarczonych danych np. oszacowanie średniego wieku w populacji do wzrostu zarobków na które wpływa liczba lat edukacji.
Istotność statystyczna - W statystyce nic nie jest pewne. Choć przy odpowiednich warunkach jest wielce prawdopodobne. Do tego możemy wiedzieć z jaką siłą oddziaływań mamy do czynienia. Statystyka klasyczna ma fundamenty uwarunkowane rachunkiem prawdopodobieństwa. Poziom istotności jest wynikiem dzięki, któremu możemy ocenić na ile badane zjawiska są ze sobą powiązane przez przypadek. W naukach społecznych zazwyczaj za próg istotności w formalnych analizach przyjmuje się 0,05. Im wynik istotności jest mniejszy niż 0,05 tym jest mniejsze niż 5% prawdopodobieństwo, że wyniki zaszyły przez przypadek. W naukach medycznych i technicznych próg ten jest jeszcze bardziej zmniejszany np. do 0,01 lub 0,001. Zwykle jednak w nauce przyjęło się niepewność wynoszącą 5%.
Iloraz szans ODDS RATIO - współczynnik OR określa nam szanse wystąpienia danego zjawiska w danej grupie w odniesieniu do szansy wystąpienia tego zjawiska w innej grupie. Współczynnikiem tym można określić o ile zmniejszy się lub zwiększy się szansa na spłatę kredytu jeśli ktoś jest kobietą lub ma zarobki w przedziale 2900-3850 ( współczynnik Ilorazu Szans OR jest jedną z podstaw wnioskowania w analizie ryzyka kredytowego). Iloraz szans jest stosunkiem szansy wystąpienia zjawiska w jednej grupie do szansy wystąpienia tego samego zjawiska w drugiej grupie. Jeśli OR przy danej zmiennej jest mniej więcej równe 0 to znaczy, że szansa wystąpienia badanego zjawiska jest podobne. Jeśli OR jest większe niż 1 to znaczy, że przy danej zmiennej szansa wystąpienia np. spłaty kredytu jest większa. Jeśli OR jest mniejsze niż 1 przy danej zmiennej to znaczy, że szansa wystąpienia np. spłaty kredytu dla danej zmiennej jest mniejsza.
Analiza klas latentnych (LCA) - Celem tej analizy jest podzielenie klientów na grupy i wyłonienie z nich w sposób empirycznych zastanej liczby grup. Procedura ta maksymalizuje różnice pomiędzy profilami grup oraz minimalizuje różnice między klientami wewnątrz grup. Zazwyczaj prezencja wyników jest bardzo czytelna i nawet laik jest w stanie zinterpretować wyniki dokonanej segmentacji klientów za pomocą analizy klas latentnych. Cenna procedura w podejściu BIG DATA i DATA MINING. Najczęściej analizy klas latentnych używa się do klasyfikowania nowych klientów oraz do segmentacji klientów lub obserwacji. Minusem tej procedury jest to, że wymaga ona wyników mierzonych na skali jakościowej.
Analiza profili latentnych (LPA) - Celem tej analizy jest podzielenie klientów na grupy i wyłonienie z nich w sposób empirycznych zastanej liczby grup. Procedura ta maksymalizuje różnice pomiędzy profilami grup oraz minimalizuje różnice między klientami wewnątrz grup. Zazwyczaj prezencja wyników jest bardzo czytelna i nawet laik jest w stanie zinterpretować wyniki dokonanej segmentacji klientów za pomocą analizy klas latentnych. Cenna procedura w podejściu BIG DATA i DATA MINING. Najczęściej analizy profili latentnych używa się do klasyfikowania nowych klientów oraz do segmentacji klientów lub obserwacji. Minusem tej procedury jest to, że wymaga ona wyników mierzonych na skali ilościowej.
Analiza regresji liniowej i krzywoliniowej - Analiza regresji liniowej i krzywoliniowej pozwala na przewidywanie wpływu zmiennych na wyniki mierzone na skali ciągłej np. napływ nowych klientów wyrażonych w ich liczbie. Liniowość zjawisk jest częsta, ale nie jedyna. W rzeczywistości występują też związki krzywoliniowe, z różną ilością gięć. Analizy regresji w różnych odmianach, pozwalają nam na przewidywanie zjawisk na podstawie badania, a także kiedy nie mieliśmy ich w sytuacji eksperymentalnej, ale znamy ich wartości. Przykładowo z badania wiemy że stały poziom klientów danej firmy produkującej odzież wynosi 1000, ale wiemy też że każde 10.000 tyś zł. wydane na reklamę w internecie powoduje liniowy wzrost klientów o 36 , ponad to im bardziej zróżnicowane są przekazy reklamowe tym liczba klientów podskakuje o 11, do tego wszystkiego dochodzi wzrost liczby klientów o 7 jeśli doszkala się przedstawicieli handlowych. Z tych informacji możemy dowiedzieć się ile może wzrosnąć liczba klientów jeśli na reklamę w internecie wydamy 18 tyś, zróżnicujemy bardziej nadawane komunikaty oraz będziemy szkolić kadrę handlowców raz w miesiącu. Ponad to możemy oszacować wpływu krzywoliniowe np. ilość turystów wpływa na ilość wody pitnej w restauracji nadmorskiej. Teoretycznie tylko umiarkowanie ciepła temperatura wpływa na to ile turystów jest na plaży. Zbyt wysoka lub niska temperatura powietrza powoduje zmniejszanie się ludzi nad brzegiem. Analiza regresji krzywoliniowej (Estymacja Krzywej) pozwala na oszacowanie tego, ilu turystów możemy się spodziewać przy danych warunkach atmosferycznych i jak zaplanować dostawy wody. Analizy regresji pozwalają nam na oszacowanie tego jak dokładnie nasze zmienne przewidują liczbę klientów oraz sprawdza czy jakieś czynniki wnoszą nieistotną zmienność wyników (obciążają nasze wnioskowanie) .
Konfirmacyjna analiza czynnikowa CFA - Konfirmacyjna analiza czynnikowa jest modelem w którym zakładamy istnienie pewnego określonego zbioru czynników i dzięki analizie wartości zmiennych losowych badamy zasadność naszego przypuszczenia i estymujemy parametry naszego modelu. Jakość modelu analizy czynnikowej określa się między innymi, badając wartość ładunków czynnikowych oraz procent wyjaśnionej wariancji. W modelu konfirmacyjnym wartość ładunku to wartość czynnika ścieżkowego odpowiadającego ścieżce łączącej dany wskaźnik cząstkowy ze zmienną ukrytą. Jest to współczynnik korelacji wielokrotnej R2 . W zależności od poziomu konserwatyzmu przyjmuje się różne wartości krytyczne tego czynnika. Konfirmacyjna analiza czynnikowa pozwala nam na weryfikację złożonej teorii. Wykorzystuje się ją często w budowy narzędzi badawczych do badań marketingowych. Dobre narzędzia psychometryczne przechodzą przez magiel konfirmacyjny dając, narzędzie o bardzo dobrych właściwościach testowych. Przykładowo możemy przeprowadzić analizę konfirmacyjną pozwalającą na zbadanie postaw pracowników wobec firmy. Poszczególne itemy narzędzia są ze sobą wzajemnie związane i wpływają na zmienne nieobserwowalne jakimi są rodzaje postaw. Dzięki takiemu modelowi możemy wnioskować o przyczynach postaw, a nie o związku z postawami. Bardzo dobrym wykorzystaniem omawianej analizy jest pilotaż badania głównego.
Regresja logistyczna - Budowa modelu regresji logistycznej pozwala na oszacowanie prawdopodobieństwa wystąpienia jakiegoś zdarzenia w zależności od zestawu zmiennych które wpływają na pojawienie się badanego zjawiska. Model równania analizy logistycznej szacuje się za pomocną metody MNW (Metoda Największej Wiarygodności). Celem jest zmaksymalizowanie wiarygodności zajścia zdarzenia 0 (porażka, śmierć, wypadek) i 1 (sukcesu, przeżycia, ocalenia). Zmienną która wpływa na zdarzenia może być mierzona na każdej skali pomiarowej (Choć w podejściach DATA MINING i BIG DATA dyskretyzacja zmiennych ciągłych daje bardzo silną dyskrymiancję zmiennych 0/1). Analiza pozwala na wnioskowanie o % zdarzeń które wyjaśnia analiza oraz % wskaźnik poprawności przewidywania zdarzenia. Analiza pozwala również wykryć wpływ każdej ze zmiennych na prawdopodobieństwo wystąpienia zdarzenia i to, ile możemy się pomylić w szacowaniu. Do wizualizacji używa się wynalezionej podczas Drugiej Wojny Światowej krzywej ROC, za pomocą której szacowano naloty bombowe. Pole powierzchni pod krzywą wskazuje na siłę zmiennej wpływającej na pojawienie się zdarzenia. Regresja jest jednym z głównych silników klasyfikacyjnych w procedurze CREDIT SCORINGU, a krzywa ROC jest metodą oceny jakości dyskryminacyjnej modelu klasyfikatora lub kilku różnych klasyfikatorów.
Naiwny klasyfikator Bayesa - Naiwny klasyfikator Bayesa jest jedną z metod uczenia maszynowego. Zwykle te procedurę stosuje się do sortowania lub klasyfikowania obserwacji. Zadaniem klasyfikatora Bayesa jest przyporządkowanie nowej obserwacji do jednej z klas, niemniej jednak klasy muszą być utworzone i zdefiniowane wcześniej. Naiwny klasyfikator Bayesa jest statystycznym klasyfikatorem utworzonym na bazie twierdzenia Bayesa. Symulacje i brzegowe analizy statystyczne wykazały, że najlepsze wyniki klasyfikator Bayesa podaje w momencie równoliczności badanych klas. Klasyfikator ten jest aktualnie bardzo modny w podejściu BIG DATA i Data Mining.
Ryzyko kredytowe - Ryzykiem kredytowym jest prawdopodobieństwo z jakim kredytobiorca nie może wywiązać się ze zobowiązania wobec instytucji bankowej. Ryzyko kredytowe jest ściśle powiązane ze statystycznym podejściem do decydowania o tym na który wniosek kredytowy się zgodzić. Modele statystyczne przewidują poziom ryzyka udzielenia złego kredytu. Model statystyczny przekształca się na kartę SCORINGOWĄ dzięki, której można dokładnie ocenić ryzyko udzielenia pożyczki za pomocą zsumowania punktów wyliczonych dla każdej cechy. Banki by ograniczyć ryzyko kredytowe stosują karty SCORINGOWE, które wykorzystują do oceny punktowej każdego klienta ubiegającego się o otwarcie linii kredytowej. Ryzyka w bankowości, z resztą jak wszędzie, nie można wyeliminować całkowicie. Zawsze pojawią się czynniki losowe, które załamią przewidywanie karty SCORINGOWEJ. Niemniej jednak zbudowanie karty SCORINGOWEJ oraz jej kontrolowanie poprzez alarmowanie o zmianach mogą bardzo zminimalizować ryzyko udzielenia złego kredytu. W ryzyku kredytowym ocena na podstawie wyniku podanego przez kartę SCORINGOWĄ jest najlepszym predyktorem spłaty zobowiązań w kontekście kredytów konsumenckich. Choć istnieją jeszcze eksperckie oraz wskaźnikowej systemy oceny ryzyka kredytowego i cieszą się duża popularnością to nie wchodzą one w skład karty SCORINGOWEJ, ale też ograniczają ryzyko kredytowe.
SCORING KREDYTOWY - CREDIT SCORING / karta skoringowa jest to specjalna metoda oceny wiarygodności klienta wnioskującego o kredyt bankowy (lub pozabankowy). Rezultat SCORINGU jest zwykle przedstawiany w postaci punktowej (im więcej punktów tym mniejsze ryzyko). W nomenklaturze wyróżnia się trzy rodzaje SCORINGÓW.
SCORING BEHAWIORALNY polega na ocenie punktowej dotychczasowego zachowania w banku. Ocenie podlegają wykorzystywane oferty, usługi, terminowość spłat, godziny wypłat danych kwot z bankomatu itp.
SCORING APLIKACYJNY polega na ocenie punktowej danych osobistych i majątkowych kredytobiorcy,
Pod uwagę w karcie aplikacyjnej bierze się pod uwagę:
- wykształcenie
- zawód
- status mieszkaniowy
- kod pocztowy
- czas mieszkania w danym miejscu
- aktualny dochód
- posiadanie dóbr elektronicznych
- wiek
- stan cywilny
- ilość osób które utrzymuje kredytobiorca
- ilość rachunków bankowych
- referencje od banków
- posiadanie ubezpieczenia na życie
- posiadanie auta
- posiadanie i spłacalność kart płatniczych
- czas zatrudnienia w tym samym przedsiębiorstwie
- czas zatrudnienia na obecnym stanowisku
- okres zatrudnienia u poprzedniego pracodawcy
No podstawie tych danych model statystyczny przewiduje spłatę zobowiązania. Wyniki modelu oceny ryzyka przekształca się na kartę skoringową i tak powstaje matryca dzięki której można wnioskować o ryzyku przy danym kliencie.
SCORING FRAUDOWY - SKORING FRAUDOWY jest to ocena punktowa oszustów starających się popełnić nadużycie lub fałszerstwo. Scoring ten, tak jak scoring kredytowy (CREDIT SCORING), jest budowany dzięki statystycznej analizie danych np. regresji logistycznej lub drzew decyzyjnych.
Analiza szeregów czasowych - Jest to zbudowanie modelu pewnego zjawiska lub czynności procesualnej w oparciu o obserwacje wyrażone w czasie mierzalnych wielkości opisujących ten proces. Szereg czasowy składa się z części systematycznej (np. trend liniowy-krzywoliniowy, pewna stała wartość, wahania sezonowe i cykliczne) dzięki której buduje się i konkretyzuje się testowany model szeregu czasowego.
Model szeregu czasowego składa się również z części losowej na które składają się białe szumy i wahania losowe.
Dzięki podsumowaniu wymienionych składników można testować czynniki które wpływają na dane zmiany w szeregu czasowym jest to tak zwana dekompozycja szeregu czasowego. Analiza szeregów czasowych powinna być podstawową i obowiązkową implementacją każdego biznesu dryfującego w czasie (business intelligence).
Trend (np. szeregu czasowego) - Jest to tendencja rozwoju danego zjawiska. Jest to ogólna reprezentacja systematycznych zmian. Np. zjawisko może cały czas wzrastać w czasie np. akcje pewnej innowacyjnej firmy na giełdzie (trend liniowy). Z trendem nieliniowym mamy np. do czynienia w momencie sprzedaży prądu w ciągu roku (mniej się go produkuje w lato a więcej w zimę).
Składowa okresowa (np. szeregu czasowego) - Są to wahania sezonowe, regularne odchylenia od stałej tendencji. Składnik sezonowości powtarza się cyklicznie w czasie. np. wybuch danych trendów mody.
SPSS (analizy statystyczne w SPSS) - Statistical Package for the Social Sciencies. Jest to produkt IBM rozwijany od 1968 roku.
SPSS BASE (analizy w SPSS) - jest to moduł podstawowy, choć dzięki zewnętrznym dostawcom skryptów oraz własną inicjatywą ich tworzenia jest całkiem potężną maszyną do analizy danych.
SPSS TRENDS (analizy statystyczne i modelowanie szeregów czasowych w SPSS) - pakiet ten tworzy zaawansowane modele przewidywań zdarzeń w czasie.
SPSS AMOS (analizy statystyczne i analiza ścieżek w SPSS) - pakiet ten dostarcza potężne rozwiązanie jakim jest analiza równań strukturalnych/analiza ścieżkowa i konfirmacyjna analiza czynnikowa.
GNU R - jest to język programowania oraz środowisko do obliczeń statystycznych oraz prezentacji danych w graficznej formie. R jest podstawowym językiem programowania w bioinformatyce. Stało się to dzięki dostarczonej bibliotece Bioconductor. R dostarcza gamę technik statystycznych (liniowe i nieliniowe modelowanie), statystykę klasyczną, analizę szeregów czasowych, metody klasyfikacji i segmentacji oraz grupowania. R jest rozszerzalne poprzez zewnętrzne pakiety i skrypty pisane przez użytkowania. R jest potężnym narzędziem analitycznym. Wykonuje analizy i obliczenia statystyczne nawet na bardzo dużych wolumenach danych. R w porównaniu do SPSS, SAS oraz Statistica jest oprogramowaniem darmowym (open source). R GNU narzędziem stosowanym najczęściej w data mining, big data, biostatyce oraz psychometrii przez data scientist.
KNIME - Również oprogramowanie typu OPEN SOURCE. Jest to potężne narzędzie do wykonywania analiz i obliczeń statystycznych jak i również uczenia maszyn. KNIME jest oprogramowaniem opartym o przyjazny i intuicyjny panel, dzięki któremu można wykonywać pracę drag & drop. Knime jest narzędziem stosowanym najczęściej w data mining, big data, biostatyce oraz psychometrii przez data scientist i analityków danych statystycznych.
Orange Canvas - Jest to oprogramowanie napisane w języku python. Jest całkowicie open sourcem. Zaletą tego oprogramowania jest intuicyjny interfejs a praca z danymi i statystykami polega na tworzeniu work flow dzięki funkcji drag and drop. Przewagą Canvas Orange jest to, że Twórcy zadbali o bardzo zaawansowany magazyn algorytmów w do celów biostatystyki i statystyki medycznej. Orange Canvas stosuje się, a można również powiedzieć, że jest stworzone do pracy w data mining, text mining, big data, biostatyce oraz psychometrii przez data scientist i analityków danych statystycznych.
Statystyk medyczny - Posiada wiedzę z nauk medycznych i społecznych. Posiada kompetencje do projektowania baz danych, zna pojęcia matematyczne i statystyczne, odczytu dokumentacji medycznej oraz statystyk medycznych. Statystyk medyczny posiada umiejętności w zakresie zbierania, podsumowywania i wnioskowania danych statystycznych, stosuje metody statystyczne by określić dokładność pomiarów, oceny testów diagnostycznych. Statystyk medyczny posiada kompetencje społeczne z zakresu opieki zdrowotnej oraz potrafi zarządzać bazami danych dotyczących ochrony danych i instytucji działających na ich rzecz.
Big data - Innymi słowy jest to eksploracja i analiza bardzo dużych wolumenów danych. BIG DATA to badanie dużych zasobów informacji, najczęściej powiązanych z kwestiami gospodarczymi, w poszukiwaniu regularnych wzorców zachowań bądź tendencji oraz współzależności pomiędzy zmiennymi, a następnie do oceny wyników poprzez zastosowanie wykrytych wzorców do nowo zebranych danych. Celem data mining w kontekście BIG DATA jest najczęściej przewidywanie zachowań klientów, wielkości sprzedaży, prawdopodobieństwa utraty klienta (business intelligence). W analizie danych biznesowych definiowane jest stanowisko analityka data mining jako posada data scientist.
Data Mining (podejście) - Generalnie procedura data mining to drążenie danych, czasem nazywana odkrywaniem danych lub odkrywaniem wiedzy z danych. Może też być nazwana, po prostu, przemysłowym wykorzystaniem danych. Jest to proces analizowania informacji z różnych uniwersów i uzyskiwania z nich przydatnych informacji, które mogą być wykorzystywane do zwiększenia przychodów, zmniejszenia kosztów lub obu tych czynników. Technicznie data mining to proces znajdowania korelacji lub wzorców wśród dziesiątek cech, w dużych zbiorach danych. Najnowsze trendy w analizie danych biznesowych definiują stanowisko analityka data mining jako posadę data scientist.
Data Mining (jako zgłębianie danych) - jest to metodologia analizy danych przeznaczona do weryfikacji i ekstrakcji wiedzy z wielkich zasobów danych w odnajdywaniu trendów oraz replikujących się korelacji pomiędzy badanymi zmiennymi (business intelligence). Po wykonaniu analiz lub zbudowaniu modeli aplikuje się ów modele do nowych danych. Ostateczną częścią podejścia data mining jest przewidywanie np. sprzedaży produktów, szansy spłaty, ryzyka straty itp. Funkcja przewidywawcza data miningu jest bardzo cenna ponieważ pozwala na redukcję kosztów lub zwiększenie sprzedaży lub obu tych czynników. Proces data mining można podzielić na kilka części. Pierwszym etapem jest eksploracja danych, drugim jest budowa modeli przewidujących lub klasyfikujących, a trzecim jest wdrożenie i stosowanie modeli w kontekście napływu nowych danych by kontrolować nowo napływające informacje o klientach, procesach lub stanie urządzeń. Najnowsze trendy w biznesie definiują stanowisko analityka data mining jako posadę data scientist.
Eksploracja danych ( jeden z etapów data mining ) - jest to najważniejszy i najcenniejszy etap postępowania analitycznego. Podczas eksploracji danych wypełniane są braki danych, czyści się dane z wartości odstających, przekształca się zmienne, standaryzuje, redukuję sie ich ilość. Celem tego procesu jest zmniejszenie ilości danych do postaci w której będą mogły być efektywnie przetwarzane przez analityka lub interpretatora. Eksploracja danych i jej kierunek zależy głównie od postawionego problemu badawczego. Niekiedy eksploracja będzie tylko poznaniem rozkładów i liczebności zmiennych a niekiedy będzie polegała na redukcji wielkich wolumenów pomiarów w kilka czynników za pomocą metod grupowania lub analiz głównych składowych.
Budowa, test oraz ocena modelu ( jeden z etapów data mining/ big data ) - jest to wybranie modelu wyjaśniającego, przewidującego lub klasyfikującego oraz wybranie najbardziej skutecznej z tych metod. Jest wiele kryteriów oceny modeli. Najczęstszymi z nich jest poprawność klasyfikacji oraz stabilność przewidywanych wyników w różnych podgrupach badanych.
Wdrożenie modelu ( jeden z etapów data mining / big data ) - jest to ostatni etap procesu data mining w którym wymodelowany silnik statystyczny pracuje nad przewidywaniem lub klasyfikowaniem np. stopy zwrotu z inwestycji w startup lub oceną klienta jako tego który spłaci kredyt lub nie ( podejście CREDIT SCORING).
Zgłębianie danych / informacji w bazach danych - jest to coraz bardziej trendy technika w zarządzaniu biznesem ( business intelligence ) wykonywana na potrzeby odkrywania wiedzy z danych by móc decydować o ważnych sprawach w prowadzonym biznesie w kontekście niepewności. Jest to coraz częściej zgłębiana dziedzina przez praktyków data mining, big data oraz statystyków.
Redukcja danych ( BIG DATA / Data Mining ) - podejście to polega na ogarnięciu dużej puli informacji i zmniejszenia jej ilość poprzez redukcję wzajemnie skorelowanych zmiennych. Ma to na celu ułatwienie percepcji danych i ich przetwarzania. Można w tym celu wykorzystać procedury grupowania ( analizy skupień, analizy klas lub profili latentnych) lub redukcji danych (analizy czynnikowe, analizy składowych głównych).
Wybór zmiennych ( BIG DATA / Data Mining ) - Bardzo ważnym etapem analizy danych jest wybór zmiennych wejściowych do analizy. Wykorzystuje się to w przypadku kiedy wiele zmiennych ze sobą konkuruje lub są ze sobą silnie skorelowane. Niekiedy też zbyt duże obciążenie zmiennymi wejściowymi może skutkować nieefektywnymi i trudnymi do interpretacji modelami. Przy tym podejściu należy użyć metod które w sposób jednoznaczny odsieją zmienne wejściowe powiązane, na zadowalającym poziomie, ze zmienną zależną.
SUPPORT VECTOR MACHINES - SVM - WEKTORY NOŚNE - jest to metoda analityczna dążąca w swej logice obliczeniowej do wykonywania przewidywań i klasyfikacji. Z przestrzeni zmiennych wyjaśniających które budują granice dla zmiennych wyjaśnianych budowany jest algorytm przewidujący. Podobnie jak w sztucznych sieciach neuronowych, analiza SVM ma zazwyczaj różne typy wektorów nośnych, poczynając od wektorów liniowych do wektorów sigmoidalnych.
Analiza skupień najbliższego sąsiedztwa K - Nearest Neighbors - jest to procedura grupowania / segmentacji która nie wymaga uczenia (dopasowania modelu do danych). W procedurze tej jest realizowany, oparty na idei pamięciowej, algorytm oceny prototypów. Algorytm zakłada, że podobne obiekty są w tej samej grupie/ segmencie. Klasyfikacja nowego obiektu polega na zliczeniu głosów najbliższych sąsiadów.
Alfa Cronbacha ( Psychometria) - analiza rzetelności - Analiza rzetelności Alfa Cronbacha inaczej zwana zgodnością wewnątrztreściową. Ma ogromne znaczenie w pomiarze psychologicznym w kontekście psychometrii. Jest to najczęściej stosowana metoda do oceny powtarzalności pomiaru zestawem zredukowanych zmiennych. Metoda Alfa Cronbacha zwraca informacje o tym na ile pozycje/zmienne wchodzące w skład zredukowanej skali są ze sobą spójnie powiązane. Alfa Cronbacha przyjmuje wartości od 0 do 1. Wynik 0 świadczy o braku wyjaśnianej zmienności przez zestaw zmiennych. Im bliżej wyniku równego 1, tym wzięte pod uwagę zmienne są jednolitym pomiarem i wyjaśniają większą porcję zmienności wyników skali. Wyniki w przedziale 0,6 - 1 są akceptowalnym progiem rzetelności pomiaru skalą.
Statystyka odpornościowa / odporne metody statystyczne / robust statistics - jest to część statystyki, która zajmuje się projektowaniem algorytmów liczących pod kątem odporności na niewielkie odejścia od założeń modelu ( szczególnie jeśli chodzi o obserwacje odstające i normalność lub symetria rozkładów ).
Miara odporności - podstawowym narzędziem używanym do opisu i mierzenia odporności na obserwacje odstające są punkty załamania, funkcja wpływu oraz krzywa wrażliwości. Punktem załamania estymatora jest stosunek niepoprawnych obserwacji (przykładowo obserwacji odstających), które estymator jest w stanie znieść zanim zacznie zwracać przeszacowane wyniki. Im wyższy jest punkt załamania tym bardziej odporny jest estymator. Punkt załamania nie może przekroczyć w przypadku mediany 0,5, w przypadku średniej uciętej na poziomie x% (z każdej strony rozkładu) ma punkt załamania x%.
Statystyka współczesna - Współcześnie statystyka / analiza danych / data minig / BIG DATA / data scientist jest rozumiana jako nauka umożliwiająca wnioskowanie z danych w warunkach niepewności. Wnioskowanie dedukcyjne jest znane od starożytności. U jej podstaw leży wnioskowanie logiczne. Statystyka oparta jest na rachunku prawdopodobieństwa. Choć są różne szkoły dotyczące tego czym jest prawdopodobieństwo. Bardzo obiecującymi wynikami cieszy się szkoła pojmowania prawdopodobieństwa, której autorem jest Thomas Bayes. Zgodnie z jego twierdzeniami, prawdopodobieństwo bezwarunkowe ( a priori) wystąpienia zdarzenia jest tym, że ono na pewno wystąpi. Chcąc zmodyfikować nasze przekonania badawcze wykonujemy plany eksperymentalne, które wiążą się z wywoływaniem przyczyn zdarzeń. Wyniki badań przekształcają prawdopodobieństwo bezwzględne ( wstępne przewidywania co do wyników ) w prawdopodobieństwo a posteriori ( prawdopodobieństwo otrzymane, czyli miarę tego jakie można mieć oczekiwania po uzyskaniu wyników badań ). W ten oto sposób odbywa się pojmowanie świata przez statystykę Bayesa. Nauka i technologia jest w końcu na takim poziomie, że dobrze rozwinięte techniki statystyczne przekształciły podejście Bayesa w godny uwagi i bardzo obiecujący nurt statystycznych metod obliczeniowych. Daje on potencjał do rozwiązywania zagadnień i problemów niedostępnych klasycznej statystyce.
Zalety statystyki Bayesowskiej - Statystyczne podejście Bayesowskie ma wiele zalet. Można je wypunktować w następującej kolejności:
1. Jest stosowania do zjawisk powtarzalnych i nie powtarzalnych. Co to znaczy ? To znaczy, że dzięki niej można odpowiedzieć na pytanie " Z jakim prawdopodobieństwem klient spłaci kredyt ? " lub " Czy za rok w tym samym momencie będziemy mieć taką samą sprzedaż ? "
2. Prawdopodobieństwo jest terminem uniwersalnym i niezależnym od jego źródła. Tak samo są postrzegane błędy statystyczne (niepewność wynikająca z niedoskonałości instrumentów pomiarowych) oraz błędów systematycznych ( powiązanych z barakiem wiedzy o czysto deterministycznych czynnikach wpływu ).
3. Losowość czy przypadek jest rozumiany jako wyraz braku pewności jaką posiadamy.
4. Podejście Bayesa automatycznie radzi sobie z nieistotnymi zmiennymi w modelowaniu statystycznym.
5. W podejściu Bayesa najważniejsza jest informacja a priori np. że wzrost jest zawsze dodatni.
6. Podejście Bayesa odnosi się zawsze do danych otrzymanych. W przypadku statystyki częstościowej wyniki są interpretowane w oparciu o rozkłady wyników, które potencjalnie istnieją, ale nigdy nie zostały zbadane.
Podejście klasyfikacji bajesowskiej wspomagają procesy decyzyjne dotyczące przewidywania wartości pomiarów ciągłych (zdolność kredytowa, przewidywanie ilości opadów) i klasyfikacji do klas np. dobry kredytobiorca/ zły kredytobiorca ( Credit Scoring). W biostatystyce - biometrii drzewa decyzyjne wspierają diagnostykę chorych.
Czułość testu - Czułość testu jest to częstość wyników prawdziwie dodatnich i prawdziwie ujemnych ( wartość obserwowana pokrywa się z wartością przewidywaną )
Swoistość testu - Swoistość testu to częstość wyników fałszywie dodatnich i fałszywie ujemnych. ( wartość obserwowana nie pokrywa się z wartością przewidywaną )
Rozkłady normalny czy nie normalny ? - Większość zmiennych w przyrodzie, choć nie wszystkie mają rozkład normalny lub wywodzą się z niego ( rozkład t studenta, rozkład F lub Chi Kwadrat). Testy statystyczne wymagają aby zmienne miały rozkład normalny. Tak jak powiedziano wcześniej, zdecydowana większość zmiennych ma rozkład wyników zbliżony do normalnego. Kiedy używa się testów parametrycznych i dane spełniają założenia tych parametrów wszystko jest dobrze. Oszacowania testów statystycznych są zgodne z rzeczywistością. Można nagiąć te założenia, jeśli jest dostępna wystarczająco liczna ilość obserwacji z których się wnioskuje. Podstawą do tego manewru jest centralne twierdzenie graniczne, które mówi o tym, że wraz ze wzrostem liczebności badanej próby szacowana wartość parametru zbliża się do rzeczywistej wartości. Gorzej jest jednak w momencie kiedy stosujemy test parametryczny do danych które mają rozkłady inne niż normalne.
Ocena istotności - Mamy wykonaną korelację pomiędzy dwoma zmiennymi (wzrost i waga). Pojawia się następujące pytanie " Czy ta korelacja jest istotna ? ". Czy 82% zmienności wyjaśnianej przez pomiary wagi i wzrostu są wystarczające do tego by ocenić związek jako istotny ? Pierwszym krokiem jest określenie liczebności próby. Na bardzo licznej próbie nawet słaba zależność będzie istotna. W przypadku małej próby badawczej nawet bardzo silna zależność (taka jak wzrost i waga) może okazać się nieistotna statystyczne.
Siła związku pomiędzy zmiennymi a istotność statystyczna - siła związku i istotność statystyczna to dwie różne rzeczy. Co nie oznacza, że są one od siebie niezależne. W grupie o odpowiedniej liczebności wraz ze wzrostem siły związku pomiędzy zmiennymi wzrasta poziom istotności zależności pomiędzy zmiennymi.
Progi istotności statystycznej - O tym co jest istotne a co nie jest istotne można zdecydować arbitralnie. Wybór progu istotności jest wyborem umownym. W większości dziedzin nauki za granice poziomu istotności przyjmuje się wynik mniejszy niż 0,05. Jeśli w badaniu otrzymamy wynik mniejszy niż 0,05 to znaczy, że mamy do czynienia z istotnym powiązaniem zmiennych. Choć nadal możemy popełniać błąd, wynoszący co prawda mało, 5%. Wynik istotny na poziomie mniejszym niż 0,01 jest wynikiem jeszcze bardziej istotnym, a wynik wynoszący 0,001 jest już bardzo wysoce istotnym wynikiem. Warto jednak mieć z tyłu głowy to, że przedziały tych wartości są tylko "niepisaną umową" opartą na eksperymentach i praktyce badawczej.
Cechy relacji pomiędzy zmiennymi - Każdy związek pomiędzy zmiennymi można opisać dwiema cechami. Siłą związku oraz istotnością ( pewnością ) tej relacji. Mamy np. związek pomiędzy wzrostem a wagą, siła tej relacji jest bardzo mocna. Można powiedzieć, że jeśli znamy wartości jednej zmiennej to możemy przewidywać wartości innej zmiennej. Istotność (pewność) jest trochę trudniejsza do zrozumienia. Tyczy się ona reprezentatywności wyniki korelacji w odniesieniu do badanej próby. Istotność dostarcza informacji o tym jaka jest szansa na to, że taka sama zależność występuje w populacji generalnej (oczywiście jeśli badanie spełnia standardy metodologiczne).
Drzewa decyzyjne - Statystyczne podejście do wyciągania wniosków przy procedurach decyzyjnych. Drzewo decyzyjne jest procedurą statystyczną przewidująca lub klasyfikującą w której węzły odpowiadają testom statystycznym przeprowadzanym na wartościach atrybutów reguł (zmiennych), gałęzie są potencjalnymi wynikami takich testów, a liście tych drzew prezentują część decyzyjną (zmienną zależną). Drzewa decyzyjne są bardzo często wykorzystywane w BIG DATA, Data Mining przez programistów i Data Scientist z powodu swojej prostoty interpretacji, czytelności i małych wymagań sprzętowych. Drzewa decyzyjne wspomagają procesy decyzyjne dotyczące przewidywania wartości pomiarów ciągłych (szacunkowa wartość nieruchomości, czas życia klienta) i klasyfikacji do klas np. spłaci kredyt/ nie spłaci ( Credit Scoring ). W biostatyce/biometrii drzewa decyzyjne wspomagają decyzje diagnostyczne w procesach klinicznych.
analiza badań własnych
analiza wyników badań
analiza wyników
metodologia badań
analizy statystyczne
BIG DATA
Data Mining
ryzyko kredytowe
Credit RISK
metodologia badań
scoring pożyczkowy
analiza danych
statystyczna analiza danych
analiza danych statystycznych
analiza danych excel
testy psychologiczne
scoring kredytowy
analiza ryzyka kredytowego
karta scoringowa
Karta skoringowa
statystyk medyczny
regresja
analiza wariancji