GradeStat logo

Gradacyjna Analiza Danych Grade Data Analysis


Komentarze i recenzje książki "Analiza danych medycznych i demograficznych w programie GradeStat"

Prof. dr hab. Jacek Koronacki
Instytut Podstaw Informatyki PAN

Gradacyjne podejście do analizy danych opiera się, w uproszczeniu, na trzech filarach: tzw. miarach nierówności i krzywej koncentracji oraz pojęciu regularności rozkładów dwuwymiarowych, zwłaszcza całkowitej dodatniej zależności rzędu 2, czyli pewnej dobrze określonej, mocnej mierze zależności monotonicznej między dwiema zmiennymi losowymi. Pomiar nierówności zaczął się na gruncie ekonomii epokową pracą Lorenza z roku 1905 i po dziś dzień opiera się na zdefiniowanej tam krzywej oraz - ostatnio - na jej wielowymiarowych uogólnieniach. W kontekście nauk ekonomicznych chodziło tu o nierównomierność podziału danego dobra, np. dochodu, wśród członków populacji - dla każdej wartości ułamka całkowitego dochodu krzywa Lorenza określa maksymalną część populacji, która cieszy się posiadaniem owego ułamka całkowitego dochodu. Krzywa koncentracji mierzy koncentrację rozkładu zmiennej losowej Y względem rozkładu zmiennej losowej X (jest w kwadracie jednostkowym miejscem geometrycznym punktów (FX(t), FY(t)) - gdzie FZ oznacza dystrybuantę zmiennej Z - parametryzowanych argumentem t). Między krzywymi Lorenza i wypukłymi krzywymi koncentracji istnieje ścisły związek, w szczególności, każda wypukła krzywa koncentracji jest krzywą Lorenza pewnej zmiennej losowej. Analiza krzywych koncentracji (oraz krzywych Lorenza) pozwala na "mierzenie" regularności rozkładów dwuwymiarowych.

Całość gradacyjnej infrastruktury analizodanowej umieszcza ją dziś jako nowy i ważny rozdział eksploracyjnej analizy danych wielowymiarowych. Infrastruktura ta nawiązuje do klasycznej analizy odpowiedniości (korespondencji), ale istotnie poza nią wykracza dzięki oparciu się na wcześniej wymienionych filarach. Analitycy danych otrzymali narzędzie, które w sposób uporządkowany - chociaż uzależniony od ich doświad-czenia i subiektywnych preferencji, a nie wyłącznie obiektywnych wskaźników - pozwala na wyodrębnienie w danych różnych trendów charakteryzujących się możliwie regularnymi rozkładami i zarazem istotnie między sobą się różniących.

W czasie, gdy prace Johna Tukeya, ojca chrzestnego i pioniera eksploracyjnej analizy danych zaczynały swe rewolucyjne oddziaływanie, niczego takiego nikt do analizy danych nie umiał wprowadzić. Wszakże trwała i umacniała się świadomość, że wielowymiarową analizę statystyczną można prowadzić bez wprowadzania nazbyt ubogich modeli probabilistycznych (co oczywiście nie znaczy, że wszyscy chcieli zrezygnować z konstrukcji modeli ogólniejszych). Hill przypomniał, że do danych wielowymiarowych może być zastosowana analiza odpowiedniości. Do wielowymiarowej analizy statystycznej zaczęły być wprowadzane nowe idee, które co prawda musiały poczekać na pojawienie się większych mocy obliczeniowych, by móc być w pełni wykorzystanymi w praktyce. Kompleksową infrastrukturę dla analizy wielowymiarowej, opartą na pojęciu jednorodności, wprowadziła szkoła Gifiego. Jedną z nielicznych szkół, która także pokazała, że potrafi się pokusić o skonstruowanie nowej infrastruktury na potrzeby eksploracyjnej analizy wielowymiarowej, jest szkoła prof. Pleszczyńskiej.

Instytut Podstaw Informatyki Polskiej Akademii Nauk jest rad, że to w ramach jego działalności badawczej realizowana jest praca grupy Pani Profesor. Wspieramy tę pracę od lat najlepiej jak możemy, wiemy bowiem, że w ten sposób przyczyniamy się do zaoferowania użytkownikom analiz statystycznych wartościowej metodologii odkrywania ważnych aspektów wiedzy ukrytej w danych, przy tym metodologii wspartej dobrym oprogramowaniem i przeto gotowej do użycia.

Twórcy gradacyjnej analizy danych udowodnili już, jak bardzo przydatne jest podejście przez nich proponowane do analiz danych technicznych, społecznych i ekonomicznych. Wierzę, że ta książka pokaże, ile nowego można wywieść opierając się na podejściu gradacyjnym z danych medycznych.

Doc. dr hab. n. med. Janusz Książyk
Instytut "Pomnik - Centrum Zdrowia Dziecka"

Ci, którzy zdecydują się przeczytać o technikach analizy danych zawartych w pracy, będą nie tylko świadkami narodzin innego sposobu myślenia o statystyce, ale staną się, zapewne, jego zwolennikami. Techniki zaproponowane w programie GradeStat stanowią nową jakość w myśleniu "statystycznym" lekarza-badacza, epidemiologa, statystyka i polityka zdrowia publicznego.

Czy możliwe jest samodzielne analizowanie danych przez lekarzy, którzy przyzwyczajeni są do "tradycyjnych" metod analizy statystycznej? Jest możliwe, ale nie jest łatwe. Warto jednak zainteresować się proponowaną w podręczniku znakomitą metodą, zawartą w programie GradeStat, której celem jest wykrycie podobieństw i różnic między wieloma zmiennymi równocześnie. Wizualizacja zależności pozwala na szybką ocenę zbioru danych, a zanim to nastąpi, możliwe jest poddanie zebra-nych danych wielostronnej weryfikacji.

Przy pomocy algorytmu GCA - gradacyjnej analizy korespondencji (Grade Correspondence Analysis) oraz wskaźników nadreprezentacji dokonać można oceny danych. Program dokonuje analizy skupień oraz posiada funkcję znajdowania elementów odstających i pozwala na ich wyłączanie, dokonuje agregacji danych oraz pozwala na badanie związków par zmiennych. Autorzy przytaczają też przykład analizy informacji zawartych w ankiecie, z krytyczną oceną nie tylko uzyskanych danych, ale także sposobu ich pozyskiwania. Cenna jest właściwość uzupełniania braków danych. Cenne są inne właściwości programu oraz sposób ich przedstawienia: krok po kroku.

Ci spośród Czytelników, którzy rozpoczną swoja przygodę z GradeStatem, staną się studentami metody. A Ci, którzy dotrwają do ostatniej strony, będą ją potem stosować.

Zapraszamy do przysyłania pytań, uwag, opinii: