Analiza danych otyłości – statystyka w praktyce (R)
Cel i kontekst projektu
Projekt zrealizowano w ramach przedmiotu Statystyczna Analiza Danych. Jego głównym celem była analiza rozkładu masy ciała osób pochodzących z obszarów Ameryki Łacińskiej na podstawie zbioru Obesity Prediction Dataset dostępnego na platformie Kaggle. Zestaw danych zawiera informacje o podstawowych parametrach fizycznych, takich jak waga, wzrost, wiek, a także o stylu życia, nawykach żywieniowych i czynnikach wpływających na poziom otyłości. Analiza miała zweryfikować, czy średnia masa ciała odbiega od przyjętej wartości referencyjnej oraz czy udział osób otyłych w badanej próbie różni się od zakładanego 30%.
Charakterystyka danych
Dane pochodziły z kombinacji rzeczywistych i syntetycznych informacji, obejmujących masę ciała, wzrost, wiek oraz dodatkowe czynniki związane z dietą i stylem życia. Dzięki temu możliwe było przeprowadzenie analizy rozkładu zmiennej wagowej w szerokim kontekście demograficznym.
Proces przygotowania i obróbki
Import danych i czyszczenie
Dane zostały zaimportowane do środowiska R, gdzie na wstępnym etapie dokonano ich weryfikacji i usunięcia ewentualnych braków. Sprawdzono spójność wartości i przygotowano zbiór do dalszej analizy.
Metody i przebieg analizy
W części opisowej obliczono podstawowe parametry, takie jak średnia arytmetyczna, odchylenie standardowe i współczynnik zmienności. Ustalono rozstęp oraz zbadano asymetrię rozkładu, co pozwoliło zrozumieć, w jakim stopniu masa ciała w badanej próbie jest zróżnicowana. Dodatkowo wykonano wizualizacje w postaci histogramu, wykresu pudełkowego i dystrybuanty empirycznej, które potwierdziły obecność lekkiej prawostronnej skośności.
Sprawdzenie hipotezy o średniej
Do weryfikacji hipotezy o zgodności średniej z wartością 70 kg zastosowano test t-Studenta. Wyniki jednoznacznie wykazały, że średnia masa ciała istotnie odbiega od zakładanej wartości, co pozwoliło na odrzucenie hipotezy zerowej przy przyjętym poziomie istotności.
Test proporcji i wnioski
Dodatkowo przeprowadzono test proporcji, którego celem było sprawdzenie, czy udział osób otyłych w próbie przekracza 30 procent. Ostateczne obliczenia potwierdziły, że odsetek osób zakwalifikowanych jako otyłe wynosi około 46 procent, co również różni się istotnie od wartości przyjętej w hipotezie.
Podsumowanie
Analiza pozwoliła potwierdzić, że w badanej próbie zarówno średnia masa ciała, jak i udział osób otyłych odbiegają od wartości referencyjnych. Zróżnicowanie danych i obecność obserwacji o skrajnie wysokich wartościach masy ciała wskazują na potrzebę dalszych badań nad czynnikami ryzyka otyłości w populacjach Ameryki Łacińskiej.