Małgorzata Gadziała

Opis danych:

Dane dotyczą domów zlokalizowanych w danej dzielnicy Kalifornii i obrazują niektóre podsumowujące statystyki na podstawie przeprowadzonego spisu ludności z 1990 roku.

Nazwy kolumn:

1.longitude
2.latitude
3.housing_median_age 4.total_rooms
5.total_bedrooms
6.population
7.households 8.median_house_value 9.ocean_proximity 10.median_income

Jednoczynnikowa analiza wariancji

  • Zmienna zależna: wartość domu

  • Zmienna niezależna: odlegÅ‚ość od oceanu spoÅ›ród: <1H OCEAN, INLAND, ISLAND, NEAR BAY, NEAR OCEAN

Åšrednia:

tapply(housing$median_house_value,housing$ocean_proximity,mean)
 <1H OCEAN     INLAND     ISLAND   NEAR BAY NEAR OCEAN 
  240084.3   124805.4   380440.0   259212.3   249434.0 

Wariancja:

tapply(housing$median_house_value,housing$ocean_proximity,var)
  <1H OCEAN      INLAND      ISLAND    NEAR BAY  NEAR OCEAN 
11262365398  4901107252  6489843000 15084393047 15000651274 

Odchylenie standardowe:

tapply(housing$median_house_value,housing$ocean_proximity,sd)
 <1H OCEAN     INLAND     ISLAND   NEAR BAY NEAR OCEAN 
 106124.29   70007.91   80559.56  122818.54  122477.15 

boxplot(housing$median_house_value~housing$ocean_proximity,
        xlab="Ocean proximity", ylab="house value",
        col="lightblue",border="black")

Analiza wariancji

  • jednostronna analiza Å›rednich bez zaÅ‚ożenia równych wariancji
oneway.test(median_house_value~ocean_proximity, data = housing)
    One-way analysis of means (not assuming equal variances)

data:  median_house_value and ocean_proximity
F = 2079.3, num df = 4.000, denom df = 31.919, p-value < 2.2e-16

  • jednostronna analiza Å›rednich, z zaÅ‚ożeniem równoÅ›ci wariancji
oneway.test(median_house_value~ocean_proximity, data = housing,
            var.equal = T)
    One-way analysis of means

data:  median_house_value and ocean_proximity
F = 1612.1, num df = 4, denom df = 20635, p-value < 2.2e-16

Analiza wariancji ANOVA

Założenia: rozkład normalny i równości wariancji w grupach

anova1 <- aov(median_house_value~ocean_proximity, data = housing)
summary(anova1)
                   Df    Sum Sq   Mean Sq F value Pr(>F)    
ocean_proximity     4 6.544e+13 1.636e+13    1612 <2e-16 ***
Residuals       20635 2.094e+14 1.015e+10                   
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Weryfikacja, które średnie różnią się istotnie

Weryfikacja założeń:

  • homogeniczność wariancji
bartlett.test(median_house_value~ocean_proximity, data = housing)
    Bartlett test of homogeneity of variances

data:  median_house_value by ocean_proximity
Bartlett's K-squared = 1832.2, df = 4, p-value < 2.2e-16

Nieparametryczna analiza wariancji

kruskal.test(median_house_value~ocean_proximity, data = housing)
    Kruskal-Wallis rank sum test

data:  median_house_value by ocean_proximity
Kruskal-Wallis chi-squared = 6634.6, df = 4, p-value < 2.2e-16

Weryfikacja normalności rozkładów w podgrupach:

Aplikacja shiny:

Aplikacja shiny: