Analiza danych - Raport6
Statystyka opisowa
library("ISLR")
data("Wage")
attach(Wage)
options(qwraps2_markup = "markdown")
library(qwraps2)
library(arsenal)##
## Dołączanie pakietu: 'arsenal'
## Następujące obiekty zostały zakryte z 'package:qwraps2':
##
## gmean, gsd
library(e1071)## Warning: pakiet 'e1071' został zbudowany w wersji R 4.2.3
library(haven)## Warning: pakiet 'haven' został zbudowany w wersji R 4.2.3
library(papeR)## Ładowanie wymaganego pakietu: car
## Warning: pakiet 'car' został zbudowany w wersji R 4.2.3
## Ładowanie wymaganego pakietu: carData
##
## Dołączanie pakietu: 'car'
## Następujący obiekt został zakryty z 'package:qwraps2':
##
## logit
## Ładowanie wymaganego pakietu: xtable
## Registered S3 methods overwritten by 'papeR':
## method from
## Anova.lme car
## labels.data.frame arsenal
##
## Dołączanie pakietu: 'papeR'
## Następujący obiekt został zakryty z 'package:arsenal':
##
## labels<-
## Następujący obiekt został zakryty z 'package:utils':
##
## toLatex
library(dplyr)## Warning: pakiet 'dplyr' został zbudowany w wersji R 4.2.3
##
## Dołączanie pakietu: 'dplyr'
## Następujące obiekty zostały zakryte z 'package:papeR':
##
## summarise, summarize
## Następujący obiekt został zakryty z 'package:car':
##
## recode
## Następujące obiekty zostały zakryte z 'package:stats':
##
## filter, lag
## Następujące obiekty zostały zakryte z 'package:base':
##
## intersect, setdiff, setequal, union
library(tidyverse)## Warning: pakiet 'tidyverse' został zbudowany w wersji R 4.2.3
## Warning: pakiet 'ggplot2' został zbudowany w wersji R 4.2.3
## Warning: pakiet 'tibble' został zbudowany w wersji R 4.2.3
## Warning: pakiet 'tidyr' został zbudowany w wersji R 4.2.3
## Warning: pakiet 'purrr' został zbudowany w wersji R 4.2.3
## Warning: pakiet 'lubridate' został zbudowany w wersji R 4.2.3
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ forcats 1.0.0 ✔ readr 2.1.4
## ✔ ggplot2 3.4.2 ✔ stringr 1.5.0
## ✔ lubridate 1.9.2 ✔ tibble 3.2.1
## ✔ purrr 1.0.1 ✔ tidyr 1.3.0
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ lubridate::is.Date() masks arsenal::is.Date()
## ✖ dplyr::lag() masks stats::lag()
## ✖ dplyr::recode() masks car::recode()
## ✖ purrr::some() masks car::some()
## ✖ dplyr::summarise() masks papeR::summarise()
## ✖ dplyr::summarize() masks papeR::summarize()
## ℹ Use the ]8;;http://conflicted.r-lib.org/conflicted package]8;; to force all conflicts to become errors
library(ggplot2)
library(kableExtra)## Warning: pakiet 'kableExtra' został zbudowany w wersji R 4.2.3
##
## Dołączanie pakietu: 'kableExtra'
##
## Następujący obiekt został zakryty z 'package:dplyr':
##
## group_rows
library(summarytools)##
## Dołączanie pakietu: 'summarytools'
##
## Następujący obiekt został zakryty z 'package:tibble':
##
## view
##
## Następujące obiekty zostały zakryte z 'package:xtable':
##
## label, label<-
library(classInt)## Warning: pakiet 'classInt' został zbudowany w wersji R 4.2.3
library(pastecs)##
## Dołączanie pakietu: 'pastecs'
##
## Następujący obiekt został zakryty z 'package:tidyr':
##
## extract
##
## Następujące obiekty zostały zakryte z 'package:dplyr':
##
## first, last
library(desctable)## Ładowanie wymaganego pakietu: pander
##
## Dołączanie pakietu: 'desctable'
##
## Następujące obiekty zostały zakryte z 'package:stats':
##
## chisq.test, fisher.test, IQR
library(frequency)## Ładowanie wymaganego pakietu: rmarkdown
## Warning: pakiet 'rmarkdown' został zbudowany w wersji R 4.2.3
## Ładowanie wymaganego pakietu: knitr
## Warning: pakiet 'knitr' został zbudowany w wersji R 4.2.3
## Ładowanie wymaganego pakietu: DT
## Warning: pakiet 'DT' został zbudowany w wersji R 4.2.3
##
## Dołączanie pakietu: 'DT'
##
## Następujący obiekt został zakryty z 'package:desctable':
##
## datatable
##
##
## Dołączanie pakietu: 'frequency'
##
## Następujący obiekt został zakryty z 'package:summarytools':
##
## freq
library(corrplot)## corrplot 0.92 loaded
library(ggpubr)## Warning: pakiet 'ggpubr' został zbudowany w wersji R 4.2.3
##
## Dołączanie pakietu: 'ggpubr'
##
## Następujące obiekty zostały zakryte z 'package:qwraps2':
##
## mean_ci, mean_sd, median_iqr
library(psych)## Warning: pakiet 'psych' został zbudowany w wersji R 4.2.3
##
## Dołączanie pakietu: 'psych'
## Następujące obiekty zostały zakryte z 'package:ggplot2':
##
## %+%, alpha
## Następujący obiekt został zakryty z 'package:car':
##
## logit
## Następujący obiekt został zakryty z 'package:qwraps2':
##
## logit
raport <-
list("Płaca" =
list("Min" = ~ min(wage),
"Max" = ~ max(wage),
"Q1" = ~ quantile(wage,0.25),
"Mediana" = ~ round(median(wage),2),
"Q3" = ~ quantile(wage,0.75),
"Mean" = ~ round(mean(wage),2),
"Odch. std." = ~ round(sd(wage),2),
"IQR" = ~ round(iqr(wage),2),
"Sx" = ~ round(iqr(wage)/2,2),
"Var %" = ~ round((sd(wage)/mean(wage)),2),
"IQR Var %" = ~ round((iqr(wage)/median(wage)),2),
"Skośność" = ~ round(skew(wage),2),
"Kurtoza" = ~ round(kurtosi(wage),2)
))
tabela<-summary_table(Wage, summaries = raport, by = c("health"))
kbl(tabela,
digits = 2,
caption="Tabela 1. Płaca wg stanu zdrowia.",
col.names = c('<=Good', '>=Very Good'))%>%
kable_classic(full_width = F, html_font = "Cambria")%>%
kable_styling(bootstrap_options = c("striped", "hover"))| <=Good | >=Very Good | |
|---|---|---|
| Min | 20.09 | 20.93 |
| Max | 311.93 | 318.34 |
| Q1 | 79.85 | 87.98 |
| Mediana | 98.60 | 109.83 |
| Q3 | 118.88 | 134.71 |
| Mean | 101.66 | 115.73 |
| Odch. std. | 35.18 | 43.44 |
| IQR | 39.03 | 46.72 |
| Sx | 19.51 | 23.36 |
| Var % | 0.35 | 0.38 |
| IQR Var % | 0.40 | 0.43 |
| Skośność | 1.69 | 1.64 |
| Kurtoza | 6.91 | 4.21 |
Tabela 1. przedstawia płacę wg stanu zdrowia. Minimalna wartość płacy u osob, które oceniają swoje zdrowie jako „dobre i niższe” wynosi 20,09 dolara, a maksymalna 311,93 dolara. Analizowany zbiór danych zawiera płace w przedziale od 20,09 do 311,93 dolara. Pierwszy kwartyl (Q1) wynosi 79.85 dolarów, co oznacza, że 25% wartości płac mieści się poniżej tej wartości. Wartość płacy, która dzieli ten y zbiór danych na dwie równe części, wynosi 104,92 dolarów i jest to centralna wartość płac. Trzeci kwartyl (Q3) wynosi 118.88 dolarów, co oznacza, że 75% wartości płac mieści się poniżej tej wartości. Jest to wartość reprezentująca górny kwartyl danych. Średnia arytmetyczna wszystkich wartości płac to 101,66 dolarów. Odchylenie standardowe wynosi 35, 18 dolarów czyli wartości płac mają tendencję do rozpraszania się wokół średniej płacy. Wartości płac mogą różnić się od średniej płacy o około 35,18 dolarów w różnych kierunkach. IQR wynosi 39,03 dolarów i jest to miara rozproszenia wartości płac w centralnej części rozkładu danych. Interkwartylne odchylenie (Sx) wynosi 19,51 dolarów. Jest to połowa szerokości przedziału między pierwszym a trzecim kwartylem i oznacza to, jak bardzo wartości płac rozpraszają się wokół mediany. Współczynnik zmienności wariancji (%) wynosi 0.35. Oznacza to, że wariancja płac stanowi około 35% średniej płacy. Jest to miara względnej zmienności wariancji w stosunku do średniej płacy. Współczynnik zmienności interkwartylnej (%) wynosi 0.40. Oznacza to, że różnica między trzecim a pierwszym kwartylem stanowi około 40% mediany płac. Jest to miara względnej zmienności interkwartylnej w stosunku do mediany płac. Skośność wynosi 1,69. Skośność jest miarą asymetrii rozkładu danych. W tym przypadku wartość dodatnia skośności wskazuje, że rozkład jest prawostronnie skośny, co oznacza, że istnieją wartości odstające na wyższym końcu rozkładu płac. Kurtoza wynosi 6,91. Kurtoza jest miarą “szpiczastości” rozkładu danych. Wysoka wartość kurtozy wskazuje na wyraźne koncentracje wartości wokół średniej płacy i występowanie wartości odstających. W praktyce oznacza to, że w zbiorze danych występuje większe skupienie wartości wokół średniej płacy, niż można by oczekiwać w przypadku rozkładu normalnego.
tabela<-summary_table(Wage, summaries = raport, by = c("region"))## Warning in min(wage): brak argumentów w min; zwracanie wartości Inf
## Warning in max(wage): brak argumentów w max; zwracanie wartości -Inf
## Warning in min(wage): brak argumentów w min; zwracanie wartości Inf
## Warning in max(wage): brak argumentów w max; zwracanie wartości -Inf
## Warning in min(wage): brak argumentów w min; zwracanie wartości Inf
## Warning in max(wage): brak argumentów w max; zwracanie wartości -Inf
## Warning in min(wage): brak argumentów w min; zwracanie wartości Inf
## Warning in max(wage): brak argumentów w max; zwracanie wartości -Inf
## Warning in min(wage): brak argumentów w min; zwracanie wartości Inf
## Warning in max(wage): brak argumentów w max; zwracanie wartości -Inf
## Warning in min(wage): brak argumentów w min; zwracanie wartości Inf
## Warning in max(wage): brak argumentów w max; zwracanie wartości -Inf
## Warning in min(wage): brak argumentów w min; zwracanie wartości Inf
## Warning in max(wage): brak argumentów w max; zwracanie wartości -Inf
## Warning in min(wage): brak argumentów w min; zwracanie wartości Inf
## Warning in max(wage): brak argumentów w max; zwracanie wartości -Inf
kbl(tabela,
digits = 2,
caption="Tabela 2. Płaca wg regionu.",
col.names = c('1','2','3', '4','5','6','7','8','9'))%>%
kable_classic(full_width = F, html_font = "Cambria")%>%
kable_styling(bootstrap_options = c("striped", "hover"))| 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | |
|---|---|---|---|---|---|---|---|---|---|
| Min | Inf | 20.0855369231877 | Inf | Inf | Inf | Inf | Inf | Inf | Inf |
| Max | -Inf | 318.342430056529 | -Inf | -Inf | -Inf | -Inf | -Inf | -Inf | -Inf |
| Q1 | NA | 85.3839403789827 | NA | NA | NA | NA | NA | NA | NA |
| Mediana | NA | 104.92 | NA | NA | NA | NA | NA | NA | NA |
| Q3 | NA | 128.680488220624 | NA | NA | NA | NA | NA | NA | NA |
| Mean | NA | 111.7 | NA | NA | NA | NA | NA | NA | NA |
| Odch. std. | NA | 41.73 | NA | NA | NA | NA | NA | NA | NA |
| IQR | NA | 43.3 | NA | NA | NA | NA | NA | NA | NA |
| Sx | NA | 21.65 | NA | NA | NA | NA | NA | NA | NA |
| Var % | NA | 0.37 | NA | NA | NA | NA | NA | NA | NA |
| IQR Var % | NA | 0.41 | NA | NA | NA | NA | NA | NA | NA |
| Skośność | NA | 1.68 | NA | NA | NA | NA | NA | NA | NA |
| Kurtoza | NA | 4.82 | NA | NA | NA | NA | NA | NA | NA |
Tabela 2. przedstawia wartości płac w zależności od regionu. W regionie środkowoatlantyckim. Minimalna wartość płacy wynosi 20.09 dolarów, a maksymalna wartość płacy wynosi 318.34 dolarów. Pierwszy kwartyl (Q1) wynosi 85.38 dolarów, co oznacza, że 25% wartości płac mieści się poniżej tej wartości. Mediana wynosi 104.92 dolarów, co oznacza, że 50% wartości płac mieści się poniżej tej wartości. Trzeci kwartyl (Q3) wynosi 128.68 dolarów, co oznacza, że 75% wartości płac mieści się poniżej tej wartości. Średnia płaca wynosi 111.7 dolarów. Jest to średnia arytmetyczna wszystkich wartości płac w regionie środkowoatlantyckim. Odchylenie standardowe (Odch. std.) wynosi 41.73 dolarów. . Wartości płac mogą różnić się od średniej płacy o około 41,73 dolarów w różnych kierunkach. Różnica między trzecim a pierwszym kwartylem (IQR) wynosi 43.3 dolarów. Połowa wartości płac w analizowanym zbiorze danych mieści się w przedziale o szerokości 43,30 jednostek. Interkwartylne odchylenie wynosi 21.65 dolarów czyli jest to połowa szerokości przedziału między pierwszym a trzecim kwartylem. Współczynnik zmienności wariancji (%) wynosi 0.37. Oznacza to, że wariancja płac stanowi około 37% średniej płacy. Współczynnik zmienności interkwartylnej (%) wynosi 0.41. Oznacza to, że różnica między trzecim a pierwszym kwartylem stanowi około 41% mediany płac. Skośność wynosi 1.68 i znów wartość dodatnia oznacza rozkład jest prawostronnie skośny. Kurtoza wynosi 4.82.
tabela<-summary_table(Wage, summaries = raport, by = c("health_ins"))
kbl(tabela,
digits = 2,
caption="Tabela 3. Płaca wg posiadania ubezpieczenia zdrowotnego.",
col.names = c('Yes','No'))%>%
kable_classic(full_width = F, html_font = "Cambria")%>%
kable_styling(bootstrap_options = c("striped", "hover"))| Yes | No | |
|---|---|---|
| Min | 32.37 | 20.09 |
| Max | 318.34 | 309.57 |
| Q1 | 94.07 | 70.51 |
| Mediana | 112.65 | 87.98 |
| Q3 | 136.16 | 107.90 |
| Mean | 120.24 | 92.32 |
| Odch. std. | 41.24 | 35.97 |
| IQR | 42.08 | 37.39 |
| Sx | 21.04 | 18.70 |
| Var % | 0.34 | 0.39 |
| IQR Var % | 0.37 | 0.42 |
| Skośność | 1.84 | 1.92 |
| Kurtoza | 4.98 | 7.38 |
Tabela 3. przedstawia płacę wg posiadania ubezpieczenia zdrowotnego. U osób posiadających ubezpieczenie zdrowotne minimalna wartość płacy wynosi 32.37 dolarów, a maksymalna wartość wynosi 318.34 dolarów. Oznacza to, że analizowany zbiór danych obejmuje płace w zakresie od 32.37 do 318.34 dolarów. Pierwszy kwartyl (Q1) wynosi 94.07 dolarów, co oznacza, że 25% wartości płac mieści się poniżej tej wartości. Mediana czyli centralna wartość wynosi 112.65 dolarów. Trzeci kwartyl (Q3) wynosi 136.16 dolarów, co oznacza, że 75% wartości płac mieści się poniżej tej wartości. Średnia płaca wynosi 120.24 dolarów. Odchylenie standardowe wynosi 41.24 dolarów. Oznacza to, że wartości płac mają tendencję do rozproszenia wokół średniej płacy o +/- 41.42 dolary. Różnica między trzecim a pierwszym kwartylem (IQR) wynosi 42.08 dolarów. Jest to miara rozproszenia wartości płac w centralnej części rozkładu danych. Interkwartylne odchylenie wynosi 21.04 dolarów. Jest to połowa szerokości przedziału między pierwszym a trzecim kwartylem. Współczynnik zmienności wariancji (%) wynosi 0.34. Oznacza to, że wariancja płac stanowi około 34% średniej płacy. Współczynnik zmienności interkwartylnej (%) wynosi 0.37. Oznacza to, że różnica między trzecim a pierwszym kwartylem stanowi około 37% mediany płac. Skośność, która jest miarą asymetrii rozkładu danych wynosi 1,84, wartość dodatnia. Kurtoza, która jest miarą “szpiczastości” rozkładu wynosi 4,98.
tabela<-summary_table(Wage, summaries = raport, by = c("jobclass"))
kbl(tabela,
digits = 2,
caption="Tabela 4. Płaca wg klasy zawodowej.",
col.names = c('Industrial','Information'))%>%
kable_classic(full_width = F, html_font = "Cambria")%>%
kable_styling(bootstrap_options = c("striped", "hover"))| Industrial | Information | |
|---|---|---|
| Min | 22.96 | 20.09 |
| Max | 295.99 | 318.34 |
| Q1 | 81.28 | 91.70 |
| Mediana | 99.69 | 112.65 |
| Q3 | 118.88 | 137.59 |
| Mean | 103.32 | 120.59 |
| Odch. std. | 35.11 | 46.13 |
| IQR | 37.60 | 45.89 |
| Sx | 18.80 | 22.95 |
| Var % | 0.34 | 0.38 |
| IQR Var % | 0.38 | 0.41 |
| Skośność | 1.46 | 1.64 |
| Kurtoza | 5.04 | 3.82 |
Tabela 4. Przedstawia płaca wg klasy zawodowej. Osoby pracujące w branżach przemysłowych otrzymują minimalną płacę w wysokości 22.96 dolarów i maksymalną 295.99 dolarów. Pierwszy kwartyl (Q1) wynosi 81.28 dolarów, co oznacza, że 25% wartości płac mieści się poniżej tej wartości. Mediana wynosi 99.69 dolarów, co oznacza, że 50% wartości płac mieści się poniżej tej wartości. Trzeci kwartyl (Q3) wynosi 118.88 dolarów, co oznacza, że 75% wartości płac mieści się poniżej tej wartości. Średnia płaca wynosi 103.32 dolarów. Jest to średnia arytmetyczna wszystkich wartości płac osób pracujących w branży przemysłowej. Odchylenie standardowe wynosi 35.11 dolarów. Oznacza to, że wartości płac mają tendencję do rozproszenia wokół średniej płacy o +/- 35.11 dolarów. Różnica między trzecim a pierwszym kwartylem (IQR) wynosi 37.60 dolarów. Jest to miara rozproszenia wartości płac w centralnej części rozkładu danych. Interkwartylne odchylenie (Sx) wynosi 18.80 dolarów. Jest to połowa szerokości przedziału między pierwszym a trzecim kwartylem. Oznacza to, jak bardzo wartości płac rozproszają się wokół mediany. Współczynnik zmienności wariancji (%) wynosi 0.34. Oznacza to, że wariancja płac stanowi około 34% średniej płacy. Współczynnik zmienności interkwartylnej (%) wynosi 0.38. Oznacza to, że różnica między trzecim a pierwszym kwartylem stanowi około 38% mediany płac. Skośność wynosi 1.46, asymetria prawostronna. Kurtoza wynosi 5.04, która w analizowanym zbiorze danych wskazuje na wysoką “szpiczastość” rozkładu. Oznacza to, że rozkład płac ma wyraźny, spiczasty kształt wokół średniej płacy.
tabela<-summary_table(Wage, summaries = raport, by = c("education"))
kbl(tabela,
digits = 2,
caption="Tabela 5. Płaca wg wykształcenia.",
col.names = c('<HS Grad','HS Grad','Some College', 'College Grad', 'Advanced Degree'))%>%
kable_classic(full_width = F, html_font = "Cambria")%>%
kable_styling(bootstrap_options = c("striped", "hover"))| <HS Grad | HS Grad | Some College | College Grad | Advanced Degree | |
|---|---|---|---|---|---|
| Min | 20.93 | 23.27 | 20.09 | 32.37 | 38.61 |
| Max | 152.22 | 318.34 | 314.33 | 281.75 | 318.34 |
| Q1 | 70.26 | 77.95 | 89.24 | 99.69 | 117.15 |
| Mediana | 81.28 | 94.07 | 104.92 | 118.88 | 141.78 |
| Q3 | 97.49 | 109.83 | 121.39 | 143.13 | 171.50 |
| Mean | 84.10 | 95.78 | 107.76 | 124.43 | 150.92 |
| Odch. std. | 21.58 | 28.57 | 32.47 | 41.19 | 53.90 |
| IQR | 27.23 | 31.89 | 32.15 | 43.45 | 54.35 |
| Sx | 13.62 | 15.94 | 16.07 | 21.72 | 27.18 |
| Var % | 0.26 | 0.30 | 0.30 | 0.33 | 0.36 |
| IQR Var % | 0.34 | 0.34 | 0.31 | 0.37 | 0.38 |
| Skośność | 0.40 | 1.86 | 1.72 | 1.27 | 1.10 |
| Kurtoza | 0.26 | 11.21 | 8.79 | 3.34 | 0.89 |
Analiza statystyczna dla płac według wykształcenia pracowników przedstawia się następująco: 1) Najmniejsza wartość pracowników o podstawowym wykształceniu wynosi 20,93 dolarów. 2) Największa wartość pracowników o podstawowym wykształceniu wynosi 152,22 dolarów. 3) 25% płacy pracowników o podstawowym wykształceniu wynosiła 70,26 dolarów lub mniej, a 75% tych płac wynosi 70,26 dolarów lub więcej. 4) Połowa płacy pracowników o podstawowym wykształceniu wynosiła 81,28 dolarów lub mniej, a druga połowa tych płac wynosiła 81,28 dolarów lub więcej. 5) 75% płacy pracowników o podstawowym wykształceniu wynosiła 97,49 dolarów lub mniej, a 25% tych płac wynosi 97,49 dolarów lub więcej. 6) Płace pracowników o podstawowym wykształceniu wynosiły średnio 84,10 dolarów. 7) Płace pracowników o podstawowym wykształceniu odchylały się przeciętnie od poziomu średniego o 21,58 dolarów. 8) Pełny interkwartylowy zakres płac pracowników o podstawowym wykształceniu wynosi 27,23 dolarów. Można to interpretować jako szerokość rozproszenia płac między pierwszym a trzecim kwartylem w analizowanej próbce. 9) Połowa interkwartylowego zakresu płac pracowników o podstawowym wykształceniu wynosi 13,62 dolarów. Można to interpretować jako typową różnicę między medianą płac, a jednym z kwartyli. To sugeruje, że w analizowanej próbce istnieje tendencja do występowania różnic w płacach na poziomie 13,62 dolarów. 10) Płace pracowników o podstawowym wykształceniu odchylały się przeciętnie od poziomu średniego o 26%. Natężenie dyspersji jest dosyć silne. 11) Wartość współczynnika zmienności IQR na poziomie 34% wskazuje na niską zmienność rozproszenia wartości między pierwszym a trzecim kwartylem w zbiorze danych w porównaniu do wartości mediany. Oznacza to, że interkwartylowy zakres jest stosunkowo wąski w stosunku do wartości centralnej, co sugeruje mniejszą zmienność w centralnej części rozkładu danych. 12) Płace pracowników o podstawowym wykształceniu rasy posiadały prawostronną asymetrię rozkładu o umiarkowanej sile. 13) Rozkład płac pracowników o podstawowym wykształceniu był bardziej spłaszczony w stosunku do rozkładu normalnego, co oznacza mniejsze skupienie cen wokół średniej oraz mniej ekstremalne wartości niż w przypadku rozkładu normalnego.
tabela<-summary_table(Wage, summaries = raport, by = c("race"))
kbl(tabela,
digits = 2,
caption="Tabela 6. Płaca wg rasy.",
col.names = c('White','Black','Asian', 'Other'))%>%
kable_classic(full_width = F, html_font = "Cambria")%>%
kable_styling(bootstrap_options = c("striped", "hover"))| White | Black | Asian | Other | |
|---|---|---|---|---|
| Min | 20.09 | 23.27 | 34.61 | 38.22 |
| Max | 314.33 | 318.34 | 299.26 | 169.53 |
| Q1 | 86.70 | 81.28 | 87.98 | 71.32 |
| Mediana | 106.35 | 94.07 | 115.38 | 81.28 |
| Q3 | 130.04 | 117.15 | 144.83 | 104.92 |
| Mean | 112.56 | 101.60 | 120.29 | 89.97 |
| Odch. std. | 41.73 | 37.16 | 46.42 | 29.15 |
| IQR | 43.35 | 35.86 | 56.85 | 33.60 |
| Sx | 21.67 | 17.93 | 28.42 | 16.80 |
| Var % | 0.37 | 0.37 | 0.39 | 0.32 |
| IQR Var % | 0.41 | 0.38 | 0.49 | 0.41 |
| Skośność | 1.60 | 3.13 | 1.20 | 0.80 |
| Kurtoza | 4.38 | 15.72 | 2.35 | -0.01 |
Analiza statystyczna dla płac według rasy pracowników przedstawia się następująco: 1) Najmniejsza wartość pracowników białej rasy wynosi 20,09 dolarów. 2) Największa wartość pracowników białej rasy wynosi 314,33 dolarów. 3) 25% płacy pracowników białej rasy wynosiła 86,70 dolarów lub mniej, a 75% tych płac wynosi 86,70 dolarów lub więcej. 4) Połowa płacy pracowników białej rasy wynosiła 106,35 dolarów lub mniej, a druga połowa tych płac wynosiła 106,35 dolarów lub więcej. 5) 75% płacy pracowników białej rasy wynosiła 130,04 dolarów lub mniej, a 25% tych płac wynosi 130,04 dolarów lub więcej. 6) Płace pracowników białej rasy wynosiły średnio 112,56 dolarów. 7) Płace pracowników białej rasy odchylały się przeciętnie od poziomu średniego o 41,73 dolarów. 8) Pełny interkwartylowy zakres płac pracowników białej rasy wynosi 34,35 dolarów. Można to interpretować jako szerokość rozproszenia płac między pierwszym a trzecim kwartylem w analizowanej próbce. 9) Połowa interkwartylowego zakresu płac pracowników białej rasy wynosi 21,67 dolarów. Można to interpretować jako typową różnicę między medianą płac, a jednym z kwartyli. To sugeruje, że w analizowanej próbce istnieje tendencja do występowania różnic w płacach na poziomie 24,67 dolarów. 10) Płace pracowników białej rasy odchylały się przeciętnie od poziomu średniego o 37%. Natężenie dyspersji jest silne. 11) Wartość współczynnika zmienności IQR na poziomie 41% wskazuje na niską zmienność rozproszenia wartości między pierwszym a trzecim kwartylem w zbiorze danych w porównaniu do wartości mediany. Oznacza to, że interkwartylowy zakres jest stosunkowo wąski w stosunku do wartości centralnej, co sugeruje mniejszą zmienność w centralnej części rozkładu danych. 12) Płace pracowników białej rasy posiadały prawostronną asymetrię rozkładu o znacznie umiarkowanej sile. 13) Rozkład płac pracowników białej rasy miał wyraźne, wąskie i wysokie szczyty, a ogonki grubsze w stosunku do rozkładu normalnego (występowanie silnej leptokurtozy), co oznacza większe skupienie cen wokół średniej niż w przypadku rozkładu normalnego.
tabela<-summary_table(Wage, summaries = raport, by = c("maritl"))
kbl(tabela,
digits = 2,
caption="Tabela 7. Płaca wg stanu cywilnego.",
col.names = c('Never Married','Married','Widowed', 'Divorced', 'Separated'))%>%
kable_classic(full_width = F, html_font = "Cambria")%>%
kable_styling(bootstrap_options = c("striped", "hover"))| Never Married | Married | Widowed | Divorced | Separated | |
|---|---|---|---|---|---|
| Min | 23.27 | 20.09 | 54.60 | 22.96 | 61.19 |
| Max | 314.33 | 318.34 | 141.78 | 281.75 | 277.80 |
| Q1 | 73.78 | 91.70 | 86.68 | 83.70 | 81.28 |
| Mediana | 87.98 | 112.65 | 104.92 | 99.69 | 95.23 |
| Q3 | 107.90 | 134.71 | 118.02 | 118.24 | 112.18 |
| Mean | 92.73 | 118.86 | 99.54 | 103.16 | 101.22 |
| Odch. std. | 32.92 | 43.12 | 23.74 | 33.80 | 33.66 |
| IQR | 34.13 | 43.01 | 31.33 | 34.53 | 30.90 |
| Sx | 17.06 | 21.50 | 15.67 | 17.27 | 15.45 |
| Var % | 0.35 | 0.36 | 0.24 | 0.33 | 0.33 |
| IQR Var % | 0.39 | 0.38 | 0.30 | 0.35 | 0.32 |
| Skośność | 2.11 | 1.62 | -0.20 | 1.43 | 2.71 |
| Kurtoza | 9.74 | 4.21 | -1.01 | 5.95 | 11.36 |
Analiza statystyczna dla płac według stanu cywilnego pracowników przedstawia się następująco: 1) Najmniejsza wartość płac pracowników, krórzy nigdy nie posiadali współmałżonka wynosi 23,27 dolarów. 2) Największa wartość płac pracowników, krórzy nigdy nie posiadali współmałżonka wynosi 314,33 dolarów. 3) 25% płacy pracowników, krórzy nigdy nie posiadali współmałżonka wynosiła 73,78 dolarów lub mniej, a 75% tych płac wynosi 73,78 dolarów lub więcej. 4) Połowa płacy pracowników, krórzy nigdy nie posiadali współmałżonka wynosiła 87,98 dolarów lub mniej, a druga połowa tych płac wynosiła 87,98 dolarów lub więcej. 5) 75% płacy pracowników, którzy nigdy nie posiadali współmałżonka wynosiła 107,90 dolarów lub mniej, a 25% tych płac wynosi 107,90 dolarów lub więcej. 6) Płace pracowników, którzy nigdy nie posiadali współmałżonka wynosiły średnio 92,73 dolarów. 7) Płace pracowników, którzy nigdy nie posiadali współmałżonka odchylały się przeciętnie od poziomu średniego o 32,92 dolarów. 8) Pełny interkwartylowy zakres płac pracowników, którzy nigdy nie posiadali współmałżonka wynosi 34,13 dolarów. Można to interpretować jako szerokość rozproszenia płac między pierwszym a trzecim kwartylem w analizowanej próbce. 9) Połowa interkwartylowego zakresu płac pracowników, którzy nigdy nie posiadali współmałżonka wynosi 17,06 dolarów. Można to interpretować jako typową różnicę między medianą płac, a jednym z kwartyli. To sugeruje, że w analizowanej próbce istnieje tendencja do występowania różnic w płacach na poziomie 17,06 dolarów. 10) Płace pracowników, którzy nigdy nie posiadali współmałżonka odchylały się przeciętnie od poziomu średniego o 35%. Natężenie dyspersji jest silne. 11) Wartość współczynnika zmienności IQR na poziomie 39% wskazuje na stosunkowo niską zmienność rozproszenia wartości między pierwszym a trzecim kwartylem w zbiorze danych w porównaniu do wartości mediany. Oznacza to, że interkwartylowy zakres jest stosunkowo wąski w stosunku do wartości centralnej, co sugeruje mniejszą zmienność w centralnej części rozkładu danych. 12) Płace pracowników, którzy nigdy nie posiadali współmałżonka posiadały prawostronną asymetrię rozkładu o znacznie umiarkowanej sile. 13) Rozkład płac pracowników, którzy nigdy nie posiadali współmałżonka miał wyraźne, wąskie i wysokie szczyty, a ogonki grubsze w stosunku do rozkładu normalnego (występowanie silnej leptokurtozy), co oznacza większe skupienie cen wokół średniej niż w przypadku rozkładu normalnego.