Analisis descriptivo con women data

trabajar con el conjunto de datos women

Determinar

media, mediana, moda, frecuencia, desv std, varianza, cuartiles, percentiles

Recdonocer el

Cargar en una variable w <- women

w <- women
w

##    height weight
## 1      58    115
## 2      59    117
## 3      60    120
## 4      61    123
## 5      62    126
## 6      63    129
## 7      64    132
## 8      65    135
## 9      66    139
## 10     67    142
## 11     68    146
## 12     69    150
## 13     70    154
## 14     71    159
## 15     72    164

# Cuantas variables
# Cuantas observaciones
# Que tipo de datos es 
str(w)

## 'data.frame':    15 obs. of  2 variables:
##  $ height: num  58 59 60 61 62 63 64 65 66 67 ...
##  $ weight: num  115 117 120 123 126 129 132 135 139 142 ...

class(w)

## [1] "data.frame"

Sacer la media de alturas

# Es el promedio aritmético de valore numéricos
mean(w$height)

## [1] 65

Sacar el valor maximo y minimo de altura de las personas

max(w$height)

## [1] 72

min(w$height)

## [1] 58

ORdenamos para enteneder la mediana en alturas

sort(w$height)

##  [1] 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72

Determinando la mediana de la altura

median(w$height)

## [1] 65

Sacando la moda

El que mas se repite hay muchas formas

Utilizamdo table

w <- women   # Volveremos a generar w

# Agregandodos registros
w <- rbind(w, c(70, 146)) # height y weight

# Otra forma
w<- rbind.data.frame(w, c(71, 164))

w

##    height weight
## 1      58    115
## 2      59    117
## 3      60    120
## 4      61    123
## 5      62    126
## 6      63    129
## 7      64    132
## 8      65    135
## 9      66    139
## 10     67    142
## 11     68    146
## 12     69    150
## 13     70    154
## 14     71    159
## 15     72    164
## 16     70    146
## 17     71    164

moda <- table(w$height)
moda   # Se repite mas veces

## 
## 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 
##  1  1  1  1  1  1  1  1  1  1  1  1  2  2  1

Vamos a generar 100 numeros aleATORIOS

ENTRE 70 Y 100 Y DETERMINAMOS LA MODA

set.seed(10) # Semilla para todas generen lo mismo
numeros <- sample(70:100, size = 100, replace = TRUE)
numeros

##   [1] 85 79 83 91 72 76 78 78 89 83 90 87 73 88 81 83 71 78 82 95 96 89 94
##  [24] 81 82 91 95 77 93 81 86 72 75 97 83 93 95 99 91 85 78 77 70 92 77 74
##  [47] 70 85 73 94 80 99 77 84 75 88 84 84 82 85 70 73 84 82 95 93 87 83 72
##  [70] 76 72 86 89 86 71 86 81 99 77 76 96 84 76 89 76 70 94 78 75 75 85 92
##  [93] 88 86 81 95 77 86 93 70

# sacamos la moda de numeros
moda <- table(numeros)

Visualizar datos plot()

Comando plot(), g[raica de dispersión, o sea puntos

# plot()
# plot(numeros)
plot(x=1:100, y=numeros, type = "p") # Es igual

plot(x=1:100, y=numeros, type = "l") # Es igual

#### Generando un histograma

hist(x=numeros, breaks=10, col = "pink")

hist(x=numeros, breaks=70, col = "pink")

Grafica de barras

Graficando los numeros

barplot(height = numeros, col = "blue", 
        xlab = "Numeros", ylab = "valores", main = "Los numeros generados", names.arg = numeros)

Vamos a realizar una barra con dos variables

utilizando

w <- women

barplot(w$height, col = "blue", xlab = "Personas", ylab = "Alturas", names.arg = 1:length(w$height), main = "Height de w")

Regresando a los numeros para ver

Gráfica de hojas y de cajas

numeros

##   [1] 85 79 83 91 72 76 78 78 89 83 90 87 73 88 81 83 71 78 82 95 96 89 94
##  [24] 81 82 91 95 77 93 81 86 72 75 97 83 93 95 99 91 85 78 77 70 92 77 74
##  [47] 70 85 73 94 80 99 77 84 75 88 84 84 82 85 70 73 84 82 95 93 87 83 72
##  [70] 76 72 86 89 86 71 86 81 99 77 76 96 84 76 89 76 70 94 78 75 75 85 92
##  [93] 88 86 81 95 77 86 93 70

stem(numeros)   # Se visualzia la moda

## 
##   The decimal point is 1 digit(s) to the right of the |
## 
##   7 | 000001122223334
##   7 | 555566666777777888889
##   8 | 01111122223333344444
##   8 | 55555666666778889999
##   9 | 0111223333444
##   9 | 55555667999

Gráfica de cajas

boxplot

boxplot(numeros)

median(numeros)

## [1] 83

Los cuartiles de la distribuci´pon

quantile

quantile(numeros)

##   0%  25%  50%  75% 100% 
##   70   77   83   89   99

Summary de los datos

summary(numeros)

summary(numeros)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   70.00   77.00   83.00   83.29   89.00   99.00

Haciendo un pastel con

Otra distribución de datos con varaibles categoriocas

datos <- data.frame(nombre=c("Hugo", "Paco", "Luis", "Paty", "Robert", "Mary"), genero=c('M', 'M', 'M', 'F', 'M', 'F'))

datos

##   nombre genero
## 1   Hugo      M
## 2   Paco      M
## 3   Luis      M
## 4   Paty      F
## 5 Robert      M
## 6   Mary      F

table(datos)

##         genero
## nombre   F M
##   Hugo   0 1
##   Luis   0 1
##   Mary   1 0
##   Paco   0 1
##   Paty   1 0
##   Robert 0 1

genero <- table(datos$genero)

# Determina mediante pastel graph n[umero de personas por genero
# pie()


pie(genero, main = "Personas por cada Género", labels = names(datos$genero))

Analisis descriptivo con women data

Rubén Pizarro

22 de junio de 2018

trabajar con el conjunto de datos women

Determinar

media, mediana, moda, frecuencia, desv std, varianza, cuartiles, percentiles

Recdonocer el

Cargar en una variable w <- women

Sacer la media de alturas

Sacar el valor maximo y minimo de altura de las personas

ORdenamos para enteneder la mediana en alturas

Determinando la mediana de la altura

Sacando la moda

El que mas se repite hay muchas formas

Utilizamdo table

Vamos a generar 100 numeros aleATORIOS

ENTRE 70 Y 100 Y DETERMINAMOS LA MODA

Visualizar datos plot()

Comando plot(), g[raica de dispersión, o sea puntos

Grafica de barras

Graficando los numeros

Vamos a realizar una barra con dos variables

utilizando

Regresando a los numeros para ver

Gráfica de hojas y de cajas

Gráfica de cajas

boxplot

Los cuartiles de la distribuci´pon

quantile

Summary de los datos

summary(numeros)

Haciendo un pastel con

Otra distribución de datos con varaibles categoriocas