JuveYell

UNIVERSIDAD CENTRAL DEL ECUADOR
FACULTAD DE CIENCIAS ECONÓMICAS
INGENIERÍA EN ESTADÍSTICA

Integrantes :

TALLER-APE 15:

EJERCICIo N°1

Inspecciona la columna Temp (temperatura) del conjunto de datos airquality de acuerdo con las sugerencias del párrafo anterior. Sin embargo, es mucho más informativa una representación visual de los datos. La manera más rápida (y recomendada) de hacerse una idea de la distribución de los datos de una columna numérica es usando histogramas. En R, para representar el histograma de la columna Sepal.Width de iris se puede hacer:

hist(iris$Sepal.Width)

Esa es la orden básica. Pero los gráficos pueden ser modificados para incluir títulos, etiquetas, colores, etc. Por ejemplo:

hist(iris$Sepal.Width, main = "iris: histograma de la anchura de los sΓ©palos",
     xlab = "anchura del sΓ©palo", ylab = "frecuencia",
     col = "steelblue")

Los argumentos main, xlab, ylab y col12 se pueden aplicar tambien a otros graficos que veremos a continuacion.

EJERCICIO N°2

Por defecto, el eje horizontal de un histograma muestra el numero de observaciones en cada bin. Examina la ayuda de hist para ver como mostrar en, lugar de los numeros absolutos, la proporcion.

Cargar el conjunto de datos iris

data(iris)

Crear el histograma de la anchura de los sepalos con proporciones

hist(iris$Sepal.Width, main = "iris: histograma de la anchura de los sΓ©palos",
     xlab = "anchura del sΓ©palo", ylab = "proporciΓ³n",
     col = "steelblue", freq = FALSE)

EJERCICIO N°3

El numero de bins tambien es parametrizable. Examina otra vez la pagina de ayuda para modificar el valor por defecto.

Cargar el conjunto de datos airquality

data(airquality)

Crear un histograma de la columna Temp con un nummero personalizado de bins

hist(airquality$Temp, 
     main = "Histograma de Temperatura en airquality", 
     xlab = "Temperatura", 
     ylab = "Frecuencia",
     col = "red",
     breaks = 20)  # Puedes ajustar el nΓΊmero de bins cambiando este valor

EJERCICIO N°4

Estudia la distribuciΓon de las temperaturas en Nueva York (usa airquality). Para guardar el grafico, puedes usar los menus de Rstudio. Pero tambien puedes hacerlo programaticamente. En la pagina de ayuda de la funcion png se explica como hacerlo.

Cargar el conjunto de datos airquality

data(airquality)

Crear el histograma de la temperatura en Nueva York

hist(airquality$Temp, 
     main = "DistribuciΓ³n de temperaturas en Nueva York",
     xlab = "Temperatura",
     ylab = "Frecuencia",
     col = "skyblue",
     border = "black")

Guardar el grafico como un archivo PNG

png(filename = "histograma_temperaturas_NY.png", width = 800, height = 600, res = 120)
hist(airquality$Temp, 
     main = "DistribuciΓ³n de temperaturas en Nueva York",
     xlab = "Temperatura",
     ylab = "Frecuencia",
     col = "skyblue",
     border = "black")
dev.off()
## png 
##   2

EJERCICIO N°5

Usa las funciones png y jpeg para guardar alguno de los gráficos anteriores en tu disco duro.

#Usa las funciones png y jpeg para guardar alguno de los gráficos anteriores en tu disco duro.

# Establecer la ubicación donde se guardará el gráfico
#png("C:/Rs/temperatura1.png", width=480, height=480, units="px", pointsize=12, bg="white")


# dirá al sistema que no te muestre el archivo en R, solo como el producto final.

#jpeg("C:/Rs/temperatura2.png",
#     width = 480, height = 480, units = "px", pointsize = 12,
#     quality = 75,
#     bg = "white", res = NA, family = "")

# Crear el histograma con las especificaciones dadas
#hist(iris$Sepal.Width)

#Esa es la orden basica. Pero los graficos pueden ser modificados para incluir titulos, etiquetas, colores, etc. Por ejemplo,
#hist(iris$Sepal.Width, main = "iris: histograma de la anchura de los sépalos",
#     xlab = "anchura del sépalo", ylab = "frecuencia",
#     col = "steelblue")

# Cerrar el dispositivo de gráficos para guardar el archivo
#dev.off()

EJERCICIO N°6

Usa los parámetros main, xlab, ylab y col discutidos en la sección anterior para mejorar el aspecto de este gráfico.

barplot(table(iris$Species), main = "Especies", xlab = "Tipo",
        ylab = "Frecuencia", col = rainbow(3))

EJERCICIO N°7

Investiga el argumento horiz de barplot para crear un gráfico de barras horizontales.

Los diagramas de barras también pueden usarse para mostrar datos contenidos en vectores etiquetados. De hecho, table crea un vector etiquetado: asocia a cada etiqueta su frecuencia en la columna. Algunas tablas contienen un registro por etiqueta y entonces podemos usar gráficos de barras para representar esa información. Por ejemplo:

barplot(VADeaths[, 2], xlab = “tramos de edad”, ylab = “tasa de mortalidad”, main = “Tasa de mortalidad en Virginia/rural”)

barplot(table(iris$Species),horiz = TRUE, main = "Especies", xlab = "Frecuencia",
        ylab = "Tipo", col = "purple")

Los diagramas de barras también pueden usarse para mostrar datos contenidos en vectores etiquetados. De hecho, table crea un vector etiquetado: asocia a cada etiqueta su frecuencia en la columna. Algunas tablas contienen un registro por etiqueta y entonces podemos usar gráficos de barras para representar esa información. Por ejemplo:

barplot(VADeaths[, 2], xlab = "tramos de edad", ylab = "tasa de mortalidad",
        main = "Tasa de mortalidad en Virginia\nmujer/rural")

Representación de la relación entre dos variables continuas: gráficos de dispersión

Los aspectos más interesantes de los datos se revelan no examinando las variables independientemente sino en relación con otras. Los gráficos de dispersión muestran la relación entre dos variables numéricas. En el ejemplo siguiente serán la velocidad y la distancia de frenado de un conjunto de coches recogidas en el conjunto de datos cars:

plot(cars$speed, cars$dist)

El gráfico muestra cómo aumenta dist en función de speed.

EJERCICIO N°8

Representa gráficamente la anchura del sépalo contra su longitud (usando iris). Interpreta el gráfico.

head(iris)
##   Sepal.Length Sepal.Width Petal.Length Petal.Width Species
## 1          5.1         3.5          1.4         0.2  setosa
## 2          4.9         3.0          1.4         0.2  setosa
## 3          4.7         3.2          1.3         0.2  setosa
## 4          4.6         3.1          1.5         0.2  setosa
## 5          5.0         3.6          1.4         0.2  setosa
## 6          5.4         3.9          1.7         0.4  setosa
plot(iris$Sepal.Width, iris$Sepal.Length)

EJERCICIO N°9

De nuevo, usa los parámetros main, xlab, ylab y col discutidos en la sección anterior para mejorar el aspecto de los gráficos anteriores.

plot(iris$Sepal.Width, iris$Sepal.Length,main = "Caracteristicas del Sepalo ", ylab = "Longitud del Sepalo",
     xlab = "Anchura del Sepalo", col="red")

A veces, si una variable sigue una secuencia específica, como en el caso de una variable de tiempo, es posible conectar los puntos en un gráfico de dispersión con líneas, o incluso sustituir los puntos por líneas completamente. Tomando como ejemplo el conjunto de datos airquality, que está organizado de manera cronológica, se puede ilustrar la variación de la temperatura a lo largo del tiempo de esta manera:

plot(airquality$Temp, type = "l")

Incluso, se pueden combinar varios elementos gráficos sobre la misma representación gráfica: por ejemplo, combinar puntos y líneas como aquí:

plot(airquality$Temp)
lines(airquality$Temp)

El anterior es un ejemplo de una característica de los gráficos básicos de R: a un primer gráfico se le pueden añadir progresivamente capas adicionales.En el caso anterior, a un gráfico de puntos se le han añadido líneas. Pero podrían añadirse más elementos. Por ejemplo, al gráfico anterior se le puede añadir un elemento más, una línea horizontal roja a la altura de la temperatura media, usando la función (muy útil) abline:

    plot(airquality$Temp)
lines(airquality$Temp)
abline(h = mean(airquality$Temp), col = "blue")

EJERCICIO N°10

Consulta la ayuda de la función abline y úsala para añadir líneas (no solo horizontales) a alguno de los gráficos anteriores.

plot(iris$Sepal.Width, iris$Sepal.Length,main = "Características del Sépalo ", ylab = " ",
     xlab = " ", col="#BF3EFF")
abline(h=c(5, -3), v=2,
       col=c('red'), lwd=5)

EJERCICIO N°11

Consulta ?par, una página de ayuda en R que muestra gran cantidad de parámetros modificables en un gráfico. Investiga y usa col, lty y lwd.Nota: casi nadie conoce estos parámetros y, menos, de memoria; pero está bien saber que existen por si un día procede utilizarlos.

data(iris)

boxplot(iris$Sepal.Width ~ iris$Species,
        col = "pink",                        # Color de las cajas
        main = "Especies de iris\nsegún la anchura del sépalo")  

EJERCICIO N°12

Identifica la observación atípica. ¿Es atípica también con respecto a otras variables?

INTERPRETACION

El diagrama de caja resalta la capacidad de visualizar de manera efectiva las observaciones atípicas. Aunque una observación atípica para las setosas parece insignificante cuando se mezcla con otras especies, se destaca claramente cuando se segmenta la representación por especie. Esto subraya la importancia de la segmentación en la identificación de patrones y peculiaridades en los datos.

EJERCICIO N°13

Muestra la distribución de las temperaturas en Nueva York en función del mes.

data(airquality)

boxplot(airquality$Temp ~ airquality$Month,
        col = "purple",            # Establece el color de las cajas
        main = "Calidad del aire \nsegún la temperatura por mes", 
        xlab = "Mes",              # Etiqueta del eje x
        ylab = "Temperatura"       # Etiqueta del eje y
)

En el ejemplo anterior se ha usado el color steelblue. Si buscas en internet encontrarás la lista completa de aquellos colores cuyos nombres entiende R o cómo usar sus representaciones RGB u otras.↩︎

Seguro, entenderás mejor los ejemplos de esa página que el mismo cuerpo de la documentación↩︎

En R existe un tipo de datos muy especial: formula; sirve para especificar relaciones entre variables y aunque fue creado para especificar modelos estadísticos, se utiliza frecuentemente en otros contextos.↩︎