Ejercicio 1
library(MASS)
data(ships)
head(ships)
## type year period service incidents
## 1 A 60 60 127 0
## 2 A 60 75 63 0
## 3 A 65 60 1095 3
## 4 A 65 75 1095 4
## 5 A 70 60 1512 6
## 6 A 70 75 3353 18
a)¿Cuántas filas y variables tiene
esta base de datos?
dim (ships)
## [1] 40 5
# 2da manera
str (ships)
## 'data.frame': 40 obs. of 5 variables:
## $ type : Factor w/ 5 levels "A","B","C","D",..: 1 1 1 1 1 1 1 1 2 2 ...
## $ year : int 60 60 65 65 70 70 75 75 60 60 ...
## $ period : int 60 75 60 75 60 75 60 75 60 75 ...
## $ service : int 127 63 1095 1095 1512 3353 0 2244 44882 17176 ...
## $ incidents: int 0 0 3 4 6 18 0 11 39 29 ...
b) ¿Hay alguna variable cualitativa?
¿Está almacenada en R como factor, integer o num?
Si, la variable “type” esta registrada como factor
c)Representa los boxplots de la
variable incidentes por tipo de barcoen un mismo gráfico.
boxplot(ships$incidents~ ships$type, col=c("aquamarine","pink", "ivory1","navajowhite1","skyblue1"),
main="INCIDENTES", xlab="Incidentes", ylab="Tipo")
medias <- tapply(ships$incidents, ships$type, mean, na.rm=TRUE)
points(1:length(medias), medias, col=c("yellow"), pch=16)

¿En cuáles ves datos
atípicos?
En los incidentes C y D
d) Dibuja el histograma y el boxplot
de los incidentes de los barcos uno al lado del otro en el mismo
canvas
par(mfrow=c(1,2))
boxplot(ships$incidents, col=c("pink"),
main="INCIDENTES")
points(1,mean(ships$incidents), col="yellow", pch=16)
hist(ships$incidents, col=c("skyblue1","pink", "plum1","navajowhite1","aquamarine","ivory1"), main="Hisotgrama de Incidentes",
xlab="Incidentes", ylab="Frecuencias")
abline(v=mean(ships$incidents, na.rm=TRUE), col="yellow", lty=2)

¿Qué tipo de asimetría presenta la
variable incidentes?
La variable “Incidentes” muestra una asimetría positiva. En el
histograma, se observa que la cola larga está hacia la derecha, lo que
indica que la mayoría de los barcos tienen pocos incidentes, pero hay
algunos con valores atípicos que presentan un número significativamente
mayor de incidentes. Por otro lado, el boxplot confirma esta asimetría
positiva, ya que la mediana está más cerca del borde inferior de la
caja, lo que significa que la mayoría de los datos son valores bajos.
Además, el bigote superior es más largo, lo que indica una mayor
dispersión en los valores altos, asimismo la existencia de valores
atipicos, confirman que hay incidentes excepcionalmente altos que
afectan la distribución.
e) Crea una nueva base de datos, que
se llame ships_new en la que todas las variables son iguales a las
originales, salvo type: deberás seleccionar solo los valores de la
variable que sean iguales a A.
ships_new<- subset(ships, type=="A")
head(ships_new)
## type year period service incidents
## 1 A 60 60 127 0
## 2 A 60 75 63 0
## 3 A 65 60 1095 3
## 4 A 65 75 1095 4
## 5 A 70 60 1512 6
## 6 A 70 75 3353 18
#2da Manera
library(dplyr)
##
## Attaching package: 'dplyr'
## The following object is masked from 'package:MASS':
##
## select
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
ships_new2 <- ships%>%filter(type == "A")
head(ships_new2)
## type year period service incidents
## 1 A 60 60 127 0
## 2 A 60 75 63 0
## 3 A 65 60 1095 3
## 4 A 65 75 1095 4
## 5 A 70 60 1512 6
## 6 A 70 75 3353 18
g) Coloca los resultados del apartado
anterior en una tabla con dos columnas, una será el nombre del
estadístico y otra contendrá su valor.
min_inc <- min(ships_new$incidents)
max_inc <- max(ships_new$incidents)
mean_inc <- mean(ships_new$incidents)
sd_inc <- sd(ships_new$incidents)
tabla_estadisticos <- data.frame(
Estadístico = c("Mínimo", "Máximo", "Media", "Desviación Estándar"),
Valor = c(min_inc, max_inc, mean_inc, sd_inc))
print(tabla_estadisticos)
## Estadístico Valor
## 1 Mínimo 0.000000
## 2 Máximo 18.000000
## 3 Media 5.250000
## 4 Desviación Estándar 6.386369
Ejercicio 2
head(USArrests)
## Murder Assault UrbanPop Rape
## Alabama 13.2 236 58 21.2
## Alaska 10.0 263 48 44.5
## Arizona 8.1 294 80 31.0
## Arkansas 8.8 190 50 19.5
## California 9.0 276 91 40.6
## Colorado 7.9 204 78 38.7
a) ¿Hay valores NA en la base de
datos? En caso de que los contenga, cuenta cuántos son y elimínalos de
la base de datos.
sum(is.na((USArrests)))
## [1] 0
b) Crea una nueva base de datos, que
se llame USArrests_new en la que todas las variables son iguales a las
originales, salvo Rape: deberás seleccionar los valores de la variable
Rape que sean mayores que 4.
USArrests_new<-subset(USArrests, Rape>4)
head(USArrests_new)
## Murder Assault UrbanPop Rape
## Alabama 13.2 236 58 21.2
## Alaska 10.0 263 48 44.5
## Arizona 8.1 294 80 31.0
## Arkansas 8.8 190 50 19.5
## California 9.0 276 91 40.6
## Colorado 7.9 204 78 38.7
c) Utilizando la nueva base
USArrests_new, obtén el gráfico de dispersión de las variables Rape (eje
x) y Murder (eje y)
plot(USArrests_new$Rape, USArrests_new$Murder, col= "lightskyblue", xlab="Rape", ylab= "Murder", pch=16)

d) Cambia el rango de los ejes del
gráfico anterior: el eje y debe ir desde 0 hasta 20 y el eje x desde 0
hasta 50.
plot(USArrests_new$Rape, USArrests_new$Murder, col= "lightskyblue", xlab="Rape", ylab= "Murder", pch=16,xlim=c(0,50), ylim=c(0,20))

Ejercicio 3
head(mtcars)
## mpg cyl disp hp drat wt qsec vs am gear carb
## Mazda RX4 21.0 6 160 110 3.90 2.620 16.46 0 1 4 4
## Mazda RX4 Wag 21.0 6 160 110 3.90 2.875 17.02 0 1 4 4
## Datsun 710 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1
## Hornet 4 Drive 21.4 6 258 110 3.08 3.215 19.44 1 0 3 1
## Hornet Sportabout 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2
## Valiant 18.1 6 225 105 2.76 3.460 20.22 1 0 3 1
mtcars <- mtcars
a) Añade al dataframe una variable de
nombre am_new que sea de tipo factor en la que haya dos categorías,
transmisión automática o manual, a partir de la variable am
mtcars$am_new <- ifelse(mtcars$am == 0, "automático", "manual")
mtcars$am_new <- factor(mtcars$am_new)
b) Representa el diagrama de barras
que muestre el número de coches por tipo de transmisión
plot(mtcars$am_new, main = "Tipo de Transmisión",
xlab = "Transmisión", ylab = "Frecuencia", col= "palegreen4" )

c) Representa el gráfico de sectores
que muestre el número de coches por tipo de transmisión
counts <- table(mtcars$am_new)
pie(counts, labels = names(counts), main = "Número de coches por tipo de transmisión", col = c("pink", "skyblue"))

Ejercicio 5
Reproduce el gráfico que se muestra a
continuación sobre la base de datos PimaIndiansDiabetes. Para acceder a
dicha base, instala y carga el paquete mlbench. Las variables a utilizar
son mass, glucose and diabetes
#install.packages("mlbench")
library(mlbench)
## Warning: package 'mlbench' was built under R version 4.3.3
data(PimaIndiansDiabetes)
plot(x=PimaIndiansDiabetes$mass, y=PimaIndiansDiabetes$glucose, col= PimaIndiansDiabetes$diabetes, pch=16, xlab = "Mass", ylab = "Glucose")
legend(x = "topright", legend = c("neg", "pos"), fill = c("Black", "Red"))

