Bloque 1
Variables cuantitativas
1. Edad
library(titanic)
df<-titanic_train
hist(df$Age,xlab="Edad del pasajero",ylab ="Frecuencia",main = "Histograma de edad")

boxplot(df$Age,horizontal = TRUE)

summary(df$Age)
## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## 0.42 20.12 28.00 29.70 38.00 80.00 177
2. Tarifa del pasajero
summary(df$Fare)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.00 7.91 14.45 32.20 31.00 512.33
3. Numero de padres/hijos del pasajero
barplot(table(df$Parch),xlab="Numero de padres/hijos",main="Histograma de Numero de padres/hijos")

summary(df$Parch)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0000 0.0000 0.0000 0.3816 0.0000 6.0000
4. Sobrevivientes
"El 1 significa que el pasajero sobrevivió y el 0 significa que falleció"
## [1] "El 1 significa que el pasajero sobrevivió y el 0 significa que falleció"
barplot(table(df$Survived),xlab = "Sobrevivientes= 1 Fallecidos= 0",ylab = "Cantidad",main = "Número de Sobrevivientes")

table(df$Survived)
##
## 0 1
## 549 342
Variables Cualitativas
1. Género
table(df$Sex)
##
## female male
## 314 577
2. Clase
barplot(table(df$Pclass),xlab = "Tipo de clase",ylab = "Nro de pasajeros",main = "Clase")

table(df$Pclass)
##
## 1 2 3
## 216 184 491
summary(df$Pclass)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.000 2.000 3.000 2.309 3.000 3.000
3. Puerta de embarque
table(df$Embarked)
##
## C Q S
## 2 168 77 644
barplot(table(df$Embarked),xlab = "Puerta de Embarque",main= "Histograma de puerta de embarque")

Edad de personas por las diferentes clases
library(ggplot2)
ggplot(df, aes(x= Age))+ geom_histogram()+ facet_wrap(~df$Pclass)
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## Warning: Removed 177 rows containing non-finite values (stat_bin).

Edad por genero
ggplot(df, aes(x= Age))+ geom_histogram()+ facet_wrap(~df$Sex)
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## Warning: Removed 177 rows containing non-finite values (stat_bin).

Sobrevivientes por edad
ggplot(df, aes(x= Age))+ geom_histogram()+ facet_wrap(~df$Survived)
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## Warning: Removed 177 rows containing non-finite values (stat_bin).

Sobrevivientes por clase
ggplot(df, aes(x= Pclass))+ geom_bar()+ facet_wrap(~df$Survived)

Sobrevivientes por genero
library(ggplot2)
ggplot(df, aes(x= Sex))+ geom_bar()+ facet_wrap(~df$Survived)

Tarifa por clase
library(ggplot2)
ggplot(df, aes(x= Fare))+ geom_histogram()+ facet_wrap(~df$Pclass)
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

Numero de padres/hijos por clase
library(ggplot2)
ggplot(df, aes(x= Parch))+ geom_bar()+ facet_wrap(~df$Pclass)

Matriz de correlación
df$PassengerId=NULL
df$Name=NULL
df$Sex=NULL
df$Ticket=NULL
df$Cabin=NULL
df$Embarked=NULL
library(corrplot)
## corrplot 0.84 loaded
df.cor <- cor(df, method= "pearson")
df.cor
## Survived Pclass Age SibSp Parch Fare
## Survived 1.00000000 -0.33848104 NA -0.03532250 0.08162941 0.2573065
## Pclass -0.33848104 1.00000000 NA 0.08308136 0.01844267 -0.5494996
## Age NA NA 1 NA NA NA
## SibSp -0.03532250 0.08308136 NA 1.00000000 0.41483770 0.1596510
## Parch 0.08162941 0.01844267 NA 0.41483770 1.00000000 0.2162249
## Fare 0.25730652 -0.54949962 NA 0.15965104 0.21622494 1.0000000
Analisis de datos
"
Este proyecto esta basado en datos sobre el barco Titanic que se hundió en la noche del 14 a la madrugada del 15 de abril de 1912. Se descargó la librería Titanic en R donde se obtienen distintos datos. Existen algunas variables que sobretodo son características del pasajero, las cuales son id del pasajero, edad, nombre, si sobrevivió o no el pasajero, clase en la que iba el pasajero, sexo, si tenía padres oh hijos, si tenía hermanos o cónyuge, el ticket, puerta de embarque, cabina y tarifa. En el Titanic embarcaron 2208 personas (contando pasajeros y tripulación) pero con los datos que se obtienen de R tenemos una muestra de 891.
Lo primero que se hizo fue analizar las variables cuantitativas. Se empezó por la edad, en la cual se hizo un histograma y un diagrama de cajas. En lo cual se puede observar que el promedio de edad de los pasajeros es de 29.70 años. El 50% de las personas tenían entre 20 y 38 años, el 25% tenía menos de 20 años y el otro 25% tenía mas de 38 años. El pasajero mas veterano tenía 80 años y la mas joven aproximadamente unos 6 meses. Es importante mencionar que hay 177 personas que no tienen registrada su edad en estos datos.
Luego se analizaron los datos de las tarifas del pasaje que pagaron los pasajeros. Aquí se puede notar que el valor promedio fue de 32.20 unidades. El valor máximo fue de 512 y el mínimo de 7.91. El 50% de los pasajeros pagó entre 7.91 y 31 unidades, el 25% pagó menos de 7.91 y el otro 25 % pagó mas de 31 unidades. Un dato extra es que hubieron personas que no pagaron nada por el ticket del pasaje, esto probablemente se deba a que fueron invitados o alguna cosa similar.
Se procedió a sacar el número de hijos o padres por pasajero en lo cual se puede ver que hay muy pocas que viajaron con sus hijos o con sus padres. Esto se puede saber porque el dato del tercer cuartil indica que solo el 25% de personas viajó con al menos un hijo o padre. El número máximo de familiares que se obtuvo fue de 6.
Los datos de los sobrevivientes que es la parte que mas importa nos muestran que 549 personas fallecieron y 342 personas sobrevivieron. Esto quiere decir que el 61.62% de los pasajeros pereció mientras que el 38.38% sobrevivió.
En las variables cualitativas se tiene el género del cual se puede observar que embarcaron 314 personas de género femenino y 577 personas de género masculino. Esto quiere decir que el 35.24% de la tripulación estaba compuesta por mujeres y el 64.76$ eran hombres.
En las clases del barco obtenemos el dato de que la mayoría de los pasajeros viajó por tercera clase. El 75% de los pasajeros viajo entre segunda y tercera clase y solo el 25% era de primera clase. Entre ese 75% de pasajeros, el 55.11% estuvo en tercera clase y el otro 19.89% en segunda clase.
Las puertas de embarque que tienen las iniciales Q, C y S significan lo siguiente: C = Cherbourg; Q = Queenstown; S = Southampton. De estos datos se puede observar que la mayoría de los pasajeros entró por la puerta Southampton con el 72% de los pasajeros. El otro 18% y 10% entró por la puerta Cherbourg y Queenstown respectivamente.
Luego de analizar estos datos se procedió a establecer relaciones entre las distintas variables para observar que factores influyeron en el fallecimiento o la supervivencia de los pasajeros. Además de algunos datos interesantes que se pueden sacar de combinar las variables.
Uno de estos datos es la edad de los pasajeros por las diferentes clases. Aquí se puede sacar la conclusión de que la mayoría de las personas que viajaron en tercera clase tenían entre 20 y 30 años. Por otro lado la mayoría de los que viajaron en primera clase tenían entre 35 y 40 años. La persona con mas edad viajó en primera clase (80 años). Y por último hubieron mas personas de entre 25 y 30 años que viajaron en segunda clase.
También se obtuvo la edad por género donde se ve que los hubieron mas hombres de entre 20 y 35 años, por otro lado la mayoría de las mujeres tenía entre 20 y 30 años.
Los datos mas relevantes son los que tienen que ver con la supervivencia, y aquí se puede notar que fueron las pasajeros de género masculino que son considerados adultos los que mas fallecieron. Esto se debe a que la prioridad era salvar a los niños y a las mujeres. Con los datos obtenidos se puede notar que la mayoría de las personas que fallecieron tenían entre 20 y 30 años. Otro dato es que también fallecieron niños, en este grafico se puede observar que alrededor de 10 niños fallecieron. Con respecto al género, murieron alrededor de 460 hombres y 80 mujeres, hubieron 210 sobrevivientes femeninos y alrededor de 100 sobrevivientes masculinos.
Otro dato interesante es con respecto a los sobrevivientes de acuerdo a la clase en la que viajaban. Aquí se tiene que fallecieron muchas personas que viajaban en tercera clase lo cual tiene sentido debido a que eran mayoría. Pero se ve también que hay una gran diferencia entre las personas de primera y tercera clase que fallecieron. Esto se debe a que solo el 40% de las personas de primera clase fallecieron y el otro 60% sobrevivió pero por otro lado el 75% de los pasajeros de tercera clase falleció y el otro 25% sobrevivió. Esto puede interpretarse como que las personas de primera clase tenían algún tipo de prioridad. Alrededor de 360 personas de tercera clase murieron, mientras que 80 en primera clase y 100 en segunda perecieron. Solo sobrevivieron 120 personas de tercera clase, 80 de segunda y 125 de primera.
"
## [1] "\nEste proyecto esta basado en datos sobre el barco Titanic que se hundió en la noche del 14 a la madrugada del 15 de abril de 1912. Se descargó la librería Titanic en R donde se obtienen distintos datos. Existen algunas variables que sobretodo son características del pasajero, las cuales son id del pasajero, edad, nombre, si sobrevivió o no el pasajero, clase en la que iba el pasajero, sexo, si tenía padres oh hijos, si tenía hermanos o cónyuge, el ticket, puerta de embarque, cabina y tarifa. En el Titanic embarcaron 2208 personas (contando pasajeros y tripulación) pero con los datos que se obtienen de R tenemos una muestra de 891.\n\nLo primero que se hizo fue analizar las variables cuantitativas. Se empezó por la edad, en la cual se hizo un histograma y un diagrama de cajas. En lo cual se puede observar que el promedio de edad de los pasajeros es de 29.70 años. El 50% de las personas tenían entre 20 y 38 años, el 25% tenía menos de 20 años y el otro 25% tenía mas de 38 años. El pasajero mas veterano tenía 80 años y la mas joven aproximadamente unos 6 meses. Es importante mencionar que hay 177 personas que no tienen registrada su edad en estos datos.\n\nLuego se analizaron los datos de las tarifas del pasaje que pagaron los pasajeros. Aquí se puede notar que el valor promedio fue de 32.20 unidades. El valor máximo fue de 512 y el mínimo de 7.91. El 50% de los pasajeros pagó entre 7.91 y 31 unidades, el 25% pagó menos de 7.91 y el otro 25 % pagó mas de 31 unidades. Un dato extra es que hubieron personas que no pagaron nada por el ticket del pasaje, esto probablemente se deba a que fueron invitados o alguna cosa similar.\n\nSe procedió a sacar el número de hijos o padres por pasajero en lo cual se puede ver que hay muy pocas que viajaron con sus hijos o con sus padres. Esto se puede saber porque el dato del tercer cuartil indica que solo el 25% de personas viajó con al menos un hijo o padre. El número máximo de familiares que se obtuvo fue de 6.\n\nLos datos de los sobrevivientes que es la parte que mas importa nos muestran que 549 personas fallecieron y 342 personas sobrevivieron. Esto quiere decir que el 61.62% de los pasajeros pereció mientras que el 38.38% sobrevivió.\n\nEn las variables cualitativas se tiene el género del cual se puede observar que embarcaron 314 personas de género femenino y 577 personas de género masculino. Esto quiere decir que el 35.24% de la tripulación estaba compuesta por mujeres y el 64.76$ eran hombres.\n\nEn las clases del barco obtenemos el dato de que la mayoría de los pasajeros viajó por tercera clase. El 75% de los pasajeros viajo entre segunda y tercera clase y solo el 25% era de primera clase. Entre ese 75% de pasajeros, el 55.11% estuvo en tercera clase y el otro 19.89% en segunda clase.\n\nLas puertas de embarque que tienen las iniciales Q, C y S significan lo siguiente: C = Cherbourg; Q = Queenstown; S = Southampton. De estos datos se puede observar que la mayoría de los pasajeros entró por la puerta Southampton con el 72% de los pasajeros. El otro 18% y 10% entró por la puerta Cherbourg y Queenstown respectivamente.\n\nLuego de analizar estos datos se procedió a establecer relaciones entre las distintas variables para observar que factores influyeron en el fallecimiento o la supervivencia de los pasajeros. Además de algunos datos interesantes que se pueden sacar de combinar las variables. \n\nUno de estos datos es la edad de los pasajeros por las diferentes clases. Aquí se puede sacar la conclusión de que la mayoría de las personas que viajaron en tercera clase tenían entre 20 y 30 años. Por otro lado la mayoría de los que viajaron en primera clase tenían entre 35 y 40 años. La persona con mas edad viajó en primera clase (80 años). Y por último hubieron mas personas de entre 25 y 30 años que viajaron en segunda clase.\n\nTambién se obtuvo la edad por género donde se ve que los hubieron mas hombres de entre 20 y 35 años, por otro lado la mayoría de las mujeres tenía entre 20 y 30 años. \n\nLos datos mas relevantes son los que tienen que ver con la supervivencia, y aquí se puede notar que fueron las pasajeros de género masculino que son considerados adultos los que mas fallecieron. Esto se debe a que la prioridad era salvar a los niños y a las mujeres. Con los datos obtenidos se puede notar que la mayoría de las personas que fallecieron tenían entre 20 y 30 años. Otro dato es que también fallecieron niños, en este grafico se puede observar que alrededor de 10 niños fallecieron. Con respecto al género, murieron alrededor de 460 hombres y 80 mujeres, hubieron 210 sobrevivientes femeninos y alrededor de 100 sobrevivientes masculinos.\n\nOtro dato interesante es con respecto a los sobrevivientes de acuerdo a la clase en la que viajaban. Aquí se tiene que fallecieron muchas personas que viajaban en tercera clase lo cual tiene sentido debido a que eran mayoría. Pero se ve también que hay una gran diferencia entre las personas de primera y tercera clase que fallecieron. Esto se debe a que solo el 40% de las personas de primera clase fallecieron y el otro 60% sobrevivió pero por otro lado el 75% de los pasajeros de tercera clase falleció y el otro 25% sobrevivió. Esto puede interpretarse como que las personas de primera clase tenían algún tipo de prioridad. Alrededor de 360 personas de tercera clase murieron, mientras que 80 en primera clase y 100 en segunda perecieron. Solo sobrevivieron 120 personas de tercera clase, 80 de segunda y 125 de primera.\n"