##Tarea no.2 - Iván Rodrigo Delgado Cuene- 1644144

##Instalo las librerias necesarias para el ejercicio
library(ggplot2)
library(plotly)
## 
## Attaching package: 'plotly'
## The following object is masked from 'package:ggplot2':
## 
##     last_plot
## The following object is masked from 'package:stats':
## 
##     filter
## The following object is masked from 'package:graphics':
## 
##     layout

iris es una base de datos que contiene las medidas en centímetros de las variables longitud y anchura del sépalo y longitud y anchura del pétalo, respectivamente, para 50 flores de cada una de las 3 especies de iris. Las especies son Iris setosa, versicolor y virginica.

#Cargo la base de datos a utilizar

data("iris")

#Previo de la base de datos
iris[1:6,1:5]
##   Sepal.Length Sepal.Width Petal.Length Petal.Width Species
## 1          5.1         3.5          1.4         0.2  setosa
## 2          4.9         3.0          1.4         0.2  setosa
## 3          4.7         3.2          1.3         0.2  setosa
## 4          4.6         3.1          1.5         0.2  setosa
## 5          5.0         3.6          1.4         0.2  setosa
## 6          5.4         3.9          1.7         0.4  setosa
#Ahora genero un histograma para ver el comportamiento de los datos, en este caso de la variable Sepal.Length
Grafico_1=ggplot(data=iris,aes(x=Sepal.Length))
Grafico_1+geom_histogram()+theme_classic() + xlab("Longitud de Sépalo") + ggtitle("Histograma del largo del sépalo")
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

Segun el histograma la variable longitud de sepalo no se distribuye normal, tiene una asimetria hacia la izquiera y tiene colas pronunciadas

Grafico_2=ggplot(iris,aes(x=Sepal.Length,y=Sepal.Width))
Grafico_2+geom_point()+theme_classic()+ geom_smooth(method = "gam") + xlab("Longitud de Sépalo") + ylab("Ancho del Sépalo") + ggtitle("Relacion Ancho vs Longitud de Sépalo")
## `geom_smooth()` using formula 'y ~ s(x, bs = "cs")'

interpreto

iris$Species=as.character(iris$Species)
Grafico_3=ggplot(iris,aes(x=Sepal.Length,y=Sepal.Width,color=Species))
Grafico_3+geom_point()+theme_bw() + xlab("Longitud de Sépalo") + ylab("Ancho de Sépalo") + ggtitle("Relación Longitud y Ancho de Sépalo por Especie")

interpreto

iris$Species=as.character(iris$Species)
Grafico_4=ggplot(iris,aes(x=Sepal.Length,y=Sepal.Width,color=Species))
g4<-Grafico_4+geom_point()+theme_bw()+ xlab ("longitud de sépalo") + ylab("ancho de sépalo") + ggtitle("Ancho vs longitud de sépalo por especie con linea de tendencia") + geom_smooth(method = "lm")
g4
## `geom_smooth()` using formula 'y ~ x'

#grafico interactivo

ggplotly(g4)
## `geom_smooth()` using formula 'y ~ x'

respecto a los graficos 2, 3 y 4 y el interactivo es posible intuir que la especie setosa tiene unos sépalos mas anchos que largos mientras que virginica tiene la relacion inversa con algunos casos en que tienen sépalos tanto larogs como anchos. La especie versicolor se encuentra en un rango medio.

grafico_5=ggplot(iris,aes(x=Species,y=Sepal.Length,fill=Species))
grafico_5+geom_boxplot()+theme_bw()+ xlab("Especie") + ylab("Longitud de Sépalo")+ ggtitle("BoxPlot Longitud de Sépalo y Especia")

la especie Setosa tiene longitud media menor y sus datos estan menos dispersos en comparación con los datos de la especie Versicolor o Virginica. También se puede intuir que Setosa tiende a tener una distribución simétrica.Por último, la especie Virginica presenta mayor longitud en su Sépalo y tiene dato atípico.