1 Abstract:

La base de datos Iris es una de las más utilizadas en el campo de la estadística y el aprendizaje automático debido a su simplicidad, accesibilidad y relevancia histórica en el estudio de clasificación de patrones. Este conjunto de datos, introducido por Ronald A. Fisher en 1936, contiene 150 observaciones de flores pertenecientes a tres especies del género Iris (Iris setosa, Iris versicolor y Iris virginica), caracterizadas por cuatro variables cuantitativas: largo y ancho del sépalo, y largo y ancho del pétalo. La importancia del conjunto Iris radica en que permite ilustrar conceptos fundamentales de análisis estadístico y minería de datos, como la clasificación supervisada, el análisis exploratorio, la regresión y la validación de modelos predictivos. En el ámbito educativo, esta base se emplea ampliamente para introducir a los estudiantes en el manejo de software estadístico y técnicas de modelado. En la investigación, continúa siendo un referente para evaluar el desempeño de algoritmos de clasificación como J48, Random Forest y Bayes Network, demostrando la capacidad de los métodos estadísticos y de machine learning para reconocer patrones en datos multivariados (Sharma, 2020).

2 Ejercicio 1:

2.1 Exploracion de los 10 primeros y ultimos datos de Iris

10 primeros y 10 últimos datos del conjunto iris
N Sepal.Length Sepal.Width Petal.Length Petal.Width Species
1 5.1 3.5 1.4 0.2 setosa
2 4.9 3.0 1.4 0.2 setosa
3 4.7 3.2 1.3 0.2 setosa
4 4.6 3.1 1.5 0.2 setosa
5 5.0 3.6 1.4 0.2 setosa
6 5.4 3.9 1.7 0.4 setosa
7 4.6 3.4 1.4 0.3 setosa
8 5.0 3.4 1.5 0.2 setosa
9 4.4 2.9 1.4 0.2 setosa
10 4.9 3.1 1.5 0.1 setosa
141 6.7 3.1 5.6 2.4 virginica
142 6.9 3.1 5.1 2.3 virginica
143 5.8 2.7 5.1 1.9 virginica
144 6.8 3.2 5.9 2.3 virginica
145 6.7 3.3 5.7 2.5 virginica
146 6.7 3.0 5.2 2.3 virginica
147 6.3 2.5 5.0 1.9 virginica
148 6.5 3.0 5.2 2.0 virginica
149 6.2 3.4 5.4 2.3 virginica
150 5.9 3.0 5.1 1.8 virginica

3 Ejercicio 2:

3.1 Analisis de Estadistica Descriptiva de la base de datos Iris

3.1.1 Analisis exploratorio de variables y numero de datos

Tamaño del conjunto de datos Iris
Número de datos Número de columnas
150 6
Variables del conjunto de datos Iris
Variable Descripción
Sepal.Length Longitud del sépalo (cm)
Sepal.Width Ancho del sépalo (cm)
Petal.Length Longitud del pétalo (cm)
Petal.Width Ancho del pétalo (cm)
Species Especie

3.2 Resumen estadistico de Sepal.Length, Sepal.Width, Petal.Length, Petal.Width

A continuacion estamos se esta realizando un analisis de los pruebas estadisticas como identificar maximo, minimo, media, mediana, primer y tercer cuartil de cada una de las variables siendo estas el largo del sepalo y del petalo y el ancho del petalo y sepalo.

Estadístico Valor
Min. 4.300000
1st Qu. 5.100000
Median 5.800000
Mean 5.843333
3rd Qu. 6.400000
Max. 7.900000
)
Estadístico Valor
Min. 2.000000
1st Qu. 2.800000
Median 3.000000
Mean 3.057333
3rd Qu. 3.300000
Max. 4.400000

kable(resumen_tabla(iris_data_sel$Petal.Width), caption =

Estadístico Valor
Min. 1.000
1st Qu. 1.600
Median 4.350
Mean 3.758
3rd Qu. 5.100
Max. 6.900

4 Analisis Detallado Setosa

## [1] "Tabla de estadísticas para la especie setosa:"
Variable Media Mediana Desviacion_Estandar
Sepal.Length Sepal.Length 5.006 5.0 0.3524897
Sepal.Width Sepal.Width 3.428 3.4 0.3790644
Petal.Length Petal.Length 1.462 1.5 0.1736640
Petal.Width Petal.Width 0.246 0.2 0.1053856

# Analisis Detallado Versicolor

## [1] "Tabla de estadísticas para la especie Versicolor:"
Variable Media Mediana Desviacion_Estandar
Sepal.Length Sepal.Length 5.006 5.0 0.3524897
Sepal.Width Sepal.Width 3.428 3.4 0.3790644
Petal.Length Petal.Length 1.462 1.5 0.1736640
Petal.Width Petal.Width 0.246 0.2 0.1053856

# Analisis Detallado Virginica

## [1] "Tabla de estadísticas para la especie Versicolor:"
Variable Media Mediana Desviacion_Estandar
Sepal.Length Sepal.Length 5.006 5.0 0.3524897
Sepal.Width Sepal.Width 3.428 3.4 0.3790644
Petal.Length Petal.Length 1.462 1.5 0.1736640
Petal.Width Petal.Width 0.246 0.2 0.1053856

5 Normalidad (gráfica, sin test)

## 
##  Shapiro-Wilk normality test
## 
## data:  iris_data$Sepal.Length
## W = 0.97609, p-value = 0.01018
## 
##  Shapiro-Wilk normality test
## 
## data:  iris_data$Petal.Length
## W = 0.87627, p-value = 7.412e-10
## Variable: Sepal.Length 
## Los datos NO siguen una distribución normal: p = 0.01018116 < 0.05
## Variable: Petal.Length 
## Los datos NO siguen una distribución normal: p = 7.412263e-10 < 0.05

6 Ejercicios:

  1. Utilizando los datos guardados en el archivo “iris.csv” adjunto.
    1. (5 puntos) Presente los 10 primeros y 10 últimos resultados de la información obtenida en una tabla.
    2. (45 puntos) Realice un análisis exploratorio de datos de la información obtenida. (Investigar)
    3. (20 puntos) ¿Qué conclusiones se pueden obtener de los resultados del análisis en el numeral previo (al menos dos concluciones)?
    4. (30 puntos) Realice una prueba de normalidad para las variables “Sepal.Length” y “Petal.Length”.