Abstract:
La base de datos Iris es una de las más utilizadas en el campo de la
estadística y el aprendizaje automático debido a su simplicidad,
accesibilidad y relevancia histórica en el estudio de clasificación de
patrones. Este conjunto de datos, introducido por Ronald A. Fisher en
1936, contiene 150 observaciones de flores pertenecientes a tres
especies del género Iris (Iris setosa, Iris versicolor y Iris
virginica), caracterizadas por cuatro variables cuantitativas: largo y
ancho del sépalo, y largo y ancho del pétalo. La importancia del
conjunto Iris radica en que permite ilustrar conceptos fundamentales de
análisis estadístico y minería de datos, como la clasificación
supervisada, el análisis exploratorio, la regresión y la validación de
modelos predictivos. En el ámbito educativo, esta base se emplea
ampliamente para introducir a los estudiantes en el manejo de software
estadístico y técnicas de modelado. En la investigación, continúa siendo
un referente para evaluar el desempeño de algoritmos de clasificación
como J48, Random Forest y Bayes Network, demostrando la capacidad de los
métodos estadísticos y de machine learning para reconocer patrones en
datos multivariados (Sharma, 2020).
Ejercicio 1:
Exploracion de los 10
primeros y ultimos datos de Iris
10 primeros y 10 últimos datos del conjunto iris
|
N
|
Sepal.Length
|
Sepal.Width
|
Petal.Length
|
Petal.Width
|
Species
|
|
1
|
5.1
|
3.5
|
1.4
|
0.2
|
setosa
|
|
2
|
4.9
|
3.0
|
1.4
|
0.2
|
setosa
|
|
3
|
4.7
|
3.2
|
1.3
|
0.2
|
setosa
|
|
4
|
4.6
|
3.1
|
1.5
|
0.2
|
setosa
|
|
5
|
5.0
|
3.6
|
1.4
|
0.2
|
setosa
|
|
6
|
5.4
|
3.9
|
1.7
|
0.4
|
setosa
|
|
7
|
4.6
|
3.4
|
1.4
|
0.3
|
setosa
|
|
8
|
5.0
|
3.4
|
1.5
|
0.2
|
setosa
|
|
9
|
4.4
|
2.9
|
1.4
|
0.2
|
setosa
|
|
10
|
4.9
|
3.1
|
1.5
|
0.1
|
setosa
|
|
141
|
6.7
|
3.1
|
5.6
|
2.4
|
virginica
|
|
142
|
6.9
|
3.1
|
5.1
|
2.3
|
virginica
|
|
143
|
5.8
|
2.7
|
5.1
|
1.9
|
virginica
|
|
144
|
6.8
|
3.2
|
5.9
|
2.3
|
virginica
|
|
145
|
6.7
|
3.3
|
5.7
|
2.5
|
virginica
|
|
146
|
6.7
|
3.0
|
5.2
|
2.3
|
virginica
|
|
147
|
6.3
|
2.5
|
5.0
|
1.9
|
virginica
|
|
148
|
6.5
|
3.0
|
5.2
|
2.0
|
virginica
|
|
149
|
6.2
|
3.4
|
5.4
|
2.3
|
virginica
|
|
150
|
5.9
|
3.0
|
5.1
|
1.8
|
virginica
|
Ejercicio 2:
Analisis de
Estadistica Descriptiva de la base de datos Iris
Analisis
exploratorio de variables y numero de datos
Tamaño del conjunto de datos Iris
| 150 |
6 |
Variables del conjunto de datos Iris
| Sepal.Length |
Longitud del sépalo (cm) |
| Sepal.Width |
Ancho del sépalo (cm) |
| Petal.Length |
Longitud del pétalo (cm) |
| Petal.Width |
Ancho del pétalo (cm) |
| Species |
Especie |
Resumen estadistico
de Sepal.Length, Sepal.Width, Petal.Length, Petal.Width
A continuacion estamos se esta realizando un analisis de los pruebas
estadisticas como identificar maximo, minimo, media, mediana, primer y
tercer cuartil de cada una de las variables siendo estas el largo del
sepalo y del petalo y el ancho del petalo y sepalo.
| Min. |
4.300000 |
| 1st Qu. |
5.100000 |
| Median |
5.800000 |
| Mean |
5.843333 |
| 3rd Qu. |
6.400000 |
| Max. |
7.900000 |
)
| Min. |
2.000000 |
| 1st Qu. |
2.800000 |
| Median |
3.000000 |
| Mean |
3.057333 |
| 3rd Qu. |
3.300000 |
| Max. |
4.400000 |
kable(resumen_tabla(iris_data_sel$Petal.Width), caption =
| Min. |
1.000 |
| 1st Qu. |
1.600 |
| Median |
4.350 |
| Mean |
3.758 |
| 3rd Qu. |
5.100 |
| Max. |
6.900 |
Normalidad (gráfica,
sin test)
##
## Shapiro-Wilk normality test
##
## data: iris_data$Sepal.Length
## W = 0.97609, p-value = 0.01018
##
## Shapiro-Wilk normality test
##
## data: iris_data$Petal.Length
## W = 0.87627, p-value = 7.412e-10
## Variable: Sepal.Length
## Los datos NO siguen una distribución normal: p = 0.01018116 < 0.05
## Variable: Petal.Length
## Los datos NO siguen una distribución normal: p = 7.412263e-10 < 0.05
Ejercicios:
- Utilizando los datos guardados en el archivo “iris.csv” adjunto.
- (5 puntos) Presente los 10 primeros y 10 últimos resultados de la
información obtenida en una tabla.
- (45 puntos) Realice un análisis exploratorio de datos de la
información obtenida. (Investigar)
- (20 puntos) ¿Qué conclusiones se pueden obtener de los resultados
del análisis en el numeral previo (al menos dos concluciones)?
- (30 puntos) Realice una prueba de normalidad para las variables
“Sepal.Length” y “Petal.Length”.