La base de datos a utilizar en la presente práctica: Fuente de la página web: https://www.kaggle.com/datasets
A partir del conjunto de datos y utilizando R Studio, el participante debe realizar las siguientes actividades:
Descargue una base de datos cualquiera que tenga las siguientes condiciones y cargue el conjunto de datos en el paquete R.
De la base de datos anterior, realice un muestreo donde queden entre 80 a 100 observaciones. (sugerencia: realice un muestreo aleatorio simple)
Utilizando la información del conjunto de datos, identifique lo siguiente:
Población de estudio: 1338
Muestra obtenida:90
Variable 1: age -> numérico
Variable 2: sex -> carácter
Variable 3: bmi -> numérico
Variable 4: children -> numérico
Variable 5: smoker -> carácter
Variable 6: region -> carácter
Variable 7: charges -> numérico
De la base de datos anterior (punto2), Para cada una de las variables cuantitativas anteriores, realice el histograma y calcule todas las medidas descriptivas y haga un análisis de los resultados obtenidos.
De acuerdo con los siguientes datos obtenidos podemos notar que las edades varían entre los 18 a 64 años. Queriendo decir que las personas que se aseguran una vez que cumplen su mayoría de edad ya que son más propensos a sufrir alguna enfermedad.
En este grafico de índice de masa corporal (bmi) la mayor parte de persona asegurada tiene un IMC entre 30 a 35 y la menor parte entre 40 y 45.
De acuerdo al grafico de las 90 observaciones que se obtuvieron aleatoriamente de la base de datos de los asegurados la mayor cantidad de asegurados no tiene hijos y una menos parte tiene mas de 4 hijos.
De acuerdo al grafico de las 90 observaciones que se obtuvieron aleatoriamente de la base de datos de los asegurados podemos observar que la mayor parte de persona aseguradas tienen una prima inferior a 1,2mil y la menor parte entre 60mil y 70mil.
De la base de datos anterior (punto 2), Para cada una de las variables cualitativas anteriores, realice un gráfico apropiado (barras o sectores) y calcule las tablas de frecuencia.
De acuerdo con los resultados obtenidos en el grafico observamos que la mayor parte de asegurados son de sexo masculino y la menor parte es de sexo femenino.
De acuerdo al grafico podemos observar la cantidad de asegurados que fuman y la mayor cantidad de asegurados no fuman.
Los resultados de este grafico nos indican la región de donde viven los asegurados, del total de la muestra se equiparan las regiones de northest, northwest y las regiones del sur también están equiparadas pero la mayor parte de los asegurados viene de las regiones del norte.