Universidad Estatal de Milagro

Facultad de Ciencias e Ingeniería

Carrera:

TECNOLOGÍAS DE LA INFORMACIÓN EN LÍNEA:

Curso:

C1

Materia:

PROBABILIDAD Y ESTADISTICA

Integrantes del grupo:

Evelyn Adriana Zambrano Seis

Jorge Luis Peñafiel Vera

José Leonardo Ugalde Ortíz

David Fabian Jadan Guaman

Nicolle Stefania Rivera Villegas

Tema:

TRABAJO PRACTICO DE INVESTIGACIÓN

Profesor:

TORRES ORDOÑEZ LUIS HENRY

Fecha de entrega:

28/01/2022

PERIODO LECTIVO:

REGULAR NOVIEMBRE 2021 MARZO 2022


BASE DE DATOS:

La base de datos a utilizar en la presente práctica: Fuente de la página web: https://www.kaggle.com/datasets

ACTIVIDADES A REALIZAR:

A partir del conjunto de datos y utilizando R Studio, el participante debe realizar las siguientes actividades:

1.Carga de Base de Datos:

Descargue una base de datos cualquiera que tenga las siguientes condiciones y cargue el conjunto de datos en el paquete R.

  1. Al menos dos variables numéricas
  2. Al menos dos variables categóricas

2. Muestreo:

De la base de datos anterior, realice un muestreo donde queden entre 80 a 100 observaciones. (sugerencia: realice un muestreo aleatorio simple)

3. Identificación de conceptos: parámetros, población, muestra y estimadores y tipo de variables de análisis:

Utilizando la información del conjunto de datos, identifique lo siguiente:

Población de estudio: 1338

Muestra obtenida:90

Variable 1: age -> numérico

Variable 2: sex -> carácter

Variable 3: bmi -> numérico

Variable 4: children -> numérico

Variable 5: smoker -> carácter

Variable 6: region -> carácter

Variable 7: charges -> numérico

4. Análisis gráfico y medidas descriptivas de datos cuantitativos (análisis mediciones de un proceso):

De la base de datos anterior (punto2), Para cada una de las variables cuantitativas anteriores, realice el histograma y calcule todas las medidas descriptivas y haga un análisis de los resultados obtenidos.

Variable age:

Resultados obtenidos:

Analisis de los resultados obtenidos:

De acuerdo con los siguientes datos obtenidos podemos notar que las edades varían entre los 18 a 64 años. Queriendo decir que las personas que se aseguran una vez que cumplen su mayoría de edad ya que son más propensos a sufrir alguna enfermedad.

Histograma:

Variable bmi:

Resultados obtenidos:

Analisis de los resultados obtenidos:

En este grafico de índice de masa corporal (bmi) la mayor parte de persona asegurada tiene un IMC entre 30 a 35 y la menor parte entre 40 y 45.

Histograma:

Variable children:

Resultados obtenidos:

Analisis de los resultados obtenidos:

De acuerdo al grafico de las 90 observaciones que se obtuvieron aleatoriamente de la base de datos de los asegurados la mayor cantidad de asegurados no tiene hijos y una menos parte tiene mas de 4 hijos.

Histograma:

Variable charges:

Resultados obtenidos:

Analisis de los resultados obtenidos:

De acuerdo al grafico de las 90 observaciones que se obtuvieron aleatoriamente de la base de datos de los asegurados podemos observar que la mayor parte de persona aseguradas tienen una prima inferior a 1,2mil y la menor parte entre 60mil y 70mil.

Histograma:

5. Análisis gráfico y medidas descriptivas de datos cualitativos (análisis de atributos de un proceso):

De la base de datos anterior (punto 2), Para cada una de las variables cualitativas anteriores, realice un gráfico apropiado (barras o sectores) y calcule las tablas de frecuencia.

Variable sex:

Resultados obtenidos:

Analisis de los resultados obtenidos:

De acuerdo con los resultados obtenidos en el grafico observamos que la mayor parte de asegurados son de sexo masculino y la menor parte es de sexo femenino.

Diagrama de Barras:

Variable smoker:

Resultados obtenidos:

Analisis de los resultados obtenidos:

De acuerdo al grafico podemos observar la cantidad de asegurados que fuman y la mayor cantidad de asegurados no fuman.

Diagrama de Barras:

Variable region:

Resultados obtenidos:

Analisis de los resultados obtenidos:

Los resultados de este grafico nos indican la región de donde viven los asegurados, del total de la muestra se equiparan las regiones de northest, northwest y las regiones del sur también están equiparadas pero la mayor parte de los asegurados viene de las regiones del norte.

Diagrama de Barras:

Bibliografia click para ir a la base de datos