EXAMEN - UNIDAD DE COMPETENCIA 2

La estadística es la ciencia de recolectar, describir e interpretar datos, y en base a estos datos poder llegar a una toma de decision, o tambien poder llegar a comunicar las conclusiones mas significativas, dentro de la ingenieria en software tambien es muy utilizada la estadistica para la realizacion de toma de decisiones, tambien hay ingenieros que se especializan en ciencia de datos para sacarle mas provecho a la estadistica y poder contribuir a resolver problemas de una empresa u organización tratando de dar la mejor solucion posible en base a todos sus datos recopilados

CUALITATVIAS: Tambien conocidas como atributos, estos tipos de variables son aquellos que no se pueden medir de forma numerica, ejemplos de este tipo de variables serian la nacionalidad de un individuo, o el genero de un individuo.

CUANTITATIVAS: Son las variables que a diferencia de las cualitativas estas si tienen un valor numerico, ejemplos de esto serian: la distancia que hay de un arbol a otro, podrian ser 2.5m; o la cantidad de alumnos inscritos en un curso, pueden ser 19,20,etc… De hecho de aqui se derivan las variables discretas y continuas son variables cuantitativas.

DISCRETAS: Son las variables que solo pueden tomar valores contables, algunos ejemplos serian: el numero de personas que viven dentro de una casa, pueden ser 3,4,5, etc…, la cantidad de asientos en una sala de cine, pueden ser 30,40,etc…

CONTINUAS: Son las variables que pueden tomar cualquier valor real que se encuentre dentro de un intervalo dado. dentro de este tipo de variables podemos encontrar los volumenes, la distancia, el tiempo la velocidad, etc… Algunos ejemplos de estos serian: La velocidad a la que viaja un carro que podria ser 64,2 km/h o tambien el volumen de una piscina que pueden ser 4,1 m^3

DISTRIBUCION DE FRECUENCIA: La distribucion de frecuencia es la representacion estructurada que se le da a toda la informacion recopilada sobre la variable estudiada, esta puede tener forma de tabla o forma de grafica.

DISTRIBUCION NORMAL: La distribucion normal se encarga de adaptar una varibale aleatoria a una funcion que depende de la media y de la deviasion estandar, en otras palabras, la funcion y la variable aleatoria tendran una representacion igual pero con una que otra diferencia.

Importar los datos del archivo de Excel ‘pozos’ y contestar lo que se le pide a continuación:

Estos datos son: Datos de pH y Temperatura de pozos de agua subterránea Se elaborarán estos incisos 1 vez para pH y otra para Temperatura

IMPORTAMOS LOS DATOS

library(readxl)
pozos<-read_xlsx("pozos.xlsx")

A) Ordene los datos de menor a mayor, indique el valor máximo / mínimo y el rango total de datos

ph<-(pozos$PH)
temp<-(pozos$TEMP)

Ordenar para PH

sort(ph,decreasing=FALSE)
##   [1] 6.1 6.3 6.4 6.4 6.4 6.4 6.4 6.4 6.4 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5
##  [19] 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6
##  [37] 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.7 6.7 6.7 6.7 6.7
##  [55] 6.7 6.7 6.7 6.7 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
##  [73] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
##  [91] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
## [109] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9
## [127] 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9
## [145] 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 7.0 7.0
## [163] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [181] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [199] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [217] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [235] 7.0 7.0 7.0 7.0 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1
## [253] 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.2 7.2
## [271] 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.3 7.3 7.3 7.3 7.3 7.3 7.4 7.4
## [289] 7.4 7.4 7.4 7.4 7.5

Ordenar para temperatura

sort(temp,decreasing=FALSE)
##   [1] 25.6 25.8 26.2 26.3 26.3 26.4 26.4 26.8 26.8 26.9 27.0 27.0 27.1 27.2 27.2
##  [16] 27.3 27.3 27.3 27.3 27.4 27.4 27.4 27.4 27.4 27.5 27.5 27.5 27.5 27.5 27.5
##  [31] 27.5 27.5 27.5 27.5 27.5 27.5 27.6 27.7 27.7 27.7 27.7 27.8 27.8 27.8 27.8
##  [46] 27.8 27.8 27.8 27.8 27.8 27.8 27.8 27.9 27.9 27.9 27.9 27.9 27.9 27.9 27.9
##  [61] 27.9 27.9 27.9 27.9 27.9 27.9 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0
##  [76] 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.1 28.1 28.1 28.2 28.2 28.2
##  [91] 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.3 28.3 28.3 28.3 28.3 28.3
## [106] 28.3 28.4 28.4 28.4 28.4 28.4 28.4 28.4 28.5 28.5 28.5 28.5 28.5 28.5 28.5
## [121] 28.5 28.5 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6
## [136] 28.6 28.6 28.6 28.6 28.6 28.6 28.7 28.7 28.7 28.7 28.7 28.7 28.7 28.7 28.7
## [151] 28.7 28.7 28.7 28.7 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8
## [166] 28.8 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9
## [181] 28.9 28.9 28.9 28.9 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0
## [196] 29.0 29.0 29.0 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.2
## [211] 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.3 29.3
## [226] 29.3 29.3 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.5 29.5
## [241] 29.5 29.5 29.5 29.5 29.5 29.5 29.5 29.6 29.6 29.6 29.7 29.7 29.8 29.8 29.8
## [256] 29.8 29.8 29.8 29.9 29.9 29.9 29.9 30.0 30.0 30.0 30.0 30.0 30.0 30.1 30.1
## [271] 30.1 30.1 30.2 30.2 30.2 30.3 30.3 30.3 30.3 30.4 30.5 30.6 30.8 30.9 31.1
## [286] 31.1 31.1 31.2 31.4 31.5 31.7 31.9 32.1

C) Construya una tabla de frecuencias que incluya: límites de clases, frecuencia absoluta, frecuencia relativa, frecuencia relativa porcentual, frecuencia acumulada y explique a detalle que refleja esta tabla.

library(fdth)
## 
## Attaching package: 'fdth'
## The following objects are masked from 'package:stats':
## 
##     sd, var

Para PH

tablap<-fdt(ph)
tablap
##   Class limits   f   rf rf(%)  cf  cf(%)
##  [6.039,6.193)   1 0.00  0.34   1   0.34
##  [6.193,6.346)   1 0.00  0.34   2   0.68
##    [6.346,6.5)   7 0.02  2.39   9   3.07
##    [6.5,6.653)  40 0.14 13.65  49  16.72
##  [6.653,6.807)  67 0.23 22.87 116  39.59
##  [6.807,6.961)  44 0.15 15.02 160  54.61
##  [6.961,7.114) 108 0.37 36.86 268  91.47
##  [7.114,7.268)  12 0.04  4.10 280  95.56
##  [7.268,7.421)  12 0.04  4.10 292  99.66
##  [7.421,7.575)   1 0.00  0.34 293 100.00

Para empezar en esta tabla tenemos los limites de clases que vienen siendo los intervalos de donde se extraen los datos, estos intervalos son divididos en 10 secciones, a un lado de los limites de clases viene la frecuencia absoluta la cual representa la cantidad de datos que se encuentran dentro de ese limite de clase, si nos fijamos en el primer limite de clase, este solamente toma datos que se encuentren entre los valores de 6.039 y 6.193, ahora si vemos nuestra tabla con los valores de ph podemos ver que solamente existe un solo dato que puede entrar dentro de ese intervalo, y ese viene siendo el 6.1, de hecho es el primero que se muestra en la tabla de PH, por tanto, al haber un solo dato dentro de ese rango, la frecuencia absoluta de este limite de clase es 1; respecto a la frecuencia relativa, esta nos arroja la probabilidad de obtener alguno de los datos que se encuentran dentro del limite de clase entre todos los datos que tiene la tabla, es por eso que si nos fijamos nuevamente en el primer limite de clase solamente hay 0.34% de obtener un dato que se encuentre dentro de ese limite, y esto es porque el primer limite de clase solo tiene 1 dato dentro de el, por esa razon su porcentaje de frecuencia relativa es tan bajo, si existieran mas datos dentro de ese limite obviamente el porcentaje de la frecuencia relativa va a ser mayor como lo puede ser en el limite de clase de [6.961,7.114) ya que en ese limite existen 108 datos, por lo que al ser mas datos, mayor posibilidad de obtener alguno de estos existe, y en su caso seia de 36.86%; finalmente se encuentra la frecuencia acumulada la cual va siendo una sumatoria de todos los datos que hay en nuestra tabla, por lo que en esta tabla cada que vamos avanzando de limite a limite se le van sumando los datos capturados hasta llegar al ultimo limite, ya que en el primer limite y en el segundo solo habian un dato en cada uno, en la frecuencia acumulada estos 2 se suman y asi sucesivamente con todos los demas; lo mismo pasa con el porcentaje de frecuencia acumulada, en esta se nos van sumando los porcentajes de cada uno de los limites de clases y una vez sumado todos los limites nos dara el 100% porque se encontraran todos los datos; Sabiendo esto, podemos ver que donde es mas comun ver los datos de PH son desde el limite [6.5,6.653) hasta [6.961,7.114) esto debido a que son los niveles mas promedio que hay de PH

Para la temperatura

tablat<-fdt(temp)
tablat
##     Class limits  f   rf rf(%)  cf  cf(%)
##  [25.344,26.052)  2 0.01  0.68   2   0.68
##  [26.052,26.759)  5 0.02  1.71   7   2.39
##  [26.759,27.467) 17 0.06  5.80  24   8.19
##  [27.467,28.175) 63 0.22 21.50  87  29.69
##  [28.175,28.883) 79 0.27 26.96 166  56.66
##   [28.883,29.59) 81 0.28 27.65 247  84.30
##   [29.59,30.298) 28 0.10  9.56 275  93.86
##  [30.298,31.006)  9 0.03  3.07 284  96.93
##  [31.006,31.713)  7 0.02  2.39 291  99.32
##  [31.713,32.421)  2 0.01  0.68 293 100.00

Despues de dar la explicacion con PH es mas facil explicar con la temperatura, podemos ver que los datos de las temperaturas comienzan a agruparse mas dentro del rango de los 26.759 en adelante hasta llegar a los 30.298 grados, esto debido a que son las temperaturas mas normales que pueden haber dentro de un pozo, por lo que pocos son los casos donde la temperatura se encuentra de 25 grados o menos, o de 32 grados o mas.

D) Elabore un histograma, polígono de frecuencias, histograma de frecuencias acumulado.

Histograma para ph

plot(tablap, type="fh")

Poligono de frecuencia para ph

plot(tablap, type="fp")

Histograma de frecuencias acumulado para ph

plot(tablap, type="cfh")

Histograma para temperatura

plot(tablat, type="fh")

Poligono de frecuencia para temperatura

plot(tablat, type="fp")

Histograma de frecuencias acumulado para temperatura

plot(tablat, type="cfh")

Con estas graficas podemos observar 2 cosas, que el ph que hay en los pozos tiende a estar rondando entre los 6.7 y los 7.1 por lo que estos valores vienen siendo los mas comunes de ph en los pozos que nos podriamos encontrar; mientras que por lado de la temperatura podemos ver que la temperatura mas comun que se encuentra en los pozos ronda entre los 27 y 30 grados.

E) Obtenga la media, mediana, moda e interprete los resultados.

library(modeest)
## 
## Attaching package: 'modeest'
## The following object is masked from 'package:fdth':
## 
##     mfv

Media de ph

mean(ph)
## [1] 6.890444

Mediana de ph

median(ph)
## [1] 6.9

Moda de ph

mlv(ph, method = "mfv")
## [1] 7

analizando los datos de media, mediana y moda del ph podemos ver que eran de lo mas esperado, en primer lugar tenemos la media que nos dice que el promedio que hay de ph es 6.89, esto se debe a que en la tabla de los datos de ph se puede ver que los numeros de la escala mas dominantes eran los que rondaban entre 6.7 y 7.1 donde se demuestra que el ph mas “dominante” vendria siendo el ph de 7 ya que este es el que mas se repetia (por algo la moda es 7), alguno mas rebasaba esta cantidad, o alguno que otro no se encontraba cerca de la escala del 6.7 al 7.1, pero al final el sacar el promedio de todo el PH da un resultado bastante logico y esperado que seria de 6.89, curiosamente es semejante a la mediana de la escala del ph que es de 6.9

Media de temperatura

mean(temp)
## [1] 28.69795

Mediana de temperatura

median(temp)
## [1] 28.7

Moda de temperatura

mlv(temp, method = "mfv")
## [1] 28.6

Como en el caso del PH, tambien se sabia que las temperaturas mas comunes que hay en los pozos rondaban entre los 27 y 30 grados, por lo que era de esperarse de que saliera una media de temperatura de 28.69 grados, ya que la cantidad de datos de temperatura que hay desde los 28 hasta los 29 grados es la mas grande, obviamente tambien hay mas temperaturas registradas de mayor valor, y algunas de menor; pero lo promedio en si se encontraba entre los 28 y 29 grados, la mediana pues es de 28.7 grados que en si nomas demuestra el valor de un dato, pero esta mas que claro que es uno de los valores mas promedio que hay, y por otro lado la temperatura registrada que mas se repitio viene siendo los 28.6 grados.

F) Obtenga la varianza y la desviación estándar, interprete los resultados. ¿Pueden estas medidas ser negativas?

Varianza de PH

var(pozos$PH)
## [1] 0.04908645

al estar la varianza tan alejada del 1 significa que tienen muy poca varianza los datos entre si por lo que no son muy dispersos

Desviacion Estandar de PH

sd(pozos$PH)
## [1] 0.2215546

Al tener tan poca varianza, tambien significara que se tiene poca desviacion estandar ya que estos datos no estan tan dispersos entre si

Varianza de temperatura

var(pozos$TEMP)
## [1] 1.035407

Tienen una varianza superior al 1 por lo que estas si se desvian mucho mas que la escala del ph ya que al ser grados tienen un rango mucho mayor al de la escala del ph

Desviacion Estandar de temperatura

sd(pozos$TEMP)
## [1] 1.017549

Como los datos varian mas aqui, lo normal es que tenga una desviacion estandar mayor a 1 ya que los datos se encuentran mas dispersos.

Estas medidas no pueden ser negativas porque para sacar la desviacion estandar se necesita sacar primeramente la raiz de la varianza, y no se le puede sacar raiz a un numero negativo.

G) Elabore gráfico de caja y bigote

Para ph

boxplot(ph)

Podemos observar que en este grafico donde se encuentran la mayor parte de los datos del PH es entre 6.8 y 7.0, ahi se representa el 50% de los datos obtenidos, mientras que los demas datos donde no se concentran demasiado es entre los 6.5,6.6 6.7, y de adelante de 7.1, y entre mas alejados se encuentran de la escala, menos datos son existentes

Para temperatura

boxplot(temp)

Podemos observar que en este grafico donde se encuentran la mayor parte de los datos de la temperatura es entre los 28 y 29 grados, ahi se representa el 50% de los datos obtenidos, mientras que los demas datos donde no se concentran demasiado es entre los 26,27,30 y 31 grados