Examen de la primera unidad de competencias

¿Qué es estadistica?

Podemos definir a la estadistica como una ciencia, yo diría que no está en la rama de las matematícas y que se puede diferenciar de su porpia rama, es una ciencia muy extensa en la cual se encarga de la recolección, ordenamiento, repreentación y analisis de datos generados en una investigación sobre una muestra hecha a una determinada población, para deducir conlcusiones o preducciones futuras.

En la ingenieria y en el mundo externo, realmente es importante para el futuro, ya que dando el ejemplo con ingeniería química, se pueden realizar modelos analiticos de como se comportaría un sistema basandose en datos anteriores de la producción, o para temas más complejos, como investigar nuevas energias renovables, por ejemplo si son más factibles unos metodos que otros, o si conviene usar una energía alterna en vez de la que se iba a usar, etc.

Enliste y defina los tipos de variables usados en estadística, de 2 ejemplos de cada uno.

Variable cuantitativa: Son variables que se expresan numéricamente.

Variable continua: Toman un valor infinito de valores entre un intervalo de datos. El tiempo que tarda un corredor en completar los 100 metros lisos.

Variable discreta: Toman un valor finito de valores entre un intervalo de datos. Número de helados vendidos.

Variable cualitativa: Son variables que se expresan, por norma general, en palabras.

Variable ordinal: Expresa diferentes niveles y orden.

Variable nominal: Expresa un nombre claramente diferenciado. Por ejemplo el color de ojos puede ser azul, negro, castaño, verde, etc.

Defina distribución de frecuencia y distribución normal

Distribución de frecuencia: Son datos que formamos al recolectar, observar, etc. de manera que se clasifica en distintos grupos únicos, es como ordenamos los datos de manera ascendente o descendente.

Frecuencia absoluta: Es la cantidad de cada grupo, también se puede ver como la cantidad de veces que aparece o repite un dato.

Frecuencia relativa: Es el resultado de calcular el coeficiente de la frecuencia absoluta entre los datos totales que componen un grupo.

Frecuencia porcentual: Es el porcentaje de cada frecuencia absoluta respecto del tamaño de la muestra (que al sumar debe ser de 100).

Distribución Normal Es una distribución muy utilizada y funciona generalmente para variables continuas, esta especificada por dos parámetros que dependen de una función y que resultan ser la media y la desviación de la distribución.

Caso de examen

library(pacman)
p_load(rmdformats,readr,readxl,ggplot2,plotly,DT,xfun,gridExtra,leaflet)
pozos <- read_excel("pozos.xlsx")
pH <- (pozos$PH)
TpH <- (pozos$TEMP)
datatable(pozos)

A) Ordene los datos de menor a mayor, indique el valor máximo / mínimo y el rango total de datos.

sort(pH)
##   [1] 6.1 6.3 6.4 6.4 6.4 6.4 6.4 6.4 6.4 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5
##  [19] 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6
##  [37] 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.7 6.7 6.7 6.7 6.7
##  [55] 6.7 6.7 6.7 6.7 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
##  [73] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
##  [91] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
## [109] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9
## [127] 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9
## [145] 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 7.0 7.0
## [163] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [181] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [199] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [217] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [235] 7.0 7.0 7.0 7.0 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1
## [253] 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.2 7.2
## [271] 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.3 7.3 7.3 7.3 7.3 7.3 7.4 7.4
## [289] 7.4 7.4 7.4 7.4 7.5
  • datos de pH
sort(TpH)
##   [1] 25.6 25.8 26.2 26.3 26.3 26.4 26.4 26.8 26.8 26.9 27.0 27.0 27.1 27.2 27.2
##  [16] 27.3 27.3 27.3 27.3 27.4 27.4 27.4 27.4 27.4 27.5 27.5 27.5 27.5 27.5 27.5
##  [31] 27.5 27.5 27.5 27.5 27.5 27.5 27.6 27.7 27.7 27.7 27.7 27.8 27.8 27.8 27.8
##  [46] 27.8 27.8 27.8 27.8 27.8 27.8 27.8 27.9 27.9 27.9 27.9 27.9 27.9 27.9 27.9
##  [61] 27.9 27.9 27.9 27.9 27.9 27.9 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0
##  [76] 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.1 28.1 28.1 28.2 28.2 28.2
##  [91] 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.3 28.3 28.3 28.3 28.3 28.3
## [106] 28.3 28.4 28.4 28.4 28.4 28.4 28.4 28.4 28.5 28.5 28.5 28.5 28.5 28.5 28.5
## [121] 28.5 28.5 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6
## [136] 28.6 28.6 28.6 28.6 28.6 28.6 28.7 28.7 28.7 28.7 28.7 28.7 28.7 28.7 28.7
## [151] 28.7 28.7 28.7 28.7 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8
## [166] 28.8 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9
## [181] 28.9 28.9 28.9 28.9 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0
## [196] 29.0 29.0 29.0 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.2
## [211] 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.3 29.3
## [226] 29.3 29.3 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.5 29.5
## [241] 29.5 29.5 29.5 29.5 29.5 29.5 29.5 29.6 29.6 29.6 29.7 29.7 29.8 29.8 29.8
## [256] 29.8 29.8 29.8 29.9 29.9 29.9 29.9 30.0 30.0 30.0 30.0 30.0 30.0 30.1 30.1
## [271] 30.1 30.1 30.2 30.2 30.2 30.3 30.3 30.3 30.3 30.4 30.5 30.6 30.8 30.9 31.1
## [286] 31.1 31.1 31.2 31.4 31.5 31.7 31.9 32.1

*datos de temperatura

max(pH)
## [1] 7.5
min(pH)
## [1] 6.1
  • dato maximo y minimo de pH Los datos maximos y minimos de pH fueron 7.5 el maximo y 6.1 el minimo, los dos datos son acidos
max(TpH)
## [1] 32.1
min(TpH)
## [1] 25.6
  • dato maximo y minimo de Temperatura Los datos obtenidos de temperatura fueron 32.1 maximo y 25.6 el minimo registrados.

*Rango de los datos

rangopH <- (max(pH) - min(pH))
rangopH
## [1] 1.4

Dato de pH 1.4

rangoTpH <- (max(TpH) - min(TpH))
rangoTpH
## [1] 6.5

Dato de Temperatura 6.5

B) Obtenga (el número de) los intervalos (o clases) usando la fórmula según Surges y el ancho de clase.

nclass.Sturges(pH)
## [1] 10
nclass.Sturges(TpH)
## [1] 10

Numero de intervalos de pH y temperatura es de 10

  • Ancho de clase
anchopH <- (rangopH/nclass.Sturges(pH))
anchopH
## [1] 0.14
anchoTpH <- (rangoTpH/nclass.Sturges(TpH))
anchoTpH
## [1] 0.65

Nuestro ancho de clase de pH es de 0.14 y el de la temperatura es de 0.65

C) Construya una tabla de frecuencias que incluya: límites de clases, frecuencia absoluta, frecuencia relativa, frecuencia relativa porcentual, frecuencia acumulada y explique a detalle que refleja esta tabla.

library(fdth)
## 
## Attaching package: 'fdth'
## The following objects are masked from 'package:stats':
## 
##     sd, var
tablafpH <- fdt(pH, breaks = "Sturges")
tablafpH
##   Class limits   f   rf rf(%)  cf  cf(%)
##  [6.039,6.193)   1 0.00  0.34   1   0.34
##  [6.193,6.346)   1 0.00  0.34   2   0.68
##    [6.346,6.5)   7 0.02  2.39   9   3.07
##    [6.5,6.653)  40 0.14 13.65  49  16.72
##  [6.653,6.807)  67 0.23 22.87 116  39.59
##  [6.807,6.961)  44 0.15 15.02 160  54.61
##  [6.961,7.114) 108 0.37 36.86 268  91.47
##  [7.114,7.268)  12 0.04  4.10 280  95.56
##  [7.268,7.421)  12 0.04  4.10 292  99.66
##  [7.421,7.575)   1 0.00  0.34 293 100.00

*Tabla de frecuencia de pH

tablafTpH <- fdt(TpH, breaks = "Sturges")
tablafTpH
##     Class limits  f   rf rf(%)  cf  cf(%)
##  [25.344,26.052)  2 0.01  0.68   2   0.68
##  [26.052,26.759)  5 0.02  1.71   7   2.39
##  [26.759,27.467) 17 0.06  5.80  24   8.19
##  [27.467,28.175) 63 0.22 21.50  87  29.69
##  [28.175,28.883) 79 0.27 26.96 166  56.66
##   [28.883,29.59) 81 0.28 27.65 247  84.30
##   [29.59,30.298) 28 0.10  9.56 275  93.86
##  [30.298,31.006)  9 0.03  3.07 284  96.93
##  [31.006,31.713)  7 0.02  2.39 291  99.32
##  [31.713,32.421)  2 0.01  0.68 293 100.00
  • Tabla de frecuencia de temperatura

En los datos de arriba nos indica que la mayoria de los datos frecuentes de pH estan en el rango de [6.961,7.114) con un procentaje del 36.86% y en la temperatura la mayoria de los datos frecuentes están en el rango de [28.883,29.59) con un porcentaje de datos del 27.65%

D) Elabore un histograma, polígono de frecuencias, histograma de frecuencias acumulado.

*Histograma de pH

hist(pH)

  • Histograma de Temperatura
hist(TpH)

  • Poligono de frecuencias de pH
plot(tablafpH, type = "fp")

  • Poligono de frecuencia de Temperatura
plot(tablafTpH, type = "fp")

  • histograma de frecuencias acumulado de pH
plot(tablafpH, type = "cfh")

  • histograma de frecuencias acumulado de temperatura
plot(tablafTpH, type = "cfh")

Analizando los datos de las tablas nos podemos dar cuenta con solo verlas que los datos de temperatura estan entre el 28 y 29. Los datos de pH están acumulando al rededor de 7, podemos decir que en un pH neutro.

E) Obtenga la media, mediana, moda e interprete los resultados.

  • media
mean(pH)
## [1] 6.890444

Media de pH

mean(TpH)
## [1] 28.69795

Media de Temperatura * mediana

median(pH)
## [1] 6.9

Mediana de pH

median(TpH)
## [1] 28.7

Mediana de Temperatura

  • Moda
mfv(pH)
## [1] 7

Moda de pH

mfv(TpH)
## [1] 28.6

Moda de temperatura

Analisando los datos de pH y temperatura podemos decir que los datos estan muy cercanos entre sí, la distribución es muy asimetrica y sesgada negativamente. Por lo que podemos decir que los datos están muy cerca entre sí y la mayoria de los datos se encuentran en 6.9 en caso de pH y 28 en caso de la temperatura.

F) Obtenga la varianza y la desviación estándar, interprete los resultados.

  • Varianza
var(pH)
## [1] 0.04908645

Varianza de pH

var(TpH)
## [1] 1.035407

Varianza de temperatura

  • Desviación estandar
sd(pH)
## [1] 0.2215546

Desviación de pH

sd(TpH)
## [1] 1.017549

Desviación de temperatura

En los dos casos de la temperatura y pH se puede notar que la Varianza y desviación son muy cercanos entre sí, por lo que se puede decir que están acercados a la media.

¿Pueden estas medidas ser negativas?

En valores que tengan sentido, No, ya que para que se interpreten los datos tienes que tener valores mayores a 0 debido a la formula que se utiliza.

G) Elabore gráfico de caja y bigote

boxplot(pH, col = "blue")

  • Grafico de caja y bigote para pH
boxplot(TpH, col = "blue")

  • Grafico de caja y bigote de Temperatura

Podemos ver que los datos de las dos variables se encuentran entre el segundo y tercer cuartil, tambien vemos que los datos de pH se encuentran entre un pH Neutro y se desvia un poco a lo acido, en la temperatura los datos están entre 28 y 29, podriamos decir que el agua del sub suelo, la mayoria del tiempo está a esa temperatura y con un pH neutro

H) Elabora una gráfica de dispersión de pH versus temperatura, use ggplot aquí. En base a esta gráfica: ¿Considera que estas 2 variables están relacionadas?

ggplot(data = pozos)+
  geom_point(mapping = aes(x= TEMP, y= PH), lwd = 2, col= "red")

* Matriz del diagrama

pairs(pozos)

En las variables se puede ver que estan un poco relacionadas entre sí, mi conlclusion es que en temperaturas dde entre 27.5 y 30, el pH se puede relacionar y decir que están relacionadas, ya fuera de ese rango la temperatura y el pH varia mucho, pero en conclusión podemos decir que sí estan relacionadas en cierto punto, y cuando las variables salen de esos puntos, como que se pierde el equilibrio.

Pregunta de rescate (opcional): Mini ensayo de mínimo media y máximo una cuartilla contestando a la pregunta: ¿De qué manera o maneras reales puede México ser un país más desarrollado? Elaboren y argumenten su propuesta o propuesta. (Use datos para fundamentarse)

El nivel de inflación, que llegó a ser de 131.7% en 1987, para 2011 se situó en 3%, el más bajo en América Latina. La deuda pública del gobierno central representaba 42.4% del PIB en 1990, reduciéndose a 28.8% en 2012. El presupuesto público alcanzó un déficit de 31% del PIB en 1986, y en la actualidad se maneja con niveles moderados de déficit que desde 1990 nunca han llegado al 3% (forbes)

Yo creo que la razón más logica es que la genté no esta acostumbrada a a inovación y solamente está acostumbrada a vivir otro día y no alcanzar por más, tambien está el tema de la corrupción en México y la abaricia del poder.