E1U2

Jarol Tellez

library(fdth,modeest)
## 
## Attaching package: 'fdth'
## The following objects are masked from 'package:stats':
## 
##     sd, var
library(pacman)
p_load(rmdformats,readr,readxl,ggplot2,plotly,DT,xfun,gridExtra,leaflet,TSstudio)

Examen

Nombre: Jarol Francisco Tellez Castro ID:00000228188

¿Qué es la estadística y que aplicaciones tiene en ingeniería (según su ingeniería)?

La estadística es una rama de las matemáticas en la que se reúnen, organizan, analizan, interpretan y presentan datos para explicar o predecir algo, por lo que con su uso podemos entender mejor los hechos cuando los datos se analizan, encontrando estadística descriptiva que es usada para describir las características de los datos usando recursos como tablas y gráficos y, por otra parte, la estadística inferencial usada para hacer predicciones y en ingeniería en software se puede aplicar para entender la eficacia de algún software así como ayudar a mejorar su calidad y mejorar los procesos.

  • Enliste y defina los tipos de variables utilizados en estadística.

En estadistica se usan las variables cuantitativas que son las que se expresan numericamente como por ejemplo son usadas para representar la altura de las personas, distancias, entre otras y las cualitativas que son las que describen una cosa o persona, pero sin hacer uso de números por lo que se representan con palabras como por ejemplo el estado civil de una persona, su sexo, entre otras.

  • Defina distribución de frecuencia y explique que es la distribución normal.

La distribución de frecuencia es la organización que se hace por medio de una tabla a los datos, dándole la frecuencia que le corresponde es decir que de un conjunto de datos se le da a cada valor el número de veces que se encuentra en ese conjunto y la distribución normal es la utilizada para calcular la probabilidad de que un valor de una variable ocurra dentro de un rango, la gráfica de la probabilidad normal es la que tiene forma de campana teniendo su punto más alto en la media y el área total de esa es de 1 que es el total de la probabilidad, es por eso que cuando observamos que el comportamiento que tienen un conjunto de datos por medio de un histograma estén forma de campana y de manera centrada se dice que los datos son normales.

importación de datos

library(readxl)
pozos <- read_excel("pozos.xlsx")
View(pozos)
p<-(pozos$PH)
t<-(pozos$TEMP)

Punto A

Menor a mayor

  • PH
sort(p,decreasing = FALSE)
##   [1] 6.1 6.3 6.4 6.4 6.4 6.4 6.4 6.4 6.4 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5
##  [19] 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6
##  [37] 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.6 6.7 6.7 6.7 6.7 6.7
##  [55] 6.7 6.7 6.7 6.7 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
##  [73] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
##  [91] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8
## [109] 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.8 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9
## [127] 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9
## [145] 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 6.9 7.0 7.0
## [163] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [181] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [199] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [217] 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0 7.0
## [235] 7.0 7.0 7.0 7.0 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1
## [253] 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.1 7.2 7.2
## [271] 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.2 7.3 7.3 7.3 7.3 7.3 7.3 7.4 7.4
## [289] 7.4 7.4 7.4 7.4 7.5
  • Temperatura
sort(t,decreasing = FALSE)
##   [1] 25.6 25.8 26.2 26.3 26.3 26.4 26.4 26.8 26.8 26.9 27.0 27.0 27.1 27.2 27.2
##  [16] 27.3 27.3 27.3 27.3 27.4 27.4 27.4 27.4 27.4 27.5 27.5 27.5 27.5 27.5 27.5
##  [31] 27.5 27.5 27.5 27.5 27.5 27.5 27.6 27.7 27.7 27.7 27.7 27.8 27.8 27.8 27.8
##  [46] 27.8 27.8 27.8 27.8 27.8 27.8 27.8 27.9 27.9 27.9 27.9 27.9 27.9 27.9 27.9
##  [61] 27.9 27.9 27.9 27.9 27.9 27.9 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0
##  [76] 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.0 28.1 28.1 28.1 28.2 28.2 28.2
##  [91] 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.2 28.3 28.3 28.3 28.3 28.3 28.3
## [106] 28.3 28.4 28.4 28.4 28.4 28.4 28.4 28.4 28.5 28.5 28.5 28.5 28.5 28.5 28.5
## [121] 28.5 28.5 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6 28.6
## [136] 28.6 28.6 28.6 28.6 28.6 28.6 28.7 28.7 28.7 28.7 28.7 28.7 28.7 28.7 28.7
## [151] 28.7 28.7 28.7 28.7 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8 28.8
## [166] 28.8 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9 28.9
## [181] 28.9 28.9 28.9 28.9 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0 29.0
## [196] 29.0 29.0 29.0 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.1 29.2
## [211] 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.2 29.3 29.3
## [226] 29.3 29.3 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.4 29.5 29.5
## [241] 29.5 29.5 29.5 29.5 29.5 29.5 29.5 29.6 29.6 29.6 29.7 29.7 29.8 29.8 29.8
## [256] 29.8 29.8 29.8 29.9 29.9 29.9 29.9 30.0 30.0 30.0 30.0 30.0 30.0 30.1 30.1
## [271] 30.1 30.1 30.2 30.2 30.2 30.3 30.3 30.3 30.3 30.4 30.5 30.6 30.8 30.9 31.1
## [286] 31.1 31.1 31.2 31.4 31.5 31.7 31.9 32.1

Valor maximo y minimo

  • PH
max(p)
## [1] 7.5
min(p)
## [1] 6.1
  • Temperatura
max(t)
## [1] 32.1
min(t)
## [1] 25.6

Rango total

  • PH

Los datos de PH cuentan con un rago de de 1.4 ya que va de 6.1 a 7.5

max(p)-min(p)
## [1] 1.4
  • Temperatura

Los datos de temperatura cuentan con un rago de de 6.5 ya que va de 25.6 a 32.1

max(t)-min(t)
## [1] 6.5

Punto B

Intervalos usando la fórmula según Sturges

  • PH
v<-length(p)

inter<-ceiling(sqrt(v))
inter
## [1] 18
  • PH
v<-length(t)

inter<-ceiling(sqrt(v))
inter
## [1] 18

Punto C

Tabla de frecuencias: límites de clases, frecuencia absoluta, frecuencia relativa, frecuencia relativa porcentual, frecuencia acumulada

  • En esta tabla de frecuencias se puede observar primeramente los intervalos los cuales son 10 mismos que tienen la misma amplitud, posteriormente se encuentra la frecuencia absoluta que es el número de datos que se encuentran dentro de dicho intervalo, después está la frecuencia relativa que se obtiene por dividir la frecuencia absoluta entre el número de datos del conjunto, posteriormente la frecuencia relativa porcentual en la que como su nombre lo indica los valores de la frecuencia relativa se representa en porcentaje así es más fácil relacionar los valores porque se ve más claro al tomar en cuenta el 100% como total y no 1, la frecuencia acumulada que se obtiene de sumar sucesivamente las frecuencias absolutas y por último la frecuencia acumulada porcentual.

  • PH

tablaPH<- fdt(p)
tablaPH
##   Class limits   f   rf rf(%)  cf  cf(%)
##  [6.039,6.193)   1 0.00  0.34   1   0.34
##  [6.193,6.346)   1 0.00  0.34   2   0.68
##    [6.346,6.5)   7 0.02  2.39   9   3.07
##    [6.5,6.653)  40 0.14 13.65  49  16.72
##  [6.653,6.807)  67 0.23 22.87 116  39.59
##  [6.807,6.961)  44 0.15 15.02 160  54.61
##  [6.961,7.114) 108 0.37 36.86 268  91.47
##  [7.114,7.268)  12 0.04  4.10 280  95.56
##  [7.268,7.421)  12 0.04  4.10 292  99.66
##  [7.421,7.575)   1 0.00  0.34 293 100.00

Aquí la frecuencia absoluta mayor es 108 lo que quiere decir que en el intervalo de 6.961 a 7.114 es donde hay más datos, representando el 36.86% de los datos y se observa que en el primer, segundo y último intervalo solo se encuentra un valor en ellos siendo la frecuencia absoluta menor representando solo el 0.34% de los datos y también se observa que hay 293 datos, ya que en la frecuencia acumulada porcentual se indica que es el 100%.

  • Temperatura
tablaTEMP<- fdt(t)
tablaTEMP
##     Class limits  f   rf rf(%)  cf  cf(%)
##  [25.344,26.052)  2 0.01  0.68   2   0.68
##  [26.052,26.759)  5 0.02  1.71   7   2.39
##  [26.759,27.467) 17 0.06  5.80  24   8.19
##  [27.467,28.175) 63 0.22 21.50  87  29.69
##  [28.175,28.883) 79 0.27 26.96 166  56.66
##   [28.883,29.59) 81 0.28 27.65 247  84.30
##   [29.59,30.298) 28 0.10  9.56 275  93.86
##  [30.298,31.006)  9 0.03  3.07 284  96.93
##  [31.006,31.713)  7 0.02  2.39 291  99.32
##  [31.713,32.421)  2 0.01  0.68 293 100.00

Con los valores de temperatura la frecuencia absoluta mayor es 81 lo que quiere decir que en el intervalo de 28.88 a 29.59 es donde hay más datos, representando el 27.65% de los datos y se observa que en el primer y último intervalo solo se encuentran 2 valores en ellos siendo la frecuencia absoluta menor representando solo el 0.68% de los datos.

Punto D

Histograma

  • PH
plot(tablaPH,type="fh")

Aquí podemos ver gráficamente la frecuencia de cada uno de los intervalos, de igual manera dándonos cuenta de que el pico más alto nos indica que los valores de PH que más se encuentran en estos datos son de 6.96 a 7.11 y los valores de PH que menos se encuentran en este conjunto de datos son los de 6.04 a 6.35 y de 7.42 a 7.58.

  • Temperatura
plot(tablaTEMP,type="fh")

En esta gráfica se observa que la mayor frecuencia de datos de temperatura se encuentra en los intervalos que van de 28.17 a 29.59 por lo que es fácil percatarnos que estos datos son normales por su la forma de campana que tiene la gráfica y que se agrupan al centro es decir en la media.

Poligono de frecuencias

  • PH
plot(tablaPH,type="fp")

En este polígono de frecuencia se representa lo mismo solo que es más sencillo ver los aumentos y disminuciones en los valores de los datos.

  • Temperatura
plot(tablaTEMP,type="fp")

Histograma de frecuencias acumuladas

  • PH
plot(tablaPH,type="cfh")

Este histograma siempre va en aumento, ya que como se mencionó anteriormente las frecuencias acumuladas, se obtienen de sumar sucesivamente las frecuencias absolutas de todos los intervalos.

  • Temperatura
plot(tablaTEMP,type="cfh")

Este histograma siempre va en aumento ya que como se menciono anteriormente las frecuencias acumuladas, se obtienen de sumar sucesivamente las frecuencias absolutas de todos los intervalos.

Punto E

Media

  • PH

Indica que en promedio el PH es de 6.89

mean(p)
## [1] 6.890444

Se indica que en promedio la temperatura es de 28.69

  • Temperatura
mean(t)
## [1] 28.69795

Mediana

  • PH

En la mitad de los valores del PH ordenados de menor a mayor se encuentra la mediana, en este caso es 6.9 lo que quiere decir que una mitad de los valores van a estar debajo de 6.9 y la otra mitad por encima.

median(p)
## [1] 6.9

En la mitad de los valores del PH ordenados de menor a mayor se encuentra la mediana, en este caso es 28.7 lo que quiere decir que una mitad de los valores van a estar debajo de 28.7 y la otra mitad por encima. * Temperatura

median(t)
## [1] 28.7

Moda

  • PH

Aqui observamos el dato que mas se repite por lo que entendemos que el valor de PH que mas se encuentra en nuestros datos es 7.

mfv(p,method="mfv")
## [1] 7
  • Temperatura

Se observa que la temperatura que mas se repite en los datos es de 28.6 grados

mfv(t,method="mfv")
## [1] 28.6
  • En ambos casos es decir en los datos de PH y temperatura observamos que son normales porque se encuentran cerca de la media y mediana

Punto F

Varianza

  • PH

Los datos de PH estan concentrados ya que entre mas se acerque a cero menos dispersos seran los datos

var(p)
## [1] 0.04908645
  • Temperatura

Aqui igualmente se esta idnicando que los datos estan concentrados alrededor de su media

var(t)
## [1] 1.035407

Desviacion estandar

Nos indica lo mismo solo que la desviacion estandar es la raiz cuadrada de la varianza * PH

sd(p)
## [1] 0.2215546
  • Temperatura
sd(t)
## [1] 1.017549

¿Pueden estas medidas ser negativas? No, no pueden ser negativas, ya que al elevar los residuos al cuadrado no es posible que de un numero negativo.

Punto G

Gráfico de caja y bigote

  • PH
boxplot(p)

En este gráfico de caja y bigotes observamos que los datos no están dispersos, ya que la caja es simétrica y además es pequeña, lo que nos confirma que los valores son simétricos, ya que están más cerca de la mediana

  • Temperatura
boxplot(t)

Con las temperaturas observamos lo mismo acerca de que los datos no están tan dispersos, pero si un poco más que los de PH, ya que la caja no es tan asimétrica con respecto a la mediana, pero igualmente la caja no se inclina ni a la parte superior ni inferior.

Punto H

Grráfica de dispersión de pH versus temperatura

ggplot(pozos,aes(x=TEMP,y=PH))+geom_point()

¿Considera que estas 2 variables están relacionadas?

No, no estan relacionadas porque no se ve un patron de comportamiento especial en los puntos, es decir no se ve que efecto hace la variable independiente sobre la dependiente.

Ensayo

¿De qué manera o maneras reales puede México ser un país más desarrollado?

México puede llegar a ser un país más desarrollado si se logra que las personas se interesan en ser buenos en el manejo de las TIC, especialmente las que tengan pequeñas y medianas empresas, ya que hay aproximadamente 579 mil 828 pymes dedicadas al sector de manufacturas y más de dos millones 248 mil 315 unidades en comercio de las cuales según estudios de Zoho Corp se estima que solo el 6% de las pymes en México utilizan las tecnológicas de la información lo cual es preocupante, ya que las TIC a las pymes les ofrecen grandes beneficios como el desarrollo de sus profesionales en el intercambio de información así como también para la promoción de sus productos o servicios, lo que puede impulsar a incrementar su productividad y por ende ser más competitivas y es por ello que se destaca este punto, ya que básicamente son el motor de la economía, generando tres de cuatro empleos en el país, además se facilitaría a las pymes poder expandirse no solo en México sino en otros países, pero no solo es el hecho de que las pymes hagan uso de las TIC, sino que lo hagan correctamente según sus necesidades, basándose en su mercado meta así como también en las TIC que sean más amigables con sus empleados para que aprendan a utilizarlas fácilmente, otro punto destacable es que se enfoquen al uso de las TIC a largo plazo para que puedan seguir haciendo uso de estas mientras sus necesidades van cambiando, ya que si se sigue con el mismo modelo de trabajo que funciono durante unos años y sigue habiendo rechazo a las TIC, dudo que haya algo que pueda brindar mayor eficacia para poder desarrollar este aspecto, por ejemplo la pyme industrial yucateca tiene una edad promedio de 22.3 años y aunque podría indicarnos que ya hay experiencia suficiente para la competencia global no es así, ya que la competitividad de estas empresas yucatecas está a la baja, debido a la pérdida de la competitividad nacional, principalmente por el desplazamiento en el mercado de los Estados Unidos de México por China, el incremento de importaciones asiáticas y la exportación de bienes con escaso valor agregado tecnológico y alta intensidad de mano de obra así, la adopción de TIC debería de contribuir a confrontar los efectos de la disminución de la competitividad al mejorar la presencia, la administración y la comercialización de las PYME así asiendo uso específicamente de herramientas como la página web, el comercio electrónico, y las diversas herramientas de comunicación.