Evaluacion Unidad 1
Diferencias entre métodos supervisados y no supervisados
Métodos no supervisados:
Son aquellos en donde no se tiene un juego de datos sin etiquetas, no se requiere de ningón tipo de entrenamiento para diferenciar los datos entre sí, suelen utilizarse para tareas de agrupación.
Métodos supervisados:
En estos métodos, el algoritmo debe de “entrenar” primero con un set de datos establecido, el cual ya tiene cierta etiqueta o clasificación, lo cual ayudará a predecir tal clasificación en datos proporcionados posteriormente.
Proceso de resolución de problemas usando ciencia de datos
Paso 1: Definir el problema
Se debe saber exactamente cual es el problema. Las preguntas de datos deben traducirse primero en preguntas de las cuales se busca una respuesta. procesables.
Paso 2: Recopilación de datos sin procesar para el problema
Después de definir el problema, deberá recopilar los datos necesarios para obtener toda la información posible. El proceso implica encontrar formas de recopilar, obtener y escanear bases de datos internas o comprar bases de datos de fuentes externas.
Paso 3: Procesamiento de los datos para analizar
Cuando tenga todos los datos que necesita, deberá procesarlos antes de continuar y analizarlos. Esto puede implicar eliminar datos nulos, valores faltantes o duplicados, para así evitar desordenes que corrompan en análisis.
Paso 4: Exploración de los datos
En este paso, se deben desarrollar ideas que puedan ayudar a identificar patrones ocultos. Este es uno de los pasos más cruciales en un proceso de ciencia de datos.
Paso 5: Realización de un análisis en profundidad
Este paso se aplican los conocimientos matemáticos, estadísticos y tecnológicos, se utilizan todas las herramientas de ciencia de datos para analizar los datos con éxito y descubrir todos los conocimientos que pueda.
Ganadería y Calentamiento Global
Librerías usadas
library(pacman)
p_load("rmdformats","readr","readxl","ggplot2","plotly","DT","xfun","gridExtra","leaflet","TSstudio", "dplyr", "psych", "GGally", "corrplot", "tidyverse", "lubridate", "forecast", "TTR", "MLmetrics", "tseries", "fpp", "TSstudio")rmdformats: Un formato basado en el tema Material design para Bootstrap 3 . Con este formato, cada sección de primer nivel se convertirá en una página separada. Cuenta con un diseño de barra lateral. La tabla de contenido se muestra en la barra lateral de la izquierda. A medida que se desplaza por la página, el encabezado de la sección actual se resaltará automáticamente (y se expandirá si es necesario) en la barra lateral.
readr: El objetivo de readr es proporcionar una forma rápida y sencilla de leer datos rectangulares de archivos delimitados, como valores separados por comas (CSV) y valores separados por tabuladores (TSV).
readxl: El paquete readxl facilita la transferencia de datos de Excel a R. En comparación con muchos de los paquetes existentes (p. ej., gdata, xlsx, xlsReadWrite), readxl no tiene dependencias externas, por lo que es fácil de instalar y usar en todos los sistemas operativos.
ggplot2: es un sistema para crear gráficos declarativamente, basado en The Grammar of Graphics . Usted proporciona los datos, le dice a ggplot2 cómo asignar variables a la estética, qué primitivas gráficas usar y se ocupa de los detalles.
Plotly: crea gráficos interactivos con calidad de publicación. Ejemplos de cómo hacer diagramas de líneas, diagramas de dispersión, gráficos de área, gráficos de barras, barras de error, diagramas de caja, histogramas, mapas de calor, subgráficos, ejes múltiples y gráficos 3D (basados en WebGL).
DT: proporciona una interfaz R para la biblioteca de JavaScript DataTables . Los objetos de datos R (matrices o marcos de datos) se pueden mostrar como tablas en páginas HTML, y DataTables proporciona filtrado, paginación, clasificación y muchas otras funciones en las tablas.
xfun: sirve para conocer Vectores de caracteres de salida para ojos humanos,Imprimir el contenido de un archivo de texto,Obtener el URI de datos de un archivo,Unir cadenas y hacer sustituciones,Manipular extensiones de nombre de archivo etc.
grid: paquete en R implementa las funciones gráficas primitivas que subyacen en el ggplot2sistema de trazado.
leaflet: se utiliza para hacer mapas interactivos.
TSstudio: proporciona un conjunto de herramientas para aplicaciones de pronóstico y análisis de series de tiempo, utilizando (principalmente) modelos del paquete de pronóstico y herramientas de visualización basadas en el paquete plotly.
dplyr: proporciona una “gramática” (particularmente verbos) para la manipulación y operaciones con data frames.
Ggally: es un sistema de trazado para R basado en la gramática de gráficos. GGallyextiende ggplot2 agregando varias funciones para reducir la complejidad de combinar geoms con datos transformados.
corrplot: proporciona una herramienta de exploración visual en la matriz de correlación que admite el reordenamiento automático de variables para ayudar a detectar patrones ocultos entre las variables.
tidyverse: es una colección obstinada de paquetes R diseñados para la ciencia de datos. Todos los paquetes comparten una filosofía de diseño, gramática y estructuras de datos subyacentes.
lubridate: se utiliza para manipular fechas
forecast: proporciona métodos y herramientas para mostrar y analizar pronósticos de series temporales univariadas, incluido el suavizado exponencial a través de modelos de espacio de estado y el modelado ARIMA automático.
MLmetrics: proporciona varias funciones para calcular métricas comunes para modelos de ML, incluidas AUC, precisión, recuperación, exactitud, etc.
tseries: nos permitirá manipular datos correspondiente a series temporales.
Datos usados
La base de datos utilizada fue elaborada acomodando diferentes parámetros por año, las columnas presentadas son:
Producción en toneladas: Se trata del acumulado de la producción de carne de bovino proporcionada por el estado de Sonora en diciembre de cada año. La base de datos pertenece al Gobierno de México, disponible en:
http://infosiap.siap.gob.mx/repoAvance_siap_gb/pecAvanceProd.jsp
Precipitación media histórica en mm: Es el promedio anual de la cantidad de precipitaciones (lluvia en este caso) que hubo sobre la entidad federativa, se mide en milimetros. Los datos se tomaron de la SEMARNAT, disponible en:
Temperatura media promedio: Se trata del promedio anual de la temperatura anual de Sonora, se encuentra en grados Celisus, los datos se sacaron de CONAGUA, disponible en:
Temperatura máxima promedio: Es el promedio anual de la temperatura máxima registrada en el estado de Sonora, también se obtuvo de CONAGUA, disponible en:
La base de datos final se muestra a continuación:
ganaderia <- read_excel("ProdBovinoSonora.xlsx")
datatable(ganaderia) Introducción
La crianza de animales es considerada como una de las actividades económicas más antiguas del mundo, ha sido una actividad común en nuestro territorio desde la época colonial, ya que en la época prehispánica los pueblos se enfocaban en imitar la crianza de guajolotes, xoloitzcuintle, cochinilla y otras abejas. especies.
El estado de Sonora ctualmente alberga 553 millones de aves, 33,8 millones de bovinos, 16,7 millones de cerdos, 8,8 millones de ovejas y 1,9 millones de colmenas. Además de brindar alimento a las familias mexicanas, la industria ganadera ha contribuido en gran medida al crecimiento, estabilidad y fortalecimiento de la economía mexicana.
La ganadería es vital para la seguridad alimentaria ya que constituye el sustento y el legado de la mayoría de los hogares rurales de América Latina y el Caribe, por lo que es importante mejorar su sostenibilidad, productividad y competitividad y tomar acciones para mejorar la calidad de vida de sus hogares y realizar acciones para mejorar su acción climática en la región.
Antecedentes
• La domesticación de animales era conocida en las culturas prehispánicas.
• El ganado proporciona animales de carga.
• Los primeros manuales de cría de animales aparecieron a mediados del siglo XIX.
• Durante la revolución, el ganado se utilizó como alimento y moneda.
• En la segunda mitad del siglo XX aumentó la avicultura y la porcicultura.
• Más de 110.000.000 de hectáreas al 2010. dedicado a la ganaderia.
• La ganadería necesita implementar nuevos modelos productivos.
• El uso de nuevas tecnologías debe buscar incrementar los rendimientos, así como el cuidado y sustentabilidad en el campo.
Objetivos
Objetivo general
Se busca describir de forma general la relación entre las repercusiones del calentamiento global específicamente en el estado de Sonora y su efecto en la producción de carne de esta misma entidad federativa.
Objetivos específicos
Mostrar el progreso anual de distintos parámetros como la cantididad de precipitación anual, temperatura promedio del estado de Sonora, y temperatura máxima promedio del estado de Sonora.
Encontrar cual de estas variables tiene una mayor relación con la producción de carne de bovino.
-Elaborar un modelo que posteriormente permita predecir un panorama para los años posteriores.
Planteamiento del problema
La economía del estado de Sonora depende en gran parte de sus actividades económicas primarias, entre las cuales se encuentra la ganadería. Así mismo, es una zona vulnerable a la sequía por su inherente clima árido, lo cual se podría ver gravemente afectado e intensificado por el calentamiento global.
Marco Teórico
El sector ganadero forma parte del sector primario de la economía. Junto con la agricultura conforma el sector agropecuario. Dependiendo de la zona geográfica y las condiciones será más común un tipo de ganado u otro. El ganado se puede dividir en dos categorías por clasificación ambiental:
• Ganadería extensiva: su explotación se realiza al aire libre, aprovechando su entorno. Es decir, los recursos ambientales se utilizan para el desarrollo. Los expertos en la materia creen que es este tipo de ganado el que produce un producto de mayor calidad.
• Ganadería intensiva: La ganadería intensiva también se conoce como ganadería en cautividad. Este tipo de agricultura utiliza costos más bajos para aumentar la competitividad. Por supuesto, tiende a producir productos de menor calidad en general.
• Ganadería mixta: Dependiendo de la fuente bibliográfica, también podemos clasificar este concepto en ganadería semi-intensiva, semi-extensiva o semi-estable. Nos referimos al tipo mixto y no debe confundirse con una finca con ganado mixto. Este tipo de agricultura utiliza el medio ambiente y los establos para aprovechar al máximo a los demás.
El clima en la ganadería
El cambio climático en la ganadería afecta directa e indirectamente las concentraciones de dióxido de carbono en las lluvias y los cambios de temperatura, que tienen un mayor impacto en la biodiversidad, la salud y productividad animal, y la disponibilidad y calidad de los forrajes y cultivos utilizados en la alimentación animal.
El impacto del clima sobre el ganado es variable y complejo porque determina el ambiente en el que el animal vive y se reproduce. Su impacto en el bienestar animal y la producción ha sido reconocido y estudiado desde la década de 1950. El clima afecta directa e indirectamente al ganado, ya que altera la calidad y/o la cantidad de alimento disponible, las necesidades de agua y energía, el consumo de energía y su uso. Los animales responden cambiando los mecanismos fisiológicos y de comportamiento para mantener la temperatura corporal dentro de los rangos normales en condiciones climáticas adversas. Así, se pueden observar cambios en el consumo de alimentos, el comportamiento y la productividad. Estos cambios fueron más pronunciados en condiciones de frío o calor extremo, lo que implica una fuerte caída en los índices de producción, como la tasa de aumento de peso y la producción diaria de leche.
Si vamos a hablar sobre cómo afecta el frío al ganado tenemos que tener en cuenta que existen cinco variables meteorológicas que determinan el confort y ambiente térmico del animal:
- La temperatura ambiental
- Las precipitaciones
- La radiación solar
- La velocidad del viento
- La humedad relativa
Métodos utilizados
Regresión lineal
La regresión lineal permite predecir el comportamiento de una variable (dependiente o predicha) a partir de otra (independiente o predictora). Tiene presunciones como la linealidad de la relación, la normalidad, la aleatoriedad de la muestra y homogeneidad de las varianzas. Tiene como objetivo ayudar a la predicción de los sistemas experimentales.
La forma más sencilla hacer más dinámico un modelo lineal es introduciendo nuevas variables al elevar a distintas potencias el predictor original.
Partiendo del modelo lineal
\(yi=β0+β1xi+ϵi\)
Se obtiene un modelo polinómico de grado d a partir de la ecuación
\(yi=β0+β1xi+β2x2i+β3x3i+...+βdxdi+ϵi\)
las funciones polinómicas pueden emplearse en regresión logística para predecir respuestas binarias, esto es debido a los mínimos cuadrados. Solo es necesario aplicarlas de la siguiente forma.
\(P(yi>Y|xi=X)=exp(β0+β1xi+β2x2i+β3x3i+...+βdxdi)1+exp(β0+β1xi+β2x2i+β3x3i+...+βdxdi)\)
Coeficiente de Correlación de Pearson
El coeficiente de correlación de Pearson es una prueba que mide la relación estadística entre dos variables continuas. Si la asociación entre los elementos no es lineal, entonces el coeficiente no se encuentra representado adecuadamente. El coeficiente de correlación puede tomar un rango de valores de +1 a -1.
La fórmula del coeficiente de correlación de Pearson es la siguiente:
\(rxy = (Sumatoria (Zx Zy))/N\)
Donde:
“x” es igual a la variable número uno, “y” pertenece a la variable número dos, “zx” es la desviación estándar de la variable uno, “zy” es la desviación estándar de la variable dos y “N” es es número de datos.
Series de tiempo
Una serie de tiempo es una secuencia de datos u observaciones, medidos en determinados momentos y ordenados cronológicamente. Visualmente, es una curva que evoluciona en el tiempo. Una serie de tiempo es un conjunto de observaciones sobre los valores que toma una variable (cuantitativa) a través del tiempo. El cual nos permite conocer resultados en el lapso propuesto.
Prueba de Shapiro-Wilk
Se usa para contrastar la normalidad de un conjunto de datos. Se plantea como hipótesis nula que una muestra x1,x2. Es aplicable cuando se analizan muestras compuestas por menos de 50 elementos (muestras pequeñas).
El test de Shapiro-Wilks plantea la hipótesis nula que una muestra proviene de una distribución normal. Eligimos un nivel de significanza, por ejemplo 0,05, y tenemos una hipótesis alternativa que sostiene que la distribución no es normal.
Se interpeta como:
H0: La distribución es normal
H1: La distribución no es normal
o en modo de la siguientes fórmulas:
\(H0:X∼N(μ,σ2)\)
\(H1:X≁N(μ,σ2)\)
Resultados y discusión
Lineas de tiempo
Primero se busca observar de forma gráfica cómo se comportan los distintos parámetros mostrados en las tablas conforme pasan los años, para lo cual se elaboraron lineas de tiempo correspondientes iniciando desde el año 2005 hasta el 2020.
TSProduccion <- ts(data=ganaderia$Produccion_en_toneladas, frequency=1, start=c(2005))
TSPPrecipitacion <- ts(data=ganaderia$Precipitacion_media_historica_mm, frequency=1, start=c(2005))
TSTempMedia <- ts(data=ganaderia$Temperatura_media_promedio_Celsius, frequency=1, start=c(2005))
TSTempMax <- ts(data=ganaderia$Temperatura_maxima_promedio_celsius, frequency=1, start=c(2005))Una vez declarada la variable, se procede a hacer la gráfica.
autoplot(TSProduccion)De acuerdo a la tabla, entre el 2005 al 2009 la producción de carne por ganado bovino se encontraba entre las 75000 toneladas, para crecer hasta las 8500 toneladas al siguiente año, habiendo oscilaciones entre las cantidades, para finalmente volver a tener valores bajos desde el 2016, los cuales se mantienen hasta el 2020.
autoplot(TSPPrecipitacion)Se puede observar como el nivel de precipitación ha crecido en los últimos años, teniendo como valor más alto el 2019.
autoplot(TSTempMedia)En la gráfica se muestra como el comportamiento de la temperatura media anual aumenta hasta 1 grado a partir del 2014, y a pesar de que existen oscilaciones, se mantiene en un margen de valores más altos, siendo la menor temperatura de este último periodo similar a la temperatura máxima alcanzada antes del año 2014.
autoplot(TSTempMax)La temperaturas máximas promedios anuales también muestran un aumento con oscilaciones a partir del año 2013, teniendo el valor más alto el 2019
Análisis de relación entre variables
Se utilizará el coeficiente de correlación de Pearson para observar la correlación de cada una de las variables, lo que se interesa analizar, es cuales variables tienen un impacto mas estrecho en los resultados de la producción ganadera.
Para ellos se observaran los valores numéricos en las intersecciones de las variables, entre más cercano es el valor a 1, ya sea positivo o negativo, indica mas relación entre las variables.
datos <- as.data.frame(ganaderia)
round(cor(x = datos, method="pearson"), 3)## Año Produccion_en_toneladas
## Año 1.000 -0.086
## Produccion_en_toneladas -0.086 1.000
## Precipitacion_media_historica_mm 0.829 -0.180
## Temperatura_media_promedio_Celsius 0.509 -0.314
## Temperatura_maxima_promedio_celsius 0.306 -0.486
## Precipitacion_media_historica_mm
## Año 0.829
## Produccion_en_toneladas -0.180
## Precipitacion_media_historica_mm 1.000
## Temperatura_media_promedio_Celsius 0.434
## Temperatura_maxima_promedio_celsius 0.234
## Temperatura_media_promedio_Celsius
## Año 0.509
## Produccion_en_toneladas -0.314
## Precipitacion_media_historica_mm 0.434
## Temperatura_media_promedio_Celsius 1.000
## Temperatura_maxima_promedio_celsius 0.862
## Temperatura_maxima_promedio_celsius
## Año 0.306
## Produccion_en_toneladas -0.486
## Precipitacion_media_historica_mm 0.234
## Temperatura_media_promedio_Celsius 0.862
## Temperatura_maxima_promedio_celsius 1.000
Para identificar más facilmente los datos proporcionados anteriormente, se utilizará la ayuda de una representación gráfica, cada correlación mostrada es aquella de las variables encontradas en la parte superior y al costado.
Distribución de los datos
ggpairs(ganaderia, lower = list(continuous = "smooth"),
diag = list(continuous = "barDiag"), axisLabels = "none"
)## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
Se encuentra que en cuanto a la variable de la Producción en toneladas, la relación más directa es la de Temperatura Máxima Promedio, con un valor de -0.486, indicando dos puntos principales:
La relación no es muy fuerte, puesto que 0.486 no es cercano a 1, esto no significa que los datos no estes correlacionados, puede indicar que existen más elementos interviniendo.
El valor negativo (-0.486) indica una relación inversamente proporcional, si la temperatura máxima aumenta, la producción de carne disminuye
La segunda variable más compatible es la Temperatura Media Promedio, con un valor de -0.314, este valor arroja conclusiones similares a las del primer valor, lo cual es de esperarse puesto que estas temperaturas tienen una alta relación entre ellas (0.8622)
Al parecer, la precipitación anual tiene un impacto mayormente bajo (-0.180)
Primer modelo de regresión lineal
Primero se elaborará un modelo tomando en cuenta todos los parámetros, esto con la finalidad de poder pulirlo al descartar variables.
modelo1 <- lm(Produccion_en_toneladas ~ Precipitacion_media_historica_mm + Temperatura_media_promedio_Celsius + Temperatura_maxima_promedio_celsius, data = ganaderia )
summary(modelo1)##
## Call:
## lm(formula = Produccion_en_toneladas ~ Precipitacion_media_historica_mm +
## Temperatura_media_promedio_Celsius + Temperatura_maxima_promedio_celsius,
## data = ganaderia)
##
## Residuals:
## Min 1Q Median 3Q Max
## -4834.5 -2801.0 -737.4 1067.3 8365.6
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 347225.9 192891.4 1.800 0.0970 .
## Precipitacion_media_historica_mm -368.9 467.3 -0.789 0.4453
## Temperatura_media_promedio_Celsius 5751.3 5037.3 1.142 0.2758
## Temperatura_maxima_promedio_celsius -7827.4 4034.2 -1.940 0.0762 .
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 4638 on 12 degrees of freedom
## Multiple R-squared: 0.3155, Adjusted R-squared: 0.1444
## F-statistic: 1.844 on 3 and 12 DF, p-value: 0.193
La R cuadrada tiene un valor bajo con un valor de 0.3155, y el p value es de un valor 0.193, el cual es mayor de 0.05 indicando que no es representativo. Este modelo no es útil y por lo tanto se procede a buscar las variables innecesarias que estén interfiriendo.
Evaluación general del modelo y selección de predictores
Se utilizará la estrategia de stepwise mixto, determinando la calidad del modelo con Akaike (AIC). Para este paso se procederá a “limpiar” el modelo, despejádolo de las variables que no aportan al modelo, o bien, aquellas variables que solo representarían una diferencia despreciable.
step(object = modelo1, direction = "both", trace = 1)## Start: AIC=273.54
## Produccion_en_toneladas ~ Precipitacion_media_historica_mm +
## Temperatura_media_promedio_Celsius + Temperatura_maxima_promedio_celsius
##
## Df Sum of Sq RSS AIC
## - Precipitacion_media_historica_mm 1 13402594 271566645 272.35
## - Temperatura_media_promedio_Celsius 1 28044554 286208604 273.19
## <none> 258164050 273.54
## - Temperatura_maxima_promedio_celsius 1 80990054 339154104 275.91
##
## Step: AIC=272.35
## Produccion_en_toneladas ~ Temperatura_media_promedio_Celsius +
## Temperatura_maxima_promedio_celsius
##
## Df Sum of Sq RSS AIC
## - Temperatura_media_promedio_Celsius 1 16381871 287948516 271.29
## <none> 271566645 272.35
## + Precipitacion_media_historica_mm 1 13402594 258164050 273.54
## - Temperatura_maxima_promedio_celsius 1 68469064 340035709 273.95
##
## Step: AIC=271.29
## Produccion_en_toneladas ~ Temperatura_maxima_promedio_celsius
##
## Df Sum of Sq RSS AIC
## <none> 287948516 271.29
## + Temperatura_media_promedio_Celsius 1 16381871 271566645 272.35
## + Precipitacion_media_historica_mm 1 1739912 286208604 273.19
## - Temperatura_maxima_promedio_celsius 1 89220384 377168900 273.61
##
## Call:
## lm(formula = Produccion_en_toneladas ~ Temperatura_maxima_promedio_celsius,
## data = ganaderia)
##
## Coefficients:
## (Intercept) Temperatura_maxima_promedio_celsius
## 200119 -3960
En el apartado de Call, indica que un mejor modelo solo incluye la variable de Temperatura máxima, por lo cual se procederá a evaluar tal resultado.
Evaluación del modelo usando variables relevantes
modelo2 <- lm(Produccion_en_toneladas ~ Temperatura_maxima_promedio_celsius ,data = ganaderia)
summary(modelo2)##
## Call:
## lm(formula = Produccion_en_toneladas ~ Temperatura_maxima_promedio_celsius,
## data = ganaderia)
##
## Residuals:
## Min 1Q Median 3Q Max
## -6238.7 -2648.6 -315.1 660.6 10898.4
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 200119 59701 3.352 0.00474 **
## Temperatura_maxima_promedio_celsius -3960 1901 -2.083 0.05609 .
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 4535 on 14 degrees of freedom
## Multiple R-squared: 0.2366, Adjusted R-squared: 0.182
## F-statistic: 4.338 on 1 and 14 DF, p-value: 0.05609
La R cuadrada tiene un valor bajo con un valor de 0.182, y el p value es de un valor 0.05609, el cual es mayor de 0.05 pero por muy poco, indicando que hay posibilidad de que sea representativo. Sin embargo, solo puede explcar el 18.2% de las variables.
Por medio de esta validación, se obtiene la siguiente fórmula:
\[ y=200119-3960 x \]
Gráfico
Lo que se muestra a continuación, es el conjunto de variables reales de Producción de Ganado-Temperatura Maxima, junto con la linea del modelo
plot(ganaderia$Temperatura_maxima_promedio_celsius, ganaderia$Produccion_en_toneladas)
abline(modelo2) Una vez representados los datos, se puede ver que estos se encuentran bastante dispersos, sin embargo el modelo sigue una tendencia, en la cual se puede ver que los años con una temperatura máxima de 32 en adelante tienen producciones de ganando bovino mas pobre
Distribución normal de los residuos
qqnorm(modelo2$residuals)
qqline(modelo2$residuals)Lo que se puede observar en la gráfica es cómo el modelo es aplicable en un rango de -1 a 1, una vez que se superan estos límites, los resultados se alejan bastante de lo que se puede predecir.
Prueba de Shapiro Wilk
shapiro.test(modelo2$residuals)##
## Shapiro-Wilk normality test
##
## data: modelo2$residuals
## W = 0.90473, p-value = 0.09572
El valor de la prueba de Shapiro-Wilk es de 0.904, lo cual indica normalidad a pesar de tener un p-value elevado.
Variabilidad constante de los residuos
ggplot(data = ganaderia, aes(modelo2$fitted.values, modelo2$residuals)) +
geom_point() +
geom_smooth(color = "firebrick", se = FALSE) +
geom_hline(yintercept = 0) +
theme_bw()## `geom_smooth()` using method = 'loess' and formula 'y ~ x'
Finalmente, se puede ver como los residuos se comportan alrededor del modelo, presentando más variabilidad al incrementar los valores.
Conclusiones
Se puede observar como las variables se encuentran bastante dispersas, sin embargo, a pesar de no mostrar una linealidadd aparente, el aumento de la temperatura máxima afecta negativamente la cría de ganado bovino. Sería conveniente encontrar suficientes datos para predecir el cambio de temperatura en el estado de Sonora para así tener una representación mas exacta de como se ve el futuro de la ganadería en caso de que la tendencia global del aumento de temperatura continúe
Referencias
A. (s. f.). Los orígenes de la ganadería en México - Revista Ciencias. Revistacienciasunam. Recuperado 5 de abril de 2022, de https://www.revistacienciasunam.com/en/193-revistas/revista-ciencias-44/1827-los-or%C3%ADgenes-de-la-ganader%C3%ADa-en-m%C3%A9xico.html
Bansal, S. (2021, 18 november). What Is Data Science Process and Its Significance? Blogs & Updates on Data Science, Business Analytics, AI Machine Learning. Geraadpleegd op 6 april 2022, van https://www.analytixlabs.co.in/blog/data-science-process/#sub2
Barnier, Julien. 2021. Rmdformats: formatos de salida HTML y plantillas para documentos Rmarkdown . https://github.com/juba/rmdformats .
de la República, S. (s. f.). Gaceta del Senado. Senado. Recuperado 5 de abril de 2022, de https://www.senado.gob.mx/64/gaceta_del_senado/documento/99961 Economía. Ganadería. (s. f.). INEGI. Recuperado 5 de abril de 2022, de https://cuentame.inegi.org.mx/economia/primarias/gana/default.aspx?tema=e Ganadería - Concepto, características, tipos, importancia y más. (s. f.). Concepto. Recuperado 5 de abril de 2022, de https://concepto.de/ganaderia/
La ganadería en México. (s. f.). IGG. Recuperado 5 de abril de 2022, de http://www.publicaciones.igg.unam.mx/index.php/ig/catalog/book/65 La ganadería en México tiene amplio potencial para contribuir a la mitigación y la adaptación al cambio climático. (s. f.). IICA.INT. Recuperado 5 de abril de 2022, de https://www.iica.int/es/prensa/noticias/la-ganaderia-en-mexico-tiene-amplio-potencial-para-contribuir-la-mitigacion-y-la
López, J. F. (2022, 1 febrero). Tipos de ganadería. Economipedia. Recuperado 5 de abril de 2022, de https://economipedia.com/definiciones/tipos-de-ganaderia.html