PRIMEROS CONCEPTOS

En una primera parte se dan los primeros procedimientos de la estadistica descriptiva a partir de la una serie de datos generados en un archivo importado en excel.

El primero principio de la Estadística descriptiva es la medición, la cuál se cumple mediante la generación de datos aleatorios en el aplicativo de excel, sin embargo esto es dado por cuanto tratamos de una situación hipotetica.

En la realidad, las mediciones son la materia prima de todo análisis estadístico, es el punto de partida del investigador y corresponde al trabajo de campo de toda investigación, que evalua los resultados de experimento o prueba plantiada al objeto de estudio.

El segundo principio es la tabulación, que es la forma de organizar los resultados obtenidos de la medición de tal manera que simplifica su estudio y análisis, además de que es la forma más común de representarlos, esto se evidenca en la siguiente tabla de datos.

library(readxl)
excel.datos <- read_excel("C:/Users/Maiker/Downloads/excel1.xlsx", 
    sheet = "data")
excel.datos
## # A tibble: 50 x 4
##       pH CEA75 HRZ    TEMP
##    <dbl> <dbl> <chr> <dbl>
##  1  3.86  14.3 Ap     27.4
##  2  3.97  13.4 Ap     27.0
##  3  3.39  11.7 Ap     27.2
##  4  4.52  13.4 Ap     27.1
##  5  5.06  11.0 Ap     28.2
##  6  3.94  13.6 Ap     29.1
##  7  4.04  11.9 Ap     27.0
##  8  4.75  11.5 Ap     27.9
##  9  3.91  13.7 Ap     28.1
## 10  4.67  13.2 Ap     28.0
## # ... with 40 more rows

En el programa R, se pueden dar funciones que pueda resumir aún mas los datos, o que logren realizar procedimientos que permitan al investigador interpretar, cuestionar e hipotizar sobre el desarrollo del proyecto.

library(psych)
descripcion1<-describe(excel.datos$pH)
descripcion2<-describeBy(excel.datos$pH, excel.datos$HRZ)
descripcion1
##    vars  n mean   sd median trimmed mad  min  max range skew kurtosis   se
## X1    1 50  4.5 0.58   4.51     4.5 0.6 3.09 5.78  2.69 0.01    -0.22 0.08
descripcion2
## 
##  Descriptive statistics by group 
## group: A1
##    vars  n mean  sd median trimmed  mad  min  max range  skew kurtosis  se
## X1    1 25 4.55 0.5   4.52    4.59 0.34 3.09 5.43  2.34 -0.77     1.08 0.1
## ------------------------------------------------------------ 
## group: Ap
##    vars  n mean   sd median trimmed  mad  min  max range skew kurtosis   se
## X1    1 25 4.46 0.65   4.46    4.42 0.77 3.39 5.78  2.39 0.46    -0.81 0.13

Este tipo de funciones nos permiten sacar rapidamente las funciones más elementales de la estadística descriptiva, como lo es la media o promedio (representada como mean), la mediana (representada como median), la desviación estandar (representada como sd), entre otras, ademas de realizar operaciones poco comunes como los son:

La media truncada: elimina el 5% de los datos (los de los extremos) para eliminar los cambios dados por datos atípicos, que en la gran mayoria de los casos son dados por errores experimentales o espurios.

Valores maximos y minimos: estos valores permiten conocer el rango de los resultados.

R ofrece funiones que muestran tanto el valor de los valores extremos como la posición de los mismos como se muestra continuación

min(excel.datos$pH)
## [1] 3.09
max(excel.datos$pH)
## [1] 5.78
which.min(excel.datos$pH)
## [1] 32
which.max(excel.datos$pH)
## [1] 13

Simetría: en la tabla aparece como “skew” y se define como coheficiente de simetría donde:

\[CA_F=\frac{\sum_{i=1}^N(x_i-\overline{x})^3*n_i}{N^*S_x^3}\\Siendo~x_i:uno~de~los~datos~o,~agrupados~en~intervalos~o~la~marca~de~clase\\\overline{x}:la~media\\n_i:frecuencia absoluta~de~x_i~o~de~cada~intervalo~de~i\\S_x:la~desviación~típica \]

Si el coeficiente de asimetría es menor que -1 o mayor que 1, la distribución es extremadamente sesgada.

Si el coeficiente de asimetría se encuentra entre -1 y -0,5 o entre 0,5 y 1, la distribución es moderadamente sesgada.

Si el coeficiente de asimetría se encuentra entre -0,5 y 0,5, la distribución es aproximadamente sesgada.

Kurtosis: Este indica la altura y filo del pico central en la distribucion de los datos, a mayor sea el valor de la kurtosis, más alto y puntiagudo será el pico central de los datos, esto es dado de acuerdo a un histograma, que se presenta a continuación.

\[g^2=\frac{\frac{1}{n}\sum_{i=1}^N(x_i-\overline{x})^4*n_i}{N^*S_x^4}-3\\Siendo~x_i:uno~de~los~datos~o,~agrupados~en~intervalos~o~la~marca~de~clase\\\overline{x}:la~media\\n_i:frecuencia absoluta~de~x_i~o~de~cada~intervalo~de~i\\S_x:la~desviación~típica \]

La cual se interpreta de la siguiente manera:

\[si~g^2>0,~la~distribución~es~leptocúrtica\\si~g^2<0,~la~distribución~es~platicúrtica\\si~g^2=0,~la~distribución~es~mesocúrtica\]

histograma<-hist(excel.datos$pH, xlab = "Valores de pH", ylab = "Frecuencia", main = "Histograma general de pH")

histograma
## $breaks
## [1] 3.0 3.5 4.0 4.5 5.0 5.5 6.0
## 
## $counts
## [1]  2  8 14 17  7  2
## 
## $density
## [1] 0.08 0.32 0.56 0.68 0.28 0.08
## 
## $mids
## [1] 3.25 3.75 4.25 4.75 5.25 5.75
## 
## $xname
## [1] "excel.datos$pH"
## 
## $equidist
## [1] TRUE
## 
## attr(,"class")
## [1] "histogram"

Sin embargo hay una fuerte diferencia entre las funciones “describe” y “describeBy”, pues este ultimo toma en consideración la interacción entre los diferentes factores, por cuanto no es lo mismo estudiar el pH general como lo haria la función “describe”, a estudiar el pH de acuerdo a una zona específica como lo haría la función “describeBy”, que en este caso es según el factor horizonte.

Finalmente esta el cuarto principio que consiste en la graficación, que se puede dar de diferentes formas, desde un diagrama de torta que busca un buen manejo de las proporciones, hasta un histograma que logre representar todos los datos de manera visual y facilite a un lector u observador la comprensión del trabajo del investigador.

par(mfrow=c(1,3))
pH<-boxplot(excel.datos$pH, main="Resultados generales de pH"); pH
## $stats
##       [,1]
## [1,] 3.090
## [2,] 4.090
## [3,] 4.515
## [4,] 4.860
## [5,] 5.780
## 
## $n
## [1] 50
## 
## $conf
##          [,1]
## [1,] 4.342947
## [2,] 4.687053
## 
## $out
## numeric(0)
## 
## $group
## numeric(0)
## 
## $names
## [1] ""
CEA75<-barplot(excel.datos$CEA75, main = "Resultados generales del CEA");CEA75
##       [,1]
##  [1,]  0.7
##  [2,]  1.9
##  [3,]  3.1
##  [4,]  4.3
##  [5,]  5.5
##  [6,]  6.7
##  [7,]  7.9
##  [8,]  9.1
##  [9,] 10.3
## [10,] 11.5
## [11,] 12.7
## [12,] 13.9
## [13,] 15.1
## [14,] 16.3
## [15,] 17.5
## [16,] 18.7
## [17,] 19.9
## [18,] 21.1
## [19,] 22.3
## [20,] 23.5
## [21,] 24.7
## [22,] 25.9
## [23,] 27.1
## [24,] 28.3
## [25,] 29.5
## [26,] 30.7
## [27,] 31.9
## [28,] 33.1
## [29,] 34.3
## [30,] 35.5
## [31,] 36.7
## [32,] 37.9
## [33,] 39.1
## [34,] 40.3
## [35,] 41.5
## [36,] 42.7
## [37,] 43.9
## [38,] 45.1
## [39,] 46.3
## [40,] 47.5
## [41,] 48.7
## [42,] 49.9
## [43,] 51.1
## [44,] 52.3
## [45,] 53.5
## [46,] 54.7
## [47,] 55.9
## [48,] 57.1
## [49,] 58.3
## [50,] 59.5
TEMP<-hist(excel.datos$TEMP, main = "Resultados \n generales de temperatura", xlab = "", ylab = "");TEMP

## $breaks
## [1] 26.0 26.5 27.0 27.5 28.0 28.5 29.0 29.5 30.0
## 
## $counts
## [1]  3  5  9  9 13  6  2  3
## 
## $density
## [1] 0.12 0.20 0.36 0.36 0.52 0.24 0.08 0.12
## 
## $mids
## [1] 26.25 26.75 27.25 27.75 28.25 28.75 29.25 29.75
## 
## $xname
## [1] "excel.datos$TEMP"
## 
## $equidist
## [1] TRUE
## 
## attr(,"class")
## [1] "histogram"

Además de todo esto, se establecer coeficiente de variación, que tambien puede ayudarnos a conocer de que forma estan distribuidos los datos que se obtuvieron de alguna investigación.

\[CV=\frac{\sigma_x}{|\overline{X}|}\\donde~\sigma_x:desviación~estandar\\\overline{X}:media\]

Este puede ser dado de acuerdo a la claificación dada en describeBy, donde se condiciona según el horizonte, ya sea Ap o A1

cv_ph_Ap = sd(excel.datos$pH[excel.datos$HRZ=='Ap']) / mean(excel.datos$pH[excel.datos$HRZ=='Ap']); cv_ph_Ap
## [1] 0.1459127
cv_ph_A1 = sd(excel.datos$pH[excel.datos$HRZ=='A1']) / mean(excel.datos$pH[excel.datos$HRZ=='A1']);cv_ph_A1
## [1] 0.1105202

Niveles de medida

En esta parte se puede identificar las las escalas nominales de las variables de estudio:

Variable Horizonte: esta variables es de caracter cualitativo e identifica los diferentes niveles de un perfil de suelo, el cual presenta un orden especifico, por lo que esta variable es de nivel Ordinal. Por ejemplo, los horizontes se dan en O, el algunas veces se presenta, justamente debajo un A, después un E, un B y al final el semejante a la roca madre, el C y es imposible encontrar un C encima de un A en la naturaleza.

Variable Temperatura: La variable temperatura es de caracter cuantitativo que determina el nivel de energía que presenta un sistema y es un caso especial porque tiene 3 unidades diferentes de medida con diferentes niveles nominales: Kelvin: esta unidad de medida toma como 0 la ausencia total de energía dentro de un sistema, la ausencia total de movimiento de sus componenetes atomicos, fenomeno que solo es posible en el espacio exterior pero que se identifica de manera real, es por esto que esta escala de medida es racional Calsius: Esta en cambio, está fundamentada en el punto de solidificación del agua, donde pasa de estado liquido a solido, sin embargo esto puede ser arbitrario por que este proceso depende la presión atmosferico, la altura a la que se encuentre y que en algunos casos se puede sufrir de sobreenfriamiento, donde el agua no pasa a su estado solido a temperaturas menores a su punto de solidificación, por esto, esta unidad de medida se considera intervalar Fahrenheit: se estima que esta unidad de medida da el 0 de forma similar a la Celsius, sino que busca una mayor perdida de energia en el agua agregando cloruro de amonio. Sin embargo, él definió el 0 a la menor temperatura que este pudiera alcanzar, mas sin embargo, este tipo de cualidades dependen de las condicones ambienteles y entornos controlados, entre otros aspectos, por lo que este nivel de medida es intervalar

Variable Conductividad Electrica: Esta es una unidad que mide la capacidad que tiene un cuerpo de conducir la enrgía, que para el caso del suelo, esta aumenta cuando la parte gaseosa del suelo es reemplazada por la liquida, por cuanto el agua, por ejemplo, es mejor conductor que el aire. Esta variable se mide por medio de la capacidad de resistencia que se genera entre dos electrodos a través de una celda. El punto sero implicaría una total resistencia de flujo energetico entre un electrodo y otro, haciendo de este una medida real, por lo que la CE tiene un nivel de medida Racional

pH: Esta variable es usada para determinar la potencial de hidrogeno, mide el grado de alcalinidad o acidez de una disolución y mide la concetración de hidrogeniones en una disolución. Esta varible es altamente cuestionada por si intervalar o racional y depende del observador, por cuanto si se interpreta como un medidor de concentración de hidrogeniones, lograr una concentración de 0 es casi imposible de lograr en la vida real y de lograrlo daría un pH infinitamente negativo, haciendo del pH una variable de una escala de medida intervalar. Sin embargo si se toma el 0 del pH como la contración 1 de hidrogeniones, este es posible de lograr de forma precisa, haciendo del 0 una medida real a uno de contración de cationes \[H^+\] de 1.