Codigos para importar datos de excel

Este paso se puede realizar de dos maneras. La primera, es ubicando la opción “Environment” y localizando la sección que dice “Import Dataset”, donde se desplegan varios tipos de archivos, se va a seleccionar “From excel”, posteriormente, “Browse”; que permite buscar el documento; se escoge la pagina que se desea y finalmente se importa. La segunda, hace referencia al codigo que aparece al realizar lo anterior, el cual se añade en el script y se corre. Basicamente, el codigo muestra “library(readxl)” que es la activación del paquete para leer los formatos de los archivos, después se observa el nombre del mismo, la opción para leerlo y su localización en el dispositivo. La palabra “sheet” hace referencia a la pagina que desea y “View” para visualizarlo.

library(readxl)
  class1 <- read_excel("2020-2/Computacion estadistica/excel1.xlsx", 
      sheet = "datos")
  View(class1)

Libreria psych

Se instala la libreria psych, luego se ejecutan dos opciones que muestran parte de la estadistica descriptiva de una sola variable y agrupada.

library(psych)
describe(class1$pH)
##    vars  n mean   sd median trimmed mad  min  max range skew kurtosis   se
## X1    1 50  4.5 0.58   4.52     4.5 0.6 3.09 5.78  2.69 0.01    -0.22 0.08
describeBy(class1$pH, class1$HRZ)
## 
##  Descriptive statistics by group 
## group: A1
##    vars  n mean  sd median trimmed  mad  min  max range  skew kurtosis  se
## X1    1 25 4.55 0.5   4.52    4.59 0.34 3.09 5.43  2.34 -0.77     1.08 0.1
## ------------------------------------------------------------ 
## group: Ap
##    vars  n mean   sd median trimmed  mad  min  max range skew kurtosis   se
## X1    1 25 4.46 0.65   4.46    4.42 0.77 3.39 5.78  2.39 0.46    -0.81 0.13

Para saber el minimo, máximo y la ubicación de un conjunto de datos se utiliza lo siguiente:

min(class1$pH)
## [1] 3.09
max(class1$pH)
## [1] 5.78
which.min(class1$pH)
## [1] 32
which.max(class1$pH)
## [1] 13
pH2 = class1$pH[-c(13, 32)]
mean(pH2)
## [1] 4.507292

Coeficiente de Variación

cv_pH_Ap = sd(class1$pH[class1$HRZ=='Ap']) / mean(class1$pH[class1$HRZ=='Ap'])
cv_pH_Ap
## [1] 0.1459127
cv_pH_A1 = sd(class1$pH[class1$HRZ=='A1']) / mean(class1$pH[class1$HRZ=='A1'])
cv_pH_A1
## [1] 0.1105202

Ejemplo

Dos vectores aleatorios de pH se muestra acontinuación, se agrupan con la letra “c” que significa concanetación a los cuales se les calculara la media y mediana.

v1 = c(4.5,4.9, 5.3, 4.6, 5.8)
v2 = c(4.5,4.9, 5.3, 4.6, 1.8)

media_v1 = mean(v1)
media_v1
## [1] 5.02
median_v2 = mean(v2)
median_v2
## [1] 4.22
mediana_v1 = median(v1)
mediana_v1
## [1] 4.9
mediana_v2 = median(v2)
mediana_v2
## [1] 4.6

Ecuaciones de interés usadas por el programa

Promedio \[ \overline{x} = \frac{\sum_{}x_{1}+x_{2}+x_{3...}}{n}\] Varianza \[ Var = \frac{\sum_{}( x_{1}-\overline{x})^2}{n}\] Desviación Estandandar \[ s = \sqrt{Var} \] Error Estandar \[ EE = \frac{s}{\sqrt{n}}\]

Tipos de Variable

Se debe entender primeramente que el cero “0” representa un valor nulo; podría designarse como un “0 verdadero”. Asimismo, este valor puede representar una referencia con respecto a algo en particular como lo serian los metros sobre el nivel del mar (msnm). Su diferencia radica en que; en el primero se pueden realizar operaciones de diferencia y de consciente con certeza. En el segundo solo de diferencia. En las siguientes medidas se busca responder si realmente se tiene un 0 verdadero.

Conductividad eléctrica aparente (CEA) dS/m: La CE aparente se clasificaria en variable cuantitativa de intervalo ya que generalmente se mide con ayuda de ecuaciones empíricas o teóricas.

pH: El rango de pH no tiene un límite superior ni inferior, ya que, el pH es una indicación de la concentración de H +. Un rango de 0 a 14 proporciona “sujetalibros” sensibles, pero no absolutos para la escala. Se puede ir algo por debajo de cero y algo por encima de 14 en el agua, porque las concentraciones de iones hidronio o iones hidróxido pueden exceder un molar. La escala de pH se denomina a veces “escala de concentración de pH” en contraposición a la “escala de pH termodinámico”. La principal diferencia entre ambas escalas es que en la escala de pH termodinámico uno no está interesado en la concentración de H+ , sino en la actividad de H + . Lo que una persona mide en la solución es solo actividad, no concentración. Por lo tanto, es la escala termodinámica de pH la que describe las soluciones reales, no la de concentración. Con lo anterior se concluye que corresponde a un tipo de variable cuantitativa de intervalo, ya que está sujeto a un “0 falso”.

Horizonte (HRT): Hace referencia a una variable cualitativa de caracter ordinal, debido a que no solo nombra sino que sigue un orden.

Temperatura: Las unidades del sistema de medidas pueden condicionar si el cero es verdadero, por ejemplo, en °C y °F es diferente a lo que sería en K. Estos dos primeros, se encuentran en una variable cuantitativa de intervalo, debido a que se toma un 0 de referencia impuesto que no designa totalmente la ausencia de calor. Cosa contraria ocurre en K, que corresponde una variable cuantitativa de razón, ya que representa la temperatura más baja posible; el cero absoluto, por lo que las partículas, según la mecánica clásica carecen de movimiento (Rappin, 1990).

Tipos de curtosis

 Leptocúrtica: la Curtosis>0. Los datos están muy concentrados en la media, siendo una curva muy apuntada. Proviene del latín Lepto que significa delgado, correspondiente a su gráfica.

 Mesocúrtica: la Curtosis=0. Distribución normal. Proviene del latín Meso que significa en medio, correspondiente a su gráfica.

 Platicúrtica: la Curtosis<0. Muy poca concentración de datos en la media, presentando una forma muy achatada. Proviene del latín Platys que significa ancho, correspondiente a su gráfica.

Asimetría

El coeficiente de asimetría de Fisher CAF evalúa la proximidad de los datos a su media x. Cuanto mayor sea la suma ∑(xi–x)3, mayor será la asimetría. Sea el conjunto X=(x1, x2,…, xN), entonces la fórmula de la asimetría de Fisher es:

\[ CA_F= \frac{\displaystyle\sum_{i=1}^n (x_{1}-\overline{x})^3}{n S_x^4}\]

Cuando los datos están agrupados o agrupados en intervalos, la fórmula del coeficiente de asimetría de Fisher se convierte en:

\[ CA_F= \frac{\displaystyle\sum_{i=1}^n (x_{1}-\overline{x})^3 n_i}{n S_x^4}\]

 Si CAF<0: la distribución tiene una asimetría negativa y se alarga a valores menores que la media.

 Si CAF=0: la distribución es simétrica.

 Si CAF>0: la distribución tiene una asimetría positiva y se alarga a valores mayores que la media.

Referencias

• Pierre J. Rapin – Prontuario del frío, p. 5. Editor Reverte, 1990. Recuperado de: https://books.google.com.co/books?id=mQBSfR6KZHsC&pg=PA5&redir_esc=y#v=onepage&q&f=false

• Morales Gómez, A. E., & Viloria Rendón, J. A. (2006). Aplicabilidad del enfoque de conjuntos borrosos a la clasificación de suelos de la depresión del lago de Valencia, Venezuela. Interciencia, 31(8), 598-604. •https://chem.libretexts.org/Bookshelves/Physical_and_Theoretical_Chemistry_Textbook_Maps/Supplemental_Modules_(Physical_and_Theoretical_Chemistry)/Acids_and_Bases/Acids_and_Bases_in_Aqueous_Solutions/The_pH_Scale

https://www.universoformulas.com/estadistica/descriptiva/curtosis/