Curso R - Grado de Ciencias Ambientales

Tipos de datos en R
Tipo	Definición
Numeric	números decimales y enteros
Integer	números sin decimales
Character	texto
Factor	datos categóricos. Un factor
Logical	verdadero o falso

11.1 t Student

¿Son más altas las mujeres que los hombres?

Primero representa gráficamente la altura de los hombres y de las mujeres por medio de un Boxplot. ¿Qué pinta tienen los datos? ¿Pueden ser esas diferencias debidas al azar o es que el género influye en la altura de la población? En nuestro caso el factor género tiene dos niveles. Para responder a esta pregunta podemos utilizar una t de Student. Básicamente este test compara si la media de dos poblaciones con distribución normal son iguales o no. Por ello requiere de la normalidad de los datos antes de aplicar el test. En nuestro caso nos centraremos en cómo hacer el test sin comprobar previamente este punto.

¿Cómo lo hacemos?

Se puede hacer de dos formas: 1) Una es con una variable factor con dos niveles, la cual nos va a indicar para la variable dependiente que queremos comparar qué valores corresponden a cada categoría (en nuestro caso sería esta opción, ya que tenemos una variable sex y otra altura) 2) Cada conjunto de valores a comparar se encuentra en una columna (es decir, tendríamos una columna con la altura de las chicas y otra con la altura de los chicos)(no vamos a ver esta opción, pero la forma de ejecutarlo sería muy parecida pero en lugar de ~ usaríamos la , separando las dos variables a comparar)

setwd(dir = "G:/R/MARKDOWN-Clases/CursoR")
datosttest<-read.table("ttest.csv", sep = ";", header = TRUE, dec = ".")
datosttest

##    altura tipo
## 1      10    A
## 2      13    A
## 3      15    A
## 4      14    A
## 5      19    A
## 6      25    A
## 7      26    A
## 8      28    A
## 9      24    A
## 10     24    A
## 11     35    B
## 12     26    B
## 13     29    B
## 14     18    B
## 15     19    B
## 16     21    B
## 17     21    B
## 18     22    B
## 19     35    B
## 20     36    B

str (datosttest)

## 'data.frame':    20 obs. of  2 variables:
##  $ altura: int  10 13 15 14 19 25 26 28 24 24 ...
##  $ tipo  : chr  "A" "A" "A" "A" ...

Fijaros que tipo no es un factor, hay que cambiar su naturaleza:

ahoraesfactor<-factor(datosttest$tipo)
levels(ahoraesfactor)

## [1] "A" "B"

El objeto ahoraesfactor contiene nuestro factor con dos niveles. Este lo usaremos para indicarle a R en nuestra variable altura quién es chico y quién es chica. Vamos a hacer el t.test:

t.test(datosttest$altura ~ ahoraesfactor)

## 
##  Welch Two Sample t-test
## 
## data:  datosttest$altura by ahoraesfactor
## t = -2.1239, df = 17.821, p-value = 0.04794
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -12.73528851  -0.06471149
## sample estimates:
## mean in group A mean in group B 
##            19.8            26.2

¿Sabrías interpretar el resultado? ¿Corresponde a lo que muestra el BoxPlot de la altura en función del género? ¿Son las chicas más altas que los chicos? ¿Se debe al azar?

11.2 U-Mann Whitney

Si nuestros datos son no normales, el equivalente no paramétrico a la t de student es la U de Mann Whitney (=Wilcox.test), para hacerla tenemos que separar nuestros grupos en dos columnas (altura de las chicas es una variable y la altura de los chicos es otra variable). Esto lo podemos hacer de forma más sencilla seleccionando aquellos valores que cumplan una condición determinada. En mi ejemplo A y B.

mujer<-datosttest[datosttest$tipo == 'A',]
hombre<-datosttest[datosttest$tipo == 'B',]
wilcox.test(mujer$altura,hombre$altura, correct=FALSE, exact=FALSE, paired=FALSE)

## 
##  Wilcoxon rank sum test
## 
## data:  mujer$altura and hombre$altura
## W = 28, p-value = 0.09568
## alternative hypothesis: true location shift is not equal to 0

11.3 ANOVA

Similar a la t de student, pero en este caso comparamos una variable dependiente entra tres o más niveles de un factor. Tal vez en vuestra base de datos existan más de dos ciudades, ¿tal vez se pueda comparar la altura de los estudiantes entre tres o más ciudades? Recuerda que necesitamos una variable factor (ciudad) y la variable dependiente (altura).

Veamos cómo hacerlo:

setwd(dir = "G:/R/MARKDOWN-Clases/CursoR")
datosanova<-read.table("anova.csv", sep = ";", header = TRUE, dec = ".")
datosanova

##    altura tipo
## 1      10    A
## 2      13    A
## 3      15    A
## 4      14    A
## 5      19    A
## 6      25    A
## 7      26    A
## 8      28    A
## 9      24    A
## 10     24    A
## 11     35    B
## 12     26    B
## 13     29    B
## 14     18    B
## 15     19    B
## 16     21    B
## 17     21    B
## 18     22    B
## 19     35    B
## 20     36    B
## 21    121    C
## 22    100    C
## 23     99    C
## 24     98    C
## 25     56    C
## 26     68    C
## 27     85    C
## 28     80    C
## 29     65    C
## 30     64    C

str (datosanova)

## 'data.frame':    30 obs. of  2 variables:
##  $ altura: int  10 13 15 14 19 25 26 28 24 24 ...
##  $ tipo  : chr  "A" "A" "A" "A" ...

ahorafactor<-factor(datosanova$tipo)
levels(ahorafactor)

## [1] "A" "B" "C"

De nuevo este test requiere normalidad de los datos.

ahorafactor<-factor(datosanova$tipo)
levels(ahorafactor)

## [1] "A" "B" "C"

modelo <- lm(datosanova$altura~ahorafactor)
anovaModelo <- anova(modelo)
anovaModelo

## Analysis of Variance Table
## 
## Response: datosanova$altura
##             Df  Sum Sq Mean Sq F value    Pr(>F)    
## ahorafactor  2 24687.2 12343.6  71.219 1.705e-11 ***
## Residuals   27  4679.6   173.3                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Si representamos la altura en función de la ciudad podremos interpretar mejor nuestros resultados (utiliza tus datos para ver que sucede):

boxplot(datosanova$altura~ahorafactor, xlab="Tipo", ylab="altura", col = c("blue","red","green"))

11.4 Kruskal-Wallis

Si en la situación anterior nuestros datos son no normales entonces optamos por este análisis.

kruskal.test(altura ~ ahorafactor, data = datosanova)

## 
##  Kruskal-Wallis rank sum test
## 
## data:  altura by ahorafactor
## Kruskal-Wallis chi-squared = 20.627, df = 2, p-value = 3.319e-05

11.5 Testar normalidad

Se puede hacer de tres formas diferentes. En casa con calma lo puedes hacer:

Normalidad

Curso R - Grado de Ciencias Ambientales

marzo 22, 2023

1 Introducción

2 Nuestros datos

3 ¿Cómo conseguir que R lea nuestros datos?

4 ¿Cómo son nuestras observaciones? ¿y nuestras variables?

5 ¿Cómo pueden ser nuestras variables en R?

6 ¿Cómo podemos cambiar la naturaleza de una variable?

7 ¿Cómo introduzco una nueva variable en mis datos originales?

8 ¿Cómo crear una nueva variable calculada a partir de variables ya existentes?

9 Quiero cambiar el nombre de mis variables ¿cómo lo hago?

10 Representaciones gráficas sencillas

10.1 BoxPlot

10.2 Gráfico de Dispersión (Scatterplot)

10.3 Histograma

11 Análisis Estadísticos

11.1 t Student

11.2 U-Mann Whitney

11.3 ANOVA

11.4 Kruskal-Wallis

11.5 Testar normalidad

12 Información en la Web de utilidad para empezar en R

13 CRÉDITOS