Estadistica

la estadística busca características, es una ciencia proveniente de la rama de matemática aunque no sea una ciencia exacta. Utiliza conjuntos de datos numericos para obtener inferencias basadas en el calculo de las probabilidades.
3 características fundamentales son:

¿Como se analisa una poblacion?

Ahora voy a hablar de las medida de tendencia central

Promedio simple
Promedio Media aritmetica
Promedio ponderado Media geometrica
Tendencia central Media armonica
Mediana Medida de posicion
Moda Medida de frecuencia

Promedio

Esta imagen nos explica: La media aritmetica es igual al cociente de la suma entre la x (marca de clase) por la frecuencia dividido el tamaño de la muestra

Caracteristica del promedio

  • No se puede calcular a partir de valores cualitativos
  • Se ve afectado por los valores de sus extremos
  • No se puede tener intervalos abiertos

Si no se puede calcular por el promedio o media aritmetica aparece la mediana

Mediana:

Es una media posicional que divide el producto en dos partes iguales. (al tamaño de la muestra se le suma 1 y se lo divide por dos) Otra forma de encontrarlo

  1. Ordenar de forma acendente
  2. Buscar la posicion del medio
  3. Encontrar el valor que se encuentra en esa posicion

Moda

Frecuencia que mas se repite

Formulas

Si coninciden podria ser

Ejemplo

Bien. ahora sigamos con los medios de dispercion

  • Rango
  • Varianza
  • Desviacion media

Para encontrar el rango

Obtener el rango de edades en que se encuentran los encuestados, solo basta con determinar la diferencia que hay entre los valores minimos y los valores maximos

  • Rango = Valor Maximo - Valor minimo
  • Rango = 130 - 30 = 100

Varianza y desviacion media

Para eso vamos poner un nuevo ejemplo y se los voy a explicar

varianza y desviacion media Esto se los pasare a explicar con mis palabras

Asimetria y apuntamiento

Simetrica o Asimetrica

Una distribucion es simetrica cuando al trazar una vertical en el diagrama de barras o “histograma” se transforma un eje de simetria y entonces decimos que la distribucion es simetrica. en caso contrario sera asimetrica, ya sea por izquierda o por derecha

Apuntamiento

La otra medida de forma que vamos a considerar es el apuntamiento, al igual que con la simetria hemos de tomar una referencia para ver si la distribucion de los datos es apuntada o no.

  • Leptocurita: Si la distribucion es mas picuda que la normal
  • Mesocurtica: si la distribucion es igual a la que siempre vemos
  • Platicurtica: la distribucion es mas aplastada que la normal

3 Ramas de la estadistica

3 Ramas
Estadistica inferencial estadistica muestral estadistica descriptiva
Estima Parámetros poblacionales permite realizar estmaciones de los parametros poblacionales descrive una muestra
(Distribucion Probalistica) (estimadores) (distribucion de frecuencia)

Antes de profundizar voy a empezar a explicar cosas basicas

¿Que es un Dato?

Metodologia de distribucion
Estadistica inferencial
Estadistica Muestral
     Estadistica Descriptiva
Probabilidad de obtener valores Frecuencias muestrales Teorema central del limite Fecuencias (ri o ti) Cantidad de veces que surgen los valores

Ahora seguiremos con la Estadistica Descriptiva y la Distribucion de frecuencias simple y distribucion de frecuencia agrupada

DFS Y DFA

Ahora demostrare una distribucion de frecuencias

Usare una bace de datos llamada “tree” o Arboles en español

La bace de datos cuenta con 31 arboles y 3 columnas, una de la circunferencia, una de altura y la otra de volumen

Ahora analisaremos la altura de estos

##    Girth Height Volume
## 1    8.3     70   10.3
## 2    8.6     65   10.3
## 3    8.8     63   10.2
## 4   10.5     72   16.4
## 5   10.7     81   18.8
## 6   10.8     83   19.7
## 7   11.0     66   15.6
## 8   11.0     75   18.2
## 9   11.1     80   22.6
## 10  11.2     75   19.9
## 11  11.3     79   24.2
## 12  11.4     76   21.0
## 13  11.4     76   21.4
## 14  11.7     69   21.3
## 15  12.0     75   19.1
## 16  12.9     74   22.2
## 17  12.9     85   33.8
## 18  13.3     86   27.4
## 19  13.7     71   25.7
## 20  13.8     64   24.9
## 21  14.0     78   34.5
## 22  14.2     80   31.7
## 23  14.5     74   36.3
## 24  16.0     72   38.3
## 25  16.3     77   42.6
## 26  17.3     81   55.4
## 27  17.5     82   55.7
## 28  17.9     80   58.3
## 29  18.0     80   51.5
## 30  18.0     80   51.0
## 31  20.6     87   77.0
distribucion_arboles
##   Class limits f   rf rf(%) cf  cf(%)
##  [62.37,66.62) 4 0.13 12.90  4  12.90
##  [66.62,70.87) 2 0.06  6.45  6  19.35
##  [70.87,75.12) 8 0.26 25.81 14  45.16
##  [75.12,79.37) 5 0.16 16.13 19  61.29
##  [79.37,83.62) 9 0.29 29.03 28  90.32
##  [83.62,87.87) 3 0.10  9.68 31 100.00

Para arrancar del principio, empezare a explicar columna por columna

  • Class lim: Significa los limites de la clase, osea el limite inferior y el limite superior de cada intervalo
  • F: Significa la frecuencia absoluta, osea cuantos datos caen en esos intervalos
  • rf y rf%: Frecuencia relativa: Las dos proximas columnas rf y rf% Nos dicen practicamente lo mismo solo que en rf esta en decimal y rf% esta en porcentajey significa el porcentaje que tenemos en esa muestra del total
  • cf y cf%: Frecuencia absoluta acumulada: consiste en sumar todas las frecuencias absolutas de los intervalos anteriores con el actual.

Bueno ya explicado que significa cada columna explicare verbalmente una de ellas. dire la fila 3

  • entre 70, 87 cm y 75,12 cm de altura encontramos a 8 arboles que representan el 25,81% del total. y entre 62,37cm y 75,12cm encontramos a 14 arboles que representan el 45,16% del total de la muestra

Histograma

Siguiendo con el ejemplo anterior voy a mostrar el histograma

hist(x)

El Histograma es un Gráfico de la representación de distribuciones de frecuencias, en el que se emplean rectángulos dentro de unas coordenadas.

Antes de terminar voy a empezar a explicar los principales graficos

Ahora explicare el Grafico de lineas

Tal vez el gráfico más básico consiste en representar una línea, que permite visualizar una serie temporal o cualquier función matemática.

x <- seq(-2*pi, 2*pi, 0.01)  
datos <- data.frame(x = x, y = sin(x), z = cos(x))
ggplot(datos) +
  geom_line(aes(x=x, y=y)) +
  geom_line(aes(x=x, y=z), linetype=2, size=2)
## Error in ggplot(datos): no se pudo encontrar la función "ggplot"

Lineas

Diagrama de barras

La operacion estadistica por defecto

Es calcular las frecuencia de cada uno de los valores de la variable que se asigna a (x). en comparacion con los ejemplos anteriores basta con espesificar la coordenada (x) en el lugar de la (x) y la (y), ya que la variable asignada a (y) por defectos son las frecuencias

ggplot(data = notas) +
  geom_bar(aes(x = tipo),
           width=0.3,
           fill='tomato2') +
  theme_classic()
## Error in ggplot(data = notas): no se pudo encontrar la función "ggplot"

Diagrama

Histogramas

Es basicamente el que explique anteriormente

ggplot(data = notas) +
  geom_histogram(aes(x = nota09))
## Error in ggplot(data = notas): no se pudo encontrar la función "ggplot"

Histograma