la estadística busca características, es una ciencia proveniente de
la rama de matemática aunque no sea una ciencia exacta. Utiliza
conjuntos de datos numericos para obtener inferencias basadas en el
calculo de las probabilidades.
3 características fundamentales son:
¿Como se analisa una poblacion?
Promedio simple | |||
Promedio | Media aritmetica | ||
Promedio ponderado | Media geometrica | ||
Tendencia central | Media armonica | ||
Mediana | Medida de posicion | ||
Moda | Medida de frecuencia |
Promedio
Esta imagen nos explica: La media aritmetica es igual al cociente de la suma entre la x (marca de clase) por la frecuencia dividido el tamaño de la muestra
Si no se puede calcular por el promedio o media aritmetica aparece la mediana
Es una media posicional que divide el producto en dos partes iguales. (al tamaño de la muestra se le suma 1 y se lo divide por dos) Otra forma de encontrarlo
Frecuencia que mas se repite
Formulas
Si coninciden podria ser
Ejemplo
Obtener el rango de edades en que se encuentran los encuestados, solo basta con determinar la diferencia que hay entre los valores minimos y los valores maximos
Para eso vamos poner un nuevo ejemplo y se los voy a explicar
Esto se
los pasare a explicar con mis palabras
Simetrica o Asimetrica
Una distribucion es simetrica cuando al trazar una vertical en el diagrama de barras o “histograma” se transforma un eje de simetria y entonces decimos que la distribucion es simetrica. en caso contrario sera asimetrica, ya sea por izquierda o por derecha
Apuntamiento
La otra medida de forma que vamos a considerar es el apuntamiento, al igual que con la simetria hemos de tomar una referencia para ver si la distribucion de los datos es apuntada o no.
3 Ramas | ||||
Estadistica inferencial | estadistica muestral | estadistica descriptiva | ||
Estima Parámetros poblacionales | permite realizar estmaciones de los parametros poblacionales | descrive una muestra | ||
(Distribucion Probalistica) | (estimadores) | (distribucion de frecuencia) |
Antes de profundizar voy a empezar a explicar cosas basicas
¿Que es un Dato?
Metodologia de distribucion | ||||
Estadistica inferencial |
|
|
||
Probabilidad de obtener valores | Frecuencias muestrales Teorema central del limite | Fecuencias (ri o ti) Cantidad de veces que surgen los valores |
DFS Y DFA
Usare una bace de datos llamada “tree” o Arboles en español
La bace de datos cuenta con 31 arboles y 3 columnas, una de la circunferencia, una de altura y la otra de volumen
Ahora analisaremos la altura de estos
## Girth Height Volume
## 1 8.3 70 10.3
## 2 8.6 65 10.3
## 3 8.8 63 10.2
## 4 10.5 72 16.4
## 5 10.7 81 18.8
## 6 10.8 83 19.7
## 7 11.0 66 15.6
## 8 11.0 75 18.2
## 9 11.1 80 22.6
## 10 11.2 75 19.9
## 11 11.3 79 24.2
## 12 11.4 76 21.0
## 13 11.4 76 21.4
## 14 11.7 69 21.3
## 15 12.0 75 19.1
## 16 12.9 74 22.2
## 17 12.9 85 33.8
## 18 13.3 86 27.4
## 19 13.7 71 25.7
## 20 13.8 64 24.9
## 21 14.0 78 34.5
## 22 14.2 80 31.7
## 23 14.5 74 36.3
## 24 16.0 72 38.3
## 25 16.3 77 42.6
## 26 17.3 81 55.4
## 27 17.5 82 55.7
## 28 17.9 80 58.3
## 29 18.0 80 51.5
## 30 18.0 80 51.0
## 31 20.6 87 77.0
distribucion_arboles
## Class limits f rf rf(%) cf cf(%)
## [62.37,66.62) 4 0.13 12.90 4 12.90
## [66.62,70.87) 2 0.06 6.45 6 19.35
## [70.87,75.12) 8 0.26 25.81 14 45.16
## [75.12,79.37) 5 0.16 16.13 19 61.29
## [79.37,83.62) 9 0.29 29.03 28 90.32
## [83.62,87.87) 3 0.10 9.68 31 100.00
Para arrancar del principio, empezare a explicar columna por columna
Bueno ya explicado que significa cada columna explicare verbalmente una de ellas. dire la fila 3
Siguiendo con el ejemplo anterior voy a mostrar el histograma
hist(x)
El Histograma es un Gráfico de la representación de distribuciones de frecuencias, en el que se emplean rectángulos dentro de unas coordenadas.
Tal vez el gráfico más básico consiste en representar una línea, que permite visualizar una serie temporal o cualquier función matemática.
x <- seq(-2*pi, 2*pi, 0.01)
datos <- data.frame(x = x, y = sin(x), z = cos(x))
ggplot(datos) +
geom_line(aes(x=x, y=y)) +
geom_line(aes(x=x, y=z), linetype=2, size=2)
## Error in ggplot(datos): no se pudo encontrar la función "ggplot"
Lineas
La operacion estadistica por defecto
Es calcular las frecuencia de cada uno de los valores de la variable que se asigna a (x). en comparacion con los ejemplos anteriores basta con espesificar la coordenada (x) en el lugar de la (x) y la (y), ya que la variable asignada a (y) por defectos son las frecuencias
ggplot(data = notas) +
geom_bar(aes(x = tipo),
width=0.3,
fill='tomato2') +
theme_classic()
## Error in ggplot(data = notas): no se pudo encontrar la función "ggplot"
Diagrama
Es basicamente el que explique anteriormente
ggplot(data = notas) +
geom_histogram(aes(x = nota09))
## Error in ggplot(data = notas): no se pudo encontrar la función "ggplot"
Histograma