Estadísticas básicas que necesita saber para la ciencia de
datos
El propósito de esto es proporcionar una descripción general completa
de los fundamentos de las estadísticas que necesitará
para comenzar su viaje de ciencia de datos. Ya hay muchos artículos,
¡pero mi objetivo es hacerlo más conciso!.
Tipos de datos
Numérico: dato expresado con dígitos; es
medible. Puede ser discreto o continuo.
Categóricos: datos cualitativos
clasificados en categorías. Puede ser nominal (sin orden) u ordinal
(datos ordenados).
Medidas de tendencia central
Media: el promedio de un conjunto de
datos.
Mediana: la mitad de un conjunto de datos
ordenado; menos susceptible a los valores atípicos.
Moda: el valor más común en un conjunto de
datos; solo relevante para datos discretos.

Medidas de Variabilidad
Rango: la diferencia entre el valor más
alto y el más bajo en un conjunto de datos.
Varianza (σ2): mide qué tan disperso está
un conjunto de datos en relación con la media.
\[
\sigma^2 = \frac{\sum_1^n = 1 (x_1 - \overline{x})^2}{n}
\]
Desviación estándar (σ): otra medida de
cuán dispersos están los números en un conjunto de datos; es la raíz
cuadrada de la varianza.
Puntuación Z: determina el número de
desviaciones estándar de un punto de datos con respecto a la media.
\[
z = \frac {x_i - \mu}{\sigma}
\]
R-Cuadrado: una medida estadística de
ajuste que indica cuánta variación de una variable dependiente es
explicada por la(s) variable(s) independiente(s); solo es útil para la
regresión lineal simple.
\[
R^2 = 1 - \frac {variacion explicada }{total explicado}
\]
R-cuadrado ajustado: una versión modificada
de r-cuadrado que se ha ajustado por el número de predictores en el
modelo; aumenta si el nuevo término mejora el modelo más de lo que se
esperaría por casualidad y viceversa.
Mediciones de Relaciones entre Variables
Covarianza: Mide la varianza entre dos (o
más) variables. Si es positivo, tienden a moverse en la misma dirección,
si es negativo, tienden a moverse en direcciones opuestas, y si son
cero, no tienen relación entre sí.
\[
\sigma_{xy} = \frac {\sum_{i=1}^n (X_i - \mu_x) (Y_i - \mu_y)}{n}
\]
El denominador se convierte en (n-1) para muestras
Correlación: Mide la fuerza de una relación
entre dos variables y varía de -1 a 1; la versión normalizada de la
covarianza. Generalmente, una correlación de +/- 0,7 representa una
fuerte relación entre dos variables. Por otro lado, las correlaciones
entre -0,3 y 0,3 indican que hay poca o ninguna relación entre las
variables.
\[
Correlación = \frac{Cov (x,y)}{\sigma{x} \cdot \sigma{y}}
\]
Funciones de distribución de probabilidad
Función de densidad de probabilidad (PDF): una
función para datos continuos donde el valor en cualquier punto puede
interpretarse como una probabilidad relativa de que el valor de la
variable aleatoria sea igual a esa muestra.
Función de masa de probabilidad (PMF): una función
para datos discretos que da la probabilidad de que ocurra un valor
dado.
Función de densidad acumulativa (CDF): una función
que nos dice la probabilidad de que una variable aleatoria sea menor que
un cierto valor; la integral del PDF.
Distribuciones continuas de datos
Distribución uniforme: una distribución de
probabilidad donde todos los resultados son igualmente probables.
Distribución normal/gaussiana: comúnmente conocida
como curva de campana y está relacionada con el teorema del límite
central ; tiene una media de 0 y una desviación estándar de 1.
Probabilidad
La probabilidad es la probabilidad de que ocurra un
evento.
La probabilidad condicional [P(A|B)] es la
probabilidad de que ocurra un evento, en función de la ocurrencia de un
evento anterior.
Los eventos independientes son eventos cuyo
resultado no influye en la probabilidad del resultado de otro evento;
P(A|B) = P(A).
Los eventos mutuamente excluyentes son eventos que
no pueden ocurrir simultáneamente; P(A|B) = 0.
Teorema de Bayes: una fórmula matemática para
determinar la probabilidad condicional. “La probabilidad de A dado B es
igual a la probabilidad de B dado A por la probabilidad de A sobre la
probabilidad de B”.
\[
P (A|B) = \frac{P(A \bigcap B} {P (B)} = \frac {P(A) \cdot P(B|A)}
{P(B)}
\]
Exactitud
Verdadero positivo:
Detecta la condición cuando
la condición está presente.
Verdadero negativo:
No detecta la condición
cuando la condición no está presente.
Falso positivo:
Detecta la condición cuando la
condición está ausente.
Falso negativo:
No detecta la condición cuando
la condición está presente.
Sensibilidad:
También conocida como
recuerdo; mide la capacidad de una prueba para detectar
la condición cuando la condición está presente; sensibilidad =
TP/(TP+FN)
Especificidad: Mide la capacidad de una prueba
para excluir correctamente la condición cuando la condición está
ausente; especificidad = TN/(TN+FP)
LS0tDQp0aXRsZTogIkFwcmVuZGl6YWplIC0gVGVtYSBMaWJyZSINCmF1dGhvcjogIkplc3NpY2EgQ2V2YWxsb3MgTWFtYW5pIg0KZGF0ZTogIjIwMjIvMDUvMDEiDQpzdWJ0aXRsZTogTWFya2Rvd24gLSBSTWFya2Rvd24NCm91dHB1dDoNCiAgaHRtbF9kb2N1bWVudDoNCiAgICBjb2RlX2Rvd25sb2FkOiBUUlVFDQotLS0NCg0KPGNlbnRlcj4NCg0KIyBFc3RhZMOtc3RpY2FzIGLDoXNpY2FzIHF1ZSBuZWNlc2l0YSBzYWJlciBwYXJhIGxhIGNpZW5jaWEgZGUgZGF0b3MNCg0KPC9jZW50ZXI+DQoNCkVsIHByb3DDs3NpdG8gZGUgZXN0byBlcyBwcm9wb3JjaW9uYXIgdW5hIGRlc2NyaXBjacOzbiBnZW5lcmFsIGNvbXBsZXRhIGRlIGxvcyAqKmZ1bmRhbWVudG9zIGRlIGxhcyBlc3RhZMOtc3RpY2FzKiogcXVlIG5lY2VzaXRhcsOhIHBhcmEgY29tZW56YXIgc3UgdmlhamUgZGUgY2llbmNpYSBkZSBkYXRvcy4gWWEgaGF5IG11Y2hvcyBhcnTDrWN1bG9zLCDCoXBlcm8gbWkgb2JqZXRpdm8gZXMgaGFjZXJsbyBtw6FzIGNvbmNpc28hLg0KDQojIyBUaXBvcyBkZSBkYXRvcw0KDQoqKipOdW3DqXJpY286KioqIGRhdG8gZXhwcmVzYWRvIGNvbiBkw61naXRvczsgZXMgbWVkaWJsZS4gUHVlZGUgc2VyIGRpc2NyZXRvIG8gY29udGludW8uDQoNCioqKkNhdGVnw7NyaWNvczoqKiogZGF0b3MgY3VhbGl0YXRpdm9zIGNsYXNpZmljYWRvcyBlbiBjYXRlZ29yw61hcy4gUHVlZGUgc2VyIG5vbWluYWwgKHNpbiBvcmRlbikgdSBvcmRpbmFsIChkYXRvcyBvcmRlbmFkb3MpLg0KDQojIyBNZWRpZGFzIGRlIHRlbmRlbmNpYSBjZW50cmFsDQoNCioqKk1lZGlhOioqKiBlbCBwcm9tZWRpbyBkZSB1biBjb25qdW50byBkZSBkYXRvcy4NCg0KKioqTWVkaWFuYToqKiogbGEgbWl0YWQgZGUgdW4gY29uanVudG8gZGUgZGF0b3Mgb3JkZW5hZG87IG1lbm9zIHN1c2NlcHRpYmxlIGEgbG9zIHZhbG9yZXMgYXTDrXBpY29zLg0KDQoqKipNb2RhOioqKiBlbCB2YWxvciBtw6FzIGNvbcO6biBlbiB1biBjb25qdW50byBkZSBkYXRvczsgc29sbyByZWxldmFudGUgcGFyYSBkYXRvcyBkaXNjcmV0b3MuDQoNCjxjZW50ZXI+DQoNCiFbXShodHRwczovL21pcm8ubWVkaXVtLmNvbS9tYXgvMTQwMC8wKlR5cl90SjBuNWFkUC14ZHcucG5nKXt3aWR0aD0iNjAwIn0NCg0KPC9jZW50ZXI+DQoNCiMjIE1lZGlkYXMgZGUgVmFyaWFiaWxpZGFkDQoNCioqKlJhbmdvOioqKiBsYSBkaWZlcmVuY2lhIGVudHJlIGVsIHZhbG9yIG3DoXMgYWx0byB5IGVsIG3DoXMgYmFqbyBlbiB1biBjb25qdW50byBkZSBkYXRvcy4NCg0KKioqVmFyaWFuemEgKM+DMik6KioqIG1pZGUgcXXDqSB0YW4gZGlzcGVyc28gZXN0w6EgdW4gY29uanVudG8gZGUgZGF0b3MgZW4gcmVsYWNpw7NuIGNvbiBsYSBtZWRpYS4NCg0KJCQNClxzaWdtYV4yID0gXGZyYWN7XHN1bV8xXm4gPSAxICh4XzEgLSBcb3ZlcmxpbmV7eH0pXjJ9e259DQokJA0KDQoqKipEZXN2aWFjacOzbiBlc3TDoW5kYXIgKM+DKToqKiogb3RyYSBtZWRpZGEgZGUgY3XDoW4gZGlzcGVyc29zIGVzdMOhbiBsb3MgbsO6bWVyb3MgZW4gdW4gY29uanVudG8gZGUgZGF0b3M7IGVzIGxhIHJhw616IGN1YWRyYWRhIGRlIGxhIHZhcmlhbnphLg0KDQoqKipQdW50dWFjacOzbiBaOioqKiBkZXRlcm1pbmEgZWwgbsO6bWVybyBkZSBkZXN2aWFjaW9uZXMgZXN0w6FuZGFyIGRlIHVuIHB1bnRvIGRlIGRhdG9zIGNvbiByZXNwZWN0byBhIGxhIG1lZGlhLg0KDQokJA0KeiA9IFxmcmFjIHt4X2kgLSBcbXV9e1xzaWdtYX0NCiQkDQoNCioqKlItQ3VhZHJhZG86KioqIHVuYSBtZWRpZGEgZXN0YWTDrXN0aWNhIGRlIGFqdXN0ZSBxdWUgaW5kaWNhIGN1w6FudGEgdmFyaWFjacOzbiBkZSB1bmEgdmFyaWFibGUgZGVwZW5kaWVudGUgZXMgZXhwbGljYWRhIHBvciBsYShzKSB2YXJpYWJsZShzKSBpbmRlcGVuZGllbnRlKHMpOyBzb2xvIGVzIMO6dGlsIHBhcmEgbGEgcmVncmVzacOzbiBsaW5lYWwgc2ltcGxlLg0KDQokJA0KUl4yID0gMSAtIFxmcmFjIHt2YXJpYWNpb24gZXhwbGljYWRhIH17dG90YWwgZXhwbGljYWRvfQ0KJCQNCg0KKioqUi1jdWFkcmFkbyBhanVzdGFkbzoqKiogdW5hIHZlcnNpw7NuIG1vZGlmaWNhZGEgZGUgci1jdWFkcmFkbyBxdWUgc2UgaGEgYWp1c3RhZG8gcG9yIGVsIG7Dum1lcm8gZGUgcHJlZGljdG9yZXMgZW4gZWwgbW9kZWxvOyBhdW1lbnRhIHNpIGVsIG51ZXZvIHTDqXJtaW5vIG1lam9yYSBlbCBtb2RlbG8gbcOhcyBkZSBsbyBxdWUgc2UgZXNwZXJhcsOtYSBwb3IgY2FzdWFsaWRhZCB5IHZpY2V2ZXJzYS4NCg0KIyMgTWVkaWNpb25lcyBkZSBSZWxhY2lvbmVzIGVudHJlIFZhcmlhYmxlcw0KDQoqKipDb3ZhcmlhbnphOioqKiBNaWRlIGxhIHZhcmlhbnphIGVudHJlIGRvcyAobyBtw6FzKSB2YXJpYWJsZXMuIFNpIGVzIHBvc2l0aXZvLCB0aWVuZGVuIGEgbW92ZXJzZSBlbiBsYSBtaXNtYSBkaXJlY2Npw7NuLCBzaSBlcyBuZWdhdGl2bywgdGllbmRlbiBhIG1vdmVyc2UgZW4gZGlyZWNjaW9uZXMgb3B1ZXN0YXMsIHkgc2kgc29uIGNlcm8sIG5vIHRpZW5lbiByZWxhY2nDs24gZW50cmUgc8OtLg0KDQokJA0KXHNpZ21hX3t4eX0gPSBcZnJhYyB7XHN1bV97aT0xfV5uIChYX2kgLSBcbXVfeCkgKFlfaSAtIFxtdV95KX17bn0NCiQkDQoNCiMjIyMjIyBFbCBkZW5vbWluYWRvciBzZSBjb252aWVydGUgZW4gKG4tMSkgcGFyYSBtdWVzdHJhcw0KDQo8Y2VudGVyPg0KDQoqKipDb3JyZWxhY2nDs246KioqIE1pZGUgbGEgZnVlcnphIGRlIHVuYSByZWxhY2nDs24gZW50cmUgZG9zIHZhcmlhYmxlcyB5IHZhcsOtYSBkZSAtMSBhIDE7IGxhIHZlcnNpw7NuIG5vcm1hbGl6YWRhIGRlIGxhIGNvdmFyaWFuemEuIEdlbmVyYWxtZW50ZSwgdW5hIGNvcnJlbGFjacOzbiBkZSArLy0gMCw3IHJlcHJlc2VudGEgdW5hIGZ1ZXJ0ZSByZWxhY2nDs24gZW50cmUgZG9zIHZhcmlhYmxlcy4gUG9yIG90cm8gbGFkbywgbGFzIGNvcnJlbGFjaW9uZXMgZW50cmUgLTAsMyB5IDAsMyBpbmRpY2FuIHF1ZSBoYXkgcG9jYSBvIG5pbmd1bmEgcmVsYWNpw7NuIGVudHJlIGxhcyB2YXJpYWJsZXMuDQoNCiQkDQpDb3JyZWxhY2nDs24gPSBcZnJhY3tDb3YgKHgseSl9e1xzaWdtYXt4fSBcY2RvdCBcc2lnbWF7eX19DQokJA0KDQojIyBGdW5jaW9uZXMgZGUgZGlzdHJpYnVjacOzbiBkZSBwcm9iYWJpbGlkYWQNCg0KKipGdW5jacOzbiBkZSBkZW5zaWRhZCBkZSBwcm9iYWJpbGlkYWQgKFBERik6KiogdW5hIGZ1bmNpw7NuIHBhcmEgZGF0b3MgY29udGludW9zIGRvbmRlIGVsIHZhbG9yIGVuIGN1YWxxdWllciBwdW50byBwdWVkZSBpbnRlcnByZXRhcnNlIGNvbW8gdW5hIHByb2JhYmlsaWRhZCByZWxhdGl2YSBkZSBxdWUgZWwgdmFsb3IgZGUgbGEgdmFyaWFibGUgYWxlYXRvcmlhIHNlYSBpZ3VhbCBhIGVzYSBtdWVzdHJhLg0KDQoqKkZ1bmNpw7NuIGRlIG1hc2EgZGUgcHJvYmFiaWxpZGFkIChQTUYpOioqIHVuYSBmdW5jacOzbiBwYXJhIGRhdG9zIGRpc2NyZXRvcyBxdWUgZGEgbGEgcHJvYmFiaWxpZGFkIGRlIHF1ZSBvY3VycmEgdW4gdmFsb3IgZGFkby4NCg0KKipGdW5jacOzbiBkZSBkZW5zaWRhZCBhY3VtdWxhdGl2YSAoQ0RGKToqKiB1bmEgZnVuY2nDs24gcXVlIG5vcyBkaWNlIGxhIHByb2JhYmlsaWRhZCBkZSBxdWUgdW5hIHZhcmlhYmxlIGFsZWF0b3JpYSBzZWEgbWVub3IgcXVlIHVuIGNpZXJ0byB2YWxvcjsgbGEgaW50ZWdyYWwgZGVsIFBERi4NCg0KIyMgRGlzdHJpYnVjaW9uZXMgY29udGludWFzIGRlIGRhdG9zDQoNCioqRGlzdHJpYnVjacOzbiB1bmlmb3JtZToqKiB1bmEgZGlzdHJpYnVjacOzbiBkZSBwcm9iYWJpbGlkYWQgZG9uZGUgdG9kb3MgbG9zIHJlc3VsdGFkb3Mgc29uIGlndWFsbWVudGUgcHJvYmFibGVzLg0KDQoqKkRpc3RyaWJ1Y2nDs24gbm9ybWFsL2dhdXNzaWFuYToqKiBjb23Dum5tZW50ZSBjb25vY2lkYSBjb21vIGN1cnZhIGRlIGNhbXBhbmEgeSBlc3TDoSByZWxhY2lvbmFkYSBjb24gZWwgdGVvcmVtYSBkZWwgbMOtbWl0ZSBjZW50cmFsIDsgdGllbmUgdW5hIG1lZGlhIGRlIDAgeSB1bmEgZGVzdmlhY2nDs24gZXN0w6FuZGFyIGRlIDEuDQoNCiMjIFByb2JhYmlsaWRhZA0KDQoqKkxhIHByb2JhYmlsaWRhZCoqIGVzIGxhIHByb2JhYmlsaWRhZCBkZSBxdWUgb2N1cnJhIHVuIGV2ZW50by4NCg0KKipMYSBwcm9iYWJpbGlkYWQgY29uZGljaW9uYWwgW1AoQVx8QildKiogZXMgbGEgcHJvYmFiaWxpZGFkIGRlIHF1ZSBvY3VycmEgdW4gZXZlbnRvLCBlbiBmdW5jacOzbiBkZSBsYSBvY3VycmVuY2lhIGRlIHVuIGV2ZW50byBhbnRlcmlvci4NCg0KKipMb3MgZXZlbnRvcyBpbmRlcGVuZGllbnRlcyoqIHNvbiBldmVudG9zIGN1eW8gcmVzdWx0YWRvIG5vIGluZmx1eWUgZW4gbGEgcHJvYmFiaWxpZGFkIGRlbCByZXN1bHRhZG8gZGUgb3RybyBldmVudG87IFAoQVx8QikgPSBQKEEpLg0KDQoqKkxvcyBldmVudG9zIG11dHVhbWVudGUgZXhjbHV5ZW50ZXMqKiBzb24gZXZlbnRvcyBxdWUgbm8gcHVlZGVuIG9jdXJyaXIgc2ltdWx0w6FuZWFtZW50ZTsgUChBXHxCKSA9IDAuDQoNCioqVGVvcmVtYSBkZSBCYXllczoqKiB1bmEgZsOzcm11bGEgbWF0ZW3DoXRpY2EgcGFyYSBkZXRlcm1pbmFyIGxhIHByb2JhYmlsaWRhZCBjb25kaWNpb25hbC4gIkxhIHByb2JhYmlsaWRhZCBkZSBBIGRhZG8gQiBlcyBpZ3VhbCBhIGxhIHByb2JhYmlsaWRhZCBkZSBCIGRhZG8gQSBwb3IgbGEgcHJvYmFiaWxpZGFkIGRlIEEgc29icmUgbGEgcHJvYmFiaWxpZGFkIGRlIEIiLg0KDQokJA0KUCAoQXxCKSA9IFxmcmFje1AoQSBcYmlnY2FwIEJ9IHtQIChCKX0gPSBcZnJhYyB7UChBKSBcY2RvdCBQKEJ8QSl9IHtQKEIpfQ0KJCQNCg0KIyMgRXhhY3RpdHVkDQoNCioqVmVyZGFkZXJvIHBvc2l0aXZvOioqIDxicj4gRGV0ZWN0YSBsYSBjb25kaWNpw7NuIGN1YW5kbyBsYSBjb25kaWNpw7NuIGVzdMOhIHByZXNlbnRlLg0KDQoqKlZlcmRhZGVybyBuZWdhdGl2bzoqKiA8YnI+IE5vIGRldGVjdGEgbGEgY29uZGljacOzbiBjdWFuZG8gbGEgY29uZGljacOzbiBubyBlc3TDoSBwcmVzZW50ZS4NCg0KKipGYWxzbyBwb3NpdGl2bzoqKiA8YnI+IERldGVjdGEgbGEgY29uZGljacOzbiBjdWFuZG8gbGEgY29uZGljacOzbiBlc3TDoSBhdXNlbnRlLg0KDQoqKkZhbHNvIG5lZ2F0aXZvOioqIDxicj4gTm8gZGV0ZWN0YSBsYSBjb25kaWNpw7NuIGN1YW5kbyBsYSBjb25kaWNpw7NuIGVzdMOhIHByZXNlbnRlLg0KDQoqKlNlbnNpYmlsaWRhZDoqKiA8YnI+IFRhbWJpw6luIGNvbm9jaWRhIGNvbW8gKipyZWN1ZXJkbyoqOyBtaWRlIGxhIGNhcGFjaWRhZCBkZSB1bmEgcHJ1ZWJhIHBhcmEgZGV0ZWN0YXIgbGEgY29uZGljacOzbiBjdWFuZG8gbGEgY29uZGljacOzbiBlc3TDoSBwcmVzZW50ZTsgc2Vuc2liaWxpZGFkID0gVFAvKFRQK0ZOKQ0KDQoqKkVzcGVjaWZpY2lkYWQ6KiogPGJyPg0KTWlkZSBsYSBjYXBhY2lkYWQgZGUgdW5hIHBydWViYSBwYXJhIGV4Y2x1aXIgY29ycmVjdGFtZW50ZSBsYSBjb25kaWNpw7NuIGN1YW5kbyBsYSBjb25kaWNpw7NuIGVzdMOhIGF1c2VudGU7IGVzcGVjaWZpY2lkYWQgPSBUTi8oVE4rRlApDQo8L2NlbnRlcj4NCjxjZW50ZXI+DQohW1RhYmxhIGRlIENvbmRpY2lvbl0oaHR0cHM6Ly9taXJvLm1lZGl1bS5jb20vbWF4LzE0MDAvMCpQblNwTC1BY3dBajRMRXNLLnBuZyAiQ2xpY2sgcGFyYSB2ZXIiKXt3aWR0aD0iODAwIn0NCg0KPC9jZW50ZXI+DQo=