Estadísticas básicas que necesita saber para la ciencia de datos

El propósito de esto es proporcionar una descripción general completa de los fundamentos de las estadísticas que necesitará para comenzar su viaje de ciencia de datos. Ya hay muchos artículos, ¡pero mi objetivo es hacerlo más conciso!.

Tipos de datos

Numérico: dato expresado con dígitos; es medible. Puede ser discreto o continuo.

Categóricos: datos cualitativos clasificados en categorías. Puede ser nominal (sin orden) u ordinal (datos ordenados).

Medidas de tendencia central

Media: el promedio de un conjunto de datos.

Mediana: la mitad de un conjunto de datos ordenado; menos susceptible a los valores atípicos.

Moda: el valor más común en un conjunto de datos; solo relevante para datos discretos.

Medidas de Variabilidad

Rango: la diferencia entre el valor más alto y el más bajo en un conjunto de datos.

Varianza (σ2): mide qué tan disperso está un conjunto de datos en relación con la media.

\[ \sigma^2 = \frac{\sum_1^n = 1 (x_1 - \overline{x})^2}{n} \]

Desviación estándar (σ): otra medida de cuán dispersos están los números en un conjunto de datos; es la raíz cuadrada de la varianza.

Puntuación Z: determina el número de desviaciones estándar de un punto de datos con respecto a la media.

\[ z = \frac {x_i - \mu}{\sigma} \]

R-Cuadrado: una medida estadística de ajuste que indica cuánta variación de una variable dependiente es explicada por la(s) variable(s) independiente(s); solo es útil para la regresión lineal simple.

\[ R^2 = 1 - \frac {variacion explicada }{total explicado} \]

R-cuadrado ajustado: una versión modificada de r-cuadrado que se ha ajustado por el número de predictores en el modelo; aumenta si el nuevo término mejora el modelo más de lo que se esperaría por casualidad y viceversa.

Mediciones de Relaciones entre Variables

Covarianza: Mide la varianza entre dos (o más) variables. Si es positivo, tienden a moverse en la misma dirección, si es negativo, tienden a moverse en direcciones opuestas, y si son cero, no tienen relación entre sí.

\[ \sigma_{xy} = \frac {\sum_{i=1}^n (X_i - \mu_x) (Y_i - \mu_y)}{n} \]

El denominador se convierte en (n-1) para muestras

Correlación: Mide la fuerza de una relación entre dos variables y varía de -1 a 1; la versión normalizada de la covarianza. Generalmente, una correlación de +/- 0,7 representa una fuerte relación entre dos variables. Por otro lado, las correlaciones entre -0,3 y 0,3 indican que hay poca o ninguna relación entre las variables.

\[ Correlación = \frac{Cov (x,y)}{\sigma{x} \cdot \sigma{y}} \]

Funciones de distribución de probabilidad

Función de densidad de probabilidad (PDF): una función para datos continuos donde el valor en cualquier punto puede interpretarse como una probabilidad relativa de que el valor de la variable aleatoria sea igual a esa muestra.

Función de masa de probabilidad (PMF): una función para datos discretos que da la probabilidad de que ocurra un valor dado.

Función de densidad acumulativa (CDF): una función que nos dice la probabilidad de que una variable aleatoria sea menor que un cierto valor; la integral del PDF.

Distribuciones continuas de datos

Distribución uniforme: una distribución de probabilidad donde todos los resultados son igualmente probables.

Distribución normal/gaussiana: comúnmente conocida como curva de campana y está relacionada con el teorema del límite central ; tiene una media de 0 y una desviación estándar de 1.

Probabilidad

La probabilidad es la probabilidad de que ocurra un evento.

La probabilidad condicional [P(A|B)] es la probabilidad de que ocurra un evento, en función de la ocurrencia de un evento anterior.

Los eventos independientes son eventos cuyo resultado no influye en la probabilidad del resultado de otro evento; P(A|B) = P(A).

Los eventos mutuamente excluyentes son eventos que no pueden ocurrir simultáneamente; P(A|B) = 0.

Teorema de Bayes: una fórmula matemática para determinar la probabilidad condicional. “La probabilidad de A dado B es igual a la probabilidad de B dado A por la probabilidad de A sobre la probabilidad de B”.

\[ P (A|B) = \frac{P(A \bigcap B} {P (B)} = \frac {P(A) \cdot P(B|A)} {P(B)} \]

Exactitud

Verdadero positivo:
Detecta la condición cuando la condición está presente.

Verdadero negativo:
No detecta la condición cuando la condición no está presente.

Falso positivo:
Detecta la condición cuando la condición está ausente.

Falso negativo:
No detecta la condición cuando la condición está presente.

Sensibilidad:
También conocida como recuerdo; mide la capacidad de una prueba para detectar la condición cuando la condición está presente; sensibilidad = TP/(TP+FN)

Especificidad:
Mide la capacidad de una prueba para excluir correctamente la condición cuando la condición está ausente; especificidad = TN/(TN+FP)

Tabla de Condicion

LS0tDQp0aXRsZTogIkFwcmVuZGl6YWplIC0gVGVtYSBMaWJyZSINCmF1dGhvcjogIkplc3NpY2EgQ2V2YWxsb3MgTWFtYW5pIg0KZGF0ZTogIjIwMjIvMDUvMDEiDQpzdWJ0aXRsZTogTWFya2Rvd24gLSBSTWFya2Rvd24NCm91dHB1dDoNCiAgaHRtbF9kb2N1bWVudDoNCiAgICBjb2RlX2Rvd25sb2FkOiBUUlVFDQotLS0NCg0KPGNlbnRlcj4NCg0KIyBFc3RhZMOtc3RpY2FzIGLDoXNpY2FzIHF1ZSBuZWNlc2l0YSBzYWJlciBwYXJhIGxhIGNpZW5jaWEgZGUgZGF0b3MNCg0KPC9jZW50ZXI+DQoNCkVsIHByb3DDs3NpdG8gZGUgZXN0byBlcyBwcm9wb3JjaW9uYXIgdW5hIGRlc2NyaXBjacOzbiBnZW5lcmFsIGNvbXBsZXRhIGRlIGxvcyAqKmZ1bmRhbWVudG9zIGRlIGxhcyBlc3RhZMOtc3RpY2FzKiogcXVlIG5lY2VzaXRhcsOhIHBhcmEgY29tZW56YXIgc3UgdmlhamUgZGUgY2llbmNpYSBkZSBkYXRvcy4gWWEgaGF5IG11Y2hvcyBhcnTDrWN1bG9zLCDCoXBlcm8gbWkgb2JqZXRpdm8gZXMgaGFjZXJsbyBtw6FzIGNvbmNpc28hLg0KDQojIyBUaXBvcyBkZSBkYXRvcw0KDQoqKipOdW3DqXJpY286KioqIGRhdG8gZXhwcmVzYWRvIGNvbiBkw61naXRvczsgZXMgbWVkaWJsZS4gUHVlZGUgc2VyIGRpc2NyZXRvIG8gY29udGludW8uDQoNCioqKkNhdGVnw7NyaWNvczoqKiogZGF0b3MgY3VhbGl0YXRpdm9zIGNsYXNpZmljYWRvcyBlbiBjYXRlZ29yw61hcy4gUHVlZGUgc2VyIG5vbWluYWwgKHNpbiBvcmRlbikgdSBvcmRpbmFsIChkYXRvcyBvcmRlbmFkb3MpLg0KDQojIyBNZWRpZGFzIGRlIHRlbmRlbmNpYSBjZW50cmFsDQoNCioqKk1lZGlhOioqKiBlbCBwcm9tZWRpbyBkZSB1biBjb25qdW50byBkZSBkYXRvcy4NCg0KKioqTWVkaWFuYToqKiogbGEgbWl0YWQgZGUgdW4gY29uanVudG8gZGUgZGF0b3Mgb3JkZW5hZG87IG1lbm9zIHN1c2NlcHRpYmxlIGEgbG9zIHZhbG9yZXMgYXTDrXBpY29zLg0KDQoqKipNb2RhOioqKiBlbCB2YWxvciBtw6FzIGNvbcO6biBlbiB1biBjb25qdW50byBkZSBkYXRvczsgc29sbyByZWxldmFudGUgcGFyYSBkYXRvcyBkaXNjcmV0b3MuDQoNCjxjZW50ZXI+DQoNCiFbXShodHRwczovL21pcm8ubWVkaXVtLmNvbS9tYXgvMTQwMC8wKlR5cl90SjBuNWFkUC14ZHcucG5nKXt3aWR0aD0iNjAwIn0NCg0KPC9jZW50ZXI+DQoNCiMjIE1lZGlkYXMgZGUgVmFyaWFiaWxpZGFkDQoNCioqKlJhbmdvOioqKiBsYSBkaWZlcmVuY2lhIGVudHJlIGVsIHZhbG9yIG3DoXMgYWx0byB5IGVsIG3DoXMgYmFqbyBlbiB1biBjb25qdW50byBkZSBkYXRvcy4NCg0KKioqVmFyaWFuemEgKM+DMik6KioqIG1pZGUgcXXDqSB0YW4gZGlzcGVyc28gZXN0w6EgdW4gY29uanVudG8gZGUgZGF0b3MgZW4gcmVsYWNpw7NuIGNvbiBsYSBtZWRpYS4NCg0KJCQNClxzaWdtYV4yID0gXGZyYWN7XHN1bV8xXm4gPSAxICh4XzEgLSBcb3ZlcmxpbmV7eH0pXjJ9e259DQokJA0KDQoqKipEZXN2aWFjacOzbiBlc3TDoW5kYXIgKM+DKToqKiogb3RyYSBtZWRpZGEgZGUgY3XDoW4gZGlzcGVyc29zIGVzdMOhbiBsb3MgbsO6bWVyb3MgZW4gdW4gY29uanVudG8gZGUgZGF0b3M7IGVzIGxhIHJhw616IGN1YWRyYWRhIGRlIGxhIHZhcmlhbnphLg0KDQoqKipQdW50dWFjacOzbiBaOioqKiBkZXRlcm1pbmEgZWwgbsO6bWVybyBkZSBkZXN2aWFjaW9uZXMgZXN0w6FuZGFyIGRlIHVuIHB1bnRvIGRlIGRhdG9zIGNvbiByZXNwZWN0byBhIGxhIG1lZGlhLg0KDQokJA0KeiA9IFxmcmFjIHt4X2kgLSBcbXV9e1xzaWdtYX0NCiQkDQoNCioqKlItQ3VhZHJhZG86KioqIHVuYSBtZWRpZGEgZXN0YWTDrXN0aWNhIGRlIGFqdXN0ZSBxdWUgaW5kaWNhIGN1w6FudGEgdmFyaWFjacOzbiBkZSB1bmEgdmFyaWFibGUgZGVwZW5kaWVudGUgZXMgZXhwbGljYWRhIHBvciBsYShzKSB2YXJpYWJsZShzKSBpbmRlcGVuZGllbnRlKHMpOyBzb2xvIGVzIMO6dGlsIHBhcmEgbGEgcmVncmVzacOzbiBsaW5lYWwgc2ltcGxlLg0KDQokJA0KUl4yID0gMSAtIFxmcmFjIHt2YXJpYWNpb24gZXhwbGljYWRhIH17dG90YWwgZXhwbGljYWRvfQ0KJCQNCg0KKioqUi1jdWFkcmFkbyBhanVzdGFkbzoqKiogdW5hIHZlcnNpw7NuIG1vZGlmaWNhZGEgZGUgci1jdWFkcmFkbyBxdWUgc2UgaGEgYWp1c3RhZG8gcG9yIGVsIG7Dum1lcm8gZGUgcHJlZGljdG9yZXMgZW4gZWwgbW9kZWxvOyBhdW1lbnRhIHNpIGVsIG51ZXZvIHTDqXJtaW5vIG1lam9yYSBlbCBtb2RlbG8gbcOhcyBkZSBsbyBxdWUgc2UgZXNwZXJhcsOtYSBwb3IgY2FzdWFsaWRhZCB5IHZpY2V2ZXJzYS4NCg0KIyMgTWVkaWNpb25lcyBkZSBSZWxhY2lvbmVzIGVudHJlIFZhcmlhYmxlcw0KDQoqKipDb3ZhcmlhbnphOioqKiBNaWRlIGxhIHZhcmlhbnphIGVudHJlIGRvcyAobyBtw6FzKSB2YXJpYWJsZXMuIFNpIGVzIHBvc2l0aXZvLCB0aWVuZGVuIGEgbW92ZXJzZSBlbiBsYSBtaXNtYSBkaXJlY2Npw7NuLCBzaSBlcyBuZWdhdGl2bywgdGllbmRlbiBhIG1vdmVyc2UgZW4gZGlyZWNjaW9uZXMgb3B1ZXN0YXMsIHkgc2kgc29uIGNlcm8sIG5vIHRpZW5lbiByZWxhY2nDs24gZW50cmUgc8OtLg0KDQokJA0KXHNpZ21hX3t4eX0gPSBcZnJhYyB7XHN1bV97aT0xfV5uIChYX2kgLSBcbXVfeCkgKFlfaSAtIFxtdV95KX17bn0NCiQkDQoNCiMjIyMjIyBFbCBkZW5vbWluYWRvciBzZSBjb252aWVydGUgZW4gKG4tMSkgcGFyYSBtdWVzdHJhcw0KDQo8Y2VudGVyPg0KDQoqKipDb3JyZWxhY2nDs246KioqIE1pZGUgbGEgZnVlcnphIGRlIHVuYSByZWxhY2nDs24gZW50cmUgZG9zIHZhcmlhYmxlcyB5IHZhcsOtYSBkZSAtMSBhIDE7IGxhIHZlcnNpw7NuIG5vcm1hbGl6YWRhIGRlIGxhIGNvdmFyaWFuemEuIEdlbmVyYWxtZW50ZSwgdW5hIGNvcnJlbGFjacOzbiBkZSArLy0gMCw3IHJlcHJlc2VudGEgdW5hIGZ1ZXJ0ZSByZWxhY2nDs24gZW50cmUgZG9zIHZhcmlhYmxlcy4gUG9yIG90cm8gbGFkbywgbGFzIGNvcnJlbGFjaW9uZXMgZW50cmUgLTAsMyB5IDAsMyBpbmRpY2FuIHF1ZSBoYXkgcG9jYSBvIG5pbmd1bmEgcmVsYWNpw7NuIGVudHJlIGxhcyB2YXJpYWJsZXMuDQoNCiQkDQpDb3JyZWxhY2nDs24gPSBcZnJhY3tDb3YgKHgseSl9e1xzaWdtYXt4fSBcY2RvdCBcc2lnbWF7eX19DQokJA0KDQojIyBGdW5jaW9uZXMgZGUgZGlzdHJpYnVjacOzbiBkZSBwcm9iYWJpbGlkYWQNCg0KKipGdW5jacOzbiBkZSBkZW5zaWRhZCBkZSBwcm9iYWJpbGlkYWQgKFBERik6KiogdW5hIGZ1bmNpw7NuIHBhcmEgZGF0b3MgY29udGludW9zIGRvbmRlIGVsIHZhbG9yIGVuIGN1YWxxdWllciBwdW50byBwdWVkZSBpbnRlcnByZXRhcnNlIGNvbW8gdW5hIHByb2JhYmlsaWRhZCByZWxhdGl2YSBkZSBxdWUgZWwgdmFsb3IgZGUgbGEgdmFyaWFibGUgYWxlYXRvcmlhIHNlYSBpZ3VhbCBhIGVzYSBtdWVzdHJhLg0KDQoqKkZ1bmNpw7NuIGRlIG1hc2EgZGUgcHJvYmFiaWxpZGFkIChQTUYpOioqIHVuYSBmdW5jacOzbiBwYXJhIGRhdG9zIGRpc2NyZXRvcyBxdWUgZGEgbGEgcHJvYmFiaWxpZGFkIGRlIHF1ZSBvY3VycmEgdW4gdmFsb3IgZGFkby4NCg0KKipGdW5jacOzbiBkZSBkZW5zaWRhZCBhY3VtdWxhdGl2YSAoQ0RGKToqKiB1bmEgZnVuY2nDs24gcXVlIG5vcyBkaWNlIGxhIHByb2JhYmlsaWRhZCBkZSBxdWUgdW5hIHZhcmlhYmxlIGFsZWF0b3JpYSBzZWEgbWVub3IgcXVlIHVuIGNpZXJ0byB2YWxvcjsgbGEgaW50ZWdyYWwgZGVsIFBERi4NCg0KIyMgRGlzdHJpYnVjaW9uZXMgY29udGludWFzIGRlIGRhdG9zDQoNCioqRGlzdHJpYnVjacOzbiB1bmlmb3JtZToqKiB1bmEgZGlzdHJpYnVjacOzbiBkZSBwcm9iYWJpbGlkYWQgZG9uZGUgdG9kb3MgbG9zIHJlc3VsdGFkb3Mgc29uIGlndWFsbWVudGUgcHJvYmFibGVzLg0KDQoqKkRpc3RyaWJ1Y2nDs24gbm9ybWFsL2dhdXNzaWFuYToqKiBjb23Dum5tZW50ZSBjb25vY2lkYSBjb21vIGN1cnZhIGRlIGNhbXBhbmEgeSBlc3TDoSByZWxhY2lvbmFkYSBjb24gZWwgdGVvcmVtYSBkZWwgbMOtbWl0ZSBjZW50cmFsIDsgdGllbmUgdW5hIG1lZGlhIGRlIDAgeSB1bmEgZGVzdmlhY2nDs24gZXN0w6FuZGFyIGRlIDEuDQoNCiMjIFByb2JhYmlsaWRhZA0KDQoqKkxhIHByb2JhYmlsaWRhZCoqIGVzIGxhIHByb2JhYmlsaWRhZCBkZSBxdWUgb2N1cnJhIHVuIGV2ZW50by4NCg0KKipMYSBwcm9iYWJpbGlkYWQgY29uZGljaW9uYWwgW1AoQVx8QildKiogZXMgbGEgcHJvYmFiaWxpZGFkIGRlIHF1ZSBvY3VycmEgdW4gZXZlbnRvLCBlbiBmdW5jacOzbiBkZSBsYSBvY3VycmVuY2lhIGRlIHVuIGV2ZW50byBhbnRlcmlvci4NCg0KKipMb3MgZXZlbnRvcyBpbmRlcGVuZGllbnRlcyoqIHNvbiBldmVudG9zIGN1eW8gcmVzdWx0YWRvIG5vIGluZmx1eWUgZW4gbGEgcHJvYmFiaWxpZGFkIGRlbCByZXN1bHRhZG8gZGUgb3RybyBldmVudG87IFAoQVx8QikgPSBQKEEpLg0KDQoqKkxvcyBldmVudG9zIG11dHVhbWVudGUgZXhjbHV5ZW50ZXMqKiBzb24gZXZlbnRvcyBxdWUgbm8gcHVlZGVuIG9jdXJyaXIgc2ltdWx0w6FuZWFtZW50ZTsgUChBXHxCKSA9IDAuDQoNCioqVGVvcmVtYSBkZSBCYXllczoqKiB1bmEgZsOzcm11bGEgbWF0ZW3DoXRpY2EgcGFyYSBkZXRlcm1pbmFyIGxhIHByb2JhYmlsaWRhZCBjb25kaWNpb25hbC4gIkxhIHByb2JhYmlsaWRhZCBkZSBBIGRhZG8gQiBlcyBpZ3VhbCBhIGxhIHByb2JhYmlsaWRhZCBkZSBCIGRhZG8gQSBwb3IgbGEgcHJvYmFiaWxpZGFkIGRlIEEgc29icmUgbGEgcHJvYmFiaWxpZGFkIGRlIEIiLg0KDQokJA0KUCAoQXxCKSA9IFxmcmFje1AoQSBcYmlnY2FwIEJ9IHtQIChCKX0gPSBcZnJhYyB7UChBKSBcY2RvdCBQKEJ8QSl9IHtQKEIpfQ0KJCQNCg0KIyMgRXhhY3RpdHVkDQoNCioqVmVyZGFkZXJvIHBvc2l0aXZvOioqIDxicj4gRGV0ZWN0YSBsYSBjb25kaWNpw7NuIGN1YW5kbyBsYSBjb25kaWNpw7NuIGVzdMOhIHByZXNlbnRlLg0KDQoqKlZlcmRhZGVybyBuZWdhdGl2bzoqKiA8YnI+IE5vIGRldGVjdGEgbGEgY29uZGljacOzbiBjdWFuZG8gbGEgY29uZGljacOzbiBubyBlc3TDoSBwcmVzZW50ZS4NCg0KKipGYWxzbyBwb3NpdGl2bzoqKiA8YnI+IERldGVjdGEgbGEgY29uZGljacOzbiBjdWFuZG8gbGEgY29uZGljacOzbiBlc3TDoSBhdXNlbnRlLg0KDQoqKkZhbHNvIG5lZ2F0aXZvOioqIDxicj4gTm8gZGV0ZWN0YSBsYSBjb25kaWNpw7NuIGN1YW5kbyBsYSBjb25kaWNpw7NuIGVzdMOhIHByZXNlbnRlLg0KDQoqKlNlbnNpYmlsaWRhZDoqKiA8YnI+IFRhbWJpw6luIGNvbm9jaWRhIGNvbW8gKipyZWN1ZXJkbyoqOyBtaWRlIGxhIGNhcGFjaWRhZCBkZSB1bmEgcHJ1ZWJhIHBhcmEgZGV0ZWN0YXIgbGEgY29uZGljacOzbiBjdWFuZG8gbGEgY29uZGljacOzbiBlc3TDoSBwcmVzZW50ZTsgc2Vuc2liaWxpZGFkID0gVFAvKFRQK0ZOKQ0KDQoqKkVzcGVjaWZpY2lkYWQ6KiogPGJyPg0KTWlkZSBsYSBjYXBhY2lkYWQgZGUgdW5hIHBydWViYSBwYXJhIGV4Y2x1aXIgY29ycmVjdGFtZW50ZSBsYSBjb25kaWNpw7NuIGN1YW5kbyBsYSBjb25kaWNpw7NuIGVzdMOhIGF1c2VudGU7IGVzcGVjaWZpY2lkYWQgPSBUTi8oVE4rRlApDQo8L2NlbnRlcj4NCjxjZW50ZXI+DQohW1RhYmxhIGRlIENvbmRpY2lvbl0oaHR0cHM6Ly9taXJvLm1lZGl1bS5jb20vbWF4LzE0MDAvMCpQblNwTC1BY3dBajRMRXNLLnBuZyAiQ2xpY2sgcGFyYSB2ZXIiKXt3aWR0aD0iODAwIn0NCg0KPC9jZW50ZXI+DQo=