MODULOS PARA INTELIGENCIA ARTIFICIAL - NUMPY
1. Concepto
NumPy es un paquete de Python que significa “Numerical Python”, es la librería principal para la informática científica, proporciona potentes estructuras de datos, implementando matrices y matrices multidimensionales. Estas estructuras de datos garantizan cálculos eficientes con matrices.
2. Proporciona
* Paquetes de procesamiento de matrices de uso general.
* Proporciona un objeto de matriz multidimensional de alto rendimiento, y
herramientas para trabajar con estas matrices.
* Paquete fundamental para la computación científica con Python.
* Puede ser usado como un eficiente contenedor multidimensional de datos
genéricos.
* Enriquece el lenguaje de programación de Python con potentes
estructuras de datos, implementando matrices y arreglos
multidimensional.
* Estas estructuras de datos garantizan cálculos eficientes con matrices.
* La implementación apunta incluso a matrices enormes, mejor conocidas bajo el título de “grandes datos”.
* El módulo suministra funciones matemáticas de alto nivel para operar en estas matrices.
3. Array NumPy
NumPy array es un potente objeto de matriz N-dimensional que tiene forma de filas y columnas, en la que
tenemos varios elementos que están almacenados en sus respectivas ubicaciones de memoria.
3.1. Array Unidimensional
Todos los elementos que se almacenan en el array deben ser del mismo tipo. Esto implica que el array e un
bloque de datos homogéneos.
import numpy as np
a = np.array([1,2,3])
print(a)
--------
[1 2 3]
3.2. Array multidimensional
Tiene más de una columna. Podemos considerar un arreglo multidisciplinario como una hoja de cálculo de
Excel, tiene columnas y filas. Cada columna puede ser considerada como una dimensión.
import numpy as np
a = np.array([[1,2],[10,20]])
print(a)
--------
[[ 1 2]
[10 20]]
4. Crear Arrays en MunPy
4.1 Array con ceros
Para crear un array unidimensional con 2 elementos, ambos ceros utilizamos el siguiente código:
import numpy as np
a = np.zeros(2)
print(a)
--------
[0. 0.]
Por su parte para crear un array bidimensional debes indicar el número de files y columnas que tendrá el
array.
import numpy as np
a = np.zeros([2,3])
print(a)
--------
[[0. 0. 0.]
[0. 0. 0.]]
4.2 Array con unos
Para crear un array unidimensional con 2 elementos, ambos unos utilizamos el siguiente código:
import numpy as np
a = np.ones(2)
print(a)
--------
[1. 1.]
Por su parte para crear un array bidimensional debes indicar el número de files y columnas que tendrá el
array.
import numpy as np
a = np.ones([2,3])
print(a)
--------
[[1. 1. 1.]
[1. 1. 1.]]
4.3 Array con rango de elementos
Para crear un array con rango de elementos, por ejemplo 3, escribimos el siguiente código:
import numpy as np
a = np.arange(3)
print(a)
--------
[0 1 2]
Si quieres crear un array con un rango de elementos, con números entre 2 y 7, por ejemplo, escribimos el
siguiente código:
import numpy as np
a = np.arange(3,7)
print(a)
--------
[3 4 5 6]
4.4 Array con elementos aleatorios
Para crear un array con elementos aleatorios debemos utilizar la siguiente instrucción e indicar el número
de filas y columnas que tendrá el array.
import numpy as np
a = np.random.rand(3,2)
print(a)
--------
[[0.51800425 0.13125493]
[0.15577916 0.1678749 ]
[0.12214038 0.09268094]]
5. Conceptos básicos de la estadística descriptiva
En estadística descriptiva se utilizan distintas medidas para intentar describir las propiedades de
nuestros datos, algunos de los conceptos básicos, son:
- Media aritmética: La media aritmética es el valor obtenido al sumar
todos los datos y dividir el resultado entre el número total elementos.
Se suele representar con la letra griega μ. Si tenemos una muestra de n
valores, xi, la media aritmética, μ, es la suma de los valores divididos
por el numero de elementos; en otras palabras:
\[
\mu=\frac{1}{n} \sum_{i} x_{i}
\]
# Ejemplos de estadistica descriptiva con python
import numpy as np # importando numpy
from scipy import stats # importando scipy.stats
import pandas as pd # importando pandas
np.random.seed(2131982) # para poder replicar el random
datos = np.random.randn(5, 4) # datos normalmente distribuidos
print("Datos:\n")
print(datos)
print("\n")
print("Media Aritmética por columna:\n")
datos.mean(axis=0) # media aritmetica de cada columna
--------
Datos:
[[ 0.46038022 -1.08942528 -0.62681496 -0.63329028]
[-0.1074033 -0.88138082 -0.34466623 -0.28320214]
[ 0.94051171 0.86693793 1.20947882 -0.16894118]
[-0.12790177 -0.58099931 -0.46188426 -0.18148302]
[-0.76959435 -1.37414587 1.37696874 -0.18040537]]
Media Aritmética por columna:
array([ 0.0791985 , -0.61180267, 0.23061642, -0.2894644 ])
- Varianza: La varianza es la media aritmética del cuadrado de las
desviaciones respecto a la media de una distribución estadística. La
varianza intenta describir la dispersión de los datos. Se representa
como σ2.
\[
\sigma^{2}=\frac{\sum_{i=1}^{n}\left(x_{i}-\mu\right)^{2}}{n}
\]
# Ejemplos de estadistica descriptiva con python
import numpy as np # importando numpy
from scipy import stats # importando scipy.stats
import pandas as pd # importando pandas
np.random.seed(2131982) # para poder replicar el random
datos = np.random.randn(5, 4) # datos normalmente distribuidos
print("Datos:\n")
print(datos)
print("\n")
print("Varianza por columna:\n")
np.var(datos, 0) # varianza de cada columna
--------
Datos:
[[ 0.46038022 -1.08942528 -0.62681496 -0.63329028]
[-0.1074033 -0.88138082 -0.34466623 -0.28320214]
[ 0.94051171 0.86693793 1.20947882 -0.16894118]
[-0.12790177 -0.58099931 -0.46188426 -0.18148302]
[-0.76959435 -1.37414587 1.37696874 -0.18040537]]
Varianza por columna:
array([0.337064 , 0.6139171 , 0.76359823, 0.03126703])
- Desviación típica: La desviación típica es la raíz cuadrada de la
varianza. Se representa con la letra griega σ.
\[
\sigma=\sqrt{\frac{\sum_{i=1}^{n}\left(x_{i}-\mu\right)^{2}}{n}}
\]
# Ejemplos de estadistica descriptiva con python
import numpy as np # importando numpy
from scipy import stats # importando scipy.stats
import pandas as pd # importando pandas
np.random.seed(2131982) # para poder replicar el random
datos = np.random.randn(5, 4) # datos normalmente distribuidos
print("Datos:\n")
print(datos)
print("\n")
print("Desviación típica por columna:\n")
np.std(datos, 0) # Desviación típica de cada columna
--------
Datos:
[[ 0.46038022 -1.08942528 -0.62681496 -0.63329028]
[-0.1074033 -0.88138082 -0.34466623 -0.28320214]
[ 0.94051171 0.86693793 1.20947882 -0.16894118]
[-0.12790177 -0.58099931 -0.46188426 -0.18148302]
[-0.76959435 -1.37414587 1.37696874 -0.18040537]]
Desviación típica por columna:
array([0.58057213, 0.78352862, 0.87384108, 0.17682485])
- Moda: La moda es el valor que tiene mayor frecuencia absoluta. Se
representa con M0
# Ejemplos de estadistica descriptiva con python
import numpy as np # importando numpy
from scipy import stats # importando scipy.stats
import pandas as pd # importando pandas
np.random.seed(2131982) # para poder replicar el random
datos = np.random.randn(5, 4) # datos normalmente distribuidos
print("Datos:\n")
print(datos)
print("\n")
print("Moda por columna:\n")
# moda
stats.mode(datos) # Calcula la moda de cada columna
# el 2do array devuelve la frecuencia.
--------
Datos:
[[ 0.46038022 -1.08942528 -0.62681496 -0.63329028]
[-0.1074033 -0.88138082 -0.34466623 -0.28320214]
[ 0.94051171 0.86693793 1.20947882 -0.16894118]
[-0.12790177 -0.58099931 -0.46188426 -0.18148302]
[-0.76959435 -1.37414587 1.37696874 -0.18040537]]
Moda por columna:
ModeResult(mode=array([[-0.76959435, -1.37414587, -0.62681496, -0.63329028]]), count=array([[1, 1, 1, 1]]))
- Mediana: La mediana es el valor que ocupa el lugar central de todos
los datos cuando éstos están ordenados de menor a mayor. Se representa
con x˜.
# Ejemplos de estadistica descriptiva con python
import numpy as np # importando numpy
from scipy import stats # importando scipy.stats
import pandas as pd # importando pandas
np.random.seed(2131982) # para poder replicar el random
datos = np.random.randn(5, 4) # datos normalmente distribuidos
print("Datos:\n")
print(datos)
print("\n")
print("Mediana por columna:\n")
np.median(datos, 0) # media aritmetica de cada columna
--------
Datos:
[[ 0.46038022 -1.08942528 -0.62681496 -0.63329028]
[-0.1074033 -0.88138082 -0.34466623 -0.28320214]
[ 0.94051171 0.86693793 1.20947882 -0.16894118]
[-0.12790177 -0.58099931 -0.46188426 -0.18148302]
[-0.76959435 -1.37414587 1.37696874 -0.18040537]]
Mediana por columna:
array([-0.1074033 , -0.88138082, -0.34466623, -0.18148302])
- Correlación: La correlación trata de establecer la relación o
dependencia que existe entre las dos variables que intervienen en una
distribución bidimensional. Es decir, determinar si los cambios en una
de las variables influyen en los cambios de la otra. En caso de que
suceda, diremos que las variables están correlacionadas o que hay
correlación entre ellas. La correlación es positiva cuando los valores
de las variables aumenta juntos; y es negativa cuando un valor de una
variable se reduce cuando el valor de la otra variable aumenta.
# Ejemplos de estadistica descriptiva con python
import numpy as np # importando numpy
from scipy import stats # importando scipy.stats
import pandas as pd # importando pandas
np.random.seed(2131982) # para poder replicar el random
datos = np.random.randn(5, 4) # datos normalmente distribuidos
print("Datos:\n")
print(datos)
print("\n")
# correlacion
print("Crea matriz de correlación:\n")
print(np.corrcoef(datos)) # Crea matriz de correlación.
print("\n")
# calculando la correlación entre dos vectores.
print("calculando la correlación entre dos vectores.:\n")
np.corrcoef(datos[0], datos[1])
--------
Datos:
[[ 0.46038022 -1.08942528 -0.62681496 -0.63329028]
[-0.1074033 -0.88138082 -0.34466623 -0.28320214]
[ 0.94051171 0.86693793 1.20947882 -0.16894118]
[-0.12790177 -0.58099931 -0.46188426 -0.18148302]
[-0.76959435 -1.37414587 1.37696874 -0.18040537]]
Crea matriz de correlación:
[[ 1. 0.82333743 0.15257202 0.78798675 -0.02292073]
[ 0.82333743 1. -0.13709662 0.86873632 0.41234875]
[ 0.15257202 -0.13709662 1. -0.47691376 0.21216856]
[ 0.78798675 0.86873632 -0.47691376 1. -0.03445705]
[-0.02292073 0.41234875 0.21216856 -0.03445705 1. ]]
calculando la correlación entre dos vectores.:
array([[1. , 0.82333743],
[0.82333743, 1. ]])
- Covarianza: La covarianza es el equivalente de la varianza aplicado
a una variable bidimensional. Es la media aritmética de los productos de
las desviaciones de cada una de las variables respecto a sus medias
respectivas.La covarianza indica el sentido de la correlación entre las
variables; Si σxy>0 la correlación es directa; Si σxy<0 la
correlación es inversa.
# Ejemplos de estadistica descriptiva con python
import numpy as np # importando numpy
from scipy import stats # importando scipy.stats
import pandas as pd # importando pandas
np.random.seed(2131982) # para poder replicar el random
datos = np.random.randn(5, 4) # datos normalmente distribuidos
print("Datos:\n")
print(datos)
print("\n")
# Covarianza de dos vectores
print("Covarianza de dos vectores:\n")
np.cov(datos[0], datos[1])
--------
Datos:
[[ 0.46038022 -1.08942528 -0.62681496 -0.63329028]
[-0.1074033 -0.88138082 -0.34466623 -0.28320214]
[ 0.94051171 0.86693793 1.20947882 -0.16894118]
[-0.12790177 -0.58099931 -0.46188426 -0.18148302]
[-0.76959435 -1.37414587 1.37696874 -0.18040537]]
Covarianza de dos vectores:
array([[0.43350958, 0.18087281],
[0.18087281, 0.11132485]])
