Detectar los valores nulos en Python es de suma importancia para tomar decisiones con respecto a la información de un negocio. Además, esta previa detección de valores vacíos favorecerá la resolución de preguntas claves, la posibilidad de ver tendencias o patrones de cargas así como la elección de la técnica adecuada para la posterior limpieza de datos.
En este blog vamos a enseñarte 7 métodos distintos para revisar los valores nulos, tanto con elementos numéricos como visuales.
Primero es importante visualizar el set de datos, por ejemplo, para cambiar nombres de columnas en caso de ser necesario y lograr que la información se entienda mejor. Luego de de descargar el archivo, en caso de utilizar Google Colab se continúa a subirlo en una carpeta del Google Drive (también puedes trabajar con el editor de Python que te resulte más cómodo).
Es importante que mantengas el archivo en la misma carpeta para que la ruta de acceso sea la misma y no vaya a afectar el código. A continuación, te mostramos cómo importar las librerías y cargar los datos:
Cargar datos:
import openpyxl
wb = openpyxl.load_workbook('INSERTA LA RUTA DE ACCESO DEL DATASET AQUÍ')
print(wb.sheetnames)
Importar librería:
fffff
import pandas as pd
df_CO2 = pd.read_excel(io = 'INSERTA LA RUTA DE ACCESO DEL DATASET AQUÍ',sheet_name='CO2 Emissions_Canada', header=0, names=None, index_col=None,usecols= 'A:L', engine= 'openpyxl')
df_CO2.head(3)
En algunos set de datos la tabla puede aparecer con valores denominados como “NaN = not a number”, lo cual representa valores faltantes. En este caso si sólo hubiéramos utilizado la función isnull de la librería de Pandas sin sum, podemos visualizar la tabla con los valores representados por un booleano (False: valor existe; True: valor nulo).
Estos son los 7 métodos para visualizar de diferentes formas los valores nulos:
Métodos con elementos técnicos y numéricos
Una vez cargada la información, se procede con la revisión de los valores nulos.
Método 1: isnull
datos = df_CO2
datos.isnull().sum()
Con este método obtenemos la cantidad de valores nulos en cada una de las columnas del set de datos.
Método 2: isna
datos = df_CO2
datos.isna().sum()
Este método nos da el mismo resultado que el método 1
Método 3: info
datos = df_CO2
datos.info()
Este método 3 nos da como resultado la información más importante del set de datos, como la cantidad de columnas y filas. También nos muestra la cantidad de valores no nulos para cada una de las columnas, sin embargo, no es tan fácil de visualizar a simple vista.
Método 4: Obtener el porcentaje valores nulos del total creando 3 variables
datos = df_CO2
total = datos.isnull().sum().sort_values(ascending = False)
porcentaje_nulos = (datos.isnull().sum() / datos.isnull().count().sort_values(ascending = False))
datos_faltantes = pd.concat([total, porcentaje_nulos], axis = 1, keys = ['Total','Porcentaje'])
print('-------------------------------------',
'Los Datos Faltantes del Dataset son :',
total,
'El % de Datos Faltantes del Dataset: ',
datos_faltantes[datos_faltantes['Total']>0], sep = '\n')
El método 4 nos proporciona información del % del total de las columnas con valores nulos, lo cual puede ser de mayor utilidad para tomar mejores decisiones.
Métodos con elementos técnicos y numéricos
Para los elementos visuales es necesario la importación de dos librerías más: Seaborn (gráficos estadísticos) y Matplotlib (gráficos con dos dimensiones).
Método 5: Mapa de calor
datos = df_CO2
import seaborn as sns
import matplotlib.pyplot as plt
fig, axes = plt.subplots(figsize = (15, 8))
sns.heatmap(datos.isnull())
El uso de un mapa de calor nos permite encontrar patrones de información, para identificar errores de carga, tal y como se muestra en este ejemplo, en caso de que los valores nulos (líneas blancas) se distribuyan en todo el mapa entonces no existe un error de donde se obtuvo la información.
Método 6: Librería Missingno - matrix
Missingno es un paquete de datos que nos permite visualizar los valores faltantes, permitiendo con unas simples gráficas identificarlos y ver la correlación entre ellos. Mostramos el ejemplo a continuación:
datos = df_CO2
import missingno as msno
msno.matrix(datos)
A diferencia del mapa de valor, este método nos permite visualizar los valores nulos por medio de barras.
Método 7: Librería Missingno – bar
Missingno es un paquete de datos que nos permite visualizar los valores faltantes, permitiendo con unas simples gráficas identificarlos y ver la correlación entre ellos. Mostramos el ejemplo a continuación:
datos = df_CO2
import missingno as msno
msno.bar(datos)
En este método vamos a poder visualizar los valores en una misma escala, cada barra representa la cantidad de valores de una variable, logrando visualizar de mejor manera la cantidad de valores nulos o vacíos en cada variable.
Una vez detectados los valores que faltan en un dataset, el siguiente paso es decidir qué hacer con ellos. Déjame saber tus comentarios. ¡Nos vemos!
Comments