Como Unir Data Set's no Jupyter Notebook Com as Funções Python pd.merge e pd.concat


Olá, hoje irei compartilhar com vocês uma função bem útil. Estou analisando multas emitidas em um estado do país que estão divididas em 10 arquivos xlsx (Exemplo).

O desafio é criar um código em Python que possa unir todos esses csv's/xlsx em um único Data Set.
Sem esta função, teria que unir todas as bases de dados manualmente no Excel, o que seria inviável e inconcebível.

Estamos lendo arquivos em xlsx, mas pode ser aplicado a csv e outros tipos também.

Vamos lá!

DATA_a:


DATA_b:


DATA_c:


Com a função pd.merge podemos unir 2 bases diferentes. Com a função pd.concat podemos unir mais bases. Veja:

import numpy as np
import pandas as pd
import csv

#Carregar base1
data_a = pd.read_excel('multas_2015.xlsx')


#Carregar base2
data_b = pd.read_excel(
'multas_2016.xlsx')


#Carregar base3
data_c = pd.read_excel('
multas_2017.xlsx')

#Usando a função concat conseguimos unir 3 datas frames ou mais
data_a_b_c = pd.concat(
[data_a,data_b,data_c])


Ou podemos utilizar a função pd.merge para unir 2 data set's

#Usando a função merge conseguimos unir 2 datas frames
unir_data_a_b = pd.merge(data_a,data_b,how='outer')


#Mostra as 30 primeiras linhas do seu data frame
data_a_b_c.head(30)

Mais detalhes sobre a função acesse aqui.

Deixe seu comentário abaixo :-)

Abraço!
Tutoriais [Code]

Comentários

Postagens mais visitadas