Este é o terceiro artigo de uma série. Links para artigos anteriores: primeiro , segundo
Neste artigo, irei explicar como trabalhar com a biblioteca Pandas para criar uma Árvore de Decisão.
3.1 Importando a biblioteca
# pandas , pd
import pandas as pd
3.2 Quadro de dados e série
O Pandas usa estruturas como Data frame e Series.
Vamos dar uma olhada na seguinte tabela semelhante ao Excel.
Uma linha de dados é chamada de Série, as colunas são chamadas de atributos desses dados e a tabela inteira é chamada de Quadro de dados.

3.3 Criar quadro de dados
Conectamos uma planilha do Excel usando read_excel ou ExcelWriter
# Excel , ipynb
df0 = pd.read_excel("data_golf.xlsx")
# DataFrame HTML
from IPython.display import HTML
html = "<div style='font-family:\"メイリオ\";'>"+df0.to_html()+"</div>"
HTML(html)
# Excel (with f.close)
with pd.ExcelWriter("data_golf2.xlsx") as f:
df0.to_excel(f)
Criando um quadro de dados a partir de um dicionário (matriz associativa): o dicionário reúne os dados das colunas DataFrame
# :
d = {
"":["","","","","","","","","","","","","",""],
"":["","","","","","","","","","","","","",""],
"":["","","","","","","","","","","","","",""],
"":["","","","","","","","","","","","","",""],
"":["×","×","○","○","○","×","○","×","○","○","○","○","○","×"],
}
df0 = pd.DataFrame(d)
Criando frames de dados de matrizes: Coletando dados de linhas de DataFrame
# :
d = [["","","","","×"],
["","","","","×"],
["","","","","○"],
["","","","","○"],
["","","","","○"],
["","","","","×"],
["","","","","○"],
["","","","","×"],
["","","","","○"],
["","","","","○"],
["","","","","○"],
["","","","","○"],
["","","","","○"],
["","","","","×"],
]
# columns index . , , .
df0 = pd.DataFrame(d,columns=["","","","",""],index=range(len(d)))
3.4 Obtendo informações da tabela
#
#
print(df0.shape) # (14, 5)
#
print(df0.shape[0]) # 14
#
print(df0.columns) # Index(['', '', '', '', ''], dtype='object')
# ( df0 - )
print(df0.index) # RangeIndex(start=0, stop=14, step=1)
3.5 Recuperando valores loc iloc
#
# ,
# №1 ( )
print(df0.loc[1,""]) #
# ,
# 1,2,4, Data Frame-
df = df0.loc[[1,2,4],["",""]]
print(df)
#
#
# 1 ×
# 2 ○
# 3 ○
# 4 ○
# iloc . 0.
# 1 3, . iloc , 1:4, 4- .
df = df0.iloc[1:4,:-1]
print(df)
#
#
# 1
# 2
# 3
# (Series)
# . s Series
s = df0.iloc[0,:]
# , , s[" "]
print(s[""]) #
# (numpy.ndarray).
print(df0.values)
3.6 Faça um loop pelos dados, passando pelos dados com iteritens iterrows
# ,
# . .
for i,row in df0.iterrows():
# i ( ), row Series
print(i,row)
pass
# . .
for i,col in df0.iteritems():
# i , col Series
print(i,col)
pass
3.7 Frequência de valores_contas
#
# . s Series
s = df0.loc[:,""]
#
print(s.value_counts())
#
# 5
# 5
# 4
# Name: , dtype: int64
# , , “”
print(s.value_counts()[""]) # 5
3.8 Recuperando Dados de Consulta Específicos
#
# , - .
print(df0.query("==''"))
#
#
# 0 ×
# 1 ×
# 7 ×
# 8 ○
# 10 ○
# , - ,
print(df0.query("=='' and =='○'"))
#
#
# 8 ○
# 10 ○
# , - ,
print(df0.query("=='' or =='○'"))
#
#
# 0 ×
# 1 ×
# 2 ○
# 3 ○
# 4 ○
# 6 ○
# 7 ×
# 8 ○
# 9 ○
# 10 ○
# 11 ○
# 12 ○
Obrigado por ler!
Ficaremos muito felizes se você nos contar se gostou deste artigo, a tradução foi clara, foi útil para você?