Pandas.DataFrameのCSV出力
概要と動機
IPython.displayを使えば Jupyter notebookで表示されるのだが、IPythonを使用していない環境でもPandas.DataFrameを綺麗に表示させたい。
今回の方法は、pd.DataFrame.to_csv()を使用したCSVファイルに出力してから、Excel等で出力結果を確認する方法です。
出力する方法
以下、書籍『Pythonではじめる機械学習 ―scikit-learnで学ぶ特徴量エンジニアリングと機械学習の基礎』で用意されているデータセットを用いています。
import os import pandas as pd import mglearn adult_path = os.path.join(mglearn.datasets.DATA_PATH, "adult.data") data = pd.read_csv( adult_path, header=None, index_col=False, names=["age", "workclass", "fnlwgt", "education", "education-num", "marital_status", "occupation", "relationship", "race", "gender", "capital-gain", "capital-loss", "hours-per-week", "native-county", "income"]) data.to_csv('to_csv_out.csv') data.head(10).to_csv('to_csv_out_head.csv')
ここでcsv出力に関係しているのは、
data.to_csv('to_csv_out.csv') data.head(10).to_csv('to_csv_out_head.csv')
の部分。それ以外の個所はpandasでのデータの準備をしています。
pandasでのデータを出力するには、とあるpandas形式のdataに.to_csvとするだけです。
初めの10行だけ出力してあげたい場合は、上記のように.head(10)と付けてから、.to_csvと記述します。