Pandas数据读写入门教程:从CSV到Excel的完整指南
2025-07-05 01:50:59作者:毕习沙Eudora
前言
在数据分析工作中,数据读写是最基础也是最重要的环节之一。Pandas作为Python中最强大的数据分析库,提供了丰富的数据读写功能。本文将详细介绍如何使用Pandas进行常见格式数据的读取和写入操作。
数据准备
本教程使用著名的泰坦尼克号乘客数据集作为示例数据,该数据集包含乘客的生存情况、舱位等级、姓名、性别、年龄等信息。
读取CSV文件
CSV(逗号分隔值)是最常见的数据交换格式之一。Pandas提供了read_csv()
函数来读取CSV文件:
import pandas as pd
titanic = pd.read_csv("data/titanic.csv")
读取后检查数据
读取数据后,建议立即进行检查:
- 查看数据概览:直接打印DataFrame会显示前5行和后5行
- 查看前N行:使用
head(N)
方法 - 查看后N行:使用
tail(N)
方法
# 查看前8行数据
titanic.head(8)
检查数据类型
使用dtypes
属性可以查看每列的数据类型:
titanic.dtypes
常见的数据类型包括:
int64
:64位整数float64
:64位浮点数object
:通常表示字符串
写入Excel文件
Pandas可以方便地将数据写入Excel格式:
titanic.to_excel("titanic.xlsx", sheet_name="passengers", index=False)
参数说明:
sheet_name
:指定工作表名称index
:是否写入行索引
从Excel读取数据
使用read_excel()
函数可以读取Excel文件:
titanic = pd.read_excel("titanic.xlsx", sheet_name="passengers")
获取数据技术摘要
info()
方法提供了DataFrame的技术摘要:
titanic.info()
输出内容包括:
- 数据行数和列数
- 每列的非空值数量
- 每列的数据类型
- 内存使用情况
关键要点总结
-
数据读取:Pandas提供了一系列
read_*
函数支持多种数据格式- CSV:
read_csv()
- Excel:
read_excel()
- JSON:
read_json()
- SQL:
read_sql()
- Parquet:
read_parquet()
- CSV:
-
数据写入:对应的
to_*
方法用于数据导出- Excel:
to_excel()
- CSV:
to_csv()
- JSON:
to_json()
- SQL:
to_sql()
- Excel:
-
数据检查:初步了解数据的工具
head()
/tail()
:查看数据首尾info()
:获取技术摘要dtypes
:查看数据类型
进阶提示
- 对于大型数据集,可以考虑使用
chunksize
参数分块读取 - 读取数据时可以指定数据类型优化内存使用
- 处理缺失值时,
read_csv()
的na_values
参数很有用 - 写入Excel时可以设置多种格式选项,如冻结首行等
通过掌握这些基本的数据读写操作,你已经能够处理大多数数据分析项目中的数据导入导出需求了。在实际工作中,根据数据特点和项目需求选择合适的读写方法和参数,可以大大提高工作效率。