首页
/ Pandas数据读写入门教程:从CSV到Excel的完整指南

Pandas数据读写入门教程:从CSV到Excel的完整指南

2025-07-05 01:50:59作者:毕习沙Eudora

前言

在数据分析工作中,数据读写是最基础也是最重要的环节之一。Pandas作为Python中最强大的数据分析库,提供了丰富的数据读写功能。本文将详细介绍如何使用Pandas进行常见格式数据的读取和写入操作。

数据准备

本教程使用著名的泰坦尼克号乘客数据集作为示例数据,该数据集包含乘客的生存情况、舱位等级、姓名、性别、年龄等信息。

读取CSV文件

CSV(逗号分隔值)是最常见的数据交换格式之一。Pandas提供了read_csv()函数来读取CSV文件:

import pandas as pd
titanic = pd.read_csv("data/titanic.csv")

读取后检查数据

读取数据后,建议立即进行检查:

  1. 查看数据概览:直接打印DataFrame会显示前5行和后5行
  2. 查看前N行:使用head(N)方法
  3. 查看后N行:使用tail(N)方法
# 查看前8行数据
titanic.head(8)

检查数据类型

使用dtypes属性可以查看每列的数据类型:

titanic.dtypes

常见的数据类型包括:

  • int64:64位整数
  • float64:64位浮点数
  • object:通常表示字符串

写入Excel文件

Pandas可以方便地将数据写入Excel格式:

titanic.to_excel("titanic.xlsx", sheet_name="passengers", index=False)

参数说明:

  • sheet_name:指定工作表名称
  • index:是否写入行索引

从Excel读取数据

使用read_excel()函数可以读取Excel文件:

titanic = pd.read_excel("titanic.xlsx", sheet_name="passengers")

获取数据技术摘要

info()方法提供了DataFrame的技术摘要:

titanic.info()

输出内容包括:

  • 数据行数和列数
  • 每列的非空值数量
  • 每列的数据类型
  • 内存使用情况

关键要点总结

  1. 数据读取:Pandas提供了一系列read_*函数支持多种数据格式

    • CSV:read_csv()
    • Excel:read_excel()
    • JSON:read_json()
    • SQL:read_sql()
    • Parquet:read_parquet()
  2. 数据写入:对应的to_*方法用于数据导出

    • Excel:to_excel()
    • CSV:to_csv()
    • JSON:to_json()
    • SQL:to_sql()
  3. 数据检查:初步了解数据的工具

    • head()/tail():查看数据首尾
    • info():获取技术摘要
    • dtypes:查看数据类型

进阶提示

  • 对于大型数据集,可以考虑使用chunksize参数分块读取
  • 读取数据时可以指定数据类型优化内存使用
  • 处理缺失值时,read_csv()na_values参数很有用
  • 写入Excel时可以设置多种格式选项,如冻结首行等

通过掌握这些基本的数据读写操作,你已经能够处理大多数数据分析项目中的数据导入导出需求了。在实际工作中,根据数据特点和项目需求选择合适的读写方法和参数,可以大大提高工作效率。

热门内容推荐

最新内容推荐