首页
/ Pandas入门教程:理解表格数据结构与基本操作

Pandas入门教程:理解表格数据结构与基本操作

2025-07-05 01:47:36作者:苗圣禹Peter

什么是Pandas?

Pandas是Python中最强大的数据分析库之一,它提供了高效的数据结构和数据分析工具。在数据科学领域,Pandas几乎成为了处理表格数据的标准工具。

安装与导入

使用Pandas前需要先导入它,社区公认的标准导入方式是:

import pandas as pd

这种简写方式pd被广泛采用,也是Pandas文档中的标准做法。

Pandas的核心数据结构

DataFrame:二维表格

DataFrame是Pandas中最核心的数据结构,它类似于:

  • Excel电子表格
  • SQL数据库表
  • R语言中的data.frame

DataFrame可以存储不同类型的数据(字符串、整数、浮点数、分类数据等),每一列可以有不同的数据类型。

创建DataFrame示例

df = pd.DataFrame(
    {
        "Name": [
            "Braund, Mr. Owen Harris",
            "Allen, Mr. William Henry",
            "Bonnell, Miss. Elizabeth",
        ],
        "Age": [22, 35, 58],
        "Sex": ["male", "male", "female"],
    }
)

这段代码创建了一个包含3列(Name、Age、Sex)的DataFrame,每列数据类型不同:

  • Name列:字符串
  • Age列:整数
  • Sex列:字符串

Series:单列数据

DataFrame中的每一列都是一个Series对象。Series是带标签的一维数组,可以存储任何数据类型。

从DataFrame中提取Series

age_series = df["Age"]

直接创建Series

ages = pd.Series([22, 35, 58], name="Age")

基本数据操作

计算最大值

# 从DataFrame中计算
df["Age"].max()

# 从Series中计算
ages.max()

描述性统计

df.describe()

describe()方法会返回数值列的基本统计信息,包括:

  • 计数
  • 平均值
  • 标准差
  • 最小值/最大值
  • 四分位数

注意:文本列(如Name和Sex)默认不会被包含在统计结果中。

关键概念总结

  1. 导入惯例:始终使用import pandas as pd导入Pandas
  2. DataFrame:代表二维表格数据,是Pandas的核心数据结构
  3. Series:代表单列数据,是DataFrame的组成部分
  4. 方法调用:通过调用方法(如max()describe())来操作数据

为什么选择Pandas?

Pandas不仅提供了数据表示功能,还支持各种数据操作:

  • 数据清洗
  • 数据转换
  • 数据分析
  • 数据可视化

它的设计使得处理表格数据变得直观高效,特别适合处理结构化数据。

后续学习建议

掌握了这些基础概念后,你可以继续深入学习:

  • 数据索引与选择
  • 数据清洗技术
  • 数据聚合与分组
  • 时间序列处理
  • 数据可视化集成

Pandas的功能远不止于此,这些基础知识将为你打开数据分析的大门。