Pandas入门教程:理解表格数据结构与基本操作
2025-07-05 01:47:36作者:苗圣禹Peter
什么是Pandas?
Pandas是Python中最强大的数据分析库之一,它提供了高效的数据结构和数据分析工具。在数据科学领域,Pandas几乎成为了处理表格数据的标准工具。
安装与导入
使用Pandas前需要先导入它,社区公认的标准导入方式是:
import pandas as pd
这种简写方式pd
被广泛采用,也是Pandas文档中的标准做法。
Pandas的核心数据结构
DataFrame:二维表格
DataFrame是Pandas中最核心的数据结构,它类似于:
- Excel电子表格
- SQL数据库表
- R语言中的data.frame
DataFrame可以存储不同类型的数据(字符串、整数、浮点数、分类数据等),每一列可以有不同的数据类型。
创建DataFrame示例
df = pd.DataFrame(
{
"Name": [
"Braund, Mr. Owen Harris",
"Allen, Mr. William Henry",
"Bonnell, Miss. Elizabeth",
],
"Age": [22, 35, 58],
"Sex": ["male", "male", "female"],
}
)
这段代码创建了一个包含3列(Name、Age、Sex)的DataFrame,每列数据类型不同:
- Name列:字符串
- Age列:整数
- Sex列:字符串
Series:单列数据
DataFrame中的每一列都是一个Series对象。Series是带标签的一维数组,可以存储任何数据类型。
从DataFrame中提取Series
age_series = df["Age"]
直接创建Series
ages = pd.Series([22, 35, 58], name="Age")
基本数据操作
计算最大值
# 从DataFrame中计算
df["Age"].max()
# 从Series中计算
ages.max()
描述性统计
df.describe()
describe()
方法会返回数值列的基本统计信息,包括:
- 计数
- 平均值
- 标准差
- 最小值/最大值
- 四分位数
注意:文本列(如Name和Sex)默认不会被包含在统计结果中。
关键概念总结
- 导入惯例:始终使用
import pandas as pd
导入Pandas - DataFrame:代表二维表格数据,是Pandas的核心数据结构
- Series:代表单列数据,是DataFrame的组成部分
- 方法调用:通过调用方法(如
max()
、describe()
)来操作数据
为什么选择Pandas?
Pandas不仅提供了数据表示功能,还支持各种数据操作:
- 数据清洗
- 数据转换
- 数据分析
- 数据可视化
它的设计使得处理表格数据变得直观高效,特别适合处理结构化数据。
后续学习建议
掌握了这些基础概念后,你可以继续深入学习:
- 数据索引与选择
- 数据清洗技术
- 数据聚合与分组
- 时间序列处理
- 数据可视化集成
Pandas的功能远不止于此,这些基础知识将为你打开数据分析的大门。