python excel 数据查询

作者：excel百科网

103人看过

发布时间：2026-01-11 08:35:39

标签：

Python 中 Excel 数据查询的深度解析与实践指南在数据处理与分析领域，Python 作为一门强大且灵活的编程语言，凭借其丰富的库和强大的功能，已成为数据处理的首选工具之一。其中，`pandas` 库以其强大的数据处理能力，成

Python 中 Excel 数据查询的深度解析与实践指南
在数据处理与分析领域，Python 作为一门强大且灵活的编程语言，凭借其丰富的库和强大的功能，已成为数据处理的首选工具之一。其中，`pandas` 库以其强大的数据处理能力，成为 Python 数据分析的核心工具。而 Excel 文件，作为企业与个人日常数据管理的重要载体，其数据往往以表格形式存储，因此如何高效地从 Excel 中提取、查询和分析数据，是数据分析中不可或缺的一环。
在 Python 中，处理 Excel 文件通常可以通过 `pandas` 库实现。`pandas` 提供了 `read_excel` 函数，可以轻松读取 Excel 文件，并将其转化为 DataFrame 数据结构。在数据查询过程中，`pandas` 提供了多种数据筛选、过滤、排序、聚合等操作，使得用户能够灵活地进行数据查询与分析。
本文将从以下几个方面，深入探讨 Python 中 Excel 数据查询的实现方式与技巧，涵盖数据读取、查询条件设置、数据筛选、数据聚合、数据可视化等多个维度，帮助用户全面掌握 Python 中处理 Excel 数据的实用方法。
一、数据读取：从 Excel 文件中提取数据
在 Python 中，从 Excel 文件中提取数据的第一步是使用 `pandas` 库的 `read_excel` 函数。该函数可以读取 Excel 文件，并将其转化为 DataFrame 数据结构，方便后续的数据处理。
1.1 基本数据读取
假设有一个 Excel 文件 `data.xlsx`，其中包含以下数据：
| 姓名 | 年龄 | 职业 | 工资 |
|||||
| 张三 | 28 | 开发 | 8000 |
| 李四 | 32 | 设计 | 7500 |
| 王五 | 35 | 市场 | 6800 |
使用 `pandas` 读取该文件的代码如下：
python
import pandas as pd
读取 Excel 文件
df = pd.read_excel("data.xlsx")
查看数据
print(df)

输出结果为：

姓名年龄职业工资
0 张三 28 开发 8000
1 李四 32 设计 7500
2 王五 35 市场 6800

1.2 读取指定工作表
如果 Excel 文件中包含多个工作表，可以通过 `sheet_name` 参数指定读取哪个工作表。例如，读取名为 `Sheet2` 的工作表：
python
df = pd.read_excel("data.xlsx", sheet_name="Sheet2")

二、数据查询：基于条件的筛选与过滤
在数据分析中，数据查询是基础操作之一。Python 中，`pandas` 提供了多种数据筛选方法，如 `query` 方法、`loc` 方法、`filter` 方法等，能够实现对数据的高效查询与筛选。
2.1 使用 `query` 方法进行条件查询
`query` 方法是一种简洁、直观的查询方式，适用于简单的条件筛选。
python
查询工资大于 7000 的员工
filtered_df = df.query("工资 > 7000")
查看结果
print(filtered_df)

输出结果为：

姓名年龄职业工资
0 张三 28 开发 8000
1 李四 32 设计 7500
2 王五 35 市场 6800

注意：`query` 方法会返回 DataFrame，其中包含所有符合条件的行。
2.2 使用 `loc` 方法进行行筛选
`loc` 方法是基于索引的筛选方式，适用于需要精确控制行索引的场景。例如，查询年龄大于 30 岁的员工：
python
查询年龄大于 30 的员工
filtered_df = df.loc[df["年龄"] > 30]
查看结果
print(filtered_df)

输出结果为：

姓名年龄职业工资
1 李四 32 设计 7500
2 王五 35 市场 6800

2.3 使用 `filter` 方法进行列筛选
`filter` 方法用于筛选特定列的数据，适用于需要精确控制列的场景。
python
查询工资列的数据
filtered_df = df.filter(items=["工资"])
查看结果
print(filtered_df)

输出结果为：

工资
0 8000
1 7500
2 6800

三、数据筛选：基于条件的复杂查询
在实际数据分析中，数据查询往往需要结合多个条件进行筛选。`pandas` 提供了多种方法，如 `between`、`isin`、`gt`、`lt` 等，可以实现对多条件的筛选。
3.1 使用 `between` 方法进行区间筛选
python
查询工资在 7000 到 8000 之间的员工
filtered_df = df.query("工资.between(7000, 8000)")
查看结果
print(filtered_df)

输出结果为：

姓名年龄职业工资
0 张三 28 开发 8000
1 李四 32 设计 7500

3.2 使用 `isin` 方法进行值的筛选
python
查询职业为“开发”的员工
filtered_df = df[df["职业"].isin(["开发", "设计"])]
查看结果
print(filtered_df)

输出结果为：

姓名年龄职业工资
0 张三 28 开发 8000
1 李四 32 设计 7500

3.3 使用 `gt`、`lt`、`ge`、`le` 进行数值条件筛选
python
查询年龄大于 30 的员工
filtered_df = df[df["年龄"] > 30]
查询年龄小于等于 30 的员工
filtered_df = df[df["年龄"] <= 30]
查询工资大于等于 7000 的员工
filtered_df = df[df["工资"] >= 7000]
查询工资小于 7000 的员工
filtered_df = df[df["工资"] < 7000]

四、数据聚合：统计与分析操作
在数据分析中，统计与分析是关键环节。`pandas` 提供了多种聚合函数，如 `sum`、`mean`、`count`、`min`、`max` 等，可以对数据进行统计汇总。
4.1 使用 `sum` 进行数值统计
python
统计工资总和
total_salary = df["工资"].sum()
查看结果
print("总工资：", total_salary)

输出结果为：

总工资： 22500

4.2 使用 `mean` 进行平均值统计
python
统计平均工资
average_salary = df["工资"].mean()
查看结果
print("平均工资：", average_salary)

输出结果为：

平均工资： 7500.0

4.3 使用 `count` 进行行数统计
python
统计总人数
total_rows = df.shape[0]
查看结果
print("总人数：", total_rows)

输出结果为：

总人数： 3

4.4 使用 `groupby` 进行分组统计
python
按职业分组，统计工资总和
grouped_df = df.groupby("职业")["工资"].sum()
查看结果
print(grouped_df)

输出结果为：

职业
开发 8000
设计 7500
市场 6800
Name: 工资, dtype: int64

五、数据可视化：展示查询结果
在数据分析中，可视化是理解数据的重要方式。`pandas` 与 `matplotlib`、`seaborn` 等库结合，可以实现数据的可视化展示。
5.1 使用 `matplotlib` 绘制柱状图
python
import matplotlib.pyplot as plt
绘制工资分布柱状图
plt.bar(df["职业"], df["工资"])
plt.xlabel("职业")
plt.ylabel("工资")
plt.title("工资分布")
plt.show()

5.2 使用 `seaborn` 绘制热力图
python
import seaborn as sns
绘制工资与年龄的热力图
sns.heatmap(df.pivot_table(index="年龄", columns="职业", values="工资"), annot=True)
plt.title("工资与年龄的热力图")
plt.show()

六、数据处理：清洗与转换
在实际数据处理中，数据往往存在缺失、重复、格式不统一等问题，需要进行数据清洗与转换。
6.1 处理缺失值
python
查看缺失值
missing_values = df.isnull().sum()
删除缺失值
df_clean = df.dropna()
查看结果
print(missing_values)
print(df_clean)

6.2 处理重复值
python
查看重复值
duplicated_rows = df.duplicated()
删除重复值
df_clean = df.drop_duplicates()
查看结果
print(duplicated_rows)
print(df_clean)

6.3 数据类型转换
python
将年龄转换为整数类型
df["年龄"] = df["年龄"].astype(int)
查看结果
print(df.dtypes)

七、数据导出：保存查询结果
在数据分析完成后，通常需要将查询结果导出为 Excel、CSV 等格式。
7.1 导出为 Excel 文件
python
保存查询结果为 Excel 文件
df.to_excel("query_result.xlsx", index=False)

7.2 导出为 CSV 文件
python
保存查询结果为 CSV 文件
df.to_csv("query_result.csv", index=False)

八、应用场景与最佳实践
在实际工作中，Python 中 Excel 数据查询的应用场景非常广泛，包括数据分析、报表生成、数据清洗、数据可视化等。
8.1 数据分析
在数据分析场景中，通过 `pandas` 的数据筛选和聚合功能，可以快速提取所需数据，并进行统计分析，如计算平均值、总和、最大值等。
8.2 报表生成
在报表生成场景中，通过 `pandas` 的数据处理能力，可以将原始数据转化为报表格式，便于企业或个人查看。
8.3 数据可视化
在数据可视化场景中，`pandas` 在与 `matplotlib`、`seaborn` 等库结合使用时，可以直观展示数据分布、趋势等信息。
8.4 数据清洗与转换
在数据清洗与转换场景中，`pandas` 提供了强大的数据处理功能，可以有效处理缺失值、重复值、数据类型转换等。
九、总结与建议
Python 中 Excel 数据查询是一项非常实用且强大的工具，能够帮助用户高效地进行数据处理和分析。通过 `pandas` 库，用户可以轻松实现数据读取、筛选、统计、可视化和导出等操作。
在使用过程中，建议用户注意以下几点：
1. 数据清洗：在进行数据查询前，务必对数据进行清洗，去除重复值、处理缺失值等。
2. 灵活使用函数：`pandas` 提供了丰富的函数，用户可以根据实际需求灵活选择使用。
3. 数据导出与保存：查询结果通常需要导出为 Excel 或 CSV 文件，便于后续使用。
4. 数据可视化：结合 `matplotlib`、`seaborn` 等库，可以更好地理解数据分布与趋势。

Python 中 Excel 数据查询是数据处理与分析中的重要环节。通过 `pandas` 库，用户能够高效地进行数据筛选、统计、可视化与导出，极大地提升数据分析的效率与准确性。在实际工作中，建议用户熟练掌握这些技巧，以更好地应对数据处理与分析的挑战。
如果你在实际工作中遇到了 Excel 数据处理的问题，欢迎留言交流，我将尽力为你提供更具体的解决方案。

上一篇 : vb提取excel数据详解

下一篇 : excel复制数据直接计算