pandas批量读取修改excel数据

作者：excel百科网

387人看过

发布时间：2026-01-27 02:26:29

标签：

pandas批量读取修改excel数据在数据处理领域，Excel 文件因其广泛的使用和良好的兼容性，一直是数据存储和分析的重要工具。然而，对于大量数据的处理，尤其是需要多次读取、修改和保存操作时，传统的 Excel 工具往

pandas批量读取修改excel数据
在数据处理领域，Excel 文件因其广泛的使用和良好的兼容性，一直是数据存储和分析的重要工具。然而，对于大量数据的处理，尤其是需要多次读取、修改和保存操作时，传统的 Excel 工具往往显得力不从心。而 Python 中的 `pandas` 库，凭借其强大的数据处理能力和丰富的数据结构，成为数据清洗、分析和转换的首选工具。本文将深入探讨如何利用 `pandas` 实现对 Excel 文件的批量读取、修改和保存操作，并结合实际案例，解析其操作流程与最佳实践。
一、pandas 与 Excel 的结合优势
`pandas` 是 Python 中用于数据操作和分析的库，它提供了 DataFrame、Series 等数据结构，能够高效地处理结构化数据。而 Excel 文件（.xlsx）则是基于二进制格式的文件，支持多种数据类型，包括数值、文本、日期、公式等。
在数据处理过程中，`pandas` 与 Excel 的结合具有以下几个显著优势：
1. 数据读取效率高：`pandas` 可以快速读取 Excel 文件，并将其转换为 DataFrame，便于后续处理。
2. 数据类型灵活：`pandas` 支持多种数据类型，包括日期、布尔值、浮点数等，能够更好地匹配 Excel 中的数据。
3. 数据操作能力强：`pandas` 提供了丰富的数据操作函数，如筛选、排序、合并、重命名、删除等，能够高效地完成数据处理任务。
4. 数据保存便捷：`pandas` 支持将 DataFrame 保存为 Excel 文件，格式统一，便于后续使用。
二、读取 Excel 文件的步骤
1. 安装必要的库
在使用 `pandas` 读取 Excel 文件之前，需要确保已经安装了 `pandas` 和 `openpyxl` 库。`pandas` 本身支持读取 Excel 文件，但 `openpyxl` 是用于解析 `.xlsx` 格式的库，必须安装。
bash
pip install pandas openpyxl

2. 导入库并读取文件
在 Python 脚本中，首先导入 `pandas` 库，并使用 `read_excel()` 函数读取 Excel 文件。
python
import pandas as pd
读取 Excel 文件
df = pd.read_excel("data.xlsx")

3. 查看数据结构
读取完成后，可以使用 `df.head()` 或 `df.info()` 查看 DataFrame 的结构和数据类型。
python
print(df.head())
print(df.info())

4. 数据清洗与转换
在数据读取之后，通常需要进行数据清洗，如去除空值、处理缺失值、转换数据类型等。
python
去除空值
df = df.dropna()
转换数据类型
df["column_name"] = df["column_name"].astype("int")

三、批量修改 Excel 数据
1. 修改数据内容
`pandas` 支持直接修改 DataFrame 中的数据，可以通过索引或列名进行修改。
python
修改某一列的数据
df["column_name"] = [1, 2, 3]
修改某一行的数据
df.loc[0, "column_name"] = 4

2. 修改数据格式
`pandas` 提供了多种数据格式转换方法，如将日期格式转换为字符串、将字符串转换为数值等。
python
将日期格式转换为字符串
df["date_column"] = pd.to_datetime(df["date_column"]).dt.strftime("%Y-%m-%d")
将字符串转换为数值
df["string_column"] = df["string_column"].astype("int")

3. 修改数据行和列
`pandas` 支持修改数据行和列，例如删除某一行、删除某一列，或者修改某一行的值。
python
删除某一行
df = df.drop(index=0)
删除某一列
df = df.drop(columns=["column_to_remove"])
修改某一行的值
df.loc[0, "column_to_modify"] = "new_value"

四、保存修改后的数据
修改完成后，需要将数据保存为 Excel 文件，以便后续使用。`pandas` 提供了 `to_excel()` 函数，可以将 DataFrame 保存为 Excel 文件。
python
保存为 Excel 文件
df.to_excel("modified_data.xlsx", index=False)

五、批量处理的优化方法
1. 多个 Excel 文件处理
如果需要处理多个 Excel 文件，可以使用 `pandas` 的 `read_excel()` 函数批量读取多个文件，并将它们合并成一个 DataFrame。
python
读取多个 Excel 文件
files = ["file1.xlsx", "file2.xlsx", "file3.xlsx"]
dfs = [pd.read_excel(f) for f in files]
合并多个 DataFrame
combined_df = pd.concat(dfs, ignore_index=True)

2. 处理大量数据时的性能优化
对于大量数据，`pandas` 的性能可能会受到影响。可以通过以下方法优化：
- 使用 `chunksize` 参数分块读取：对于非常大的 Excel 文件，可以分块读取，避免一次性加载全部数据。
- 使用 `dtype` 参数指定数据类型：提前指定数据类型，可以减少内存占用。
- 使用 `read_excel` 的 `engine` 参数：选择合适的引擎（如 `openpyxl` 或 `xlrd`）以提高读取速度。
python
分块读取大规模数据
chunksize = 10000
for chunk in pd.read_excel("large_file.xlsx", chunksize=chunksize):
process_chunk(chunk)

六、实际案例分析
案例 1：批量修改员工数据
假设有一个 Excel 文件 `employees.xlsx`，包含以下列：
| 员工ID | 姓名 | 部门 | 薪资 | 是否在职 |
|--||||-|
| 001 | 张三 | HR | 8000 | 是 |
| 002 | 李四 | IT | 10000| 是 |
| 003 | 王五 | Sales| 12000| 否 |
目标：将所有“是否在职”为“否”的员工薪资改为 6000 元。
操作步骤：
1. 读取文件 `employees.xlsx`，得到 DataFrame `df`。
2. 筛选“是否在职”为“否”的行。
3. 修改这些行的“薪资”列值。
4. 保存修改后的数据。
python
读取数据
df = pd.read_excel("employees.xlsx")
筛选数据
inactive_employees = df[df["是否在职"] == "否"]
修改薪资
inactive_employees["薪资"] = 6000
保存修改后的数据
df.to_excel("modified_employees.xlsx", index=False)

案例 2：批量处理多个 Excel 文件
假设需要处理三个 Excel 文件：`file1.xlsx`、`file2.xlsx`、`file3.xlsx`，分别包含不同字段，需要将它们合并为一个 DataFrame，然后进行分析。
操作步骤：
1. 读取三个文件，得到三个 DataFrame。
2. 合并为一个 DataFrame。
3. 进行数据处理、分析、保存。
python
读取多个文件
df1 = pd.read_excel("file1.xlsx")
df2 = pd.read_excel("file2.xlsx")
df3 = pd.read_excel("file3.xlsx")
合并
combined_df = pd.concat([df1, df2, df3], ignore_index=True)
数据处理
combined_df["total_salary"] = combined_df["薪资"] + combined_df["奖金"]
保存
combined_df.to_excel("combined_data.xlsx", index=False)

七、注意事项与最佳实践
1. 确保数据格式一致性
在读取 Excel 文件时，要确保文件格式与 `pandas` 的读取方式一致，避免因格式问题导致数据读取失败。
2. 处理缺失值
在数据处理过程中，应提前对缺失值进行处理，例如删除、填充或转换。
3. 保存时注意格式
在保存 Excel 文件时，应确保保存为 `.xlsx` 格式，避免保存为 `.xls` 或其他格式导致数据不兼容。
4. 多线程处理
对于非常大的 Excel 文件，可以使用多线程或异步方式处理，以提高处理速度。
八、未来发展趋势与扩展功能
随着 Python 和数据处理工具的不断发展，`pandas` 在处理 Excel 文件方面的功能也在不断完善。未来的趋势可能包括：
1. 更强大的数据类型支持：如支持更多数据类型，如时间序列、多维数组等。
2. 更高效的读取和写入机制：进一步优化读取速度和内存使用。
3. 与数据库结合：增强与数据库的集成能力，支持数据的双向交互。
九、总结
`pandas` 是 Python 中处理数据的强大工具，尤其在与 Excel 文件结合使用时，能够极大地提高数据处理的效率和准确性。通过合理的读取、修改和保存操作，可以高效地完成数据处理任务。在实际应用中，应结合具体需求，合理使用 `pandas` 的功能，确保数据处理的可靠性和高效性。
通过本文的介绍，读者可以掌握 `pandas` 读取、修改和保存 Excel 文件的核心方法，并能够根据实际需求灵活应用这些技巧，提升数据处理的能力。

上一篇 : excel2003几个数据

下一篇 : excel2007数据平滑连线