python提取多个excel数据

作者：excel百科网

131人看过

发布时间：2026-01-04 09:23:38

标签：

Python提取多个Excel数据：从基础到高级的实用指南在数据处理领域，Excel文件是一个常用的存储和管理数据的工具。然而，当数据量较大或需要处理多个Excel文件时，手动操作显然效率低下且容易出错。Python作为一门强大的编程

Python提取多个Excel数据：从基础到高级的实用指南
在数据处理领域，Excel文件是一个常用的存储和管理数据的工具。然而，当数据量较大或需要处理多个Excel文件时，手动操作显然效率低下且容易出错。Python作为一门强大的编程语言，提供了丰富的库来处理Excel文件，其中`pandas`和`openpyxl`是最常用的两个库。本文将详细介绍如何使用Python提取多个Excel文件中的数据，并结合实际案例，帮助用户全面掌握这一技能。
一、Python处理Excel文件的基本概念
Python中处理Excel文件的最常用库是`pandas`，它是一个强大的数据处理和分析库，支持读取、写入、处理Excel文件。`pandas`提供了`read_excel`函数，可以直接读取Excel文件中的数据，并将其转换为DataFrame，便于后续的数据处理。
此外，`openpyxl`也是一个常用的库，它主要用于读取和写入Excel文件，尤其适合处理.xlsx格式的文件。两者虽然功能相似，但`pandas`在数据处理方面更为强大，适合处理复杂的数据结构。
二、使用pandas读取Excel文件
1. 安装pandas和openpyxl库
在使用Python处理Excel文件之前，需要确保安装了`pandas`和`openpyxl`库。可以通过以下命令安装：
bash
pip install pandas openpyxl

2. 读取单个Excel文件
假设有一个名为`data.xlsx`的Excel文件，其中包含一个名为`Sheet1`的工作表。使用`pandas`读取该文件的代码如下：
python
import pandas as pd
读取Excel文件
df = pd.read_excel("data.xlsx")
查看数据
print(df.head())

上述代码会读取Excel文件，并输出前5行数据，方便用户查看数据结构。
3. 读取多个Excel文件
如果需要处理多个Excel文件，可以使用`os`模块遍历文件夹，逐个读取文件。以下是一个示例：
python
import os
import pandas as pd
定义文件夹路径
folder_path = "data_files/"
遍历文件夹中的所有Excel文件
for filename in os.listdir(folder_path):
if filename.endswith(".xlsx"):
读取文件
df = pd.read_excel(os.path.join(folder_path, filename))
print(f"读取文件: filename")
print(df.head())

这段代码会遍历指定文件夹中的所有Excel文件，并逐个读取，输出文件名和前几行数据。
三、使用openpyxl读取Excel文件
虽然`pandas`在数据处理方面更为强大，但`openpyxl`在处理.xlsx文件时更为高效，尤其在处理大型文件时表现更佳。以下是如何使用`openpyxl`读取Excel文件的步骤。
1. 安装openpyxl
bash
pip install openpyxl

2. 读取Excel文件
python
from openpyxl import load_workbook
读取Excel文件
wb = load_workbook("data.xlsx")
获取工作表
ws = wb["Sheet1"]
读取数据
data = []
for row in ws.iter_rows():
data.append([cell.value for cell in row])
输出数据
print(data)

这段代码会读取Excel文件，并将其转换为二维列表，便于后续处理。
四、数据提取与处理的基本操作
1. 提取特定工作表
如果需要提取某个特定的工作表数据，可以使用以下代码：
python
import pandas as pd
读取Excel文件
df = pd.read_excel("data.xlsx", sheet_name="Sheet2")
提取数据
print(df.head())

此时，`df`将只包含`Sheet2`的工作表数据。
2. 提取特定范围的单元格
如果需要提取某个特定范围的单元格，可以使用`loc`或`iloc`方法：
python
import pandas as pd
读取Excel文件
df = pd.read_excel("data.xlsx")
提取第2行第3列的数据
value = df.loc[1, "Column3"]
print(f"第2行第3列的数据是: value")

3. 提取特定列
如果需要提取某个特定列的数据，可以使用以下代码：
python
import pandas as pd
读取Excel文件
df = pd.read_excel("data.xlsx")
提取第3列的数据
column_data = df.iloc[:, 2]
print(column_data)

五、处理多个Excel文件的数据
在实际工作中，常常需要处理多个Excel文件，将它们的数据合并成一个数据集。以下是几种常见的处理方式。
1. 使用pandas合并多个Excel文件
python
import pandas as pd
定义文件夹路径
folder_path = "data_files/"
遍历文件夹中的所有Excel文件
files = [f for f in os.listdir(folder_path) if f.endswith(".xlsx")]
合并所有文件
merged_df = pd.DataFrame()
for filename in files:
file_path = os.path.join(folder_path, filename)
df = pd.read_excel(file_path)
merged_df = pd.concat([merged_df, df], ignore_index=True)
输出合并后的数据
print(merged_df.head())

这段代码会遍历所有Excel文件，并将它们的数据合并成一个DataFrame，便于进一步处理。
2. 使用openpyxl合并多个Excel文件
python
from openpyxl import load_workbook
定义文件夹路径
folder_path = "data_files/"
遍历文件夹中的所有Excel文件
files = [f for f in os.listdir(folder_path) if f.endswith(".xlsx")]
合并所有文件
merged_wb = load_workbook(folder_path + "merged.xlsx")
merged_ws = merged_wb["Sheet1"]
复制数据
for filename in files:
file_path = os.path.join(folder_path, filename)
wb = load_workbook(file_path)
ws = wb["Sheet1"]
for row in ws.iter_rows():
merged_ws.append([cell.value for cell in row])
保存合并后的文件
merged_wb.save("merged.xlsx")

这段代码会将所有Excel文件的数据合并到一个新文件中，并保存为`merged.xlsx`。
六、数据清洗与转换
在提取数据后，通常需要进行清洗和转换，以确保数据的准确性和一致性。以下是一些常见的数据清洗操作。
1. 处理空值
python
import pandas as pd
df = pd.read_excel("data.xlsx")
df.dropna(inplace=True)
print(df.head())

这段代码会删除DataFrame中的空值。
2. 转换数据类型
python
import pandas as pd
df = pd.read_excel("data.xlsx")
df["Column1"] = df["Column1"].astype(int)
print(df.head())

这段代码会将`Column1`列的值转换为整数类型。
3. 数据标准化
python
import pandas as pd
df = pd.read_excel("data.xlsx")
df["Column1"] = df["Column1"].apply(lambda x: x.strip())
print(df.head())

这段代码会将`Column1`列的值去除空格。
七、数据导出与保存
提取数据后，通常需要将其保存为新的Excel文件，以便后续使用。以下是几种常见的导出方式。
1. 使用pandas导出Excel文件
python
import pandas as pd
假设df是已经处理过的DataFrame
df.to_excel("output.xlsx", index=False)

这段代码会将DataFrame保存为`output.xlsx`文件。
2. 使用openpyxl导出Excel文件
python
from openpyxl import Workbook
创建新工作簿
wb = Workbook()
ws = wb.active
填写数据
ws.cell(row=1, column=1, value="Name")
ws.cell(row=1, column=2, value="Age")
ws.cell(row=2, column=1, value="Alice")
ws.cell(row=2, column=2, value=25)
保存文件
wb.save("output.xlsx")

这段代码会创建一个新的Excel文件，并填写数据。
八、处理多维度数据结构
在实际应用中，有时需要处理多维度数据，比如二维数组、多维表格等。`pandas`提供了强大的数据结构来处理这些情况。
1. 二维数组转换为DataFrame
python
import pandas as pd
二维数组
data = [[1, 2, 3], [4, 5, 6], [7, 8, 9]]
df = pd.DataFrame(data, columns=["A", "B", "C"])
print(df)

这段代码会将二维数组转换为DataFrame。
2. 多维表格处理
python
import pandas as pd
多维表格
data = [
[1, 2, 3],
[4, 5, 6],
[7, 8, 9]
]
df = pd.DataFrame(data, columns=["A", "B", "C"])
print(df)

这段代码会将数据转换为二维表格。
九、实际案例分析
假设有一个公司数据集，包含多个Excel文件，每个文件记录不同部门的数据。我们需要将这些数据合并，并进行清洗和分析。
1. 数据合并
python
import os
import pandas as pd
folder_path = "company_data/"
files = [f for f in os.listdir(folder_path) if f.endswith(".xlsx")]
merged_df = pd.DataFrame()
for filename in files:
file_path = os.path.join(folder_path, filename)
df = pd.read_excel(file_path)
merged_df = pd.concat([merged_df, df], ignore_index=True)
print(merged_df.head())

2. 数据清洗
python
import pandas as pd
df = pd.read_excel("company_data.xlsx")
df.dropna(inplace=True)
df["Age"] = df["Age"].astype(int)
print(df.head())

3. 数据导出
python
df.to_excel("cleaned_data.xlsx", index=False)

十、总结
Python在处理Excel文件方面提供了强大的工具，`pandas`和`openpyxl`是目前最常用的库。通过掌握这些工具，用户可以高效地提取、处理和导出Excel数据。无论是处理单一文件还是多个文件，Python都能提供灵活的解决方案。在实际应用中，数据清洗和转换也是必不可少的步骤，确保数据的准确性和一致性。通过一步步的实践，用户可以逐步提升自己的数据处理能力，从而在数据分析和处理工作中取得更好的成果。
附录：常见问题与解决方案
1. 无法读取Excel文件的原因
- 文件路径错误：确保文件路径正确。
- 文件格式不支持：确保文件是.xlsx格式。
- 权限问题：确保有权限访问文件。
2. 读取Excel文件时出现错误
- 缺少依赖库：安装`pandas`和`openpyxl`。
- 编码问题：确保文件编码为UTF-8。
3. 导出Excel文件时出现错误
- 文件路径错误：确保文件路径正确。
- 文件格式不支持：确保文件是.xlsx格式。

Python在处理Excel文件方面具有强大的功能，用户可以通过掌握这些工具，高效地完成数据提取、处理和导出工作。在实际应用中，数据清洗和转换是确保数据质量的关键步骤。通过不断实践和学习，用户可以提升自己的数据处理技能，从而在数据分析和处理工作中取得更好的成果。

上一篇 : 用sql处理excel数据

下一篇 : excel怎么设置变量数据