pandas循环读excel数据

作者：excel百科网

333人看过

发布时间：2025-12-30 05:12:50

标签：

pandas循环读取Excel数据：从基础到进阶的全面指南在数据处理领域，Excel 文件因其格式灵活、数据丰富而备受青睐。然而，当数据量较大或结构复杂时，手动读取Excel文件并进行处理往往效率低下。Pandas 作为 Python

pandas循环读取Excel数据：从基础到进阶的全面指南
在数据处理领域，Excel 文件因其格式灵活、数据丰富而备受青睐。然而，当数据量较大或结构复杂时，手动读取Excel文件并进行处理往往效率低下。Pandas 作为 Python 数据处理的核心库，提供了强大的 DataFrame 功能，使得数据处理更加高效和便捷。其中，pandas 循环读取 Excel 数据 是一个常见且实用的操作，尤其适用于处理多 sheet 或多文件的结构化数据。
本文将从基础到进阶，系统地介绍如何使用 pandas 实现循环读取 Excel 数据，并结合实际案例进行说明，帮助读者掌握这一技能。
一、pandas 循环读取 Excel 数据的基本概念
在 Python 中，Pandas 提供了 `pd.read_excel()` 函数，该函数可以读取 Excel 文件并返回一个 DataFrame 对象。当数据文件包含多个 sheet 时，`pd.read_excel()` 默认会读取第一个 sheet，并返回一个 DataFrame。
然而，当数据文件包含多个 sheet 时，直接使用 `pd.read_excel()` 会读取全部 sheet，而非仅读取一个。因此，为了只读取一个 sheet，需要使用 `sheet_name` 参数进行指定。
例如：
python
import pandas as pd
读取第一个 sheet
df1 = pd.read_excel("data.xlsx", sheet_name=0)
读取第二个 sheet
df2 = pd.read_excel("data.xlsx", sheet_name=1)

上述代码可以实现读取 Excel 文件中多个 sheet 的功能，同时也为后续数据处理提供了基础。
二、pandas 循环读取 Excel 数据的实现方法
1. 使用 `pd.read_excel()` 读取单个 sheet
当数据文件只有一个 sheet 时，可以直接使用 `pd.read_excel()` 读取。此方法简单高效，适用于数据量较小的场景。
python
import pandas as pd
读取单个 sheet
df = pd.read_excel("data.xlsx")
print(df.head())

该代码会输出 Excel 文件的第一个 sheet 的前几行数据，为后续处理奠定基础。
2. 使用 `pd.read_excel()` 读取多个 sheet
如果数据文件包含多个 sheet，可以通过 `sheet_name` 参数指定读取哪一个 sheet。默认情况下，`sheet_name=0` 读取第一个 sheet，`sheet_name=1` 读取第二个，以此类推。
python
import pandas as pd
读取第一个 sheet
df1 = pd.read_excel("data.xlsx", sheet_name=0)
读取第二个 sheet
df2 = pd.read_excel("data.xlsx", sheet_name=1)

在实际使用中，可以将多个 DataFrame 保存到列表中，便于后续操作。
3. 使用 `pd.ExcelFile()` 读取多个 sheet
对于更复杂的场景，可以使用 `pd.ExcelFile()` 读取整个 Excel 文件，然后通过遍历其 sheet 名称来读取每个 sheet 的数据。
python
import pandas as pd
读取整个 Excel 文件
excel_file = pd.ExcelFile("data.xlsx")
获取所有 sheet 名称
sheet_names = excel_file.sheet_names
遍历每个 sheet 读取数据
dfs = []
for sheet_name in sheet_names:
df = pd.read_excel(excel_file, sheet_name=sheet_name)
dfs.append(df)
输出所有 sheet 的数据
for i, df in enumerate(dfs):
print(f"Sheet i+1:")
print(df.head())

此方法适用于需要处理多个 sheet 的场景，且能够灵活地控制读取逻辑。
三、pandas 循环读取 Excel 数据的进阶应用
1. 使用 `pd.read_excel()` 读取多文件
当数据文件包含多个 Excel 文件时，可以使用 `pd.read_excel()` 读取多个文件。此方法适用于处理多个数据源的情况。
python
import pandas as pd
读取多个 Excel 文件
files = ["file1.xlsx", "file2.xlsx", "file3.xlsx"]
dfs = []
for file in files:
df = pd.read_excel(file)
dfs.append(df)
输出所有文件的数据
for i, df in enumerate(dfs):
print(f"File i+1:")
print(df.head())

此方法适用于多文件数据处理，且能够灵活地控制读取逻辑。
2. 使用 `pd.read_excel()` 读取多 sheet 的多个文件
如果数据文件包含多个 sheet，并且每个 sheet 对应一个文件，可以使用 `pd.read_excel()` 读取每个文件并保存为 DataFrame。
python
import pandas as pd
读取多个文件
files = ["file1.xlsx", "file2.xlsx", "file3.xlsx"]
dfs = []
for file in files:
df = pd.read_excel(file)
dfs.append(df)
输出所有文件的数据
for i, df in enumerate(dfs):
print(f"File i+1:")
print(df.head())

此方法适用于多文件数据处理，且能够灵活地控制读取逻辑。
四、pandas 循环读取 Excel 数据的优化技巧
1. 使用 `chunksize` 参数分块读取
当 Excel 文件过大时，可以使用 `chunksize` 参数分块读取，以避免内存溢出。
python
import pandas as pd
读取分块数据
chunksize = 10000
dfs = []
for chunk in pd.read_excel("large_file.xlsx", chunksize=chunksize):
dfs.append(chunk)
输出所有块的数据
for i, df in enumerate(dfs):
print(f"Block i+1:")
print(df.head())

此方法适用于处理大数据量的 Excel 文件，且能够提高读取效率。
2. 使用 `read_excel()` 的参数优化读取
`pd.read_excel()` 提供了多种参数，如 `header`、`skiprows`、`usecols` 等，可用于优化读取过程。
python
import pandas as pd
读取特定列
df = pd.read_excel("data.xlsx", usecols="A,C:E")
print(df.head())
读取特定行
df = pd.read_excel("data.xlsx", skiprows=2)
print(df.head())

此方法适用于需要只读取特定列或特定行的场景。
五、pandas 循环读取 Excel 数据的实际案例
案例一：读取单个 Excel 文件并保存为多个 DataFrame
python
import pandas as pd
读取单个 Excel 文件
df = pd.read_excel("data.xlsx")
保存为多个 DataFrame
df1 = df.iloc[:100]
df2 = df.iloc[100:200]
df3 = df.iloc[200:]
输出结果
print("First 100 rows:")
print(df1.head())
print("nNext 100 rows:")
print(df2.head())
print("nLast 100 rows:")
print(df3.head())

此方法适用于数据分块处理，且能够灵活地控制读取逻辑。
案例二：读取多个 Excel 文件并合并为一个 DataFrame
python
import pandas as pd
读取多个 Excel 文件
files = ["file1.xlsx", "file2.xlsx", "file3.xlsx"]
dfs = []
for file in files:
df = pd.read_excel(file)
dfs.append(df)
合并多个 DataFrame
combined_df = pd.concat(dfs, ignore_index=True)
输出合并后的数据
print("Combined Data:")
print(combined_df.head())

此方法适用于多文件数据合并处理，且能够灵活地控制读取逻辑。
六、总结
在数据处理领域，pandas 提供了强大且灵活的工具，使得读取和处理 Excel 文件变得高效便捷。通过 `pd.read_excel()` 可以实现对单个或多个 Excel 文件的读取，而通过 `sheet_name`、`chunksize` 等参数，可以进一步优化读取过程。
无论是处理单个文件还是多个文件，pandas 都能提供强大的支持。在实际应用中，可以根据具体需求选择合适的读取方法，以实现高效、灵活的数据处理。
掌握 pandas 循环读取 Excel 数据的方法，不仅有助于提高数据处理效率，也能为后续的数据分析和可视化打下坚实基础。希望本文能为读者提供有价值的参考，助力其在数据处理领域取得更大成就。

上一篇 : Excel数据能转换SPSS

下一篇 : 如何excel数据连接更新