Pyhon对excel数据的读取

作者：excel百科网

313人看过

发布时间：2026-01-19 10:38:17

标签：

Python 中 Excel 数据的读取与处理：从入门到精通在数据处理领域，Excel 文件是一种常见的数据格式，尤其在业务分析、财务报表、数据可视化等场景中应用广泛。Python 作为一种强大的编程语言，拥有丰富的库支持，能够高效地

Python 中 Excel 数据的读取与处理：从入门到精通
在数据处理领域，Excel 文件是一种常见的数据格式，尤其在业务分析、财务报表、数据可视化等场景中应用广泛。Python 作为一种强大的编程语言，拥有丰富的库支持，能够高效地读取和处理 Excel 文件。其中，`pandas` 是 Python 中最常用的库之一，它提供了强大的数据处理功能，能够轻松地读取、处理和分析 Excel 数据。本文将从 Python 中读取 Excel 数据的基本方法入手，逐步深入，涵盖从读取到处理、分析、可视化等多个方面，帮助读者掌握 Python 读取 Excel 数据的核心技能。
一、Python 中读取 Excel 数据的基本方法
1.1 使用 pandas 读取 Excel 文件
`pandas` 是 Python 中处理数据的核心库，它提供了 `read_excel()` 函数，用于读取 Excel 文件。该函数支持多种 Excel 格式，包括 `.xls`、`.xlsx`、`.csv` 等。读取 Excel 文件时，需要指定文件路径、文件名以及工作表名称（可选）。
python
import pandas as pd
读取 Excel 文件
df = pd.read_excel("data.xlsx")

上述代码会将 `data.xlsx` 文件中的所有数据读取到 `df` 变量中，`df` 是一个 `pandas` DataFrame 对象，包含所有数据行和列。
1.2 读取特定工作表
如果 Excel 文件中包含多个工作表，可以通过 `sheet_name` 参数指定读取哪个工作表：
python
df = pd.read_excel("data.xlsx", sheet_name="Sheet2")

此方法会读取名为 "Sheet2" 的工作表，返回一个包含该工作表数据的 DataFrame。
1.3 读取特定列
如果只需要读取数据表中的某些列，可以使用 `usecols` 参数指定列名或列索引：
python
df = pd.read_excel("data.xlsx", usecols=["A", "B"])

该代码会读取 Excel 文件中第 1 列（A 列）和第 2 列（B 列）的数据，过滤掉其他列。
二、读取 Excel 文件的注意事项
2.1 文件路径的正确性
在读取 Excel 文件时，必须确保文件路径正确无误。如果路径错误，程序将无法找到文件，导致读取失败。因此，在实际使用中，应使用绝对路径或相对路径，并确保文件位于程序运行目录中。
2.2 文件格式的兼容性
Excel 文件通常为 `.xlsx` 格式，而 `.xls` 格式在 Python 中支持较少。在实际操作中，建议使用 `.xlsx` 格式，因为它在 Python 中支持更广泛、性能更高。
2.3 处理大型 Excel 文件
对于大型 Excel 文件，`pandas` 的 `read_excel()` 函数可能会较慢，尤其在文件较大时。为了提高读取效率，可以使用 `chunksize` 参数分块读取：
python
df = pd.read_excel("data.xlsx", chunksize=10000)
for chunk in df:
处理每一块数据

该方法将 Excel 文件分成多个块，逐块读取并处理，适用于处理非常大的 Excel 文件。
三、读取 Excel 文件后数据的处理
3.1 数据清洗
在读取 Excel 数据后，数据可能包含缺失值、重复值、格式错误等。为确保数据质量，需要对数据进行清洗。
3.1.1 处理缺失值
使用 `dropna()` 函数删除包含缺失值的行或列：
python
df = df.dropna()

使用 `fillna()` 函数填充缺失值，例如用均值填充：
python
df = df.fillna(df.mean())

3.1.2 处理重复值
使用 `drop_duplicates()` 函数删除重复行：
python
df = df.drop_duplicates()

3.2 数据转换
读取 Excel 数据后，可能需要进行数据类型转换，例如将字符串转为数值类型。
python
df["column_name"] = pd.to_numeric(df["column_name"])

3.3 数据筛选
使用布尔索引或 `loc` 方法筛选特定的行或列：
python
df = df[df["column_name"] > 10]

四、读取 Excel 数据的高级方法
4.1 使用 `openpyxl` 读取 Excel 文件
`openpyxl` 是一个用于读写 Excel 文件的库，支持 `.xls` 和 `.xlsx` 格式。它在读取 Excel 文件时，相比 `pandas` 更加灵活，尤其适用于处理格式复杂的 Excel 文件。
python
from openpyxl import load_workbook
打开 Excel 文件
wb = load_workbook("data.xlsx")
获取工作表
ws = wb["Sheet1"]
读取数据
for row in ws.iter_rows():
print(row)

该代码会读取 Excel 文件中的第一张工作表，并打印出每一行的数据。
4.2 使用 `xlrd` 读取 Excel 文件
`xlrd` 是一个用于读取 Excel 文件的库，支持 `.xls` 格式。它在读取 Excel 文件时，相比 `pandas` 和 `openpyxl` 更加轻量级，适合处理小型 Excel 文件。
python
import xlrd
打开 Excel 文件
workbook = xlrd.open_workbook("data.xlsx")
获取工作表
worksheet = workbook.sheet_by_index(0)
读取数据
for row_index, row in enumerate(worksheet.rows):
for cell in row:
print(cell.value)

该代码会读取 Excel 文件中的第一张工作表，并打印出每一行的数据。
五、读取 Excel 数据后进行分析与可视化
5.1 数据分析
使用 `pandas` 的内置函数进行数据分析，例如计算均值、中位数、标准差等：
python
mean_value = df["column_name"].mean()
median_value = df["column_name"].median()
std_dev = df["column_name"].std()

5.2 数据可视化
使用 `matplotlib` 或 `seaborn` 进行数据可视化，例如绘制柱状图、折线图、散点图等：
python
import matplotlib.pyplot as plt
绘制柱状图
plt.bar(df["column_name"], df["another_column"])
plt.show()

六、总结
Python 中读取 Excel 数据是一项基础且实用的技能，尤其在数据处理、分析和可视化领域具有重要价值。通过 `pandas`、`openpyxl`、`xlrd` 等库，可以高效地读取、处理和分析 Excel 数据。在实际应用中，需要注意文件路径的正确性、文件格式的兼容性以及处理大型文件时的性能问题。同时，数据清洗、转换和可视化也是数据处理过程中不可或缺的步骤，有助于提升数据的质量与可读性。
掌握 Python 中读取 Excel 数据的方法，不仅能够提高数据处理的效率，还能为后续的数据分析和可视化奠定坚实的基础。无论是个人项目还是企业级应用，Python 都能提供强大的支持。因此，建议读者在实际操作中，结合具体需求，灵活运用这些方法，不断提升自己的数据处理能力。

上一篇 : excel不同表格数据如何张贴

下一篇 : excel中的无效数据求和