python载入excel数据并作图

作者：excel百科网

384人看过

发布时间：2026-01-27 00:41:09

标签：

Python 载入 Excel 数据并作图：从数据处理到可视化呈现的完整指南在数据分析与可视化领域，Python 是一个不可忽视的工具。尤其是在处理结构化数据时，Excel 文件（.xlsx）因其格式灵活、兼容性强而广泛应用于数据预处

Python 载入 Excel 数据并作图：从数据处理到可视化呈现的完整指南
在数据分析与可视化领域，Python 是一个不可忽视的工具。尤其是在处理结构化数据时，Excel 文件（.xlsx）因其格式灵活、兼容性强而广泛应用于数据预处理阶段。本文将从数据加载、处理到图表生成的全过程，系统讲解如何使用 Python 实现 Excel 数据的载入与可视化，帮助读者在实际工作中高效地完成数据分析任务。
一、数据载入：从 Excel 文件中提取结构化信息
在 Python 中，Excel 文件的读取主要依赖于 `pandas` 库，它是数据处理和分析的首选工具。`pandas` 可以直接读取 `.xlsx` 文件，并将其转换为 DataFrame 数据结构，便于后续处理和分析。
1.1 使用 pandas 读取 Excel 文件
python
import pandas as pd
读取 Excel 文件
df = pd.read_excel("data.xlsx")

此代码将读取名为 `data.xlsx` 的 Excel 文件，并将其内容存储为一个 DataFrame，其中包含所有数据行和列。通过 `df` 变量，可以访问每一行和列的数据。
1.2 读取特定工作表或范围
如果 Excel 文件中有多个工作表或需要读取特定范围的数据，可以使用 `sheet_name` 或 `header` 参数进行指定：
python
读取指定工作表
df = pd.read_excel("data.xlsx", sheet_name="Sheet2")
读取指定范围的数据
df = pd.read_excel("data.xlsx", sheet_name="Sheet2", header=[0, 1])

上述代码分别读取了 `Sheet2` 工作表中的所有数据，以及从第 0 行和第 1 行开始的范围数据。
二、数据处理：对数据进行清洗与转换
在数据加载之后，通常需要对数据进行清洗，以确保其准确性与一致性。以下是常见的数据处理步骤。
2.1 处理缺失值
Excel 文件中可能包含缺失值（如空单元格），这些值在数据处理中可能影响分析结果。使用 `pandas` 可以轻松处理缺失值：
python
查看缺失值
print(df.isnull().sum())
删除缺失值行
df = df.dropna()

此代码将删除 DataFrame 中所有缺失值的行，确保数据完整性。
2.2 处理重复值
如果数据中存在重复行，可以使用 `drop_duplicates()` 方法进行去重：
python
df = df.drop_duplicates()

该方法会保留唯一行，删除重复行，有助于提高数据质量。
2.3 数据类型转换
Excel 文件中的数据可能以字符串、数值、日期等不同格式存储，需要根据需求进行类型转换：
python
将字符串转换为数值
df['column_name'] = pd.to_numeric(df['column_name'])
将日期格式转换为 datetime 类型
df['date_column'] = pd.to_datetime(df['date_column'])

这些操作确保了数据在后续分析中可以被正确处理。
三、数据可视化：将数据转化为图表
Python 中的 `matplotlib` 和 `seaborn` 是常用的可视化库，能够将数据以多种形式呈现。
3.1 使用 matplotlib 生成基础图表
`matplotlib` 是一个功能强大的绘图库，可以生成多种图表类型，如柱状图、折线图、散点图等。
3.1.1 柱状图（Bar Chart）
python
import matplotlib.pyplot as plt
假设 df 包含 'x' 和 'y' 列
plt.bar(df['x'], df['y'])
plt.title('Bar Chart')
plt.xlabel('X Axis')
plt.ylabel('Y Axis')
plt.show()

此代码将生成一个柱状图，显示 `x` 和 `y` 列之间的关系。
3.1.2 折线图（Line Chart）
python
plt.plot(df['x'], df['y'])
plt.title('Line Chart')
plt.xlabel('X Axis')
plt.ylabel('Y Axis')
plt.show()

该代码生成一个折线图，展示数据随 `x` 变化的变化趋势。
四、高级可视化：使用 seaborn 生成更美观的图表
`seaborn` 是 `matplotlib` 的高级可视化库，提供了更丰富的图表类型和更美观的样式。
4.1 柱状图（Bar Plot）
python
import seaborn as sns
sns.barplot(x='x', y='y', data=df)
sns.set_theme(style="whitegrid")
plt.title('Bar Plot')
plt.xlabel('X Axis')
plt.ylabel('Y Axis')
plt.show()

此代码使用 `seaborn` 生成一个柱状图，并设置了背景样式。
4.2 散点图（Scatter Plot）
python
sns.scatterplot(x='x', y='y', data=df)
sns.set_theme(style="whitegrid")
plt.title('Scatter Plot')
plt.xlabel('X Axis')
plt.ylabel('Y Axis')
plt.show()

该代码生成一个散点图，用于展示两个变量之间的关系。
五、数据导出：将图表结果保存为文件
在完成数据分析和可视化之后，通常需要将结果保存为文件，以便后续使用。
5.1 保存为 Excel 文件
python
df.to_excel("output.xlsx", index=False)

此代码将 DataFrame 写入 Excel 文件，`index=False` 用于防止保存索引。
5.2 保存为图像文件
python
plt.savefig("output.png")

此代码将当前图表保存为 PNG 图像文件。
六、数据处理与分析：从基础到进阶
在数据处理过程中，除了简单的数据加载和可视化，还可能进行更复杂的分析，如统计分析、数据聚合等。
6.1 数据聚合
python
按列分组并计算平均值
avg = df.groupby('category')['value'].mean()

此代码按 `category` 列对 `value` 列进行分组，并计算平均值。
6.2 数据统计
python
计算数据的均值、中位数、标准差等
statistics = df.describe()
print(statistics)

此代码将输出数据的统计信息，包括均值、中位数、标准差、最小值、最大值等。
七、注意事项与最佳实践
在使用 Python 处理 Excel 数据时，需要注意以下几点：
7.1 文件路径与编码问题
确保文件路径正确，避免因路径错误导致读取失败。同时，注意文件的编码格式（如 UTF-8 或 GBK），以防止数据读取错误。
7.2 数据类型匹配
在读取 Excel 数据时，要确保数据类型与分析需求一致，避免因类型不匹配导致错误。
7.3 图表样式与可读性
在生成图表时，注意图表的样式和可读性，避免过于复杂的图表影响分析效果。
八、总结与展望
Python 在数据处理和可视化领域具有极大的优势，特别是在处理 Excel 数据时，其灵活性和强大的库支持使得数据分析变得高效且直观。从数据加载、处理到可视化，Python 提供了完整的解决方案，帮助用户在实际工作中快速完成数据分析任务。
未来，随着数据量的增大和分析需求的多样化，Python 在数据分析领域的应用将更加广泛，数据处理与可视化的工具也将不断优化，提升效率与准确性。
九、附录：常用库与工具推荐
1. pandas
- 用途：数据处理与分析
- 特点：高效、易用、支持多种数据结构
2. matplotlib
- 用途：基础图表生成
- 特点：功能强大、灵活、适合初学者
3. seaborn
- 用途：高级图表生成
- 特点：提供美观且直观的图表样式
十、
在数据驱动的时代，Python 是一个不可或缺的工具。通过掌握 Excel 数据的载入与可视化技术，用户能够更高效地完成数据分析任务，提升工作效率。希望本文能为读者提供实用的指导，帮助他们在实际工作中灵活运用 Python 进行数据处理与可视化。

上一篇 : excel表格数据里的逗号

下一篇 : excel选中数据从上到下全部数据