数据科学

蔚蓝Lynx2026/1/31小于 1 分钟

数据科学

使用 Python 进行数据分析、可视化和科学计算。

学习内容

Matplotlib、Seaborn、Plotly

数据获取

网络爬虫、API 调用、数据清洗

数据科学栈

┌─────────────────────────────────────┐
│         应用层                        │
│  机器学习  |  深度学习  |  数据分析    │
├─────────────────────────────────────┤
│         工具层                        │
│  Scikit-learn  |  Statsmodels        │
├─────────────────────────────────────┤
│         核心层                        │
│  NumPy  |  Pandas  |  SciPy          │
├─────────────────────────────────────┤
│         可视化层                      │
│  Matplotlib  |  Seaborn  |  Plotly   │
└─────────────────────────────────────┘

数据分析流程

常用操作

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# 读取数据
df = pd.read_csv("data.csv")

# 数据探索
df.head()
df.info()
df.describe()

# 数据清洗
df.dropna()
df.fillna(0)
df.drop_duplicates()

# 数据筛选
df[df["age"] > 30]
df.groupby("category").mean()

# 可视化
df.plot(kind="bar")
plt.show()