数据科学
2026/1/31小于 1 分钟
数据科学
使用 Python 进行数据分析、可视化和科学计算。
学习内容
NumPy
数值计算、多维数组、线性代数
Pandas
数据分析、DataFrame、数据清洗
数据可视化
Matplotlib、Seaborn、Plotly
数据获取
网络爬虫、API 调用、数据清洗
数据科学栈
┌─────────────────────────────────────┐
│ 应用层 │
│ 机器学习 | 深度学习 | 数据分析 │
├─────────────────────────────────────┤
│ 工具层 │
│ Scikit-learn | Statsmodels │
├─────────────────────────────────────┤
│ 核心层 │
│ NumPy | Pandas | SciPy │
├─────────────────────────────────────┤
│ 可视化层 │
│ Matplotlib | Seaborn | Plotly │
└─────────────────────────────────────┘数据分析流程
常用操作
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
# 读取数据
df = pd.read_csv("data.csv")
# 数据探索
df.head()
df.info()
df.describe()
# 数据清洗
df.dropna()
df.fillna(0)
df.drop_duplicates()
# 数据筛选
df[df["age"] > 30]
df.groupby("category").mean()
# 可视化
df.plot(kind="bar")
plt.show()