数据分析是当今数字化时代的一项重要技能,它可以帮助我们从大量数据中提取有价值的信息,进而做出更明智的决策。以下是一些实用的练习题,帮助你从入门到精通数据分析技巧。
基础数据清洗与处理
练习题1:数据缺失值处理
描述:给定一个包含缺失值的DataFrame,请使用适当的方法填充缺失值。
import pandas as pd
# 示例数据
data = {
'Name': ['Alice', 'Bob', 'Charlie', 'David'],
'Age': [25, None, 30, 22],
'Salary': [50000, 60000, None, 45000]
}
df = pd.DataFrame(data)
# 填充缺失值
df_filled = df.fillna(method='ffill')
print(df_filled)
练习题2:数据异常值检测
描述:给定一个包含异常值的DataFrame,请使用适当的方法检测并处理异常值。
import numpy as np
# 示例数据
data = {
'Name': ['Alice', 'Bob', 'Charlie', 'David'],
'Age': [25, 150, 30, 22],
'Salary': [50000, 60000, 30000, 45000]
}
df = pd.DataFrame(data)
# 检测异常值
z_scores = np.abs((df['Age'] - df['Age'].mean()) / df['Age'].std())
df_cleaned = df[z_scores < 3]
print(df_cleaned)
数据可视化
练习题3:绘制散点图
描述:给定一个包含两个数值型特征的DataFrame,绘制它们的散点图。
import matplotlib.pyplot as plt
# 示例数据
data = {
'X': [1, 2, 3, 4, 5],
'Y': [2, 3, 5, 7, 11]
}
df = pd.DataFrame(data)
# 绘制散点图
plt.scatter(df['X'], df['Y'])
plt.xlabel('X')
plt.ylabel('Y')
plt.title('Scatter Plot')
plt.show()
练习题4:绘制柱状图
描述:给定一个包含分类特征的DataFrame,绘制其柱状图。
# 示例数据
data = {
'Category': ['A', 'B', 'C', 'D'],
'Value': [10, 20, 30, 40]
}
df = pd.DataFrame(data)
# 绘制柱状图
df.plot(kind='bar')
plt.xlabel('Category')
plt.ylabel('Value')
plt.title('Bar Chart')
plt.show()
数据分析
练习题5:相关性分析
描述:给定一个包含多个数值型特征的DataFrame,计算它们之间的相关性。
# 示例数据
data = {
'Feature1': [1, 2, 3, 4, 5],
'Feature2': [2, 3, 5, 7, 11],
'Feature3': [3, 5, 7, 11, 13]
}
df = pd.DataFrame(data)
# 计算相关性
correlation_matrix = df.corr()
print(correlation_matrix)
练习题6:回归分析
描述:给定一个包含自变量和因变量的DataFrame,使用线性回归分析预测因变量。
from sklearn.linear_model import LinearRegression
# 示例数据
X = df[['Feature1', 'Feature2']]
y = df['Feature3']
# 创建线性回归模型
model = LinearRegression()
model.fit(X, y)
# 预测
y_pred = model.predict(X)
print(y_pred)
通过以上练习题,你可以逐步掌握数据分析的基本技巧。在实际应用中,数据分析是一个不断学习和实践的过程,希望这些练习题能帮助你更好地入门。
