引言
随着互联网和物联网的飞速发展,大数据已成为各行各业关注的焦点。数据分析作为大数据应用的核心环节,对于企业决策、科学研究和社会管理具有重要意义。本文将围绕大数据分析,提供一系列实战练习题,帮助读者提升数据分析技能。
第一部分:数据预处理
1.1 数据清洗
练习题:从以下数据集中去除重复记录,并处理缺失值。
import pandas as pd
data = {
'name': ['Alice', 'Bob', 'Alice', None, 'Charlie', 'Bob'],
'age': [25, 30, 25, 35, 40, None]
}
df = pd.DataFrame(data)
解答:
df.drop_duplicates(inplace=True)
df.fillna(df.mean(), inplace=True)
1.2 数据转换
练习题:将年龄从字符串转换为整数类型。
df['age'] = df['age'].astype(int)
第二部分:数据探索
2.1 数据描述性统计
练习题:计算年龄的平均值、中位数、标准差和最大值。
print(df['age'].mean())
print(df['age'].median())
print(df['age'].std())
print(df['age'].max())
2.2 数据可视化
练习题:使用matplotlib绘制年龄的直方图。
import matplotlib.pyplot as plt
plt.hist(df['age'], bins=5)
plt.xlabel('Age')
plt.ylabel('Frequency')
plt.title('Age Distribution')
plt.show()
第三部分:统计分析
3.1 相关性分析
练习题:计算年龄与另一个变量的相关系数。
df['score'] = [90, 85, 95, 80, 88, 92]
correlation = df['age'].corr(df['score'])
print(correlation)
3.2 回归分析
练习题:使用线性回归模型预测年龄。
from sklearn.linear_model import LinearRegression
X = df[['score']]
y = df['age']
model = LinearRegression()
model.fit(X, y)
predicted_age = model.predict([[95]])
print(predicted_age)
第四部分:机器学习
4.1 分类算法
练习题:使用决策树算法对数据进行分类。
from sklearn.tree import DecisionTreeClassifier
X = df[['score']]
y = df['age'] > 30
model = DecisionTreeClassifier()
model.fit(X, y)
predicted_class = model.predict([[95]])
print(predicted_class)
4.2 聚类算法
练习题:使用K-means算法对数据进行聚类。
from sklearn.cluster import KMeans
X = df[['score']]
kmeans = KMeans(n_clusters=2)
kmeans.fit(X)
predicted_clusters = kmeans.predict(X)
print(predicted_clusters)
总结
通过以上实战练习题,读者可以掌握大数据分析的基本技能,为后续深入学习打下坚实基础。在实际工作中,数据分析是一个不断迭代和优化的过程,需要不断积累经验和提高技能。希望本文能对读者有所帮助。
