引言
大数据时代,数据分析能力已成为一项至关重要的技能。无论是企业决策者还是数据分析师,掌握数据分析的方法和技巧都至关重要。本文将为您提供一系列实战测试题,帮助您在轻松的氛围中提升数据分析技能。
第一部分:数据预处理
1.1 数据清洗
题目描述:给定一个包含缺失值、异常值和重复数据的CSV文件,请编写Python代码进行数据清洗。
参考代码:
import pandas as pd
# 读取数据
data = pd.read_csv('data.csv')
# 删除重复行
data.drop_duplicates(inplace=True)
# 删除缺失值
data.dropna(inplace=True)
# 处理异常值,例如年龄数据
data['age'] = pd.to_numeric(data['age'], errors='coerce')
data = data[data['age'].between(18, 65)]
# 输出清洗后的数据
print(data)
1.2 数据转换
题目描述:将以下日期字符串转换为日期格式,并计算每个用户的注册时间。
参考代码:
import pandas as pd
# 日期字符串
date_str = '2021-01-01,2021-02-01,2021-03-01'
# 转换为日期格式
date_list = pd.to_datetime(date_str.split(','))
# 计算注册时间
data = pd.DataFrame({'date': date_list})
data['register_time'] = data['date'].apply(lambda x: (pd.Timestamp.now() - x).days)
print(data)
第二部分:数据探索与分析
2.1 描述性统计
题目描述:对以下数据集进行描述性统计分析。
参考代码:
import pandas as pd
# 读取数据
data = pd.read_csv('data.csv')
# 描述性统计分析
print(data.describe())
2.2 数据可视化
题目描述:根据以下数据,绘制散点图和折线图。
参考代码:
import pandas as pd
import matplotlib.pyplot as plt
# 读取数据
data = pd.read_csv('data.csv')
# 绘制散点图
plt.scatter(data['x'], data['y'])
plt.xlabel('X')
plt.ylabel('Y')
plt.title('Scatter Plot')
plt.show()
# 绘制折线图
plt.plot(data['date'], data['value'])
plt.xlabel('Date')
plt.ylabel('Value')
plt.title('Line Plot')
plt.show()
第三部分:数据挖掘与预测
3.1 决策树
题目描述:使用决策树对以下数据集进行分类。
参考代码:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
# 加载数据
data = load_iris()
X = data.data
y = data.target
# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
# 创建决策树模型
clf = DecisionTreeClassifier()
# 训练模型
clf.fit(X_train, y_train)
# 预测结果
y_pred = clf.predict(X_test)
# 评估模型
print(accuracy_score(y_test, y_pred))
3.2 机器学习算法
题目描述:使用K-最近邻算法对以下数据集进行分类。
参考代码:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score
# 加载数据
data = load_iris()
X = data.data
y = data.target
# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
# 创建K-最近邻模型
clf = KNeighborsClassifier(n_neighbors=3)
# 训练模型
clf.fit(X_train, y_train)
# 预测结果
y_pred = clf.predict(X_test)
# 评估模型
print(accuracy_score(y_test, y_pred))
总结
通过以上实战测试题,您可以在轻松的氛围中提升数据分析技能。在实际工作中,数据分析是一个不断学习和实践的过程,希望这些测试题能对您有所帮助。祝您在数据分析的道路上越走越远!
