Skip to content

数据挖掘概论

课程内容

分数构成

  1. 出勤、两次随堂测试(50%)
  2. 作业
  3. 平常作业(20%)
  4. 开放性大作业(30%)

内容:选择与数据挖掘相关的开放性课题,如图像分析,E影推荐,股票价格预测等;

时间节点:课程结束后一个周提交;

提交内容:报告、数据、代码等。

  • Bonus:论文 + 5

课程大纲

课程资源

推荐教材/网课

资源文件

学习笔记

学习建议

数据挖掘概论的小作业难度较低,在ai发达的今天,写代码应该是一件非常简单的任务。而这些小作业的设置对日后科研也有一定价值,有意识地训练一下自己熟悉代码对大作业和日后科研都有帮助。

数据挖掘概论的大作业有三个项目可以选择,其中,第一个项目是与之前的课程作业高度相关的,属于对代码能力没有那么强或者自己的设备条件不允许的同学最友好的。后面的项目则有一定的难度,适合想挑战一下或者想做一做相关科研课题的同学选择。

在评分上,并不会因为你选择了最简单的项目就打低分,大作业的打分标准包括算法效果、投入精力(工作量)、方法原创性、汇报情况、实验报告。可以根据自身情况和个人兴趣选择。

我个人选择的是第一个项目,但是实际做的时候比较取巧。我所做的工作包括:学习并复现kaggle网站上的高分算法,对其中的超参数、特征选择等尝试改动,对结果进行分析;此外,尝试了利用当时较新出现的时序预测模型“TimeGPT”进行时序预测。最后因为工作量和一定的创新性也得到了高分。

推荐网站:kaggle