数据挖掘概论
课程内容
分数构成
- 出勤、两次随堂测试(50%)
- 作业
- 平常作业(20%)
- 开放性大作业(30%)
内容:选择与数据挖掘相关的开放性课题,如图像分析,E影推荐,股票价格预测等;
时间节点:课程结束后一个周提交;
提交内容:报告、数据、代码等。
- Bonus:论文 + 5
课程大纲
课程资源
推荐教材/网课
资源文件
回忆卷
20-21 春夏 数据挖掘概论 期末回忆卷+小测答案 By 王钦与
学习笔记
学习建议
数据挖掘概论的小作业难度较低,在ai发达的今天,写代码应该是一件非常简单的任务。而这些小作业的设置对日后科研也有一定价值,有意识地训练一下自己熟悉代码对大作业和日后科研都有帮助。
数据挖掘概论的大作业有三个项目可以选择,其中,第一个项目是与之前的课程作业高度相关的,属于对代码能力没有那么强或者自己的设备条件不允许的同学最友好的。后面的项目则有一定的难度,适合想挑战一下或者想做一做相关科研课题的同学选择。
在评分上,并不会因为你选择了最简单的项目就打低分,大作业的打分标准包括算法效果、投入精力(工作量)、方法原创性、汇报情况、实验报告。可以根据自身情况和个人兴趣选择。
我个人选择的是第一个项目,但是实际做的时候比较取巧。我所做的工作包括:学习并复现kaggle网站上的高分算法,对其中的超参数、特征选择等尝试改动,对结果进行分析;此外,尝试了利用当时较新出现的时序预测模型“TimeGPT”进行时序预测。最后因为工作量和一定的创新性也得到了高分。
推荐网站:kaggle
来源: https://www.cc98.org/topic/5643195
8周的课,上的内容比较浅,难度也不大,课程本身难度其实也比较通识,和人工智能课程有很多重叠交叉的地方。课程给分包含4个小作业和一个大作业,占比是4*10+60
小作业很简单,加上chatGPT的辅助基本上每周的小作业一个小时之内都能很好的解决,第四个小作业是在老师推荐的两篇论文里挑选一篇写论文报告,推荐的论文质量挺不错的,认真看完有挺多收获。
大作业是solo的,今年是二选一,第一个是kaggle上的一个时间序列预测比赛,第二个是深度学习的,关于蛋白质相似性检测,绝大多数同学选择了第一个。最终的评分维度包括算法效果,投入精力,pre,原创性这些,当然最重要的还是硬性指标,在第一个project里就是比较排名,因此会比较卷。我觉得尽量不要选做的人太多的project,做的人太多的project很容易出现撞思路的问题,都会在原创性得分上吃亏,并且会问一些比如(前一个同学用的跟你类似的思路,为什么你的结果没他好诸如此类的问题)另外同质化的东西听多了老师也会疲惫,于是会问出(你做了多久)这种问题。
总体来说为了拿学分的话这门课不错,为了学东西那我觉得没必要。