(Kaggle人工智能比赛复现)30 个经典 Kaggle 比赛及适合 PyTorch 实践的赛题
30 个经典 Kaggle 比赛及适合 PyTorch 实践的赛题
以下整理了 30 个 Kaggle 经典比赛,覆盖计算机视觉、自然语言处理、表格数据等不同类型。每个比赛都注明了核心任务、赛题简介、适合的学习阶段和数据集来源,供学习者使用 PyTorch 进行复现和练习。
1. Titanic: Machine Learning from Disaster
核心任务:生存预测(二分类)赛题简介:预测 1912 年泰坦尼克号沉船事故中哪些乘客能够幸存 (Kaggle Competitions For Ai Prediction | Restackio)。参赛者根据乘客的个人信息(如年龄、性别、舱位等)构建模型,回答“什么样的人更可能幸存?” (Titanic: Machine Learning from Disaster - Rishabh Nimje)。这道题被誉为 Kaggle 上最经典的入门挑战赛题。适合的学习阶段:初学者(入门级机器学习练习)数据集来源:历史泰坦尼克乘客名单及幸存记录(由 Kaggle 整理提供)
2. House Prices: Advanced Regression Techniques
核心任务:房价预测(回归)赛题简介:根据美国艾姆斯 (Ames) 城市房屋的79个特征,预测每套房屋的最终出售价格 (GitHub - chouhbik/Kaggle-House-Prices: Predict sales prices and practice feature engineering, RFs, and gradient boosting)。该比赛旨在练习特征工程和回归建模技能,是学习者在掌握基础后提升能力的绝佳练习 (GitHub - chouhbik/Kaggle-House-Prices: Predict sales prices and practice feature engineering, RFs, and gradient boosting)。适合的学习阶段:初学者/中级(有一定机器学习基础后)数据集来源:Ames Housing 房价数据集,由 Dean De Cock 编制用于数据科学教育 (GitHub - chouhbik/Kaggle-House-Prices: Predict sales prices and practice feature engineering, RFs, and gradient boosting)。
3. Santander Customer Transaction Prediction
核心任务:用户交易预测(二分类)赛题简介:来自 Santander 银行的匿名客户数据,要求参赛者预测哪些客户在未来会进行特定交易 (Kaggle Competitions For Ai Prediction | Restackio)。该比赛强调理解客户行为,将机器学习应用于实际业务问题。适合的学习阶段:中级(需要一定的数据处理和建模技能)数据集来源:Santander 银行提供的客户交易记录(已匿名化处理)
4. Porto Seguro’s Safe Driver Prediction
核心任务:保险理赔预测(二分类)赛题简介:由巴西 Porto Seguro 保险公司举办,挑战参赛者建立模型预测司机在下一年提出汽车保险理赔的概率 (Porto Seguro’s Safe Driver Prediction | Kaggle) (Kaggle Porto Seguro Part I - Exploratory Data Analysis)。这是典型的不平衡分类问题,大部分司机不会出险,极少部分会出险 (Kaggle Porto Seguro Part I - Exploratory Data Analysis)。通过本赛题可以学习应对不平衡数据和提高模型泛化能力的技巧。适合的学习阶段:中级(涉及高级特征工程和模型集成技巧)数据集来源:巴西 Porto Seguro 保险公司提供的投保客户历史数据 (Kaggle Porto Seguro Part I - Exploratory Data Analysis)。
5. Home Credit Default Risk
核心任务:信用违约预测(二分类)赛题简介:使用贷款申请的历史数据预测借款人是否会违约(无法偿还贷款) (Credit Default Risk - Kaggle)。此比赛由金融公司 Home Credit 举办,旨在借助机器学习更好地评估借款人的信用风险 (Wait, so loans need to be repaid? The home credit risk prediction …)。参赛者需要处理大量异构的客户信息,并运用特征工程提升模型性能。适合的学习阶段:中级/高级(涉及大量数据预处理和特征构造)数据集来源:Home Credit 集团提供的历史贷款申请及还款数据 (Wait, so loans need to be repaid? The home credit risk prediction …)。
6. Rossmann Store Sales
核心任务:超市销售预测(时间序列回归)赛题简介:德国连锁药店 Rossmann 提供数年历史销售数据,要求预测其在多个门店未来6周的每日销售额 (TIME SERIES FORECASTING - TAKING KAGGLE ROSSMANN CHALLENGE AS EXAMPLE - Hogwarts CS Magic School)。参赛者需要结合商店信息、促销和竞争对手等因素进行时间序列预测。这是Rossmann公司的首场 Kaggle 比赛,共有 1115 家德国门店的销售需预测 (TIME SERIES FORECASTING - TAKING KAGGLE ROSSMANN CHALLENGE AS EXAMPLE - Hogwarts CS Magic School)。该题让学习者了解如何将时间序列与机器学习特征相结合进行销售量预测。适合的学习阶段:中级(需要一定时间序列处理和回归建模经验)数据集来源:Rossmann 连锁店历史销售数据及相关信息(由 Rossmann 公司提供)
7. IEEE-CIS Fraud Detection
核心任务:交易欺诈检测(二分类)赛题简介:根据信用卡交易的数据,预测哪些交易是欺诈行为 (IEEE-CIS Fraud Detection - Kaggle)。这是一个大型不平衡数据集,真实交易中欺诈仅占极小比例,需要构建能够捕捉少数欺诈样本的模型。该比赛由 IEEE Computational Intelligence Society 与 Vesta 公司联合举办,Vesta 提供了真实的电商交易数据 (IEEE-CIS Fraud Detection - Top 5% Solution | Towards Data Science)。参赛者可以在此赛题中学习到特征工程、异常检测及模型集成在金融风控中的应用。适合的学习阶段:高级(数据规模大且不平衡,问题复杂)数据集来源:Vesta Corporation 提供的真实在线支付交易数据 (IEEE-CIS Fraud Detection - Top 5% Solution | Towards Data Science)(IEEE CIS Fraud Detection 比赛数据集)
8. Instacart Market Basket Analysis
核心任务:购物篮商品预测(多标签分类/推荐)赛题简介:预测 Instacart 在线超市用户在下次购物时会再次购买哪些商品 (Instacart Market Basket Analysis. Winner’s Interview - Medium)。比赛提供用户多次订单的历史记录,任务是在给定用户以往订单的情况下,预测其“下一单”中会包含的商品集合。这相当于在每个订单上进行多标签预测,或视作推荐问题。通过该赛题可以练习协同过滤、推荐系统和高效预测大规模稀疏标签的技巧。适合的学习阶段:高级(涉及推荐系统思想和大规模数据处理)数据集来源:Instacart 提供的匿名订单购物数据(包括用户订单及其中的商品列表)
9. Predict Future Sales
核心任务:商品月销量预测(时间序列回归)赛题简介:根据俄罗斯某软件公司提供的历史每日销售数据,预测未来一个月内每个商店-商品对的销售总量 (GitHub - storieswithsiva/Kaggle-Predicting-Future-Sales: Forecasting Total amount of Products using time-series dataset consisting of daily sales data provided by one of the largest Russian software firms)。这是一个典型的时间序列预测和回归问题,数据涵盖2013–2015年的每日销量。参赛者需要将每日数据汇总并预测月度销量,同时应对商店和商品列表每月变化带来的挑战 (GitHub - storieswithsiva/Kaggle-Predicting-Future-Sales: Forecasting Total amount of Products using time-series dataset consisting of daily sales data provided by one of the largest Russian software firms)。该赛题是Coursera“如何赢得数据科学比赛”课程的最终项目。适合的学习阶段:中级(需要时间序列特征提取与预测建模经验)数据集来源:由俄罗斯 1C 公司提供的日销数据 (GitHub - storieswithsiva/Kaggle-Predicting-Future-Sales: Forecasting Total amount of Products using time-series dataset consisting of daily sales data provided by one of the largest Russian software firms)(Kaggle Playground 比赛数据)
10. Otto Group Product Classification Challenge
核心任务:产品类别预测(多分类)赛题简介:由德国 Otto 集团提供的一批商品特征数据,参赛者需要将每件商品归类到正确的产品类别中 (Otto Group Product Classification Challenge | Kaggle)。数据包含匿名的数值特征和9个可能的类别(例如时尚、电子产品等) (Otto Group Product Classification Challenge - Kaggle)。该比赛要求构建多分类模型,对特征进行降维或深度学习建模也是常见手段。通过本赛题可以学习如何应对匿名特征的多类别分类问题。适合的学习阶段:中级(多分类模型实践,适合尝试神经网络或集成方法)数据集来源:Otto 集团提供的商品属性数据(9 大类商品的特征及类别标签)
11. Digit Recognizer (MNIST)
核心任务:手写数字识别(多分类)赛题简介:对 MNIST 手写数字图片进行分类识别 (Kaggle Competitions For Ai Prediction | Restackio)。该比赛任务是经典的“0-9”数字识别,共有 10 类,是入门深度学习和图像分类的绝佳练习。参赛者通常使用卷积神经网络(CNN)来达到高准确率 (Kaggle Competitions For Ai Prediction | Restackio)。适合的学习阶段:初学者(入门计算机视觉和神经网络)数据集来源:MNIST 手写数字数据集(Yann LeCun 等人提供的黑白手写体图片)
12. Dogs vs. Cats
核心任务:猫狗图像分类(二分类)赛题简介:要求构建模型区分图像中是猫还是狗 (Kaggle Competitions For Ai Prediction | Restackio)。这是计算机视觉领域的经典二分类问题,经常用来展示深度学习在图像分类上的强大效果 (Kaggle Competitions For Ai Prediction | Restackio)。数据集包含大量标注为猫或狗的图片,参赛者可通过搭建卷积神经网络实现高精度分类。适合的学习阶段:初学者(入门图像分类和卷积网络)数据集来源:最初由微软研究提供的猫狗图片数据集(Kaggle 比赛整理后的版本)
13. CIFAR-10: Object Recognition in Images
核心任务:通用物体识别(多分类)赛题简介:使用 CIFAR-10 数据集中的彩色小图像来训练模型,识别图像所属的物体类别 (CIFAR-10 - Wikipedia)。CIFAR-10 包含 10 个类别(如飞机、汽车、鸟、猫等),共 6 万张 32×32 像素的彩色图片 (CIFAR-10 - Wikipedia)。参赛者可以尝试不同的卷积神经网络架构,在相对低分辨率图像上快速试验模型效果。适合的学习阶段:初学者/中级(练习卷积神经网络及调参)数据集来源:CIFAR-10 数据集(由加拿大高级研究院 CIFAR 提供,包括 Alex Krizhevsky 等人收集的 80 百万微小图像的子集 (CIFAR-10 - Wikipedia))
14. Plant Seedlings Classification
核心任务:幼苗植物种类识别(多分类)赛题简介:对幼苗植物的照片进行分类,判断其所属的物种(12 种作物或杂草) (GitHub - keyurparalkar/Plant-Seedlings-Classification: Determine the species of a seedling from an image)。数据集包含约 960 株不同生长阶段植物的图像 (GitHub - keyurparalkar/Plant-Seedlings-Classification: Determine the species of a seedling from an image)。该比赛让参赛者练习图像预处理(如背景去除)、数据增强和卷积网络在农业图像上的应用。适合的学习阶段:中级(需要一定的计算机视觉和 CNN 实战经验)数据集来源:由丹麦奥胡斯大学信号处理小组联合南丹麦大学发布的植物幼苗图像数据集 (GitHub - keyurparalkar/Plant-Seedlings-Classification: Determine the species of a seedling from an image)。
15. Planet: Understanding the Amazon from Space
核心任务:卫星影像多标签分类(多标签分类)赛题简介:利用卫星图像监测亚马逊雨林的人类活动迹象 (Planet: Understanding the Amazon from Space | Kaggle)。每张卫星影像可能同时包含多种标签(如森林、农田、云遮挡、水体等),参赛者需要为每张图片预测所有适用的标签。这道赛题旨在通过遥感影像识别雨林中的人类足迹(如非法砍伐或道路) (Planet: Understanding the Amazon from Space | Kaggle)。参赛者可学习多标签分类和F2评分优化等技巧。适合的学习阶段:中级(需要掌握卷积网络并处理多标签输出)数据集来源:Planet Labs 提供的卫星影像数据(覆盖亚马逊雨林地区的卫星照片及多标签标注)
16. State Farm Distracted Driver Detection
核心任务:驾驶员分心状态识别(多分类)赛题简介:通过汽车仪表台摄像头照片,识别司机的状态(安全驾驶、打字、打电话、饮食等10类) (Distracted driver detection - Kaggle)。目标是利用计算机视觉检测分心驾驶行为 (State Farm Distracted Driver Detection | Kaggle)。参赛者需构建模型预测每张驾驶员图像所属的行为类别,对于提升驾驶安全具有现实意义。该任务也是练习图像多分类和不平衡数据处理的很好案例。适合的学习阶段:中级(需要一定的深度学习图像分类经验)数据集来源:State Farm 保险公司提供的车辆驾驶员图像数据(车辆内部摄像头拍摄的模拟驾驶照片)
17. Carvana Image Masking Challenge
核心任务:汽车图像前景分割(二元分割)赛题简介:对汽车照片进行分割,自动勾勒出图像中汽车的边界轮廓 (Carvana Image Masking Challenge - Kaggle)。也就是说,给定一张汽车在不同背景下的图片,模型需输出每个像素属于“车辆”还是“背景”。这是图像语义分割的入门挑战,可练习卷积网络用于精细像素级预测(如 U-Net 网络)。适合的学习阶段:中级(有一定CNN基础后可尝试图像分割)数据集来源:线上二手车商 Carvana 提供的汽车照片及对应的像素级车辆掩膜标注 (Carvana Image Masking Challenge - Kaggle)。
18. Airbus Ship Detection Challenge
核心任务:卫星影像中的船只检测(分割/检测)赛题简介:从卫星图像中尽可能快速准确地识别出所有船只的位置 (Airbus Ship Detection Challenge | Kaggle)。数据由 Airbus 提供,每幅卫星影像可能含有零到多艘船只,参赛者需要在像素级标注出每艘船的区域。本质上是一个图像目标检测/分割任务,评价标准偏重检测速度和精度。通过此赛题可以学习如何在高分辨率遥感影像上进行物体检测与分割。适合的学习阶段:中级/高级(需要目标检测或语义分割经验)数据集来源:空中客车 (Airbus) 提供的卫星遥感影像及船只位置标注 (Airbus Ship Detection Challenge | Kaggle)。
19. 2018 Data Science Bowl (Nucleus Segmentation)
核心任务:细胞核分割(实例分割)赛题简介:在各种显微镜图像中定位并分割出细胞核 (Kaggle Data Science Bowl 2018 : Find and segment nuclei)。该比赛由 Booz Allen Hamilton 举办,是 2018 年度 Data Science Bowl,大量多样化的生物显微图像被提供作为训练数据 (Kaggle 2018 Data Science Bowl | Broad Bioimage Benchmark Collection)。参赛者需要开发通用的图像分割算法,在不同组织、不同染色条件下准确找到细胞核 (Kaggle 2018 Data Science Bowl | Broad Bioimage Benchmark Collection)。这是生物医学领域的重要任务,有助于加速医学发现。适合的学习阶段:高级(需要计算机视觉高级技术,如U-Net等架构进行实例分割)数据集来源:Broad生物图像中心等提供的多来源细胞核显微镜图像 (Kaggle 2018 Data Science Bowl | Broad Bioimage Benchmark Collection)(Data Science Bowl 2018 比赛数据集)
20. Bengali.AI Handwritten Grapheme Classification
核心任务:手写孟加拉文字母识别(多输出多分类)赛题简介:识别手写体孟加拉文字中的字符构成要素,将每个图像划分出对应的字母根形、元音附标和辅音附标三部分 (Bengali.AI Handwritten Grapheme Classification | Kaggle)。孟加拉文字由多个图形部件组合而成,本比赛需要对每张手写字符图像同时预测三个类别(共约千种组合)。这是计算机视觉和序列学习的结合,考查模型对细粒度特征的提取能力。适合的学习阶段:高级(问题复杂,需要定制 CNN+多任务输出架构)数据集来源:Bengali.AI 非营利组织提供的手写孟加拉字符数据集 (Bengali.AI Handwritten Grapheme Classification | Kaggle)(包含图片及部件标签,发表于 ICDAR21)
21. TensorFlow Speech Recognition Challenge
核心任务:语音口令识别(音频分类)赛题简介:构建模型识别简单语音指令,从一秒的语音片段中判断说了哪个单词 (TensorFlow Speech Recognition Challenge - Kaggle)。例如判断音频中是否包含“yes”、“no”、“up”、“down”等命令词 (TensorFlow Speech Recognition Challenge - Kaggle)。这是一个音频分类任务,参赛者可以练习将一维音频信号转换为频谱图,并利用卷积网络或循环网络进行关键词识别。适合的学习阶段:中级(需要基础深度学习技能,音频数据处理属新挑战)数据集来源:谷歌提供的 Speech Commands 数据集(Kaggle 比赛由 TensorFlow 赞助,数据包含数万条由不同人朗读的英文指令音频)
22. Bag of Words Meets Bags of Popcorn
核心任务:电影评论情感分析(二分类)赛题简介:使用 IMDB 电影评论数据集对文本情感进行分类,判别评论属正面还是负面评价。这是 Kaggle 著名的入门 NLP 比赛,参赛者可以尝试将评论转化为词袋模型或词向量,然后训练分类器预测情感。 ([PDF] The Refugees: Bag of Words Meets Bags of Popcorn - ELTE)该比赛被设计为教程性质的竞赛,非常适合作为初学者的 NLP 项目练习。适合的学习阶段:初学者(入门自然语言处理和文本分类)数据集来源:IMDB 电影评论数据集(25,000 条正面和25,000 条负面评论) (Bag of Words Meets Bags of Popcorn - Kaggle)
23. Sentiment Analysis on Movie Reviews
核心任务:影评情感级别分类(多分类)赛题简介:对 Rotten Tomatoes(烂番茄)电影评论的句子进行情感分类,标签包括从极负面到极正面的5个等级 (Sentiment Analysis on Movie Reviews - Kaggle)。与一般二分类情感分析不同,本比赛需要细粒度地判断评论文本所表达的情感强度。数据来自斯坦福情感树库,包含句子及其情感标签。参赛者可借此练习构建更复杂的 NLP 模型(如 LSTM、Transformer)来解决多级别情感分类问题。适合的学习阶段:中级(需要一定的深度学习 NLP 模型经验)数据集来源:Rotten Tomatoes 电影评论数据集(斯坦福大学提供的已标注句子级情感数据 (Sentiment Analysis on Movie Reviews - Kaggle))
24. Quora Question Pairs
核心任务:重复问句识别(二分类)赛题简介:判断 Quora 平台上的两条问句是否具有相同含义(即是否是重复问题) (Project 2: Detecting Duplicate Quora Questions)。数据集中提供了超过 40 万对可能重复的问题,每对都有人工标注的“是/否”标签。参赛者需要构建模型,识别具有等价含义的问题对。该任务可以练习文本语义匹配、句子对编码和语义相似度计算等技能,也是自然语言理解的经典问题之一。适合的学习阶段:中级(需要掌握文本向量化和语义匹配模型)数据集来源:Quora 问答社区提供的问句对及重复标注 (Project 2: Detecting Duplicate Quora Questions)
25. Toxic Comment Classification Challenge
核心任务:网络评论有害内容分类(多标签分类)赛题简介:识别在线评论中的不良语句,并对其进行类别标注 (Toxic Comment Classification Challenge | Kaggle)。比赛提供大量 Wikipedia 评论及其是否包含“toxicity”(辱骂、仇恨、人身攻击等)的标注,一个评论可能属于多个不良类别 (Jigsaw Multilingual Toxic Comment Classification | Kaggle) (A Data Science project: Toxic comments classification using Naïve …)。参赛者需要训练多标签模型检测各种有害内容。这道赛题可以让学习者了解 NLP 在内容审核领域的应用,并学习应对多标签不平衡分类的问题。适合的学习阶段:中级(需要一定的文本分类和多标签处理经验)数据集来源:Jigsaw(Google)提供的 Wikipedia 评论数据,包含人工标注的6种有毒评论类别 (A Data Science project: Toxic comments classification using Naïve …)
26. Spooky Author Identification
核心任务:文学作者风格辨识(多分类)赛题简介:给定一段万圣节风格的文学文本,预测其作者是在世的三位“鬼才”作家之一:埃德加·爱伦·坡、H.P.洛夫克拉夫特,或玛丽·雪莱 (Exploratory data analysis in R: Spooky author identification)。数据集由上述三位著名恐怖小说作者的文章片段组成。参赛者需要基于写作风格训练模型进行作者分类。这道有趣的 NLP 赛题考查对文本风格差异的捕捉,适合练习文本特征提取(例如 TF-IDF、词向量)和分类算法。适合的学习阶段:中级(需要文本处理和分类模型经验)数据集来源:Kaggle 提供的经典恐怖文学语料,包含 Poe、Lovecraft、Shelley 三位作者作品片段及作者标签 (Exploratory data analysis in R: Spooky author identification)
27. CommonLit Readability Prize
核心任务:文章可读性预测(回归)赛题简介:根据一段文章文本,预测其适合的阅读难度等级(复杂度分数)。该比赛由教育机构 CommonLit 举办,旨在为 3-12 年级教学选择适龄的阅读材料 (CommonLit Readability Prize | Kaggle)。数据集包括文章段落及对应的可读性分数(越高表示文章越复杂)。参赛者需要构建回归模型输出每段文本的阅读难度。这道题可让学习者练习将 NLP 应用于教育领域,以及如何结合预训练语言模型与回归任务。适合的学习阶段:中级(需要 NLP 表示学习和回归分析经验)数据集来源:CommonLit 提供的文学段落及其阅读难度评分数据 (CommonLit Readability Prize | Kaggle)
28. Fake News Detection
核心任务:新闻真伪预测(二分类)赛题简介:开发模型自动识别一篇新闻文章是否为虚假新闻 (Priyanka-Dandale/Fake-News-Kaggle-Competition - GitHub)。数据集包含真实新闻和假新闻的文本及标题,参赛者需要基于文章内容训练分类模型。鉴于假新闻常常措辞夸张或引导性强,该任务可以锻炼对文本细微差异的捕捉能力。通过本赛题,学习者将了解自然语言处理在媒体内容真实性鉴别方面的应用。适合的学习阶段:中级(需要一定文本分类和特征工程能力)数据集来源:多个新闻数据集整合而成的假新闻语料 (Fake News Classification - Kaggle)(如 WELFake 数据集,包含约7.2万篇标注真实或虚假的新闻 (Fake News Classification - Kaggle))
29. Tweet Sentiment Extraction
核心任务:推文情感关键片段提取(序列标注/提取)赛题简介:给定一条推特以及整体情感标签(正面、中性或负面),模型需要从推文文本中提取出表达该情感的关键短语 (Tweet Sentiment Extraction - Kaggle)。例如,一条推文被标注为“正面”,模型应找出其中带有正面情感的词组。该任务不同于传统分类,更类似于文本片段的定位或序列标注。参赛者可以尝试结合情感分类和指针网络/序列标注模型来解决。本赛题有助于学习NER(命名实体识别)和问答式抽取技术在情感分析中的应用。适合的学习阶段:高级(需要掌握 Transformer 等高级NLP模型进行序列标注)数据集来源:Twitter 推文数据(由 Kaggle 提供,包含推文及其情感标签和待抽取的关键短语)
30. Quora Insincere Questions Classification
核心任务:不真诚提问检测(二分类)赛题简介:判断 Quora 上的一个提问是否是不真诚的,即带有偏见、仇恨或引战性质,而非真心提问 (Quora Insincere Questions Classification - Part 1/2)。该比赛旨在帮助 Quora 改善社区问答环境,要求参赛者识别具有潜在有害倾向的问题 (Quora Insincere Questions Classification - Part 1/2)。这是对文本分类和不良内容检测的综合考验,类似于有毒评论分类但侧重于问句。通过本赛题,学习者可以提升对细微语义及隐含攻击性的检测能力。适合的学习阶段:中级/高级(需要结合NLP与内容审核的经验)数据集来源:Quora 提供的社区问答数据及人工标注的“不真诚”问题标签 (Quora Insincere Questions Classification - Part 1/2)
以上比赛涵盖了分类、回归、分割、序列标注等多种任务类型,以及图像、文本、表格、音频等多种数据模态。它们在 Kaggle 社区中都有代表性,适合作为使用 PyTorch 实战练习的项目。这些经典赛题将帮助学习者在实践中巩固所学知识,积累处理不同类型数据和问题的经验。每道题的官方讨论区和获奖方案也是宝贵的学习资源,可供深入研究和借鉴。 (Kaggle Competitions For Ai Prediction | Restackio) (Kaggle Porto Seguro Part I - Exploratory Data Analysis)