統計データ分析コンペティション
教育用再現コレクション

独立行政法人統計センター主催 統計データ分析コンペティションの受賞論文を、 実データ・Pythonコードとともに教育用に再現したものです。 各ページではデータの取得方法・統計手法・分析コードを学べます。

159
収録論文数
159
公開済み
2018〜2025
対象年度

📚 このサイトの使い方

統計データ分析コンペの受賞論文を「教材」として再構成したサイトです。 各論文ページは、初心者でも分析の流れを追えるように、以下の9つのセクションで構成されています。

📥 データの準備
何のCSVをどこから落としてどこに置くか
🎯 学習目標
この記事を読むと何ができるようになるか
📖 用語集
p値・VIF・多重共線性などの統計用語を解説
⚠️ よくある誤解
疑似相関・因果混同・p値の過信を防ぐ
📐 手法ガイド
使った手法の「何・使い方・読み方・注意点」
📌 図表の読み方
グラフ・表が何を示しているかを丁寧に
🚀 発展の可能性
結果X→新仮説Y→課題Z で次のステップ

🔬 完全再現可能: 各論文には Python スクリプトが付属しています。 SSDSE データを data/raw/ に置くだけでコードを編集せず実行できます。 合成データは一切使っていません(全て実データ)。

🗺️ 初学者向け学習ロードマップ

何から読めばいいか迷ったら、以下の順番で読み進めるのがおすすめです。

STEP 1:相関と回帰の基本

まずはシンプルな相関分析・重回帰分析から。

▸ 2024 高校生総務大臣賞(食の外部化)
▸ 2024 高校生統計活用奨励賞(医療費削減)
STEP 2:パネルデータ分析

時間×地域のデータから因果を読み解く。

▸ 2025 高校生統計数理賞(地方移住)
▸ 2023 大学生審査員奨励賞(合計特殊出生率)
STEP 3:変数選択と機械学習

LASSO や Random Forest で「効く変数」を発見。

▸ 2025 高校生統計活用奨励賞(介護離職、LASSO)
▸ 2025 大学生審査員奨励賞(デジタル教科書、RF+SHAP)
STEP 4:クラスタリング・PCA

多次元データを可視化・グループ化する。

▸ 2025 高校生優秀賞(所得格差、Ward+PCA)
▸ 2023 大学生審査員奨励賞(睡眠時間、Ward)
STEP 5:因果推論(DiD・IV)

「政策効果」を統計的に推定する高度な手法。

▸ 2018 大学生総務大臣賞(地方創生、DiD)
▸ 2025 大学生統計数理賞(操作変数法)
STEP 6:時系列・予測

将来予測・トレンド分析の手法。

▸ 2024 大学生総務大臣賞(COVID宿泊損失)
▸ 2025 大学生優秀賞(女性就業×少子化、VAR)

※ 下の「タグで絞り込む」を使うと、手法やデータごとに論文を一覧できます。

📋 手法×データ マトリックスで探す
21種の統計手法 × 9種のデータソース のマトリックスで全159論文を俯瞰。
「重回帰の例を全部見たい」「SSDSE-Eを使った論文は?」などの探索に最適。
マトリックスを開く →
公開進捗
159 / 159 論文 (100%) — 全件公開完了
年度論文数公開済み状況
2025年度1919 (100%)完了
2024年度2020 (100%)完了
2023年度2020 (100%)完了
2022年度4040 (100%)完了
2021年度1919 (100%)完了
2020年度1919 (100%)完了
2019年度1414 (100%)完了
2018年度88 (100%)完了

タグで絞り込む

表示中: 159 / 159 件

使用データのダウンロード

注: 各論文の再現コードを動かすには、対応するデータをダウンロードして data/raw/ フォルダに配置してからコードを実行してください。