14日窓には 2024年7月豪雨の前駆〜本格降雨 (7/1, 7/10〜7/12) が含まれており、PCA で時間モードが立ちやすい好題材。
| 論題 | データセット | DL | 保存先 | 形式 | サイズ |
|---|---|---|---|---|---|
| 雨量10分値 14日分 (各日別 CSV) | DoBoX #1275 | ページから DL ボタン | data/rain_2024/rain_2024-MM-DD.csv (×14) | CSV (5段ヘッダ, 10分値, UTF-8 BOM) | 1.0〜1.4 MB / 日 |
| 雨量 年集計 (観測所→事務所/水系) | DoBoX #1276 | ページから DL ボタン | data/extras/rainfall_annual.csv | CSV (多段ヘッダ) | 約 500 KB |
一括取得(全レッスン共通, 推奨):
cd "2026 DoBoX 教材"
py -X utf8 data\fetch_all.pyfetch_all.py はカタログ・追加データを data/ と data/extras/ に再現可能ダウンロード。DoBoX のオープンデータは申請不要、商用・非商用とも利用可。本レッスンの .py スクリプトは、データが無ければ自動取得してから処理を始めるよう実装されています(ensure_dataset() ヘルパ)。
cd "2026 DoBoX 教材"
python -X utf8 lessons/L08_pca_rain.py
14日分の10分雨量を PCA で解析するために、行と列をどう割り当てるかがまず最大の意思決定になる。
| 選択肢 | 形状 | 主成分が捉えるもの | 欠点 |
|---|---|---|---|
| (A) 観測所 × 時間 (10分粒度) | ≈ 280 × 2016 | 時間モード (県全体に共通する降雨イベント) と 地域差 の両方 | 列数 >> 行数 → 共分散の安定性に注意 |
| (B) 観測所 × 日 (14日) | ≈ 280 × 14 | 日単位の粗い時間モード | 14列では分散が薄まり、降雨イベントの形状が潰れる (旧 v1 教材の限界) |
| (C) 時間 × 観測所 (転置) | ≈ 2016 × 280 | 各時刻の "雨域パターン" の主成分 | サンプル間が時系列依存で独立性仮定が崩れる |
本教材では (A) 観測所 × 時間 (2016列) を採用する。理由:
parse_rain_csv() で 14 日分を tidy 化し転置↑ L08_pca_rain.py 行 416–536





| PC | 寄与率(%) | 累積(%) | loading ピーク時刻 | η² 事務所(空間) | η² 水系(空間) |
|---|---|---|---|---|---|
| PC1 | 13.51 | 13.51 | 2024-07-10 20:00 | 0.551 | 0.463 |
| PC2 | 9.29 | 22.80 | 2024-07-01 03:20 | 0.471 | 0.370 |
| PC3 | 6.14 | 28.95 | 2024-07-10 20:50 | 0.065 | 0.084 |
| PC4 | 4.47 | 33.42 | 2024-07-10 21:50 | 0.235 | 0.422 |
| PC5 | 3.87 | 37.29 | 2024-07-01 04:10 | 0.262 | 0.191 |
| k | 累積寄与率(%) | RMSE | MAE |
|---|---|---|---|
| 1 | 13.51 | 0.9526 | 0.3601 |
| 2 | 22.80 | 0.9186 | 0.3616 |
| 3 | 28.95 | 0.8954 | 0.3614 |
| 5 | 37.29 | 0.8629 | 0.3609 |
| 10 | 50.39 | 0.8092 | 0.3585 |