Lesson 16

X16: データ倫理・AI ガバナンス実習

X系横断研究データ倫理プライバシーライセンスAI倫理GDPR再識別リスク
所要 60分 / 想定レベル: リテラシ基礎〜心得 / データ: カメラ情報(#1279) × 避難所情報(#42) × カタログ 551件

データ取得手順

⚠️ このスクリプトは自動取得に対応していません。以下のデータセットを DoBoX から手動でダウンロードし、data/extras/ 以下に保存してください。

IDデータセット名
#42避難所情報
#65地図情報_3次元点群データ_オープン
#1279県内のカメラ情報
#1434地図情報_3次元点群データ_オープン_2023

実行コマンド:

cd "2026 DoBoX 教材"
python -X utf8 lessons/X16_data_ethics_governance.py

DoBoX のオープンデータは申請不要・商用/非商用とも利用可。 data/extras/.gitignore 対象(約 57 GB のキャッシュ)。 スクリプト実行で自動再生成されます。

スクリプト(全体ソースコード)

⬇ X16_data_ethics_governance.py

cd "2026 DoBoX 教材"
python -X utf8 lessons/X16_data_ethics_governance.py

DoBoX カタログ分析とライセンス規約

DoBoX に登録された 551 件のデータセットを 13 カテゴリに分類した。

H3 検証: ハザード系(洪水・土砂・津波)は 142 件(25.8%) ― 仮説棄却 ✗(閾値 33%)。 防災県・広島の特性がデータ構成に表れている。

カタログ分析

DoBoX ライセンス規約の要点

全 551 件は 広島県オープンデータ利用規約 に準拠する。 CC BY 4.0 に相当する規約で、商用・非商用ともに申請不要。ただし:

要件内容注意点
出典表記「広島県」または提供組織名を明示図のキャプションや論文の参考文献に必須
改変・加工可(原データとの区別表示が必要)分析結果を「DoBoX 原データ」と混同させない
商用利用可・申請不要二次配布時も同規約を継承
AI 学習利用可(規約に明示なし・黙示可)モデルの出典表記ルールは今後整備予定
LiDAR 派生データ国土地理院基盤地図情報を含む場合あり測量法第29条の複製許可が必要な場合がある

「二次著作物」の例:航空レーザ計測

LiDAR 点群(dataset #65, #1434)は国土地理院の基盤地図情報を含む可能性がある。 この場合、DoBoX 規約のみでは不十分で 測量法に基づく複製・刊行の許可申請が別途必要になることがある。 派生データを公開・配布する前には出典の法的地位を必ず確認すること。

観測センサーの空間偏在性と AI バイアス

H1 検証: カメラ 351 台のうち「道路」管理区分は 131 台(37.3%) ― 仮説棄却 ✗(ただし道路系が主体)。 河川・砂防管理カメラも相当数含まれる。

空間偏在性

観測バイアスの 3 類型

バイアス種別このデータでの例AI への影響緩和策
収集バイアス カメラは幹線国道・主要河川沿いに集中
山間部・離島に空白域
空白域の交通状況・水位を AI が推論できない 衛星・気象レーダーで補完
ラベルバイアス カメラなし地点は「異常なし」と誤認されやすい 過去の被害記録が少ない地域でモデル精度が低下 欠損を「不明」として明示
フィードバックバイアス 監視密度が高い地点の事故データが訓練に過剰使用 都市部偏重モデルが農村部で失敗 サンプリング重み付け

「公平な AI」のための観測設計

AI モデルの予測精度は訓練データの空間範囲に依存する。 広島県北部(三次市・庄原市)や島嶼部(江田島市・大崎上島)では センサー密度が沿岸都市部の 1/5 以下であり、これらの地域向け AI モデルには 別途の精度検証と不確実性の開示が必要である。

位置情報の集約粒度と再識別リスク

再識別リスク(Re-identification Risk)とは、 匿名化されたデータから特定の個人・物体を特定できてしまうリスク。 位置情報は氏名を削除しても「自宅付近 → 職場付近」の移動パターンで個人が特定される。

H2 検証: 1 km グリッドで集約した際に k=1(グリッド内カメラ 1 台のみ)のセルは 89.0% ― 仮説支持 ✓。 単独セルでは集約後も位置と ID が 1 対 1 対応するため、カメラ個体が特定可能。

再識別リスク

k-匿名性(k-anonymity)

k-匿名性モデルでは、あるレコードが少なくとも k 件の他レコードと 区別できない状態を「k 匿名」とする。 最低でも k≥3 を確保するため、約 330 m グリッドへの集約が必要であることがわかる。

プライバシー保護手法の比較

手法概要DoBoX での適用例限界
グリッド集計500 m〜1 km 格子に集約L10 プライバシーグリッド単独セルには効果なし
k-匿名化k≥3 以上に強制統合要援護者情報(非公開)均質性攻撃に脆弱
差分プライバシー統計値にノイズ付加人口密度マップ(応用)精度とのトレードオフ
トークン化位置を「○○エリア」名に変換避難所の地区名表記地名から逆引き可能

データ真正性とハッシュ検証

データ真正性(Data Integrity)とは、データが改ざんされていないことを保証する性質。 分析を再現する際、ダウンロードしたファイルが公式版と一致するかを確認することで 「分析条件の完全な記録」が可能になる。

本プロジェクト使用ファイルの SHA-256 ハッシュ(先頭 32 桁)

ファイルサイズSHA-256(先頭 32 桁)
dataset_index.csv113 KBd979a7dc65e18b1c7782b8e80dec12d0...
camera_list.csv67 KB736a05cb6e164264df439ce363da6d31...
shelters.json4030 KBa63a36f08ade4defe9eae14adeda0e09...

ファイルが 1 バイトでも変更されると完全に異なるハッシュになる。

Python 実装(3 行)

1
2
3
4
5
6
7
8
import hashlib
from pathlib import Path

def sha256(path):
    return hashlib.sha256(Path(path).read_bytes()).hexdigest()

# ダウンロード直後に実行して保存しておく
print(sha256("data/dataset_index.csv"))   # → 64 文字の 16 進数

タイムスタンプと更新検知

DoBoX の各データセットページには「更新日時」フィールドがある。 前回分析時のハッシュ値と比較することで、データが更新されたタイミングで 分析を再実行するワークフロー(CI/CD)を構築できる。

再現性のための 3 点セット
(1) ソースコード(.py) / (2) 使用データの SHA-256 ハッシュ / (3) 実行環境(requirements.txt)
この 3 点が揃えば、誰でも・いつでも同じ結果を再現できる。

国際法規制比較と AI 倫理ガイドライン

位置情報・センサーデータを公開・AI 学習に使う際は、 どの法制度が適用されるかを把握する必要がある。 DoBoX は広島県の公的機関が公開したオープンデータのため「個人情報」には 直接該当しないが、二次利用で個人を特定できる加工データを作成した場合は注意が必要。

主要法制度の比較

法制度適用地域位置情報規制 AI・自動処理違反時制裁
GDPR
EU 一般データ保護規則
EU/EEA + EU 市民データを扱う全組織 高リスクデータに準拠
同意または正当利益が必要
自動的決定・プロファイリングへの異議権(22 条) 最大 2,000 万 EUR または年間売上 4%
PIPL
中国個人情報保護法
中国国内 + 中国人データを扱う全組織 「機微個人情報」
明示的同意必須
AI 推薦への対抗権あり 最大 5,000 万人民元または年間売上 5%
個人情報保護法
日本
日本国内 単独位置情報は個人情報に非該当
(本人識別可能なら該当)
自動処理への明示規制は限定的 1 億円以下の罰金(法人)

AI 倫理ガイドライン(日本)

文書発行要点
人間中心の AI 社会原則内閣府 2019プライバシー確保・公平性・透明性・説明責任
AI 利活用ガイドライン総務省 2019利用者への説明・透明性・安全確保
EU AI 法(参考)EU 2024 施行リスク分類(禁止 / 高リスク / 低リスク)

DoBoX データ利用前チェックリスト

  1. 出典表記(広島県または提供組織名)を成果物に含めているか
  2. 加工データと原データの区別が明示されているか
  3. 位置情報を含む成果物で個人・物体が特定可能でないか(k≥3 以上を確認)
  4. AI モデルの訓練データとして使う場合、空間偏在性のバイアス評価を行ったか
  5. LiDAR 派生データを公開する場合、測量法上の許可要否を確認したか
  6. ファイルハッシュを記録し、再現性を担保したか

発展課題

  1. カメラ位置データを 500 m グリッドで集約し、k=1 セルの割合が 1 km グリッド時と比べてどう変化するか計算せよ。
  2. 差分プライバシーを実装し(ラプラスノイズ付加)、 ノイズ量(ε)を変化させたときのカメラ密度マップの精度変化を可視化せよ。
  3. DoBoX カタログ 551 件の Desc(説明文)を形態素解析し、 頻出単語上位 30 語を WordCloud で表示せよ。
  4. GDPR の「忘れられる権利(Right to Erasure)」は DoBoX オープンデータに適用可能か? 理由とともに 200 字以内で論じよ。
  5. EU AI 法のリスク分類に基づき、本プロジェクトで作成した AI モデル(例: L07 回帰、L08 PCA) を「禁止 / 高リスク / 低リスク / 最小リスク」に分類せよ。