LLMが匿名ユーザーの身元を1人600円で特定──ETH Zurich・Anthropicの研究が示すプライバシーの終焉

|Aitly編集部

AIセキュリティ速報

2026年3月17日|Aitly編集部

匿名アカウントなら身元はバレない――その常識が崩れた。ETH Zurich・Anthropicらの研究チームが、LLM(大規模言語モデル)を使って匿名・仮名ユーザーの実名を1人あたり約600円で特定できることを実証した。Hacker Newsユーザー338人のうち226人(67%)をLinkedInプロフィールと紐付けることに成功し、精度は90%に達する。Ars Technicaなど複数の海外メディアが報じ、プライバシーの根本的な前提が揺らぎ始めている。

研究の概要:誰が、何を明らかにしたのか

論文「Large-scale online deanonymization with LLMs」は2026年2月にarXivで公開された。著者はSimon Lermen(MATS Research)、Daniel Paleka、Joshua Swanson、Michael Aerni(いずれもETH Zurich)、Nicholas Carlini(Anthropic)、Florian Tramèr(ETH Zurich)の6名だ。

研究の核心はシンプルだ。匿名の投稿内容をLLMに分析させ、公開プロフィール(LinkedInなど)と照合することで、投稿者の実名を高精度に特定できる。従来の手法(文体解析やメタデータ分析)ではほぼ0%だった成功率が、LLMを使うことで劇的に向上した。

ESRCパイプライン:4段階で身元を特定する仕組み

研究チームが構築した「ESRC」パイプラインは、Extract(抽出)、Search(検索)、Reason(推論)、Calibrate(校正)の4段階で構成される。すべてのステップにLLMを使い、完全に自動化されている点が特徴だ。

E

Extract(抽出)

LLMが匿名投稿から属性・経歴・興味・個人情報の断片を構造化データとして抽出する。「どこに住んでいるか」「職業は何か」「何に興味があるか」といった手がかりを、文脈から自動的に読み取る。

S

Search(検索)

抽出した特徴をベクトル埋め込みに変換し、数百万件の候補プロフィールから類似度の高い候補を効率的に絞り込む。

R

Reason(推論)

上位候補に対してLLMが拡張推論(extended reasoning)を実行。投稿内容とプロフィールの整合性を多角的に検証し、最も一致する候補を選出する。

C

Calibrate(校正)

LLMが各マッチングに信頼度スコアを付与し、誤検出率を制御する。これにより「90%精度」「99%精度」など、用途に応じた閾値設定が可能になる。

実験結果:従来手法を圧倒する精度

もっとも注目すべきはHacker News-LinkedInの実験だ。約89,000人のアクティブユーザーの中から、338人のターゲットに対して226人(67%)を正確に特定した。精度は90%、つまり「この人だ」と判定した10人のうち9人は正解ということになる。

実験 再現率(Recall) 精度(Precision) 従来手法
HN → LinkedIn 67% 90% ほぼ0%
HN → LinkedIn(高精度) 45.1% 99% ほぼ0%
Reddit(時系列分割) 33% 99% ほぼ0%
Reddit Movies 8.5% 90% ほぼ0%

従来の文体解析(スタイロメトリー)やメタデータベースの手法がほぼ0%だったのに対し、LLMベースの手法は桁違いの性能を示した。LLMは文体だけでなく、投稿内容に含まれる「話題の選び方」「個人的な体験の断片」「専門知識の偏り」といった意味的情報を統合できるためだ。

コスト:1人あたり約600円で身元特定

この攻撃が深刻なのは、コストの低さだ。研究チームによると、1人あたりの特定コストは1〜4ドル(約150〜600円)。全実験の総費用は2,000ドル以下だった。

研究者の警告

「LLMエージェントは、あなたの複数の個人情報の組み合わせが”独特の指紋”になる可能性を浮き彫りにしている」――Simon Lermen(MATS Research、筆頭著者)。政府機関、企業、あるいは個人の攻撃者であっても、この程度の予算で大規模な身元特定が可能になったことを意味する。

使用されたLLMもGemini 3 Flash/Pro、GPT-5.2、Grok 4.1 Fastなど、いずれも商用APIとして誰でもアクセスできるモデルだ。特殊なハードウェアや独自モデルは不要で、標準的なAPI利用だけで攻撃が成立する。

なぜ匿名性が崩れるのか:「実用的隠蔽」の終焉

これまでオンラインの匿名性は「実用的隠蔽(practical obscurity)」に支えられてきた。個々の投稿に含まれる情報は断片的で、人間が手作業で繋ぎ合わせるにはコストが高すぎたため、事実上の匿名性が保たれていた。

LLMはこの前提を根本から覆す。数百件の投稿を瞬時に分析し、居住地・職業・趣味・学歴といった属性を抽出し、公開プロフィールと照合する。人間なら数日〜数週間かかる作業を、数分・数百円で自動実行できる。研究チームは論文で「仮名性はもはやオンラインで意味のある保護を提供しない」と断言している。

想定される悪用シナリオ

研究チームは論文の倫理考察セクションで、具体的な悪用リスクを挙げている。対象となるのは、匿名で活動するすべてのインターネットユーザーだ。

1

政府による監視・弾圧

権威主義体制下で、匿名で政権批判を行うジャーナリストや活動家の身元を大規模に特定する。内部告発者の保護も無力化される恐れがある。

2

企業によるプロファイリング

匿名レビューや掲示板の投稿から消費者の実名を割り出し、超精密なターゲティング広告や採用判断に悪用する。

3

ストーキング・ドキシング

DV被害者や虐待サバイバーが匿名で参加するサポートコミュニティでの投稿から身元を特定し、追跡する。

4

ソーシャルエンジニアリング

匿名投稿から得た個人情報を元に、高度にパーソナライズされたフィッシング攻撃を仕掛ける。

あなたの匿名アカウントは安全か?今できる対策

研究チームは防御策についても言及しているが、完璧な解決策は存在しないのが現状だ。それでも、リスクを下げるためにできることはある。

個人ができる対策

  • 匿名アカウントで個人的な経験・職歴・居住地に関する情報を極力書かない。LLMが特定に使うのは文体よりも「内容」だ
  • 複数の匿名アカウント間で話題を分散させる。1つのアカウントに情報が集中するほど特定されやすい
  • 匿名アカウントと実名アカウントで同じ話題を投稿しない。興味の重複がマッチングの鍵になる
  • 過去の投稿を定期的に見直し、特定につながる情報を削除する

プラットフォーム・AI企業に求められる対策

  • ユーザーデータへのAPIアクセスにレート制限を設ける。自動スクレイピングの検出と一括データエクスポートの制限
  • LLMプロバイダーが匿名解除目的の利用を検出・拒否する仕組みを導入する
  • 匿名性を前提としたプラットフォーム設計を根本から見直す。LLMの存在を前提とした脅威モデルへの更新が必要

日本のユーザーへの影響

この研究は英語圏のプラットフォーム(Hacker News、Reddit、LinkedIn)を対象としているが、日本語ユーザーも無関係ではない。X(旧Twitter)やはてな匿名ダイアリー、5ちゃんねるなど、匿名文化が根付いた日本のプラットフォームでも同様の手法が適用される可能性がある。

特に日本では「匿名掲示板での発言は身元がバレない」という認識が強いが、LLMの多言語対応が進む中、この前提は急速に崩れつつある。日本語特有の文体的特徴(敬語の使い分け、方言の混入、専門用語の選択)は、むしろ特定の手がかりになり得る。

まとめ:匿名性の再定義が始まる

ETH Zurich・Anthropicの研究が突きつけたのは、「匿名アカウント=安全」という時代の終わりだ。LLMは文体だけでなく、投稿内容の意味を理解し、断片的な手がかりを組み合わせて個人を特定できる。しかも1人あたり数百円のコストで、大規模に実行可能だ。

オンラインプライバシーの脅威モデルは、LLMの存在を前提に書き換える必要がある。「自分は匿名だから大丈夫」ではなく、「すべての投稿が実名と紐付けられる可能性がある」という意識を持つことが、AI時代のリテラシーとなるだろう。