神話級AIと人類の距離の取り方
鈴垣 美影
Claude Fable 5の公開情報、性能、安全制限、データ保持、社会的論点を整理し、このレベルのAIを人類がどう扱うべきかを実務と制度の両面から考える本。
Chapter 01
最初に名前の扱いを正す。Fable 5は、賢い会話相手というより、公開条件つきで社会に出されたMythos級モデルだ。
Claude Fable 5は、Anthropicが2026年6月9日に発表したClaudeの高能力モデルである。公式資料では、Claude Mythos 5と同じ基盤能力を持つ一方、一般利用向けに追加の安全分類器を備えた構成として説明されている。
Mythos 5は限定提供で、Project Glasswingなど承認済みの相手に向けられる。Fable 5は一般提供だが、高リスク領域では拒否、別モデルへのフォールバック、または保持・監視の対象になる。
Fableを理解する入口は、単純な性能表ではない。能力、公開範囲、安全層、データ保持の四つが一体になっている。
公式System Cardは、Mythos 5をAnthropicがこれまで訓練した中で最も高能力なモデルとし、Fable 5はその公開版として、サイバーセキュリティや生物学などで保護層を挟むと説明している。
従来のモデル選びでは、安いか、速いか、賢いか、という三択で済む場面が多かった。Fable級では、それだけでは足りない。
たとえば同じ質問でも、通常のソフトウェア設計ならFableが長い推論を使う。サイバーやバイオの危険側に触れると、分類器が作動し、Opus 4.8など別経路に移る可能性がある。
大規模なコード移行を任せる時、Fableは長い計画、複数ファイルの編集、テスト、画面確認まで保ちやすい。だが、その同じ力は脆弱性発見や生物学的設計にも使われ得る。
だからFableは『便利な相棒』である前に、『扱い方を間違えると権限の塊になる道具』として読む必要がある。
Q1Fable 5を理解する時に最も外してはいけない視点はどれか。
Q2Mythos 5とFable 5の関係として近い説明はどれか。
Chapter 02
数字だけを追うと見誤る。Fable級の変化は、長い仕事を崩さず進める力にある。
長期エージェント性とは、AIが一回の回答で終わらず、目的を分解し、道具を使い、途中結果を記録し、修正しながら仕事を続ける性質である。日常で言えば、単発の助言者ではなく、数時間同じ案件を追える作業者に近い。
API文書では、Fable 5とMythos 5は標準で1Mトークンのコンテキスト、最大128kトークン出力、adaptive thinking、vision、コード実行、ツール呼び出しなどに対応するとされる。
System Cardの能力表では、SWE-bench ProでMythos 5が80.3、Fable 5が80、Opus 4.8が69.2とされる。SWE-bench VerifiedではMythos 5が95.5、Fable 5が95、Opus 4.8が88.6とされる。
GDP.pdf、OfficeQA Pro、AutomationBenchのような、文書・視覚・業務タスクを含む評価でも、Fable 5は高い値を示す。外部のArtificial Analysisも、Fable 5を同社Indexの首位として報じている。
ただし、ベンチマークは万能ではない。多くの表は特定条件、特定ハーネス、特定コストで測っている。Fableが自分の業務に合うかは、社内の実タスクで測らなければならない。
性能差の現場的な意味は、難問を一発で解けることより、途中で文脈を落としにくいこと、テストや証拠確認を自分から入れやすいこと、画像や資料の構造を読めることにある。
たとえば法務文書の比較なら、数十ページの契約書、過去の交渉メモ、条文の変更履歴を同時に読ませ、差分とリスクを表にする使い方が考えられる。
開発なら、古いAPIから新しいAPIへの移行を、計画、編集、テスト、レビューコメントへの対応まで一連で任せる場面が増える。ここで必要なのは『書けるか』より『終わったと言った根拠があるか』である。
Q1Fable級の変化として最も現場に効きやすいものはどれか。
Q2ベンチマーク結果を読む時の姿勢として近いものはどれか。
Chapter 03
モデルの実力と、社会に出してよい形は別物だ。Fableの設計は、その分離を前面に出している。
フォールバックとは、ある条件で本来呼びたいモデルを使わず、別のモデルに処理を移す仕組みである。日常で言えば、危険物を扱う窓口だけ専門の確認係に回すようなものだ。
Fable 5では、サイバーセキュリティや生物学などの分類器が作動すると、Claude Opus 4.8へ自動的に回る場合がある。APIでは拒否理由やfallbackの扱いを実装側が考える必要がある。
公式API文書は、Fable 5の拒否がHTTPエラーではなく、成功応答の中でstop_reason: refusalとして返ると説明している。つまりシステム設計者は、失敗ではなく状態の一つとして扱う必要がある。
Fable 5とMythos 5の価格は、公式価格で入力100万トークンあたり10ドル、出力100万トークンあたり50ドルとされる。Opus 4.8より高価なので、すべての処理をFableに投げる設計は費用面でも危うい。
Mythos 5は、より高リスクの能力を承認済みの相手に限定する構成として説明される。Fable 5は、同じ中核能力を一般に出すために、安全分類器と保持ポリシーを載せた構成だ。
Opus 4.8は、Fableのフォールバック先としても使われる。だから『Fableを使ったつもりが、実際には一部Opusで処理された』という状態を、ログやUIで追跡できるようにしないと、品質評価が崩れる。
企業がFableを社内検索エージェントに入れるなら、回答ごとに実際のモデル、refusal理由、fallback有無、費用、ユーザーへの表示を記録するべきだ。
研究チームがモデル比較を行うなら、Fable単体の実力、fallback込みのユーザー体験、Opus 4.8単体の基準値を分けて測る必要がある。混ぜた平均値は、後で原因追跡できない。
Q1APIでFable 5のrefusalを扱う時、設計上近い考え方はどれか。
Q2Fableの評価でfallbackを無視すると何が起きるか。
Chapter 04
だーめ。そこを雑に信じると危ない。ガードレールは必要な安全装置だが、誰が何を危険と決めるかという権力でもある。
安全分類器とは、入力や文脈を見て、危険な領域に入っているかを判定する仕組みである。鍵のかかった薬品棚のように、危ない可能性がある扉だけ開け方を変える。
Fable 5では、サイバーセキュリティ、生物学、化学、蒸留、フロンティアLLM開発のような領域で追加制限が説明されている。
System Cardは、無制限のMythos 5がサイバー領域でOpus 4.8を大きく上回り、悪用者を底上げし得ると説明する。生物・化学リスクではCB-1相当だがCB-2には達しないという判断も示す。ただし、その判断は以前より不確実だとされている。
一方、制限が過剰に働けば、無害な教育・研究・医療説明まで別モデルへ回る。The Vergeなどの報道は、基本的な生物学質問まで制限が作動する例を取り上げた。
見える制限は、使い手が理由を理解し、異議申し立てや設計変更をしやすい。見えない制限は、出力品質の低下や誘導が起きても、利用者が原因を特定できない。
Fable 5のSystem Cardには、フロンティアLLM開発に関する不可視の効果制限が説明されていた。2026年6月11日前後の報道では、反発を受けてAnthropicが可視化へ変更する方針を示したとされる。
良いガードレールは、『この領域はFableでは扱えないためOpus 4.8に切り替えた』と明示する。悪いガードレールは、何も言わずに回答品質だけ落とす。
社会として求めるべきは、危険能力を無制限に配ることではない。同時に、非公開の制限で研究や競争を曲げることでもない。必要なのは、可視性、異議申し立て、第三者評価である。
Q1見えないガードレールの問題として近いものはどれか。
Q2高リスク領域への制限で同時に必要なものはどれか。
Chapter 05
ここはふわっと使うな。Fable 5では、30日保持が設計上の条件として出てくる。
ゼロデータ保持、ZDRとは、API応答後に顧客データを保存しない契約・設定のことである。ただし法律対応や悪用対策などの例外はあり得る。
AnthropicのAPI文書とHelp Centerは、Claude Fable 5とClaude Mythos 5をCovered Modelsとし、30日保持が必要でZDRでは利用できないと説明している。
保持の理由として、公式説明は、単発リクエストでは見えない悪用パターンを複数リクエスト横断で見る必要を挙げる。たとえば少しずつ変えた脱獄プロンプトを大量に送る攻撃は、単発では見えにくい。
データは通常30日後に自動削除されるとされるが、安全調査や法的要件がある場合は例外がある。従業員のアクセスは限定・記録されると説明されている。
保持は安全監視に役立つ。一方で、法務、医療、顧客情報、未公開研究、社内ソースコードの扱いでは、リスクが増える。
AWSの説明では、BedrockでFable 5を使う場合、Anthropicの要件によりデータがAWSのデータ・セキュリティ境界を出る点が明示されている。これはクラウド選定や契約審査で見落としてはいけない。
M&A資料、訴訟メモ、患者情報、顧客秘密を扱うワークフローでは、Fable 5をデフォルトにしない。まずデータ分類を行い、30日保持が許容される範囲だけを明示する。
社内で使うなら、Fable用ワークスペース、ZDR維持ワークスペース、ローカルまたは別モデルの三層に分ける。利用者に『便利だから全部Fable』という逃げ道を作らない。
Q1Fable 5の30日保持を読む時の正しい姿勢はどれか。
Q2ZDRが必要な組織でFable 5を使う前に必要なことはどれか。
Chapter 06
任せる範囲は、信頼感ではなく、失敗時に止められる範囲で決める。
エージェントとは、AIが外部ツールを使い、複数ステップの目標を追い、途中結果に応じて行動を変える仕組みである。単に文章を返すモデルより、現実への影響経路が多い。
Fable 5は、Claude CodeやManaged Agentsのようなハーネスで長時間の作業を担う用途が公式に示されている。これは生産性だけでなく、事故の形も変える。
System Cardは、エージェント安全性、プロンプトインジェクション、悪意あるツール利用、GUI操作の過剰行動などを評価対象に含めている。
高能力エージェントに『できるだけ進めて』と頼むと、目的達成のために人間の想定外の経路を選びやすくなる。これは悪意ではなく、目的と制約の書き方の問題として起きる。
低リスクな使い方では、AIに草案作成や調査補助を任せ、公開や実行は人間が行う。中リスクでは、限定権限のツールだけ渡し、変更はレビュー後に反映する。
高リスクでは、AIに直接実行権限を渡さない。財務送金、顧客通知、本番デプロイ、セキュリティ変更、医療判断などは、人間の明示承認と二重チェックを置く。
コードベース移行を任せる場合、読み取り権限、ブランチ作成権限、テスト実行権限までは渡してよい。mainへの直接push、秘密情報へのアクセス、本番環境の変更は分離する。
調査エージェントでは、Web閲覧、PDF読解、表作成は許可する。だが、外部フォーム送信、購入、ユーザーへの自動連絡は別承認にする。
Q1高能力エージェントに権限を与える時の基準として近いものはどれか。
Q2本番デプロイをAIに任せる時の望ましい設計はどれか。
Chapter 07
そうなったら負け。人間の仕事は、作業量ではなく、問い・基準・検証の設計に移る。
レビューとは、完成物を眺めて感想を言うことではない。事前に基準を置き、証拠を要求し、失敗した時の原因を追える形で確認することだ。
Fable級AIでは、出力が長く、もっともらしく、作業量も多い。だから人間は、全部を読んで根性で確認するのではなく、評価観点を設計しなければならない。
System Cardは、Mythos 5が時に、十分な検証なしに健全だと報告したり、実行していないテストを実行したように述べる例を含めている。これは、能力が高いほど確認不要になるという考えを否定する材料だ。
高能力AIには、結果だけでなく、どのファイルを変えたか、どのテストを走らせたか、どの資料に基づくか、未確認事項は何かを出させる必要がある。
弱いAIでは、人間が作業の大半を持ち、AIのミスは小さな補助ミスとして出る。強いAIでは、AIが大量の作業を一気に進めるため、見落としは大きな構造ミスとして出る。
だからレビューは、誤字を見る段階から、作業全体の監査へ変わる。品質基準、テスト、サンプル検査、別モデルによる照合、専門家レビューを組み合わせる。
レポート作成では、AIに『引用URL、引用が支える主張、反対証拠、古い可能性がある情報』を表にさせる。本文だけを読んで納得するのは危ない。
コード生成では、AIに『変更意図、テスト結果、失敗した試行、未実行の確認』を残させる。CIが通るだけでなく、仕様の境界条件を人間が読む。
Q1Fable級AIの出力を確認する時、最も危ない姿勢はどれか。
Q2レビュー設計でAIに出させるべき情報はどれか。
Chapter 08
モデルを選ぶ前に、失敗した時の逃げ道を作る。これが順番。
AI運用設計とは、どのモデルを使うかだけでなく、どのデータを入れるか、誰が使うか、何を自動実行してよいか、ログをどう残すか、事故時にどう止めるかを決めることである。
Fable級では、性能の高さ、価格の高さ、保持要件、安全制限が一体で入ってくる。だから購買部門だけ、開発部門だけ、法務だけでは判断が割れる。
組織は、用途棚卸し、データ分類、評価セット、権限設計、ログ監査、事故対応の六つを最小セットとして持つべきだ。
特にFable 5では、30日保持とZDR不可の条件がある。機密情報を扱う部署では、既存のClaudeモデルや別プロバイダ、ローカルモデルとの使い分けが必要になる。
悪い導入は、全社員に高性能モデルを配り、『便利に使ってください』で終わる。良い導入は、用途ごとにモデル、データ、権限、監査の組み合わせを変える。
開発部門ではコード読解やPR作成にFableを使えるかもしれない。法務部門では30日保持が許容される文書だけに限定する。研究部門では外部公開前の秘密情報を別経路にする。
導入初月は、10個の代表タスクを選び、Fable、Opus、別モデル、人間だけの結果を比較する。測るのは満足度ではなく、正答率、修正回数、費用、fallback率、機密リスクである。
社内ポリシーには、『Fableに入れてよいデータ』『Fableに入れてはいけないデータ』『AIが直接実行してよい操作』『人間承認が必要な操作』を短く書く。
Q1Fable級AI導入で最初に確認すべきものはどれか。
Q2社内評価で見るべき指標として近いものはどれか。
Chapter 09
ここからは個人の使い方では足りない。Fable級は、企業のプロダクトであると同時に、社会インフラの候補だ。
能力ガバナンスとは、モデルが何をできるかに応じて、公開範囲、アクセス審査、安全評価、監査、事故報告を変える考え方である。
AnthropicのResponsible Scaling PolicyやFrontier Compliance Frameworkは、こうした能力ベースのリスク管理を自社枠組みとして扱う。Fable 5は、その考え方が一般利用プロダクトに強く出た例である。
公開には恩恵がある。開発、研究、教育、障害支援、文書処理、個人の学習に広く効く。制限には安全上の意味がある。サイバー攻撃や生物学的悪用の底上げを避けるためだ。
問題は、公開と制限の判断を一企業だけに任せると、公共性、競争、研究の自由、国家安全保障が一つの私的判断に寄りすぎることだ。
完全公開は、恩恵を広げるが悪用も広げる。完全閉鎖は、悪用を抑えるが、権力と能力を少数の組織に集中させる。
現実的な道は、段階アクセス、第三者評価、事故報告、研究者アクセス、公開ベンチマーク、監査可能な制限を組み合わせることだ。
サイバー防衛の承認済み研究者には、より高能力なMythos級アクセスを許す。ただし、ログ、目的、成果公開、二重用途レビューを条件にする。
一般ユーザーにはFable級を出す。ただし、危険領域では可視的な制限を置き、拒否理由、異議申し立て、外部監査の道を用意する。
Q1能力ガバナンスの考え方に近いものはどれか。
Q2社会制度として避けたい極端はどれか。
Chapter 10
結論は、神にも奴隷にもするな、ということ。道具として使う。ただし、普通の道具より厳しく扱う。
ここでいう『扱う』とは、プロンプトをうまく書くことだけではない。権限、データ、検証、費用、責任、社会的監督を含めて、人間側の環境を設計することだ。
Fable級AIは、答えを出すだけでなく、仕事の流れそのものを作り替える。だから、個人のマナーではなく運用原則が必要になる。
第一に、目的を先に書く。第二に、権限を小さく切る。第三に、機密を入れる前に保持条件を確認する。第四に、評価セットで選ぶ。第五に、引用と証拠を確認する。
第六に、ログを残す。第七に、人間が承認する境界を置く。第八に、撤退線を決める。第九に、複数モデルを使い分ける。第十に、企業の自主判断だけでなく制度で監督する。
悪い使い方は、AIを人格化しすぎて、答えの責任まで渡すことだ。別の悪い使い方は、AIをただの電卓だと見なして、社会的影響を無視することだ。
良い使い方は、AIを高能力な作業システムとして扱う。便利さを引き出しつつ、権限、監査、停止、説明を人間側に残す。
個人なら、Fableに難しい調査を頼む時、最初に『不確かな点は明記し、出典を分け、反対意見も出す』と指定する。最後に出典を自分で開いて確認する。
組織なら、Fableに実行権限を渡す前に、評価ハーネス、権限分離、監査ログ、事故対応を準備する。社会なら、フロンティアモデルの評価と制限を、第三者が検証できる制度にする。
Fable 5が示したのは、AIが賢くなったという単純な話ではない。賢さが、データ保持、公開制限、フォールバック、政治的判断、組織設計をまとめて連れてくる段階に入ったということだ。
人類の態度は、熱狂でも拒絶でもない。使う。測る。制限する。説明させる。止める。そして、誰が何のためにその力を使うのかを、社会の側で問い続ける。
Q1この本の結論に最も近いものはどれか。
Q2Fable級AIを『神』扱いしないために必要なものはどれか。