Article Explainer ── X Article by Lance Martin

Designing loops with Fable 5 ── 図解で読む「Fable 5 を最大限活かす 2 つのループ設計」

Anthropic の Lance Martin 氏が X(旧Twitter)の記事機能で公開した「Designing loops with Fable 5」を、日本語で図解・再構成した解説ページです。記事の主張は明快で、Fable 5 のような新世代モデル(Mythos クラス)の性能を引き出す鍵は ① セッション内の「自己修正ループ」② セッションを横断する「メモリ」 という 2 つのループ設計にある、というものです。

Source / 出典
Lance Martin(@RLanceMartin・Anthropic)「Designing loops with Fable 5」X(Articles)掲載記事。2026-06-10 閲覧。本文・オリジナル図表の著作権は原著者に帰属します。本ページは内容理解のための非公式な日本語要約・図解であり、掲載図はすべて記事内容を基に独自に再構成した概念図です(原図の転載はありません)。正確な記述・数値は必ず原記事をご参照ください。
01

全体像 ── 「二重のループ」という読み方

記事は「Fable 5 のような Mythos クラスのモデルは Anthropic 社内の働き方を変えた」という書き出しから始まり、このクラスのモデルを使いこなすための 2 つのコツを紹介します。共通するテーマは、モデルを信じて放置するのではなく、フィードバックが還流する「ループ」を環境側に設計することです。2 つのコツは入れ子の関係で整理できます。

Fig. 01 ── 内側ループ(自己修正)と外側ループ(メモリ)の二重構造【概念図】
外側ループ ── メモリ(セッション横断) 1つのエージェントセッション 内側ループ ── 自己修正 実行 評価・フィードバック 自己修正 メモリ 共有ファイルシステム(セッションをまたいで永続化) 書き込み 次のセッションで読み出し

※ 記事の構成(Self-correction loops / Memory の2章立て)を基にした概念図。内側ループは「実行 → ゴールやルーブリックによる評価 → 自己修正」をゴール達成まで繰り返し、外側ループは「セッション中にメモリへ書き込み、将来のセッションで取り出す」ことでセッションを越えた改善を実現します。

記事では、それぞれのループを実際の検証課題で試した結果も示されています。要点は次の 3 つです。

約 6 倍
自己修正ループの検証(Parameter Golf)で、Fable 5 は Opus 4.7 と比べ訓練パイプラインを約6倍改善
9 基準 × 8 時間
チェック可能な9基準のルーブリックを渡し、最大8時間の自律実行。採点者が全基準達成を確認するまで終了させない
最高スコア
メモリの検証(Continual Learning Bench 1.0 のタスク)で、Fable 5 は Opus 4.7・Sonnet 4.6 を上回る成績
02

自己修正ループ ── Self-correction loops

背景 ── 「仕事はループを書くこと」

記事は、最近の「ループ」への関心の高まりから始まります。評価基準を与えてモデルを反復実行させ、スコアを少しずつ登らせる(ヒルクライム)のが、タスク性能改善の定番レシピになっているという文脈です。

「(自分の)仕事はループを書くことだ」(大意)

── Boris Cherny 氏(@bcherny)の発言として記事中で言及

このレシピを自分のタスクに適用するための「プリミティブ(基本部品)」として、記事は Claude Code の /goalClaude Managed Agent(CMA)の Outcomes を挙げます。よく設計されたゴールやルーブリックは、Claude が動く環境にフィードバックを追加します。その結果、Claude は「実行 → フィードバック収集 → 自己修正」をゴール達成まで自律的に続けられる──Fable 5 はこのループ内での自己修正が得意である、というのが本章の主張です。

ヒルクライム
評価スコアを手がかりに、改善を少しずつ積み上げる探索のやり方
ルーブリック
合否をチェックできる形で書かれた採点基準の一覧
CMA
Claude Managed Agents。エージェント実行基盤とホスト型サンドボックスを提供
val_bpb
検証データに対する bits-per-byte。小さいほど良い言語モデルの指標

ループの基本構造(フローチャート)

Fig. 02 ── ゴール駆動ループの基本フロー【概念図】
ゴール/ルーブリックを定義 Claude がタスクを実行 独立した採点者が評価 基準を満たした? はい ループ終了(基準達成) いいえ フィードバックを基に 自己修正 採点者の実体 Claude Code:グレーダーモデル CMA:採点サブエージェント 上限(バウンド) ターン数・実行時間の上限 max_iterations 到達で停止

※ 記事の説明(「Claude を走らせ、ゴールやルーブリック経由でフィードバックを集め、自己修正し、満たされるまで続ける」)を基に構成。暴走防止のため、ループには必ず上限(バウンド)が設定されます。

2 つの実装 ── /goalOutcomes(比較表)

記事には「Goal-driven loops: two implementations」という比較表が掲載されています。その要旨を再構成すると次の通りです。

観点Claude Code /goalCMA Outcomes
ゴールの形式測定可能な「終了状態」を定義する採点可能な基準を並べた「ルーブリック」を定義する
採点者独立したグレーダーモデル独立したグレーダー・サブエージェント
ループの駆動採点の判定結果が次のターンの起点になる実行 → 採点 → 修正を反復する
上限ターン数・時間の上限max_iterations
フィードバックグレーダーモデルからの指摘グレーダー・サブエージェントからの指摘
終了条件達成で自動クリア(手動クリアも可)ルーブリック合格、または中断

※ 原記事の表を基にした再構成です。参照画像の解像度の制約上、各セルは要旨レベルでまとめています。正確な記載は原記事の表をご確認ください。

誰が採点するかが重要 ── 「自己批判」の罠(関係図)

記事が「subtle point(見落としやすい点)」として強調するのが、「何が」採点するかです。モデルは自分自身の出力への自己批判(self-critique)に問題を抱えることが知られており(Anthropic エンジニアリングブログの Prithvi Rajasekaran 氏の記事として言及)、Fable 5 では独立したコンテキストウィンドウで採点する検証サブエージェントの方が、自己批判を上回ることが分かったとしています。

Fig. 03 ── 自己批判 vs 独立した検証者【関係図】
A ── 自己批判(SELF-CRITIQUE) 同一コンテキストウィンドウ Claude(作業+採点) 自分の成果物を自分で採点 自分の出力には批判が甘くなる問題が知られている ※ ANTHROPIC ENGINEERING BLOG(P. RAJASEKARAN)で詳述と言及 B ── 独立した検証者(FABLE 5 ではこちらが有効) Claude(作業) 独立コンテキスト グレーダー サブエージェント 成果物 フィードバック 独立した文脈で採点 → 自己批判を上回る結果に ※ CMA の OUTCOMES は採点サブエージェントを自動生成

※ 記事の記述「verifier sub-agent tends to outperform self-critique with Fable 5, because grading is done in an independent context window」を図式化したものです。

Outcomes の動き(シーケンス図)

Fig. 04 ── ルーブリック × 採点サブエージェントの相互作用【シーケンス図・概念】
ユーザー Claude(作業エージェント) グレーダー(独立コンテキスト) ルーブリックを渡す(チェック可能な 9 基準) 実験ループ(編集 → 訓練 → 計測) LOOP ── 合格まで 評価を依頼(「完了」を申告) ルーブリックで採点(独立した文脈) 不合格 + 具体的なフィードバック 自己修正・追加の実験 全基準クリア(合格) 作業終了・結果を報告

※ Parameter Golf 検証時の運用(ルーブリックをファイルで供給し、Outcomes のグレーダーが全基準達成を確認するまで Claude は作業を終了できない)を基にしたシーケンスの概念図です。

検証実験 ── Parameter Golf

検証に使われたのは、オープンソースの ML エンジニアリング課題「Parameter Golf」です。お題は「8×H100 GPU で 10 分以内に訓練でき、16MB の成果物に収まる最良のモデルを作る」こと。Andrej Karpathy 氏の autoresearch プロジェクトに似た構成で、エージェントが単一の訓練コード train_gpt.py を編集し、訓練を起動し、ログを監視し、スコアを読み、次に何を実験するかを自分で決める能力を試します。実行基盤には CMA を使い、8×H100 をセルフホスト・サンドボックスとして接続しています。

16 MB
成果物(アーティファクト)のサイズ上限
< 10 分
8×H100 上での訓練時間の上限
20 実験
1 回の試行で実施する実験数の目安(最大 8 時間の自律実行)
Fig. 05 ── エージェントが回す実験サイクル【アローダイアグラム】
コードを編集 train_gpt.py 訓練を起動 8×H100 で学習 ログを監視 ポーリング スコアを確認 val_bpb を読む 次の実験を決定 仮説を更新 自律的に繰り返す(最大 8 時間・約 20 実験)

※ 記事の説明「edit basic training code, launch training, poll the log, read the score, and decide what experiment to run next」を図式化。

結果 ── 約 6 倍の改善と、対照的な「賭け方」

Fig. 06 ── Parameter Golf:Fable 5 vs Claude Opus 4.7【傾向の再構成グラフ】
VAL_BPB(検証損失 ── 低いほど良い) 0 5 10 15 20 実験番号(0 = ベースライン) ベースライン(実験 0) Fable 5 Claude Opus 4.7 一時的な悪化(量子化) 乗り越えて最大の改善 改善幅 約 6 倍 (Opus 4.7 比)

※ 記事掲載グラフ(20 実験・val_bpb の推移)の傾向を基にした概念的な再構成です。座標値は実データではありません。正確なグラフ・数値は原記事を参照してください。

結果は Fable 5 が訓練パイプラインを Opus 4.7 の約 6 倍改善。さらに記事は、実験を「構造的(structural)」と「スカラー(scalar)」に分類し、両モデルの行動パターンの違いを分析しています。

FABLE 5構造的な変更に賭ける

  • アーキテクチャ変更のような、大きな構造的変更を選ぶ
  • 量子化によるリグレッション(一時的な悪化)を押し切って、最大の改善に到達する「粘り強さ」を見せた
  • 結果:改善幅は Opus 4.7 の約 6 倍

OPUS 4.7スカラー調整の繰り返し

  • 最初の実験で小さな改善を獲得
  • 以降はほぼ同じテンプレートを反復:「定数を調整 → 測定 → 良ければ採用」
  • 堅実だが、大きなジャンプは生まれにくい
03

メモリ ── セッションを越える外側のループ

2 つ目のテクニックはメモリです。記事はこれを「セッションをまたぐ外側のループ」と位置づけます。Claude はセッション中にメモリへ書き込み、その記憶を将来のセッションで取り出して使えます(全体像は Fig. 01 参照)。検証には、Parth Asawa 氏(@pgasawa)らが公開したばかりのベンチマークが使われました。

「AI システムがオンライン環境でどのように改善できるかを測定するための、最初の現実的なベンチマーク」

── Continual Learning Bench 1.0 の公開ポスト(記事内に引用・日本語訳表示より)

検証タスクの構造 ── 独立セッション × 共有メモリ

使われたタスクは「SQL データベースへのアクセスを与えられ、順番に出題される質問に答える」もの。ポイントは、各質問が独立したエージェントセッションとして実行されることです。会話の文脈は質問ごとにリセットされ、引き継がれるのはメモリだけ。実装には CMA のメモリ機能(セッション間で共有できるマウント済みファイルシステム)が使われています。比較対象は Fable 5・Opus 4.7・Sonnet 4.6 の 3 モデルです。

Fig. 07 ── 独立セッションと共有メモリ【アローダイアグラム】
時間 →(質問が順番に出題される) SESSION 1 質問 1 に回答 SQL DB にアクセス SESSION 2 質問 2 に回答 SQL DB にアクセス SESSION 3 質問 3 に回答 SQL DB にアクセス … 続く 各質問は独立したセッション ── 会話の記憶は持ち越されない(コンテキストは毎回リセット) メモリ(マウントされた共有ファイルシステム) CMA のメモリ機能 ── セッションをまたいで共有・永続化される ↓ 学んだことを書き込む / ↑ 過去の学びを読み出す ── 質問が進むほど賢くなる

結果 ── メモリで「セッションを越えて」賢くなる

Fig. 08a ── 最終スコア(相対イメージ)
最終スコア(相対イメージ) データベース探索タスク・メモリあり SCORE Fable 5 Opus 4.7 Sonnet 4.6 最高
Fig. 08b ── スコアの推移(概念)
スコアの推移(概念) 質問が進むにつれ、メモリが効いてくる 質問の進行 → Fable 5 Opus 4.7 Sonnet 4.6

※ いずれも記事の記述(「Memory is another area where Fable excels」および掲載グラフ)の傾向を示す概念図です。実測値・正確なグラフは原記事と Continual Learning Bench 1.0 を参照してください。

メモリ活用の 4 段階(アローダイアグラム)

記事の結びでは、このタスクで効果的にメモリを使うには「段階的な進行(progression)」が有効だとして、次のステップが挙げられています。

01 ── FAIL
失敗を記録する

何かを間違えたら、それを文書化する

02 ── INVESTIGATE
原因を調査する

先に進む前に、なぜ間違えたのかを突き止める

03 ── VERIFY
検証して事実にする

診断を「確認済みの事実」に変える

04 ── DISTILL
蒸留する

再利用できる知識へ抽出していく(…)

続きは原記事へ

参照したスクリーンショットはこの説明の途中までで終わっています

04

まとめと示唆

記事の核は、独立した採点者を持つフィードバックループを環境側に設計することで、長時間の自律タスクの品質を担保するという設計思想です。信頼できる自律ループの成立条件は、次の 3 要素の重なりとして整理できます。

Fig. 09 ── 信頼できる自律ループの 3 要素【ベン図・本ページ作成者による整理】
測定可能な ゴール・ルーブリック 独立した 採点者 上限と終了条件 客観的な合否判定 終わりが定義される 暴走・無限ループを防ぐ 信頼できる 自律ループ

※ 記事内容(ゴール/ルーブリック、独立グレーダー、バウンド・終了条件)を基に本ページ作成者が整理した図です。

内側ループ ── 自己修正外側ループ ── メモリ
範囲1 つのセッションの中セッションを横断
仕組みゴール/ルーブリック + 独立した採点者共有ファイルシステムへの書き込みと読み出し
使う機能Claude Code /goal・CMA OutcomesCMA のメモリ機能
検証課題Parameter Golf(ML エンジニアリング)Continual Learning Bench 1.0(DB 探索)
結果Fable 5 は Opus 4.7 比で約 6 倍の改善Fable 5 が 3 モデル中で最高スコア
Takeaway ── 実務への示唆(本ページ作成者メモ)

エージェント活用の品質は「モデルの賢さ」だけでなくループの設計で決まる、というのがこの記事の実務的な含意です。長時間の自律タスクを設計するときは、(1) 合否をチェックできるルーブリックを先に合意し、(2) 採点は作業者と分離し(独立コンテキスト)、(3) 上限と終了条件を必ず置く。さらにセッションを越えて改善させたい場合は、(4) 失敗 → 調査 → 検証 → 蒸留の流れでメモリに知識を蓄積させる──という整理が、PoC 設計や提案の枠組みとしてそのまま使えます。

05

出典・クレジット

一次出典

  • Lance Martin(@RLanceMartin・Anthropic, MTS)「Designing loops with Fable 5」── X(旧Twitter)の Articles 機能で公開された記事。2026 年 6 月 10 日閲覧。本ページの解説・図はすべて本記事の内容に基づきます。

記事内で言及・引用されている資料

  • Boris Cherny 氏(@bcherny)の発言「(自分の)仕事はループを書くことだ」(大意)
  • Anthropic「prompting guide」── Fable 5 がループ内での自己修正に優れるという記述の参照元
  • Prithvi Rajasekaran 氏による Anthropic エンジニアリングブログ記事 ── モデルが自身の出力への自己批判を苦手とする問題について
  • Parameter Golf ── オープンソースの ML エンジニアリングチャレンジ(16MB・10 分・8×H100)
  • Andrej Karpathy 氏(@karpathy)の autoresearch プロジェクト ── 類似の自律実験フレームワークとして言及
  • Parth Asawa 氏(@pgasawa)ほか「Continual Learning Bench 1.0」── 2026 年 5 月 5 日公開ポスト(記事内に引用)
  • Anthropic 製品機能:Claude Code /goal、Claude Managed Agents(CMA)の Outcomes・メモリ機能

【著作権に関する注記】本ページは上記記事の私的学習・社内共有を目的とした要約・解説であり、原文の全文転載はしていません。原記事のスクリーンショット・グラフ・図表は転載せず、掲載図はすべて本ページ作成者が内容理解のために独自に再構成した概念図です。グラフの形状・数値は正確な再現ではありません。引用部分は「 」で明示しています。各リンク先資料の正確な URL は原記事内のハイパーリンクを参照してください。権利者からの指摘があれば速やかに対応します。