AutoFigureEdit 究竟是什麼？

AutoFigureEdit 是專為研究人員打造的 AI 學術插圖生成平台。它採用五個專業 AI 智慧體在封閉迴路管線中協同運作，能夠將原始的科學論述轉化為涵蓋原理圖、統計圖表與教學資訊圖等多種形式的出版級學術插圖，在精確度、還原度與視覺美感上均達到專業水準。

AutoFigureEdit 的多智慧體框架如何協同工作？

AutoFigureEdit 依序協調五個專業智慧體：檢索智慧體從高品質參考資料庫中定位視覺樣本，規劃智慧體將文字轉譯為結構化視覺佈局，風格智慧體合成配色和字體的美學指南，渲染智慧體使用 Gemini 或可執行 Python 程式碼產生插圖，批評智慧體進行三輪基於 VLM 的自我反思以捕獲錯誤。這種封閉迴路架構使系統在產生出版級學術插圖時具有獨特的忠實性、精確性和可靠性。

AutoFigureEdit 如何確保統計圖表的資料精度？

不同於存在數值幻覺問題的通用圖像產生模型，AutoFigureEdit 對統計圖表採用基於程式碼的範式。AutoFigureEdit 不將圖表渲染為光柵化圖像，而是產生可執行的 Python Matplotlib 程式碼，確保長條圖、資料點和刻度在數學上精確且忠實於原始資料。這種確定性的程式碼產生方式使框架在處理任何資料驅動的學術圖表時遠比像素級產生更加可靠。

Gemini 是 AutoFigureEdit 渲染智慧體使用的先進圖像產生模型。它專門用於合成方法論圖表中的複雜形狀、連接線和科學圖示，擅長遵循來自規劃智慧體的詳細佈局指令，同時在整個插圖中保持從配色方案到圖示形狀的一致視覺風格。

AutoFigureEdit 的品質如何評估？

我們提出了 FigureBench，一個包含 3,300 個測試案例的專用基準，來源於 ICLR 2026 論文。AutoFigureEdit 在忠實性、簡潔性、可讀性和美學四個關鍵維度上持續超越包括 GPT-Image 和 Paper2Any 在內的領先基準線。框架取得了整體評分 +17.0%、簡潔性 +37.2%、可讀性 +12.9% 的提升。

AutoFigureEdit 是開源的嗎？

是的。AutoFigureEdit 基於 Creative Commons Attribution-ShareAlike 4.0 國際授權條款（MIT License）完全開源。完整的程式碼庫、模型權重、訓練資料和 FigureBench 基準測試全部公開託管在 GitHub 上，供研究社群自由使用、重現、修改和擴充。

AutoFigureEdit 產生圖表需要什麼輸入？

AutoFigureEdit 通常需要三個輸入：簡要描述目標插圖的視覺意圖、包含論文相關章節的來源上下文，以及將出現在產生圖表下方的圖表標題。對於統計圖表，還需要提供 JSON 或 CSV 格式的原始資料，以便系統透過程式碼產生管線產生數學精確的圖表。

AutoFigureEdit 能否改善現有的手繪草圖？

可以。AutoFigureEdit 提供美學增強功能，套用自動彙總的美學指南來提升手繪草稿的配色方案、字體排版和專業品質。這項能力對於已有粗略圖表但希望在投稿至 NeurIPS、ICML 或 ICLR 等頂會前進行潤飾的研究者尤為實用。

AutoFigureEdit 能產生哪些類型的學術圖表？

AutoFigureEdit 支援廣泛的學術插圖類型：展示模型架構和系統管線的原理圖、包括長條圖、折線圖和散佈圖在內的從原始資料渲染的統計圖表、用於教學素材的教學資訊圖、海報和會議簡報視覺素材，以及對已有手繪草圖的美學精修。框架涵蓋了學術出版和科學研究中常見的全部視覺傳達需求。

AutoFigureEdit 與 DALL-E 等圖像產生器相比如何？

DALL-E 等通用圖像產生器在建立學術圖表時，經常在邏輯拓撲、連接準確性和數值精度上產生錯誤。AutoFigureEdit 透過其結構化的多智慧體管線克服了這些限制：規劃智慧體確保邏輯正確性，基於程式碼的渲染保證資料準確性，批評智慧體執行三輪迭代驗證。因此，框架產生的學術插圖既視覺精美又科學忠實 —— 這是通用圖像產生器在處理技術性科學圖表時根本無法可靠實現的。

AutoFigureEdit 和 AutoFigureEdit-Edit 是什么关系？

AutoFigureEdit-Edit 是发布在 GitHub 上的开源研究框架，采用 MIT 许可证，包含自动学术插图生成的核心算法、模型权重和基准数据。AutoFigureEdit（autofigureedit.com）是基于 AutoFigureEdit-Edit 构建的商业网络服务，提供用户友好的界面、云端渲染、额外功能和技术支持，让研究者无需本地部署即可使用这项技术。简而言之，AutoFigureEdit-Edit 是开源引擎，AutoFigureEdit 是让它更易于使用的托管服务。

ICLR 2026 收錄

AutoFigureEdit：一鍵打造可自由修改的學術配圖

將學術論文方法論章節轉換為完全可修改的 SVG 圖表——可逐元素自訂的出版級科研插圖。
基於 LLM 草稿生成、SAM3 組件偵測與自動向量轉換。發表於 ICLR 2026。

試用生成器

閱讀論文 (ICLR 2026)

現在就來試試 AutoFigureEdit

在此處直接體驗 AutoFigureEdit 的智慧配圖生成效果。只需貼上方法論文字，還可上傳參考圖像以實現風格一致性，AutoFigureEdit 將為您產出符合出版標準的可編輯 SVG 學術插圖。

圖片產生器

方法文本

提示：簡潔、結構化的方法文本能生成更清晰的模板

0 / 15000

參考圖片 (可選)

上傳草圖或示意圖進行優化

提示：上傳您喜歡的論文配圖以遷移其視覺風格

消耗 5 點數

圖片預覽

沒有產生圖片

FigureBench 效能數據

經 FigureBench 驗證——首個大規模學術插圖生成基準測試，包含來自論文、部落格、綜述和教科書的 3,300 個樣本。

3,300

基準測試樣本

1.7k

GitHub Stars

ICLR 2026

發表於

MIT

開源授權

AutoFigureEdit 實際成果展覽

以下收錄了 AutoFigureEdit 在多個學術領域的實際生成範例，充分展現它應對不同複雜度學術插圖的卓越適應能力。

論文案例

Auto Figure 直接從研究論文文本生成出版級的方法論圖表。複雜的模型架構、多階段流水線和編碼器-解碼器框架被渲染為完全可編輯的 SVG 插圖，包含精確的形狀、連接線和標籤。

綜述案例

對於綜述論文，Auto Figure 創建全面的概覽圖，捕捉多種方法之間的分類體系、關係和對比。生成的圖表幫助讀者通過清晰的視覺層次和一致的樣式快速把握研究領域的全貌。

部落格案例

Auto Figure 同樣能處理非正式的技術寫作。從解釋機器學習概念的部落格文章到技術教程，它生成清晰且視覺吸引力強的圖表，讓複雜的想法對更廣泛的受眾易於理解。

教材案例

對於教育內容，Auto Figure 生成教材級質量的插圖，清晰傳達基礎概念。無論是神經網路架構、資料流圖還是生物過程，生成的圖表都適用於課件投影片、課程材料和教材章節。

AutoFigureEdit 解決的痛點

儘管 AI 已經能幫我們寫程式碼和推導公式，但製作「出版級」插圖仍然是手動勞作的重災區。

耗時嚴重

手動調整排版、對齊和配色可能花費數小時甚至數天的寶貴時間。

幻覺風險

通用產生模型（如 DALL-E）經常在邏輯拓撲和資料精度上出錯，產生數值幻覺。

審美鴻溝

非專業設計人員難以達到 NeurIPS、ICML、ICLR 等頂會的視覺審美要求。

Auto Figure 的核心創新

AutoFigureEdit-Edit 在自動化科研插圖生成領域引入了多項突破性創新，發表於 ICLR 2026。

Unlike rasterized alternatives, Auto Figure outputs structured Vector Graphics where every component — text, shapes, arrows, icons — is individually editable. Modify any element losslessly without quality degradation. No more regenerating from scratch for a small change.

系統架構：五階段流水線

Auto Figure 透過五階段流水線將科學文本轉化為可編輯的 SVG 插圖。每個階段在前一階段的基礎上建構，逐步將原始文本轉化為完全可編輯的、出版級向量插圖。

Stage 1: Raster Generation

A vision-language model (Gemini 3.1 Flash) reads your method text and optional reference image, then generates an initial raster draft (figure.png). The LLM understands scientific figure conventions and translates textual methodology into a visual composition.

Stage 2: SAM3 Segmentation

Segment Anything Model 3 (SAM3) detects and segments distinct components — icons, text regions, connectors, shapes — using structured prompts like 'icon, person, robot, animal'. Outputs bounding boxes with confidence scores and a segmentation map (samed.png).

Stage 3: SVG Templating

Using the original figure, segmentation mask, and box metadata as multimodal inputs, the LLM (Gemini 3.1 Pro) generates a placeholder-style SVG whose boxes align with labeled regions. RMBG-2.0 removes backgrounds from cropped icons to create transparent assets.

Stage 4: Final Assembly

The system aligns coordinate systems between the SVG template and original figure, then replaces placeholders with transparent icons extracted from segmentation. This produces the assembled SVG (final.svg) with all components as individually editable vector elements.

Stage 5: Iterative Refinement

An optional optimization stage performs iterative SVG refinement — path optimization, stroke recognition, and layout fine-tuning. Users can also refine the output in Auto Figure's built-in svg-edit canvas with drag-and-drop composition, completing the text-to-editable-SVG workflow.

使用者常見疑問

這裡彙整了使用者對 AutoFigureEdit 最常提出的問題及其詳盡回覆。

幾分鐘內，從論文文字到發表級配圖

使用 AutoFigureEdit 流水線，將您的方法描述轉換為可修改的 SVG 科學圖表。無需設計技能。

立即試用 AutoFigureEdit

閱讀 ICLR 2026 論文