安装并配置插件
配置插件参数
安装完成后进入插件配置页面:
- Base URL:使用 SoMark API 时填写
https://somark.tech/api/v1; 私有化部署时填写本地部署的 Base URL。 - API Key:使用 SoMark API 时填写;私有化部署无需填写。
还没有 API Key?前往 SoMark 工作台领取免费额度。
在工作流中使用 SoMark 插件
配置输入变量
在 文件 输入框中点击变量图标 
{x},选择上游节点中定义的文件变量(例如开始节点的 sys.files)。
你也可以按需配置其他可选参数(例如 输出格式、图片格式、表格格式 等);未填写时会使用默认值。不选择 输出格式 时,默认同时输出 Markdown 和 JSON。具体含义见下方「输入参数」表。
Base URL 和 API Key 由插件配置自动注入,此处无需填写。
插件参数与输出
输入参数
| 参数 | 类型 | 必填 | 说明 |
|---|---|---|---|
| 文件 | 文件 | ✅ | 支持的文件:PDF、PNG、JPG、JPEG、BMP、TIFF、JP2、DIB、PPM、PGM、PBM、GIF、HEIC、HEIF、WEBP、XPM、TGA、DDS、XBM、DOC、DOCX、PPT、PPTX。最大 200 MB / 300 页。 |
| 输出格式 | 多选 | ❌ | 选择一个或多个输出格式。支持:Markdown、JSON。如果不选择,则默认输出 Markdown 和 JSON。 |
| 图片格式 | 单选 | ❌ | 图片输出格式。支持:URL、Base64、None。默认值:URL。 |
| 公式格式 | 单选 | ❌ | 公式输出格式。支持:LaTeX、MathML、ASCII。默认值:LaTeX。 |
| 表格格式 | 单选 | ❌ | 表格输出格式。支持:HTML、Markdown、Image。默认值:HTML。在 Markdown 模式下,合并单元格会被拆分为独立单元格,并填充相同内容。 |
| 化学结构式格式 | 单选 | ❌ | 化学结构式输出格式。支持:Image。默认值:Image。 |
| 文字跨页拼接 | True / False | ❌ | 将跨页文本合并为连续段落。默认值:False。 |
| 表格跨页拼接 | True / False | ❌ | 将跨页表格合并为连续表格。默认值:False。 |
| 标题层级识别 | True / False | ❌ | 识别标题层级结构,例如 H1/H2/H3。默认值:False。 |
| 返回文中图 | True / False | ❌ | 返回文字段落中的图片。默认值:False。 |
| 返回表中图 | True / False | ❌ | 返回表格单元格中的图片。默认值:True。 |
| 图片理解 | True / False | ❌ | 对文档中的图片进行语义理解和结构化描述。默认值:True。 |
| 保留页眉页脚 | True / False | ❌ | 保留页眉页脚而不是默认过滤掉。默认值:False。 |
输出变量
| 变量 | 说明 |
|---|---|
markdown | 解析后的文档内容(Markdown 格式),保留原始版面结构,包含标题、表格、列表、公式和图片 |
json_str | 解析结果的 JSON 字符串,包含文本块、表格、公式、图片、坐标位置和页码等结构化信息,适合在代码节点中解析后做高级处理 |
text | Dify 内置变量,本插件不填充 |
files | Dify 内置变量,本插件不填充 |



