还未发布过话题
  • 思路看起来可行,我看到有说将 docx 转为 pdf,再将 pdf 转为图片,最后调用视觉大模型来解析,这是为什么呢?为什么不直接使用需求的文字来直接调用 LLM 解析呢?