2024-09-29 22:09:15 718 310
Jina AI 发布了两个小型语言模型:Reader-LM-0.5B 和 Reader-LM-1.5B。这两个模型经过专门训练,可以将原始 HTML 转换为标记符,而且都是多语言模型,支持多达 256K 字节的上下文长度。这种处理大型上下文的能力至关重要,因为现代网站的 HTML 内容通常包含比以往更多的噪音,内联 CSS、JavaScript 和其他元素都会使标记数大幅增加。大型语言模型以计算要求高而著称,而像 Reader-LM 这样的小型语言模型则旨在提供高效的性能,而无需昂贵的基础设施。_jina 输出markdown