2024-09-06 00:09:45 887 797
使用Langchain处理结构化数据,以JsonOutputParser为例。_langchain jsonoutputparser 用法
2024-06-22 01:06:47 332 121
LangChain 提供了多种文档加载器,包括但不限于以下几种:- TextLoader:用于从各种来源加载文本数据。- CSVLoader:用于加载 CSV 文件并将其转换为 LangChain 可以处理的文档格式。- UnstructuredFileLoader:能够自动检测并处理不同格式的文件。- DirectoryLoader:用于加载指定文件夹中的文件。- UnstructuredHTMLLoader:用于从 HTML 文件中提取有意义的内容。- JSONLoader:用于加载和处理 _langchain excel
2024-08-25 23:08:45 836 931
LangChain提供了多种类型的Text Splitters,以满足不同的需求:- RecursiveCharacterTextSplitter:基于字符将文本划分,从第一个字符开始。如果结果片段太大,则继续划分下一个字符。这种方式提供了定义划分字符和片段大小的灵活性。- CharacterTextSplitter:类似于RecursiveCharacterTextSplitter,但能够指定自定义分隔符以实现更具体的划分。默认情况下,它尝试在如“\n\n”、“\n”和空格等字符上进行分割。- Re_tokentextsplitter
2024-08-16 22:08:09 742 812
有趣的是,在实施自定义函数之后,我发现了一个现有的LangChain函数,它将自定义的Pydantic工具输入定义转换为Mixtral可以识别的JSON对象。正如提到的,大多数模型没有经过训练来产生行动输入或文本,如果不需要行动,我们必须使用当前可用的内容。它们共同使LLM能够提供更准确的推荐,随着时间的推移了解用户的偏好,并获得更广泛的最新信息,从而实现更具互动性和适应性的用户体验。正如提到的那样,除了在查询时能够检索到额外的信息外,它们还给LLM提供了一种影响他们环境的选择,例如在日历中预订会议。_ollama langchain
2024-06-03 12:06:49 76 606
最后,我们使用语义相似性分割器将长文本分割成多个语义相关的块,并打印每个分割块的内容。通过这样的方式,我们可以将长文本分割成更易于理解和处理的语义相关的块,从而更好地进行后续分析和处理。在LangChain中,语义相似性分割器(Semantic Chunker)是一种文本分块工具,能够根据文本中句子之间的语义相似性将文本分割成块。语义相似性分割器的工作原理是使用嵌入模型来计算句子之间的语义相似性,并根据预定义的阈值将文本分割成多个语义相关的块。因为在这个例子中只有一个文本块,所以只打印了一个分割块的内容。_recursivejsonsplitter 中文
2024-05-13 10:05:50 845 909
上述代码的目的是使用 LangChain 中的文本分割器来处理一个网页(在这个例子中是斯坦福哲学百科中的哥德尔条目页面),将其内容分割成更小的、易于处理的块,并保留文档结构中的上下文信息。直接分割文本就是在不使用元数据的情况下,直接将文本传递给文本分割器进行分割,例如下面是一个使用CharacterTextSplitter直接分割文本的例子。(3)分割文本:调用 create_documents 方法,传入读取的文本内容 state_of_the_union,分割器会根据设置的参数将其分割成多个文本块。
2024-05-09 10:05:01 654 581
CSV加载器支持自定义参数,以适应不同格式的CSV文件。例如,可以指定不同的分隔符、引用字符或字段名。例如在下面的代码中,使用自定义参数来指定CSV文件的字段名,从而改变生成的文档对象的内容和结构。_csvloader