Técnica RAG com a biblioteca Langchain: tutorial para aplicar agora

COMPARTILHE!

Airton Lira Junior

Tem 20 artigos publicados com 42000 visualizações desde 2017

Airton Lira Junior é um profissional de Tecnologia da Informação com mais de 10 anos de experiência, especializado em Big Data, Engenharia de Dados e Arquitetura de Soluções em nuvem. Atualmente atua como Engenheiro Sênior de Dados e Analytics na Dock, liderando melhorias em plataformas de dados, orquestração de pipelines com Databricks e otimização de workloads em AWS (EC2, EMR, SageMaker). Com passagens por empresas como iFood e Bemobi, destacou-se na concepção de soluções inovadoras, como modelos LLM para chatbots, integrações de IA em pipelines de áudio e projetos de conciliação financeira regulatória, utilizando tecnologias como Golang, Python, Apache Spark e Kubernetes. Possui certificações em AWS, Databricks e Power BI, além de formação em Análise de Sistemas pela FIA e especialização em Banco de Dados. Reconhecido por sua proatividade e expertise técnica, contribui ativamente para a comunidade tech como colunista no iMasters, compartilhando conhecimentos em automação, engenharia de prompts e arquitetura de dados escaláveis.

Como criar um fluxo de RAG utilizando 100% os recursos do Databricks

9 abr, 2025

Feature Engineering para Embeddings com SparkML e MLFlow no Databricks Experiments

1 abr, 2025

Documentando automaticamente suas tabelas e colunas do Unity Catalog com AI – DBRX – Databricks

Neste tutorial, vamos explorar como usar a técnica RAG (Retrieval-Augmented Generation) com a biblioteca LangChain para integrar dados proprietários em modelos de linguagem grandes (LLMs). Vamos fazer isso passo a passo, desde a configuração inicial até a implementação prática.

Integrando Dados Proprietários em LLMs com LangChain

Neste tutorial, você aprenderá como utilizar a técnica RAG (Retrieval-Augmented Generation) com a biblioteca LangChain para integrar dados proprietários em modelos de linguagem grandes (LLMs). Esta técnica permite que você use dados externos, como páginas da web ou documentos, para melhorar as respostas dos modelos de linguagem.

Configuração Inicial

Antes de começarmos, certifique-se de ter o Python instalado em seu sistema. Em seguida, instale a biblioteca LangChain e suas dependências usando o seguinte comando:

pip install langchain openai faiss-cpu beautifulsoup4

Passo 1: Criando o Arquivo Principal de Tutorial

Vamos começar criando o arquivo principal onde o tutorial será executado. Este arquivo mostrará a aplicação prática da integração da LangChain com um LLM

from langchain import OpenAI, PromptTemplate, LLMChain

# Inicialize a API do OpenAI com sua chave API
openai = OpenAI(api_key="SUA_CHAVE_API")

# Defina o template do prompt
prompt_template = PromptTemplate(
    template="Quantos Oscars o filme {filme} ganhou em {ano}?",
    input_variables=["filme", "ano"]
)

# Crie a cadeia LLM
llm_chain = LLMChain(llm=openai, prompt=prompt_template)

# Execute a cadeia com parâmetros de exemplo
resposta = llm_chain.run(filme="Openheimer", ano="2024")
print(resposta)

Passo 2: Criando o Arquivo para Web Scraping e Criação de Vetores

Agora, vamos criar um arquivo responsável por fazer web scraping da página da Wikipedia e transformar o conteúdo em embeddings para armazenamento no banco de dados vetorial.

from langchain.document_loaders import WebBaseLoader
from langchain.vectorstores import FAISS
from langchain.embeddings import OpenAIEmbeddings

# Carregue os documentos da página da Wikipedia
loader = WebBaseLoader("https://pt.wikipedia.org/wiki/Filme_Openheimer")
documents = loader.load()

# Crie embeddings para os documentos
embeddings = OpenAIEmbeddings()
vectorstore = FAISS.from_documents(documents, embeddings)

# Crie o retriever
retriever = vectorstore.as_retriever()

Passo 3: Criando Arquivo de Funções Utilitárias

Vamos encapsular as operações de scraping, criação de embeddings e recuperação de dados em uma função utilitária.

from langchain.document_loaders import WebBaseLoader
from langchain.vectorstores import FAISS
from langchain.embeddings import OpenAIEmbeddings

def url_to_retriever(url):
    loader = WebBaseLoader(url)
    documents = loader.load()

    embeddings = OpenAIEmbeddings()
    vectorstore = FAISS.from_documents(documents, embeddings)

    return vectorstore.as_retriever()

Passo 4: Criando o Arquivo Principal para Integração RAG

Vamos integrar todos os componentes criados para implementar a técnica RAG com um LLM.

from langchain import OpenAI, ChatPromptTemplate, create_retrieval_chain
from your_module import url_to_retriever

# Inicialize a API do OpenAI com sua chave API
openai = OpenAI(api_key="SUA_CHAVE_API")

# Crie o retriever a partir da URL da Wikipedia
retriever = url_to_retriever("https://pt.wikipedia.org/wiki/Filme_Openheimer")

# Defina o template do prompt
prompt_template = ChatPromptTemplate(
    template="Quantos Oscars o filme {filme} ganhou em {ano}?",
    input_variables=["filme", "ano"]
)

# Crie a cadeia de recuperação
chain = create_retrieval_chain(
    llm=openai,
    retriever=retriever,
    prompt_template=prompt_template
)

# Execute a cadeia com parâmetros de exemplo
resposta = chain.run(filme="Openheimer", ano="2024")
print(resposta)

Conclusão

Neste tutorial, você aprendeu a utilizar a técnica RAG com a biblioteca LangChain para integrar dados proprietários em modelos de linguagem grandes (LLMs). Este processo envolve a criação de embeddings a partir de dados externos, o armazenamento desses embeddings em um banco de dados vetorial e a recuperação dessas informações para melhorar as respostas dos modelos de linguagem.

Com esses conhecimentos, você pode aplicar essa técnica a diversos tipos de dados e criar aplicações mais inteligentes e informadas. Se tiver dúvidas ou sugestões, sinta-se à vontade para comentar abaixo. Até o próximo tutorial!

Nota: Substitua "SUA_CHAVE_API" pela sua chave API do OpenAI.

Este tutorial deve ajudá-lo a entender e implementar a técnica RAG com LangChain em suas próprias aplicações. Boa sorte!

De 0 a 10, o quanto você recomendaria este artigo para um amigo?

Saiba mais