O Impacto da Sumarização por LLMs na Qualidade da Modelagem de Tópicos em Dados Conversacionais

Rafael Fortes

June 4, 2025

1. Introdução

‍

A modelagem de tópicos consolidou-se como uma técnica fundamental para a descoberta de padrões semânticos latentes em grandes volumes de texto, oferecendo insights valiosos em diversas aplicações. No contexto de dados conversacionais, como os provenientes de interações de atendimento ao cliente ou diálogos multi-turno complexos, a extração eficiente de tópicos pode revelar temas recorrentes, necessidades dos usuários e áreas de interesse. Contudo, a natureza muitas vezes prolixa, redundante e ruidosa das conversas pode apresentar desafios significativos para os algoritmos de modelagem de tópicos, potencialmente diluindo a clareza e a coerência dos tópicos identificados.

Recentemente, os Modelos de Linguagem de Grande Escala (LLMs) demonstraram capacidades notáveis em diversas tarefas de processamento de linguagem natural, incluindo a sumarização de textos extensos. Esta capacidade de condensar informações, preservando o conteúdo semântico essencial, levanta uma questão pertinente: poderia a sumarização de conversas por LLMs servir como uma etapa de pré-processamento benéfica para aprimorar a modelagem de tópicos? A hipótese é que, ao reduzir o ruído e focar nos elementos centrais do diálogo, as conversas sumarizadas poderiam levar a modelos de tópicos mais coesos, interpretáveis e representativos.

Este estudo investiga sistematicamente o impacto da inclusão de uma etapa de sumarização, utilizando o modelo Llama 4 Maverick, no desempenho da modelagem de tópicos com Latent Dirichlet Allocation (LDA). Para conduzir esta investigação, utilizamos dois datasets distintos em termos de domínio e idioma: o conjunto de dados Multi-Domain Wizard-of-Oz (MultiWoz) em inglês e um corpus de conversas de suporte sobre seguros em português. Avaliamos a qualidade dos tópicos gerados a partir de conversas completas e de suas versões sumarizadas através de duas métricas estabelecidas: Coerência do Tópico (C_V) e Similaridade de Embedding de Palavras (W). O objetivo é determinar empiricamente se a sumarização mediada por LLM pode, de fato, otimizar a extração de conhecimento em cenários conversacionais, oferecendo uma abordagem mais eficiente para a análise de tópicos.

‍

2. Modelagem de Tópicos e Latent Dirichlet Allocation (LDA)

‍

2.1. Modelagem de Tópicos: Conceitos e Desafios no Contexto Conversacional

A modelagem de tópicos é uma técnica de aprendizado de máquina não supervisionado que visa descobrir automaticamente as estruturas temáticas abstratas – ou "tópicos" – que permeiam uma coleção de documentos. O objetivo fundamental é organizar e resumir grandes volumes de dados textuais, identificando os principais temas discutidos. Cada tópico é representado como uma distribuição de palavras, e cada documento é visto como uma mistura de diferentes tópicos em proporções variadas.

Apesar de sua utilidade, a aplicação da modelagem de tópicos, especialmente em dados conversacionais, enfrenta desafios específicos: extensão e redundância, ruído e informalidade, granularidade e dinâmica da conversa, dependência de contexto e ambiguidade. Estes fatores podem dificultar a identificação de padrões lexicais consistentes. No contexto deste estudo, a hipótese é que a sumarização de conversas utilizando LLMs pode mitigar alguns desses desafios, fornecendo um input mais "limpo" e focado para o modelo LDA.

‍

2.2. Latent Dirichlet Allocation (LDA): Uma Explicação Intuitiva

O Latent Dirichlet Allocation (LDA) é um dos algoritmos mais populares e amplamente utilizados para modelagem de tópicos, sendo um modelo generativo e probabilístico para uma coleção de documentos. A premissa fundamental do LDA é que os documentos são representados como misturas de tópicos latentes (ocultos), onde cada tópico, por sua vez, é caracterizado por uma distribuição de palavras.

Para entender intuitivamente como o LDA concebe a geração de documentos, podemos imaginar o processo inverso ao que o algoritmo de fato realiza. Suponha que você queira escrever um novo documento (no nosso caso, uma conversa ou um resumo de conversa) e já definiu previamente os tópicos que podem existir:

Definir a Mistura de Tópicos do Documento: Antes de escrever qualquer palavra, você decide qual será a composição temática do seu documento. Por exemplo, você poderia determinar que o seu texto seria 70% sobre um "Tópico A" (digamos, "questões financeiras") e 30% sobre um "Tópico B" (por exemplo, "atendimento ao cliente"). O LDA assume que esta escolha das proporções dos tópicos para cada documento segue uma distribuição estatística (a distribuição de Dirichlet, que dá nome ao modelo).
Gerar Cada Palavra no Documento: Para cada palavra que você vai adicionar ao seu texto, o processo seria
- a. Selecionar um Tópico: Com base na mistura de tópicos definida para o documento (70% Tópico A, 30% Tópico B), você primeiro escolhe um dos tópicos. Haveria uma probabilidade de 0.7 de selecionar o "Tópico A" e 0.3 de selecionar o "Tópico B".
- b. Selecionar uma Palavra do Tópico Escolhido: Uma vez que um tópico é selecionado, você escolhe uma palavra baseando-se na distribuição de palavras daquele tópico específico. Por exemplo, se o "Tópico A" (questões financeiras) foi selecionado, ele pode ter palavras como "pagamento", "fatura", "valor" com altas probabilidades de serem geradas. Se o "Tópico B" (atendimento ao cliente) foi selecionado, palavras como "chamada", "suporte", "problema" seriam mais prováveis.
Repetição: Este processo de duas etapas (selecionar um tópico, depois selecionar uma palavra desse tópico) é repetido para todas as palavras do documento.

Na prática, nós já temos os documentos (as conversas). O desafio do LDA é, então, fazer o caminho inverso: analisar a coleção de documentos existentes e inferir quais seriam os conjuntos de tópicos (e suas distribuições de palavras) que mais provavelmente geraram esses documentos que observamos.

O termo "Latente" no LDA refere-se justamente ao fato de que essas estruturas de tópicos não são diretamente visíveis ou conhecidas a priori; elas estão ocultas nos dados e precisam ser descobertas pelo modelo. Assim, o input para o LDA é uma coleção de documentos (representados como contagens de palavras), e o output principal consiste em:

Um conjunto de tópicos, onde cada tópico é uma distribuição de probabilidades sobre o vocabulário.
Para cada documento, uma distribuição de probabilidades sobre os tópicos (indicando a proporção de cada tópico naquele documento).

Esta abordagem permite que o LDA descubra temas subjacentes nos dados textuais de forma não supervisionada, o que é crucial para a análise exploratória de grandes volumes de conversas, como as abordadas neste estudo.

‍

3. Metodologia da Investigação

‍

Esta seção descreve os conjuntos de dados, o processo de sumarização e os métodos para treinar e avaliar os modelos LDA.

‍

3.1. Conjuntos de Dados (Datasets)

Multi-Domain Wizard-of-Oz (MultiWoz):
- Descrição: Conversas escritas, multi-turno, humano-sistema, em inglês, abrangendo múltiplos domínios.
- Volume: Amostra de 3000 conversas (média original de 298 tokens/conversa).
Conversas de Suporte (Seguros):
- Descrição: Conversas entre clientes e atendentes de seguros, em português (pt-BR).
- Volume: 2471 conversas (média original de 1060 tokens/conversa).

‍

3.2. Sumarização das Conversas

Modelo LLM: Llama 4 Maverick (llama-4-maverick-17b-128e-instruct).
Parâmetros: temperature=0, max_tokens=300.
Resultados da Sumarização:
- MultiWoz: Redução para média de 63 tokens/conversa.
- Conversas de Suporte: Redução para média de 96 tokens/conversa.

‍

3.3. Pré-processamento de Texto e Modelagem de Tópicos

Utilizou-se a biblioteca spaCy para tokenização, limpeza (acentuações, números), lematização e remoção de stop words (modelos en_core_web_lg e pt_core_news_lg). O modelo LDA foi treinado com diferentes números de tópicos (K = 30, 60, 90) e otimização de alpha e beta.

‍

3.4. Métricas de Avaliação

Coerência do Tópico (C_v): Mede a interpretabilidade e coesão semântica das palavras num tópico (NPMI + similaridade de cosseno). Calculada sobre o corpus completo para imparcialidade.
Similaridade de Embedding de Palavras (W): Avalia coesão interna e distinção externa dos tópicos, usando word2vec-google-news-300.
- W_within: Similaridade média cosseno par-a-par das top 5 palavras do tópico.
- W_between^-1: Inverso da similaridade média cosseno par-a-par entre os embeddings médios de cada tópico.
- W=W_withinW_between^-1

W_within: Average pairwise cosine similarity of the topic's top 5 words.
W_between^-1: Inverse of the average pairwise cosine similarity between the average embeddings of each topic.
W=W_withinW_between^-1

‍

4. Resultados e Discussão

‍

Os resultados da avaliação dos modelos LDA são apresentados nas Tabelas 1 e 2, seguidos de uma análise detalhada.

‍

Tabela 1: Resultados da Modelagem de Tópicos para o Dataset Insurance (Suporte de Seguros)

Tabela 2: Resultados da Modelagem de Tópicos para o Dataset MultiWoz

‍

4.1. Análise da Coerência do Tópico C_v

Conforme observado nas Tabelas 1 e 2, as conversas completas tendem a produzir tópicos com uma coerência C_V ligeiramente superior, especialmente com 30 e 60 tópicos. Por exemplo, no dataset Insurance com 60 tópicos, a versão completa atingiu C_V=0.7276 contra 0.6409 da sumarizada. No MultiWoz, com 60 tópicos, os valores foram 0.6609 (completa) e 0.6540(sumarizada). Com 90 tópicos, a diferença na coerência entre conversas completas e sumarizadas tornou-se marginal para ambos os datasets. Isso sugere que o contexto mais rico do texto completo pode auxiliar na formação de agrupamentos de palavras mais intuitivas, embora a sumarização se aproxime em desempenho com um número maior e mais granular de tópicos.

‍

4.2. Análise da Similaridade de Embedding de Palavras W

4.2.1. Similaridade Intra-Tópico W_within

A sumarização demonstrou um impacto positivo muito forte na coesão interna dos tópicos. No dataset Insurance, as conversas sumarizadas apresentaram W_withinconsistentemente em torno de 0.78, enquanto as completas ficaram entre 0.44 e 0.49. Um padrão similar ocorreu no MultiWoz, onde as sumarizadas alcançaram W_within entre 0.44 e 0.55, contra 0.26 - 0.28 das completas. Isso indica que os tópicos de resumos são compostos por palavras semanticamente mais interligadas.

4.2.2. Distinção Inter-Tópicos (W_between)

(Assumindo que Wbetween mais alto indica melhor separação). As conversas sumarizadas também apresentaram valores superiores de W_between, indicando maior distinção entre tópicos. No dataset Insurance, os valores para sumarizadas foram em torno de 0.98, contra 0.74 - 0.87 para completas. No MultiWoz, as sumarizadas variaram de 0.8328 a 0.9526, superando as completas (0.6305 a 0.9148). Isso sugere que a sumarização ajuda a delinear fronteiras mais claras entre os temas.

4.2.3. Similaridade de Embedding Combinada (W)

No dataset Insurance, as conversas completas tiveram uma similaridade marginalmente superior com 30 tópicos (0.9986 vs 0.9928). Contudo, com 60 tópicos, as sumarizadas foram significativamente melhores (0.9940 vs 0.8946), e mantiveram ligeira vantagem com 90 tópicos (0.9219 vs 0.9177). No dataset MultiWoz, as conversas sumarizadas consistentemente superaram as completas em similaridade para todas as contagens de tópicos (ex: com 60 tópicos, 0.6668 sumarizada vs 0.5019 completa). De modo geral, a sumarização tende a produzir tópicos de melhor qualidade semântica estrutural, conforme medido por W.

‍

4.3. Discussão Geral e Implicações

Os resultados revelam um trade-off: as conversas completas podem oferecer ligeiramente mais coerência C_v devido ao contexto mais rico, mas à custa de tópicos menos coesos internamente e menos distintos. As conversas sumarizadas sacrificam um pouco da coerência C_v (especialmente com poucos tópicos), mas ganham significativamente em termos de tópicos com palavras mais semanticamente relacionadas (W_within) e mais distintas entre si (W_between), resultando numa Similaridade de Embedding (W) geralmente superior.

A escolha do número ótimo de tópicos permanece crucial. A sumarização parece ser particularmente benéfica para o dataset Insurance (mais longo) em termos de W_within e W_between, e para o MultiWoz em termos de W global.

‍

5. Conclusão

‍

Este estudo investigou o impacto da sumarização de conversas por LLMs como etapa de pré-processamento para a modelagem de tópicos com LDA. Os resultados indicam que, embora a utilização de conversas completas possa resultar numa ligeira vantagem na métrica de coerência Cv, especialmente com um número menor de tópicos, a sumarização proporciona benefícios substanciais na qualidade semântica estrutural dos tópicos. Especificamente, as conversas sumarizadas geraram tópicos com maior coesão interna (Wwithin) e maior distinção entre si (Wbetween), levando, na maioria dos cenários e especialmente no dataset MultiWoz, a uma melhor Similaridade de Embedding de Palavras (W).

A decisão de empregar a sumarização depende dos objetivos da análise. Para tarefas que exigem alta interpretabilidade humana e aproveitamento do contexto amplo, as conversas completas podem ser adequadas. No entanto, para aplicações que se beneficiam de representações temáticas semanticamente puras, coesas e distintas, a sumarização por LLMs surge como uma técnica de pré-processamento valiosa e promissora. Investigações futuras podem explorar diferentes estratégias e modelos de sumarização, bem como o impacto desses tópicos refinados em tarefas downstream.

‍

Sobre a Tech4Humans

Somos uma startup inovadora com duas áreas de negócios: SaaS e AIaaS. Em SaaS, oferecemos soluções avançadas para hiperautomação do atendimento ao cliente, facilitando o gerenciamento, a automação e o monitoramento de solicitações. Em AIaaS, nossa plataforma Tech4.ai capacita empresas a construir e implementar soluções de inteligência artificial com tecnologias de código aberto, garantindo agilidade, governança e alto desempenho.

‍