Processamento de Linguagem Natural
Conceitos, Técnicas e Aplicações em Português (4ª Edição) – Volume 1
Sobre o Volume 1

Este volume destina-se a introduzir os principais conceitos, tarefas, técnicas e métodos do PLN. Ele deve fornecer uma boa visão geral da área, registrando marcos importantes desde seu início. O leitor iniciante se beneficiará de uma leitura sequencial dos capítulos (exceção feita à Parte 2, sobre Fala, que é bastante independente das demais).
A Parte 1 (Introdução) introduz os principais conceitos e traz um breve histórico do PLN, no Capítulo O que é PLN?, e é leitura obrigatória para o leitor não familiarizado com PLN.
A Parte 2 (Fala), ao contrário do restante do livro, que trata de processamento de texto, apresenta a área de processamento de fala: seus principais conceitos (Texto ou fala?), e técnicas, recursos e aplicações (Recursos para o processamento de fala). O leitor, ainda que interessado apenas na síntese ou reconhecimento de fala, se beneficiará dos demais capítulos deste livro para complementar conceitos comuns, como a anotação e o uso de corpus, o processamento da fala transcrita em texto, entre outros.
Na Parte 3 (Palavras), a primeira fase do processamento textual é discutida. O Capítulo Sequência de caracteres e palavras dedica-se a desvendar a morfologia, que estuda as palavras isoladamente, suas partes (morfemas), seus processos de derivação e composição, bem como partes importantes do processamento automático como a tokenização e a atribuição das categorias das palavras (part-of-speech tagging). Se ao leitor interessa o processamento de expressões idiomáticas, o Capítulo Expressões multipalavras explora amplamente o mundo das expressões multipalavras, que traz grandes desafios à medida que a combinação dos componentes dessas expressões está relacionada à cultura de uso da língua.
Crescendo em complexidade, a Parte 4 (Estrutura) considera a ordem das palavras numa sentença, buscando extrair seus papéis na organização sintática parcial ou total da sentença. Com tal conhecimento, o processamento da língua alcança um novo patamar, e a partir dele já é possível realizar várias tarefas de PLN, como parsing parcial ou total, e viabilizar várias aplicações. O Capítulo A ordem e a função das palavras em uma sentença fornece toda a conceitualização de sintaxe, os principais tipos de análise, suas diferenças, vantagens e desvantagens. O Capítulo Ferramentas e recursos para o processamento sintático mostra as diferentes ferramentas computacionais para o processamento sintático, em especial, as que são dedicadas ao português. As Partes 3 e 4 são indispensáveis para o leitor, estudante ou profissional, que pretende atuar na área de PLN, seja pesquisando ou implementando sistemas.
A Parte 5 (Significado) promove um salto significativo para a complexidade do PLN: trata dos conceitos, modelos e técnicas relativos à apreensão do sentido implicado pela língua escrita. Isso pode ocorrer pelo uso de teorias e modelos simbólicos ou não simbólicos. O Capítulo E o significado? introduz toda a complexidade da semântica da língua. Os Capítulos Semântica com técnicas simbólicas e Semântica distribucional mostram as diferentes abordagens (simbólica e estatística, respectivamente) para o tratamento do sentido. A leitura desta parte é indispensável para quem quer conhecer de que forma o PLN busca apreender o significado das expressões linguísticas num texto.
Questões discursivas e retóricas implicadas pelo texto são tratadas na Parte 6 (Discurso) deste livro. No Capítulo Modelos discursivos, o leitor encontra os principais modelos discursivos para PLN; no Capítulo Resolução de correferência, um fenômeno muito frequente, e clássico no PLN, é tratado em detalhes: como resolver as correferências discursivas presentes em textos.
A Parte 7 (Geração e Interação) trata das diferentes arquiteturas de sistemas de geração de linguagem natural no Capítulo Geração de linguagem natural, e cobre, nos Capítulos Perguntas e Respostas e Diálogo e Interatividade, dois tipos de sistemas clássicos de PLN que se tornaram muito populares com o comércio eletrônico e, mais recentemente, com os agentes conversacionais: são os sistemas de perguntas e respostas, mais conhecidos na sua denominação em inglês – Question-Answering – e os sistemas de diálogos.
A Parte 8 (Dados) trata da escolha e da preparação dos dados que alimentam os algoritmos e os métodos e critérios de avaliação dos sistemas criados. O Capítulo Conjunto de dados, dataset e corpus aborda tudo o que está envolvido na construção e na anotação de datasets ou corpus, bem como seu papel no treinamento de algoritmos de aprendizado de máquina. E o Capítulo Aprendizado Transdutivo em PLN discute o aprendizado transdutivo, uma alternativa ao aprendizado indutivo, como forma de incorporar grandes quantidades de dados não rotulados e, com isso, reduzir custos e aumentar a eficiência no treinamento de modelos.
A Parte 9 (Avaliação) inclui o Capítulo Avaliação de tecnologias de linguagem que apresenta um panorama dos métodos de avaliação comumente usados para medir, analisar e comparar o desempenho de sistemas de PLN, e o Capítulo Avaliação conjunta em português, que aborda o tema da avaliação conjunta (shared tasks) e oferece um amplo panorama das avaliações conjuntas promovidas para a língua portuguesa: leitura obrigatória para todos os desenvolvedores de sistemas de PLN, sejam pesquisadores ou não.
Antes de finalizar o volume, a Parte 10 (Desafios e Perspectivas) discute algumas questões éticas (Questões éticas em IA e PLN) que a IA, em geral, e o PLN, em particular, têm provocado, pela forma como novas tecnologias têm sido criadas e usadas recentemente. Finalmente, o último capítulo (E agora, PLN?) discorre sobre algumas perspectivas para o PLN do português.
Como citar
Caseli, H.M.; Nunes, M.G.V. (org.) Processamento de Linguagem Natural: Conceitos, Técnicas e Aplicações em Português. 4 ed. BPLN, 2025. v. 1. Disponível em: https://brasileiraspln.com/livro-pln/4a-edicao/volume1.