Como ler este livro

O objetivo dos autores deste livro é oferecer aos leitores conhecimento sobre PLN, ao mesmo tempo, introdutório e abrangente, de modo a atender às expectativas de leitores com diferentes perfis. O livro pode ser usado como material didático para disciplinas de IA e PLN de cursos de computação ou linguística, ou áreas afins, e também pode servir de referência a profissionais que fazem uso do PLN para criar soluções tecnológicas.

A fim de oferecer conhecimento sobre temas variados nessa área, foi importante contar com um grande número de especialistas brasileiros1, a quem as organizadoras agradecem profundamente.

O objetivo dos autores deste livro (61 nesta edição) é introduzir conceitos e detalhar os principais métodos e técnicas de PLN, além de recursos e aplicações, com foco na Língua Portuguesa. Nesta segunda edição, revisada e ampliada, ele está dividido em 12 partes e 30 capítulos.

A Parte 1 (Introdução) apresenta a área de PLN no Brasil, no Prefácio, e introduz os principais conceitos no Capítulo 1. É leitura obrigatória para o leitor não familiarizado com PLN.

A Parte 2 (Fala), ao contrário do restante do livro, que trata de processamento de texto, apresenta a área de processamento de fala: seus principais conceitos no Capítulo 2, e técnicas, recursos e aplicações, no Capítulo 3. O leitor, ainda que interessado apenas na síntese ou reconhecimento de fala, se beneficiará dos demais capítulos deste livro para complementar conceitos comuns, como a anotação e o uso de corpus, o processamento da fala transcrita em texto, entre outros.

Na Parte 3 (Palavras), a primeira fase do processamento textual é discutida. O Capítulo 4 dedica-se a desvendar a morfologia, que estuda as palavras isoladamente, suas partes (morfemas), seus processos de derivação e composição, bem como partes importantes do processamento automático como a tokenização e a atribuição das categorias das palavras (part-of-speech tagging). Se ao leitor interessa o processamento de expressões idiomáticas, o agora completo Capítulo 5 explora amplamente o mundo das expressões multipalavras, que traz grandes desafios à medida que a combinação dos componentes dessas expressões está relacionada à cultura de uso da língua.

Crescendo em complexidade, a Parte 4 (Estrutura) considera a ordem das palavras numa sentença, buscando extrair seus papéis na organização sintática parcial ou total da sentença. Com tal conhecimento, o processamento da língua alcança um novo patamar, e a partir dele já é possível realizar várias tarefas de PLN, como parsing parcial ou total, e viabilizar várias aplicações. O Capítulo 6 fornece toda a conceitualização de sintaxe, os principais tipos de análise, suas diferenças, vantagens e desvantagens. O Capítulo 7 mostra as diferentes ferramentas computacionais para o processamento sintático, em especial, as que são dedicadas ao português. As Partes 3 e 4 são indispensáveis para o leitor, estudante ou profissional, que pretende atuar na área de PLN, seja pesquisando ou implementando sistemas.

A Parte 5 (Significado) promove um salto significativo para a complexidade do PLN: trata dos conceitos, modelos e técnicas relativos à apreensão do sentido implicado pela língua escrita. Isso pode ocorrer pelo uso de teorias e modelos simbólicos ou não simbólicos. O Capítulo 8 introduz toda a complexidade da semântica da língua. Os Capítulos 9 e 10 mostram as diferentes abordagens (simbólica e estatística, respectivamente) para o tratamento do sentido. A leitura desta parte é indispensável para quem quer conhecer de que forma o PLN busca apreender o significado das expressões linguísticas num texto.

Questões discursivas e retóricas implicadas pelo texto são tratadas na Parte 6 (Discurso) deste livro. No Capítulo 11, o leitor encontra os principais modelos discursivos para PLN; no Capítulo 12, um fenômeno muito frequente, e clássico no PLN, é tratado em detalhes: como resolver as correferências discursivas presentes em textos.

A Parte 7 (Dados e Avaliação) trata de duas questões que norteiam todas as tarefas do PLN: a escolha e a preparação dos dados que alimentam os algoritmos e os métodos e critérios de avaliação dos sistemas criados. O Capítulo 13 aborda tudo o que está envolvido na construção e na anotação de datasets ou corpus, bem como seu papel no treinamento de algoritmos de aprendizado de máquina. O novo Capítulo 14 apresenta um panorama dos métodos de avaliação comumente usados para medir, analisar e comparar o desempenho de sistemas de PLN. Leitura obrigatória para todos os desenvolvedores de sistemas de PLN, sejam pesquisadores ou não.

A Parte 8 (Modelos) é dedicada aos mais recentes modelos de geração de linguagem natural: aqueles baseados em modelos de língua e seus paradigmas estatístico e neural (Capítulo 15). É aqui que são apresentadas as técnicas do estado-da-arte do PLN, como as redes neurais profundas e os Transformers, as técnicas de fine-tuning e prompt engineering. Essa parte do livro é essencial para o leitor ficar atualizado sobre o que tem sido usado para a criação das principais aplicações de PLN, assim como de toda Inteligência Artificial.

A nova Parte 9 (Interação) cobre, nos Capítulos 16 e 17, dois tipos de sistemas clássicos de PLN que se tornaram muito populares com o comércio eletrônico e, mais recentemente, com os agentes conversacionais: são os sistemas de perguntas e respostas, mais conhecidos na sua denominação em inglês – Question-Answering – e os sistemas de diálogos. O leitor terá oportunidade de conhecer o caminho percorrido pelo PLN até chegar aos agentes atuais, como o ChatGPT e MariTalk, que são analisados em profundidade no Capítulo 18.

A Parte 10 (Aplicações) ilustra o PLN em várias aplicações, desde as mais clássicas, como recuperação (Capítulo 19) e extração (Capítulo 20) de informações, tradução (Capítulo 21) ou sumarização automática (Capítulo 22), bem como a avaliação de complexidade textual (Capítulo 23) e correção automática de redações (Capítulo 24). As diferentes aplicações devem mostrar ao leitor alguns dos campos de aplicação do PLN e, com isso, abrir seu horizonte para outros desafios.

Na Parte 11 (Domínios) os capítulos ilustram o PLN aplicado a três diferentes domínios – saúde (Capítulo 25), direito (Capítulo 26) e humanidades digitais (Capítulo 27) – e a um gênero específico de texto, muito desafiador, aquele das redes sociais, cujo capítulo foi atualizado para esta segunda edição (Capítulo 28). O Capítulo 27 contou com a participação de colegas portuguesas, ampliando a visão do tratamento do português nesta nova edição. A leitura dessa parte deve mostrar ao leitor a potencialidade do emprego de PLN quando ajustado a um domínio ou um gênero específico.

Antes de finalizar o livro, a Parte 12 (Sociedade) discute, no Capítulo 29, algumas questões éticas que a IA, em geral, e o PLN, em particular, têm provocado, pela forma como novas tecnologias têm sido criadas e usadas recentemente. Finalmente, o último capítulo (Capítulo 30) discorre sobre algumas perspectivas para o PLN do português.

Complementam esse livro as referências bibliográficas dos capítulos reunidas em Referências, alguns Apêndices: A (Apêndice do Capítulo 2), B e C (Apêndices do Capítulo 14) e D (Apêndice do Capítulo 22), além das informações Sobre as(os) autoras(es).


  1. A lista completa das autoras e autores deste livro encontra-se em: Sobre as/os autoras/es↩︎