Como ler este livro

O objetivo dos autores deste livro é oferecer aos leitores conhecimento sobre Processamento de Linguagem Natural (PLN), ao mesmo tempo, introdutório e abrangente, de modo a atender às expectativas de leitores com diferentes perfis. O livro pode ser usado como material didático para disciplinas de Inteligência Artificial (IA) e PLN de cursos de computação ou linguística, ou áreas afins, e também pode servir de referência a profissionais que fazem uso do PLN para criar soluções tecnológicas.

A fim de oferecer conhecimento sobre temas variados nessa área, foi importante contar com um grande número de especialistas brasileiros1, a quem as organizadoras agradecem profundamente.

O objetivo dos autores deste livro é introduzir conceitos e detalhar os principais métodos e técnicas de PLN, além de recursos e aplicações, com foco no português do Brasil. Para tal, ele está dividido em dez partes que contêm 25 capítulos.

A Parte 1 apresenta a área de PLN no Brasil, no Prefácio, e introduz os principais conceitos no Capítulo 1. É leitura obrigatória para o leitor não familiarizado com PLN.

A Parte 2 (Fala), ao contrário do restante do livro, que trata de processamento de texto escrito, apresenta a área de processamento de fala: seus principais conceitos no Capítulo 2, e técnicas, recursos e aplicações, no Capítulo 3. O leitor, ainda que interessado apenas na síntese ou reconhecimento de fala, se beneficiará dos demais capítulos deste livro para complementar conceitos comuns, como a anotação e o uso de corpus, o processamento da fala transcrita em texto, entre outros.

Na Parte 3 (Palavras), a primeira fase do processamento textual é discutida. O Capítulo 4 dedica-se a desvendar a morfologia, que estuda as palavras isoladamente, suas partes (morfemas), seus processos de derivação e composição, bem como partes importantes do processamento automático como a tokenização e a atribuição das categorias das palavras (part-of-speech tagging). O Capítulo 5, que será desenvolvido para a próxima edição deste livro, explorará o mundo das expressões multipalavras, que traz grandes desafios à medida que o conhecimento de seus componentes isolados pouco contribui para a aquisição de seu significado.

Crescendo em complexidade, a Parte 4 (Estrutura) considera a ordem das palavras numa sentença, buscando extrair seus papéis na organização sintática parcial ou total da sentença. Com tal conhecimento, o processamento da língua alcança um novo patamar, e a partir dele já é possível realizar várias tarefas de PLN, como parsing parcial ou total, e viabilizar várias aplicações. O Capítulo 6 fornece toda a conceitualização de sintaxe, os principais tipos de análise, suas diferenças, vantagens e desvantagens. O Capítulo 7 mostra as diferentes ferramentas computacionais para o processamento sintático, em especial, as que são dedicadas ao português. As Partes 3 e 4 são indispensáveis para o leitor estudante ou profissional que pretende atuar na área de PLN, seja pesquisando ou implementando sistemas.

A Parte 5 (Significado) promove um salto significativo para a complexidade do PLN: trata dos conceitos, modelos e técnicas relativos à apreensão do sentido implicado pela língua escrita. Isso pode ocorrer pelo uso de teorias e modelos simbólicos ou não simbólicos. O Capítulo 8 introduz toda a complexidade da semântica da língua. Os Capítulos 9 e 10 mostram as diferentes abordagens (simbólica e estatística, respectivamente) para o tratamento do sentido. A leitura desta parte é indispensável para quem quer ter conhecimento mais amplo sobre a área de PLN.

Questões discursivas e pragmáticas implicadas pelo texto são tratadas na Parte 6 (Discurso) deste livro. No Capítulo 11, o leitor encontra os principais modelos discursivos para PLN; no Capítulo 12, um fenômeno muito frequente, e clássico no PLN, é tratado em detalhes: como resolver as correferências discursivas presentes em textos. O Capítulo 13, a ser desenvolvido para a próxima edição, deve tratar das teorias e dos formalismos que visam processar textos sob a ótica pragmática da linguagem natural.

A Parte 7 (Dados e Modelos) explora a construção e a anotação de datasets ou corpus, seu papel no treinamento de algoritmos de aprendizado de máquina (Capítulo 14), bem como os paradigmas estatístico e neural para a geração de modelos de língua (Capítulo 15). É aqui que são apresentadas as técnicas do estado da arte do PLN, como as redes neurais profundas e os Transformers, as técnicas de fine-tuning e prompt engineering. Essa parte do livro é essencial para o leitor ficar atualizado sobre o que tem sido usado para a criação das principais aplicações de PLN, assim como de toda Inteligência Artificial.

As Partes 8 (Aplicações) e 9 (Domínios) apresentam várias aplicações de PLN. Na primeira delas, constam aplicações clássicas, como recuperação (Capítulo 16) e extração (Capítulo 17) de informações, tradução automática (Capítulo 18), correção textual (Capítulo 19), bem como os agora famosos chatbots baseados em modelos de língua (Capítulo 20). ChatGPT e MariTalk, dois chatbots que combinam um modelo de língua gerativo com um treinamento por reforço humano são analisados em detalhe. Na Parte 9 as aplicações ilustram o PLN aplicado a dois domínios – saúde (Capítulo 21) e direito (Capítulo 22) – e a um gênero específico de texto, aquele das redes sociais (Capítulo 23).

A Parte 10 (Sociedade), antes de finalizar o livro, discute, no Capítulo 24, algumas discussões éticas que a IA, em geral, e o PLN, em particular, têm provocado, pela forma como têm sido criados e usados recentemente. Finalmente, o último capítulo (Capítulo 25) discorre sobre algumas perspectivas para o PLN do português no cenário de 2023.

Complementam este livro: as referências bibliográficas dos capítulos reunidas em Referências, um apêndice do Capítulo 2 (Apêndice 1), além das informações Sobre as/os autoras/es.


  1. A lista completa das autoras e autores deste livro encontra-se em: Sobre as/os autoras/es↩︎