Blick ins Buch

Apache Lucene (eBook)

Sistemas de busca com técnicas de Recuperação de Informação

Marco Reis (Autor)

eBook Download: EPUB

2019
399 Seiten
Casa do Código (Verlag)
978-85-7254-028-5 (ISBN)

Lese- und Medienproben

Ebook-Leseprobe (EPUB)

Estamos na Era Digital. Geramos dados a todo o momento, notícias, livros, e-mails, cadastros, logs, redes sociais, trânsito - tudo o que a sociedade faz gera algum tipo de informação. Em função dessa grande quantidade de dados e do pouco tempo disponível para fazer nossas tarefas, nasceram os sistemas de busca, que fazem parte de uma área da computação chamada de Recuperação da Informação. A informação deve ser fácil de encontrar para ser útil e é nesse ponto que os buscadores tornam o trabalho mais produtivo. A internet mudou a forma como vivemos e hoje utilizamos as ferramentas de busca para tudo no nosso cotidiano.

Neste livro, Marco Reis fala sobre sistemas de busca e as tecnologias usadas para resolver esse problema. Tendo em vista a necessidade de informação do usuário moderno, que está acostumado a encontrar o que procura facilmente em ferramentas como o Google, sabemos que em nossos sistemas precisamos apresentar a mesma funcionalidade de busca. Você aprenderá como criar motores de busca com o Lucene, com um aprofundamento em recursos avançados, incluindo o uso de outras ferramentas, como o Hibernate Search e o Apache Nutch, e técnicas como web crawling e web scraping.

Marco Reis é Engenheiro de Software e trabalha em projetos de big data e inteligência artificial. Mestre em Computação Aplicada pela Universidade de Brasília, tem artigos publicados e apresentados em congressos nacionais e internacionais nas áreas de Big Data e Computação em Nuvem. Como desenvolvedor de software tem experiência em Java, microservices, messaging e NLP.

1 Introdução
1.1 Linguagem natural
1.2 Sistemas de busca
1.3 Apache Lucene
1.4 Muito mais do que apenas buscas
1.5 O que um motor de busca não faz
1.6 Ecossistema do Lucene
1.7 Aplicações de exemplo e código-fonte
2 Conceitos de recuperação da informação
2.1 Recuperação da Informação
2.2 Índice
2.3 Documento
2.4 Campo
2.5 Termo
2.6 Fases de processamento
2.7 Dados estruturados
2.8 Dados semiestruturados
2.9 Dados não estruturados
2.10 Índice invertido
3 Indexação e busca
3.1 O que vamos precisar
3.2 Primeira fase: indexação
3.3 Segunda fase: a busca
3.4 Removendo documentos do índice
3.5 Atualizando documento no índice
4 Tipos de busca
4.1 Comparação com uma consulta SQL
4.2 Sintaxe clássica de buscas
4.3 Buscas com a sintaxe clássica
4.4 Operadores lógicos
4.5 Busca com elevação (boost)
4.6 Expressão regular
4.7 API do Lucene
5 Principais classes do Lucene
5.1 Document
5.2 Field
5.3 IndexWriter
5.4 Directory
5.5 IndexReader
6 Configurações avançadas
6.1 Configurações da indexação
6.2 Performance da configuração padrão
6.3 Tipos de arquivo
6.4 Controlando a segmentação do índice
6.5 Analyzer
7 Integração com sistemas corporativos
7.1 Modelo de dados
7.2 Um buscador para sistemas web
7.3 Índice Produto
7.4 Carga inicial dos dados
7.5 O managed bean BuscaLivreProdutoBean
7.6 Paginação com Lucene
7.7 Atualizando o índice com temporizador
7.8 Índice Venda
8 Hibernate Search ORM
8.1 Configuração do projeto
8.2 Indexando dados relacionais com Hibernate Search
8.3 Consultando com Hibernate Search
8.4 Indexando campos numéricos
8.5 Indexando associações entre classes
8.6 Indexando campos binários
9 Recursos avançados
9.1 Sinônimos
9.2 Frequência dos termos
9.3 Indexando campos com vetores
9.4 Corretor ortográfico (spell checker)
9.5 Sugestão de resultados (suggester)
9.6 Consulta "More Like This" (MLT)
9.7 Marcando texto com Highlighter
9.8 Faceted search/navigation
10 Extraindo dados da internet
10.1 Web crawling
10.2 Web scraping
10.3 Considerações sobre performance
10.4 Considerações legais e éticas
11 Referências bibliográficas

Erscheint lt. Verlag	19.9.2019
Verlagsort	São Paulo
Sprache	portugiesisch
Themenwelt	Mathematik / Informatik ► Informatik ► Web / Internet
Schlagworte	Apache • buscas • Crawler • Dados • Hibernate • Lucene • Search • Web Crawling • Web Scraping
ISBN-10	85-7254-028-8 / 8572540288
ISBN-13	978-85-7254-028-5 / 9788572540285

Informationen gemäß Produktsicherheitsverordnung (GPSR)
Haben Sie eine Frage zum Produkt?

EPUB (Adobe DRM)

Kopierschutz: Adobe-DRM
Adobe-DRM ist ein Kopierschutz, der das eBook vor Mißbrauch schützen soll. Dabei wird das eBook bereits beim Download auf Ihre persönliche Adobe-ID autorisiert. Lesen können Sie das eBook dann nur auf den Geräten, welche ebenfalls auf Ihre Adobe-ID registriert sind.
Details zum Adobe-DRM

Dateiformat: EPUB (Electronic Publication)
EPUB ist ein offener Standard für eBooks und eignet sich besonders zur Darstellung von Belletristik und Sachbüchern. Der Fließtext wird dynamisch an die Display- und Schriftgröße angepasst. Auch für mobile Lesegeräte ist EPUB daher gut geeignet.

Systemvoraussetzungen:
PC/Mac: Mit einem PC oder Mac können Sie dieses eBook lesen. Sie benötigen eine Adobe-ID und die Software Adobe Digital Editions (kostenlos). Von der Benutzung der OverDrive Media Console raten wir Ihnen ab. Erfahrungsgemäß treten hier gehäuft Probleme mit dem Adobe DRM auf.
eReader: Dieses eBook kann mit (fast) allen eBook-Readern gelesen werden. Mit dem amazon-Kindle ist es aber nicht kompatibel.
Smartphone/Tablet: Egal ob Apple oder Android, dieses eBook können Sie lesen. Sie benötigen eine Adobe-ID sowie eine kostenlose App.
Geräteliste und zusätzliche Hinweise

Buying eBooks from abroad
For tax law reasons we can sell eBooks just within Germany and Switzerland. Regrettably we cannot fulfill eBook-orders from other countries.