Apache Lucene (eBook)
399 Seiten
Casa do Código (Verlag)
978-85-7254-028-5 (ISBN)
Neste livro, Marco Reis fala sobre sistemas de busca e as tecnologias usadas para resolver esse problema. Tendo em vista a necessidade de informação do usuário moderno, que está acostumado a encontrar o que procura facilmente em ferramentas como o Google, sabemos que em nossos sistemas precisamos apresentar a mesma funcionalidade de busca. Você aprenderá como criar motores de busca com o Lucene, com um aprofundamento em recursos avançados, incluindo o uso de outras ferramentas, como o Hibernate Search e o Apache Nutch, e técnicas como web crawling e web scraping.
Marco Reis é Engenheiro de Software e trabalha em projetos de big data e inteligência artificial. Mestre em Computação Aplicada pela Universidade de Brasília, tem artigos publicados e apresentados em congressos nacionais e internacionais nas áreas de Big Data e Computação em Nuvem. Como desenvolvedor de software tem experiência em Java, microservices, messaging e NLP.
1 Introdução
1.1 Linguagem natural
1.2 Sistemas de busca
1.3 Apache Lucene
1.4 Muito mais do que apenas buscas
1.5 O que um motor de busca não faz
1.6 Ecossistema do Lucene
1.7 Aplicações de exemplo e código-fonte
2 Conceitos de recuperação da informação
2.1 Recuperação da Informação
2.2 Índice
2.3 Documento
2.4 Campo
2.5 Termo
2.6 Fases de processamento
2.7 Dados estruturados
2.8 Dados semiestruturados
2.9 Dados não estruturados
2.10 Índice invertido
3 Indexação e busca
3.1 O que vamos precisar
3.2 Primeira fase: indexação
3.3 Segunda fase: a busca
3.4 Removendo documentos do índice
3.5 Atualizando documento no índice
4 Tipos de busca
4.1 Comparação com uma consulta SQL
4.2 Sintaxe clássica de buscas
4.3 Buscas com a sintaxe clássica
4.4 Operadores lógicos
4.5 Busca com elevação (boost)
4.6 Expressão regular
4.7 API do Lucene
5 Principais classes do Lucene
5.1 Document
5.2 Field
5.3 IndexWriter
5.4 Directory
5.5 IndexReader
6 Configurações avançadas
6.1 Configurações da indexação
6.2 Performance da configuração padrão
6.3 Tipos de arquivo
6.4 Controlando a segmentação do índice
6.5 Analyzer
7 Integração com sistemas corporativos
7.1 Modelo de dados
7.2 Um buscador para sistemas web
7.3 Índice Produto
7.4 Carga inicial dos dados
7.5 O managed bean BuscaLivreProdutoBean
7.6 Paginação com Lucene
7.7 Atualizando o índice com temporizador
7.8 Índice Venda
8 Hibernate Search ORM
8.1 Configuração do projeto
8.2 Indexando dados relacionais com Hibernate Search
8.3 Consultando com Hibernate Search
8.4 Indexando campos numéricos
8.5 Indexando associações entre classes
8.6 Indexando campos binários
9 Recursos avançados
9.1 Sinônimos
9.2 Frequência dos termos
9.3 Indexando campos com vetores
9.4 Corretor ortográfico (spell checker)
9.5 Sugestão de resultados (suggester)
9.6 Consulta "More Like This" (MLT)
9.7 Marcando texto com Highlighter
9.8 Faceted search/navigation
10 Extraindo dados da internet
10.1 Web crawling
10.2 Web scraping
10.3 Considerações sobre performance
10.4 Considerações legais e éticas
11 Referências bibliográficas
| Erscheint lt. Verlag | 19.9.2019 |
|---|---|
| Verlagsort | São Paulo |
| Sprache | portugiesisch |
| Themenwelt | Mathematik / Informatik ► Informatik ► Web / Internet |
| Schlagworte | Apache • buscas • Crawler • Dados • Hibernate • Lucene • Search • Web Crawling • Web Scraping |
| ISBN-10 | 85-7254-028-8 / 8572540288 |
| ISBN-13 | 978-85-7254-028-5 / 9788572540285 |
| Informationen gemäß Produktsicherheitsverordnung (GPSR) | |
| Haben Sie eine Frage zum Produkt? |
Kopierschutz: Adobe-DRM
Adobe-DRM ist ein Kopierschutz, der das eBook vor Mißbrauch schützen soll. Dabei wird das eBook bereits beim Download auf Ihre persönliche Adobe-ID autorisiert. Lesen können Sie das eBook dann nur auf den Geräten, welche ebenfalls auf Ihre Adobe-ID registriert sind.
Details zum Adobe-DRM
Dateiformat: EPUB (Electronic Publication)
EPUB ist ein offener Standard für eBooks und eignet sich besonders zur Darstellung von Belletristik und Sachbüchern. Der Fließtext wird dynamisch an die Display- und Schriftgröße angepasst. Auch für mobile Lesegeräte ist EPUB daher gut geeignet.
Systemvoraussetzungen:
PC/Mac: Mit einem PC oder Mac können Sie dieses eBook lesen. Sie benötigen eine
eReader: Dieses eBook kann mit (fast) allen eBook-Readern gelesen werden. Mit dem amazon-Kindle ist es aber nicht kompatibel.
Smartphone/Tablet: Egal ob Apple oder Android, dieses eBook können Sie lesen. Sie benötigen eine
Geräteliste und zusätzliche Hinweise
Buying eBooks from abroad
For tax law reasons we can sell eBooks just within Germany and Switzerland. Regrettably we cannot fulfill eBook-orders from other countries.
aus dem Bereich