Zum Hauptinhalt springen
Nicht aus der Schweiz? Besuchen Sie lehmanns.de

Pandas Python (eBook)

Data Wrangling para Ciência de Dados

(Autor)

eBook Download: EPUB
2020
235 Seiten
Casa do Código (Verlag)
978-85-7254-049-0 (ISBN)

Lese- und Medienproben

Pandas Python - Eduardo Corrêa
Systemvoraussetzungen
7,99 inkl. MwSt
(CHF 7,80)
Der eBook-Verkauf erfolgt durch die Lehmanns Media GmbH (Berlin) zum Preis in Euro inkl. MwSt.
  • Download sofort lieferbar
  • Zahlungsarten anzeigen
Ciência de dados é um processo que emprega técnicas estatísticas e computacionais para analisar grandes bases de dados. A etapa de pré-processamento, onde as bases de dados relevantes devem ser reunidas e adequadamente formatadas, costuma ser a mais trabalhosa, ocupando tipicamente 80% do tempo consumido. É nesta fase que são realizadas as tarefas de seleção, limpeza e transformação dos dados, comumente referenciadas como atividades de Data Wrangling, Data Munging ou Data Preparation. A biblioteca pandas foi especialmente projetada para oferecer o suporte ao processo de Data Wrangling e ela já se consolidou como a biblioteca para ciência de dados mais utilizada no ambiente Python.

Neste livro, Eduardo Corrêa aborda a pandas sob uma perspectiva profissional, explicando como utilizá-la para resolver problemas práticos e, muitas vezes, difíceis de Data Wrangling. Você aprenderá a teoria com um projeto prático, que envolve o uso da pandas como ferramenta para viabilizar a execução das atividades de seleção, estudo, limpeza e transformação de uma base de dados real. O projeto mostrará o passo a passo para realizar o pré-processamento desta base de dados, que será então utilizada como fonte para a criação de um modelo de Machine Learning, mais especificamente, um modelo de classificação de dados.

Eduardo Corrêa cursou Doutorado em Ciência da Computação pela UFF (2015) com período sanduíche na University of Kent, no Reino Unido. Também cursou Mestrado (2004) e Graduação (1999) em Ciência da Computação pela UFF. Possui certificação Oracle Database SQL Certified Expert (OCE). Atualmente, trabalha como administrador de banco de dados no Instituto Brasileiro de Geografia e Estatística (IBGE) e também atua como professor colaborador na Escola Nacional de Ciências Estatísticas (ENCE-IBGE). Suas áreas de interesse são: Banco de Dados, Algoritmos, Processamento de Linguagem Natural e Python.

1 Muito prazer, biblioteca pandas
1.1 O que é ciência de dados?
1.2 Quais os problemas resolvidos pela ciência de dados?
1.3 Como funciona a ciência de dados na prática?
1.4 E onde entra a pandas nessa história?
1.5 Projeto prático — apresentação
2 A estrutura de dados Series
2.1 Como criar Series?
2.2 Técnicas para consulta e modificação de dados
2.3 Computação vetorizada
2.4 Índices datetime
2.5 Indexação hierárquica
2.6 Projeto prático — mais detalhes
3 A estrutura de dados DataFrame
3.1 Como criar DataFrames?
3.2 Técnicas para consulta e modificação de dados
3.3 Trabalhando com arquivos
3.4 Projeto prático — importação e filtragem do dataset flags
4 Conhecendo os seus dados
4.1 Tipos de atributos
4.2 Estatísticas básicas
4.3 Ranqueamento e ordenação
4.4 Produzindo tabulações
4.5 Gráficos
4.6 Detecção de outliers
4.7 Projeto prático — estudando o dataset flags
5 Combinando DataFrames
5.1 Concatenação
5.2 Operações de conjunto
5.3 Junção
5.4 Projeto prático — combinando os datasets flags e countries
6 Transformação e limpeza de DataFrames
6.1 Seleção e projeção
6.2 Modificação de dados
6.3 Funções aplicadas sobre colunas
6.4 Discretização
6.5 Normalização
6.6 Projeto prático — transformando o dataset flags
7 Um pouco de Machine Learning
7.1 O que é classificação?
7.2 Como criar um classificador?
7.3 Como avaliar um classificador?
7.4 Biblioteca scikit-learn
7.5 Projeto prático — classificador multirrótulo

Erscheint lt. Verlag 24.1.2020
Verlagsort São Paulo
Sprache portugiesisch
Themenwelt Mathematik / Informatik Informatik Betriebssysteme / Server
Schlagworte Aprendizado de máquina • Data Science • machine learning
ISBN-10 85-7254-049-0 / 8572540490
ISBN-13 978-85-7254-049-0 / 9788572540490
Informationen gemäß Produktsicherheitsverordnung (GPSR)
Haben Sie eine Frage zum Produkt?
EPUBEPUB (Adobe DRM)

Kopierschutz: Adobe-DRM
Adobe-DRM ist ein Kopierschutz, der das eBook vor Mißbrauch schützen soll. Dabei wird das eBook bereits beim Download auf Ihre persönliche Adobe-ID autorisiert. Lesen können Sie das eBook dann nur auf den Geräten, welche ebenfalls auf Ihre Adobe-ID registriert sind.
Details zum Adobe-DRM

Dateiformat: EPUB (Electronic Publication)
EPUB ist ein offener Standard für eBooks und eignet sich besonders zur Darstellung von Belle­tristik und Sach­büchern. Der Fließ­text wird dynamisch an die Display- und Schrift­größe ange­passt. Auch für mobile Lese­geräte ist EPUB daher gut geeignet.

Systemvoraussetzungen:
PC/Mac: Mit einem PC oder Mac können Sie dieses eBook lesen. Sie benötigen eine Adobe-ID und die Software Adobe Digital Editions (kostenlos). Von der Benutzung der OverDrive Media Console raten wir Ihnen ab. Erfahrungsgemäß treten hier gehäuft Probleme mit dem Adobe DRM auf.
eReader: Dieses eBook kann mit (fast) allen eBook-Readern gelesen werden. Mit dem amazon-Kindle ist es aber nicht kompatibel.
Smartphone/Tablet: Egal ob Apple oder Android, dieses eBook können Sie lesen. Sie benötigen eine Adobe-ID sowie eine kostenlose App.
Geräteliste und zusätzliche Hinweise

Buying eBooks from abroad
For tax law reasons we can sell eBooks just within Germany and Switzerland. Regrettably we cannot fulfill eBook-orders from other countries.

Mehr entdecken
aus dem Bereich