Расширенный анализ данных в PySpark. Методы
- Артикул:
- 15992756992
- Страна: Польша
- Доставка: от 990 ₽
- Срок доставки: 12-20 дней
- В наличии: 3
- Оценка: 5
- Отзывов: 7
Характеристики
- Identyfikator produktu
- 15992756992
- Stan
- Nowy
- Język publikacji
- polski
- Tytuł
- Zaawansowana analiza danych w PySpark. Metody przetwarzania informacji na szerok skal z wykorzystaniem Pythona i systemu Spark
- Autor
- Akash Tandon
- Nośnik
- książka papierowa
- Okładka
- miękka
- Rok wydania
- 2023
- Wydawnictwo
- Helion
- Liczba stron
- 192
- Numer wydania
- 1
- Szerokość produktu
- 16.5 cm
- Wysokość produktu
- 23.5 cm
Описание
Zaawansowana analiza danych w PySpark. Metody przetwarzania informacji na szeroką skalę z wykorzystaniem Pythona i systemu Spark
Akash Tandon, Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills
Potrzeby w zakresie analizy dużych zbiorów danych i wyciągania z nich użytecznych informacji stale rosną. Spośród dostępnych narzędzi przeznaczonych do tych zastosowań szczególnie przydatny jest PySpark - interfejs API systemu Spark dla języka Python. Apache Spark świetnie się nadaje do analizy dużych zbiorów danych, a PySpark skutecznie ułatwia integrację Sparka ze specjalistycznymi narzędziami PyData. By jednak można było w pełni skorzystać z tych możliwości, konieczne jest zrozumienie interakcji między algorytmami, zbiorami danych i wzorcami używanymi w analizie danych.
Oto praktyczny przewodnik po wersji 3.0 systemu Spark, metodach statystycznych i rzeczywistych zbiorach danych. Omówiono w nim zasady rozwiązywania problemów analitycznych za pomocą interfejsu PySpark, z wykorzystaniem dobrych praktyk programowania w systemie Spark. Po lekturze można bezproblemowo zagłębić się we wzorce analityczne oparte na popularnych technikach przetwarzania danych, takich jak klasyfikacja, grupowanie, filtrowanie i wykrywanie anomalii, stosowane w genomice, bezpieczeństwie systemów IT i finansach. Dodatkowym plusem są opisy wykorzystania przetwarzania obrazów i języka naturalnego. Zaletą jest też szereg rzeczywistych przykładów dużych zbiorów danych i ich zaawansowanej analizy.
Dzięki książce poznasz:
- model programowania w ekosystemie Spark
- podstawowe metody stosowane w nauce o danych
- pełne implementacje analiz dużych publicznych zbiorów danych
- konkretne przypadki użycia narzędzi uczenia maszynowego
- kod, który łatwo dostosujesz do swoich potrzeb
PySpark: systemowa odpowiedź na problemy inżyniera danych!
O autorze:
Akash Tandon jest inżynierem danych i przedsiębiorcą, a także współzałożycielem i dyrektorem technicznym firmy Looppanel.
Sandy Ryza jest starszym analitykiem w Cloudera i aktywnym uczestnikiem projektu Apache Spark.
Uri Laserson jest starszym analitykiem w Cloudera, gdzie pracuje nad językiem Python w środowisku Hadoop.
Sean Owen jest dyrektorem działu analiz danych na region EMEA w Cloudera i uczestnikiem projektu Apache Spark.
Josh Wills jest starszym menedżerem działu analiz danych w Cloudera i inicjatorem pakietu Apache Crunch.
Spis treści:
Słowo wstępne
1. Analiza wielkich zbiorów danych
- Praca z wielkimi zbiorami danych
- Przedstawiamy Apache Spark i PySpark
Komponenty
PySpark
Ekosystem
- Spark 3.0
- PySpark i wyzwania w nauce o danych
- O czym jest ta książka
2. Wprowadzenie do analizy danych za pomocą PySpark
- Architektura systemu Spark
- Instalacja interfejsu PySpark
- Przygotowanie danych
- Analiza danych za pomocą struktury DataFrame
- Szybkie statystyki zbiorcze w strukturze DataFrame
- Przestawienie i przekształcenie struktury DataFrame
- Złączenie struktur DataFrame i wybór cech
- Ocena modelu
- Dalsze kroki
3. Rekomendowanie muzyki i dane Audioscrobbler
- Zbiór danych
- Wymagania dla systemu rekomendacyjnego
- Algorytm naprzemiennych najmniejszych kwadratów
- Przygotowanie danych
- Utworzenie pierwszego modelu
- Wyrywkowe sprawdzanie rekomendacji
- Ocena jakości rekomendacji
- Obliczenie wskaźnika AUC
- Dobór wartości hiperparametrów
- Przygotowanie rekomendacji
- Dalsze kroki
4. Prognozowanie zalesienia za pomocą drzewa decyzyjnego
- Drzewa i lasy decyzyjne
- Przygotowanie danych
- Pierwsze drzewo decyzyjne
- Hiperparametry drzewa decyzyjnego
- Regulacja drzewa decyzyjnego
- Weryfikacja cech kategorialnych
- Losowy las decyzyjny
- Prognozowanie
- Dalsze kroki
5. Wykrywanie anomalii w ruchu sieciowym metodą grupowania edług k-średnich
- Grupowanie według k-średnich
- Wykrywanie anomalii w ruchu sieciowym
Dane KDD Cup 1999
- Pierwsza próba grupowania
- Dobór wartości k
- Wizualizacja w środowisku R
- Normalizacja cech
- Zmienne kategorialne
- Wykorzystanie etykiet i wskaźnika entropii
- Grupowanie w akcji
- Dalsze kroki
6. Wikipedia, algorytmy LDA i Spark NLP
- Algorytm LDA
Algorytm LDA w interfejsie PySpark
- Pobranie danych
- Spark NLP
Przygotowanie środowiska
- Przekształcenie danych
- Przygotowanie danych za pomocą biblioteki Spark NLP
- Metoda TF-IDF
- Wyliczenie wskaźników TF-IDF
- Utworzenie modelu LDA
- Dalsze kroki
7. Geoprzestrzenna i temporalna analiza tras nowojorskich taksówek
- Przygotowanie danych
Konwersja ciągów znaków na znaczniki czasu
Obsługa błędnych rekordów danych
- Analiza danych geoprzestrzennych
Wprowadzenie do formatu GeoJSON
Biblioteka GeoPandas
- Sesjonowanie w interfejsie PySpark
Budowanie sesji - dodatkowe sortowanie danych w systemie Spark
- Dalsze kroki
8. Szacowanie ryzyka finansowego
- Terminologia
- Metody obliczania wskaźnika VaR
Wariancja-kowariancja
Symulacja historyczna
Symulacja Monte Carlo
- Nasz model
- Pobranie danych
- Przygotowanie danych
- Określenie wag czynników
- Losowanie prób
Wielowymiarowy rozkład normalny
- Wykonanie testów
- Wizualizacja rozkładu zwrotów
- Dalsze kroki
9. Analiza danych genomicznych i projekt BDG
- Rozdzielenie sposobów zapisu i modelowania danych
- Przygotowanie pakietu ADAM
- Przetwarzanie danych genomicznych za pomocą pakietu ADAM
Konwersja formatów plików za pomocą poleceń pakietu ADAM
Pozyskanie danych genomicznych przy użyciu interfejsu PySpark i pakietu ADAM
- Prognozowanie miejsc wiązania czynnika transkrypcyjnego na podstawie danych ENCODE
- Dalsze kroki
10. Określanie podobieństwa obrazów za pomocą głębokiego uczenia i algorytmu PySpark LSH
- PyTorch
Instalacja
- Przygotowanie danych
Skalowanie obrazów za pomocą PyTorch
- Wektoryzacja obrazów za pomocą modelu głębokiego uczenia
Osadzenie obrazów
Import osadzeń obrazów do pakietu PySpark
- Określanie podobieństwa obrazów za pomocą algorytmu PySpark LSH
Wyszukiwanie najbliższych sąsiadów
- Dalsze kroki
11. Zarządzanie cyklem uczenia maszynowego za pomocą platformy MLflow
- Cykl uczenia maszynowego
- Platforma MLflow
- Śledzenie eksperymentów
- Zarządzanie modelami uczenia maszynowego i udostępnianie ich
- Tworzenie i stosowanie projektów za pomocą modułu MLflow Projects
- Dalsze kroki
Стоимость доставки приблизительная. Точная стоимость доставки указывается после обработки заказа менеджером.