Edycja dzienna (dwa bloki 3-dniowe i jeden 4-dniowy, średnio co 2 tyg.)

Edycja weekendowa (zaoczna) (sob-niedz., średnio co 2 tygodnie)

Warszawa

27 sierpnia - 25 września 2026

3 października - 6 grudnia 2026

Warszawa

22 października - 4 grudnia 2026

Zdalnie

27 sierpnia - 25 września 2026

3 października - 6 grudnia 2026

Zdalnie

22 października - 4 grudnia 2026

Online (English)

27 czerwca - 20 września 2026 (Sat-Sun, on average every 2 weeks)

Sposoby pracy z Pythonem okiem analityka danych
- Instalacja lokalna
  - Interpreter języka Python
  - Tworzenie i uruchamianie programów
  - Zintegrowane środowiska programistyczne (IDE)
- Konfiguracja lokalnej instalacji
  - Wirtualne środowisko (`venv`) i instalator pakietów `pip`
  - Instalacja Jupytera i dodatkowych bibliotek
- Anaconda jako alternatywny sposób instalacji lokalnej – podejście „wszystko w jednym”
  - Zarządzanie wersjami bibliotek w Anacondzie
- Środowisko Jupyter
  - Komórki i specyfika pracy interaktywnej
  - Skróty klawiszowe i inne opcje ułatwiające pracę
  - Podpowiedzi i dokumentacja
  - Używanie Markdown i Latex do tworzenia sformatowanych tekstów
- Możliwości pracy zdalnej – Google Colab i podobne usługi
  - Asystent AI Gemini
- Rzut oka na „ekosystem” bibliotek i narzędzi służących do data science w Pythonie
Podstawy języka Python
- Zmienne, wartości, typy
  - Liczby i operacje arytmetyczne
  - Napisy, w tym umieszczanie wartości w tekście za pomocą f-string
  - Wartości logiczne
- Warunki, porównania, spójniki logiczne
- Definiowanie własnych funkcji
Struktury danych języka Python
- Listy i krotki
  - Iteracja po elementach (pętla `for`)
  - Wybieranie elementów i zakresów (slicing)
- Zbiory i słowniki
- Wyrażenia generujące kolekcje (comprehensions)
- Dostęp do danych zewnętrznych: pliki tekstowe, dane JSON
- Funkcje matematyczne i statystyczne zawarte w bibliotece standardowej Pythona
Numpy – tablice i obliczenia w Pythonie
- Przyczyny używania dodatkowych bibliotek analityczno-obliczeniowych
- Wektory, macierze, tablice wielowymiarowe
  - Różne sposoby tworzenia
  - Nawigacja i wybieranie fragmentów
  - Zmiana kształtu (`reshape`) i transpozycja
- Typy liczbowe i konsekwencje wyboru typu
- Operacje na tablicach Numpy
  - Wektoryzacja
  - Zasada rozgłaszania (broadcasting)
  - Mnożenie macierzy i przykładowe zastosowania
  - Funkcje agregujące i osie
  - Rozkłady, histogramy, statystyki opisowe
- Generator liczb pseudolosowych
Pandas i „biznesowa” analiza danych
- Serie (`Series`) i tabele / „ramki danych” (`DataFrame`)
  - Indeksy i nazwy kolumn
  - Nawigacja w strukturach danych – wybieranie komórek i fragmentów
- Pozyskiwanie danych z różnych źródeł
  - Pliki CSV i Excel (odczyt i zapis)
  - Zasoby w internecie (JSON, XML, HTML)
  - Bazy danych (SQL)
- Wyszukiwanie i filtrowanie danych
  - Warunki logiczne w Pandas oraz Numpy: maski, spójniki logiczne
- Przygotowywanie i czyszczenie danych
  - Usuwanie kolumn i wierszy
  - Usuwanie duplikatów
  - Zamiana i normalizacja wartości
  - Strategie postępowania z wartościami nieokreślonymi (NaN)
    - Usuwanie wartości nieokreślonych
    - Zastępowanie domyślną lub dominującą wartością
    - Wypełnianie wartościami sąsiednimi
    - Interpolacja
  - Praca z danymi tekstowymi, w tym wykorzystanie wyrażeń regularnych (regex)
- Pionowe oraz poziome łączenie tabel (`concat`, `merge`, `join`)
- Sortowanie serii i tabel
  - Ranking i poszukiwanie najmniejszych/największych wartości
- Opisowa analiza danych
  - Gotowe funkcje do generowania podstawowych statystyk
  - Grupowanie, agregacja i obliczanie statystyk
  - Tabele przestawne (pivot table)
  - Funkcje kroczące („okienkowe”) i narastające („skumulowane”)
- Oś czasu i szeregi czasowe
  - Generowanie szeregów czasowych
  - Specyfikowanie okresów czasu
  - Agregacja okresów czasu – operacja `resample`
- Elementy analizy statystycznej
  - Seria danych jako zmienna statystyczna
  - Korelacja, mapy ciepła
Wykresy i wizualizacja danych
- Matplotlib i wykresy na podstawie danych z Pandas i Numpy
  - Różne typy wykresów
  - Opcje i ustawienia
- Generowanie wykresów bezpośrednio z Pandas
- Przegląd dodatkowych bibliotek wizualizacji danych, m.in. Seaborn, Bokeh, Plotly
Wprowadzenie do uczenia maszynowego
- Czym ogólnie jest uczenie maszynowe (machine learning, ML)?
- Podział metod uczenia maszynowego
  - Uczenie nadzorowane (supervised), nienadzorowane (unsupervised) i ze wzmocnieniem (reinforcement)
  - Czym jest zagadnienie regresji, a czym problem klasyfikacji?
- Exploratory Data Analysis (EDA), czyli eksploracja i przygotowanie danych do uczenia maszynowego
  - Rozkłady, histogramy, identyfikacja wartości odstających (outliers) i błędnych
  - Oczyszczanie zbioru danych (wartości błędne, nieokreślone, duplikaty)
  - Identyfikacja korelacji i zależności logicznych, wstępne hipotezy
  - Standaryzacja i normalizacja danych
- Proces uczenia maszynowego – elementy metodologii CRISP-ML
  - Przygotowanie zbioru uczącego i zbioru testowego z zastosowaniem EDA
  - Zbudowanie i szkolenie modelu
  - Walidacja i tuning modelu
- Wybór najwłaściwszej techniki ML w zależności od zadania
Praktyka uczenia maszynowego w Pythonie
- Biblioteka Scikit-learn
  - Transformatory, estymatory, pipeline’y
  - Przegląd dostępnych metod i operacji (w miarę poznawania kolejnych technik ML)
  - Serializacja i ponowne wykorzystywanie modeli
- Rola bibliotek pomocniczych – Numpy, Pandas
Techniki uczenia nadzorowanego
- Metody regresji
  - Regresja liniowa
  - Regresja wielomianowa
  - Obsługa danych o skali nieliniowej
  - Reprezentacja danych nieliczbowych
- Ewaluacja modeli regresji
  - Współczynnik determinacji R² oraz błędy MAE/RMSE
  - Przeuczenie modelu i metody regularyzacji
- Zastosowania regresji
  - Predykcja wartości liczbowych / ciągłych
  - Wizualizacja trendów i zależności
- Klasyfikacja
  - Decyzje binarne (prawda/fałsz) oraz klasyfikacja wieloklasowa
  - Regresja logistyczna
  - Drzewa decyzyjne – struktura, sposób tworzenia i wykorzystania
  - Metryki klasyfikacji
  - Łączenie klasyfikatorów
- Zastosowania klasyfikacji
  - Predykcja zdarzeń (wydarzy się / nie wydarzy się) na podstawie uwarunkowań
  - Przyporządkowanie rekordów do grup ze względu na ich cechy i wartości pól
Techniki uczenia nienadzorowanego
- Grupowanie danych (clustering)
- Redukcja wymiarowości i Analiza Głównych Składowych (PCA)
- Zastosowania technik nienadzorowanych
  - Ustalanie istotnych zmiennych, w tym na potrzeby uczenia nadzorowanego
  - Automatyczna detekcja anomalii, np. fraudów, awarii, ataków cybernetycznych
  - Automatyczne grupowanie, np. segmentacja klientów na podstawie historii zachowań czy pacjentów na podstawie objawów
- Czym jest uczenie ze wzmocnieniem (reinforcement learning, RL)?
- Sztuczne sieci neuronowe (ANN) – wstęp

Pobierz program kursu »

Kurs Analiza danych i ML w Pythonie

Łagodne wejście w świat programowania i ML