Data Craze Weekly #2

Tę wiadomość możesz otrzymać bezpośrednio na swoją skrzynkę dzięki zapisowi na newsletter – Data Craze Weekly.

Data Craze Weekly

Cotygodniowa porcja wartościowych informacji ze świata danych!
Inżynieria danych, analityka, how-to prosto do Twojej skrzynki.

    Zero spamu, 100% wartości.


    Administratorem danych osobowych niezbędnych w procesie przetwarzania, w tym podanych powyżej, jest Data Craze - Krzysztof Bury, ul. Piaski 50, 30-199 Rząska, NIP: 7922121365. Zapisując się na newsletter wyrażasz zgodę na przetwarzanie swoich danych osobowych (imię, e-mail) w ramach działań DataCraze.


    Formularz jest chroniony przez reCAPTCHA od Google Polityka Prywatności i Regulamin usługi.

    Przegląd Tygodnia

    W #2 wydaniu Data Craze Weekly po przerwie zapraszam Cię do zmierza się z trudną prawdą (SQL jest królem!) oraz do sprawdzenia co nowego słychać w chumarach i odświeżenia podstaw hurtowni i przetwarzania danych.

    SQL znowu królem 👑

    Pamiętam dobrze moment jak na salony z buta wchodziły bazy NoSQL. „SQL is dead” latało po blogach i w internetach. Jednak ja zawsze byłem sceptyczny tym teoriom. Być może świeżutkie firmy wolą postawić na rozwiązania NoSQL (lub wolały :)) ale tam gdzie były większe $$$ tam w cieniu zawsze stał SQL.

    Nie musisz znać SQL-a na wyrywki, ale w artykule szczególną uwagę zwraca fragment, że język ten je de facto standardem w większości ról. Od Frontendu, przez Backend na Machine Learning czy Analityce kończąc.

    Link: https://spectrum.ieee.org/the-rise-of-sql

    Co nowego w chmurze z perspektywy danych

    Bartosz Konieczny, autor artykułu do którego link z przyjemnością Ci podsyłam robi świetną robotę. Przykładem jest m.in. ten cykl w którym autor skrupulatnie przechodzi przez usługi chmurowe i wymienia najświeższe aktualizacje związane z przetwarzaniem / inżynierią danych.

    Jak na co dzień nie pracujemy z daną technologią to takie rzeczy będą nam umykać a czasami są to bardzo fajne perełki, np. hurtownia danych w AWS (Redshift) dostaje wersję serverless publicznie dostępną (odpada zarządzanie infrastrukturą).

    Link: https://www.waitingforcode.com/data-engineering-cloud/what-new-cloud-data-engineers-part-7-05-08-2022/read

    Hurtownia i przetwarzanie danych od podstaw

    Zastanawiasz się czym są hurtownie danych i jakich narzędzi użyć do przetwarzania danych?

    Ten artykuł da Ci podstawy teoretyczne, plus możesz w praktyce stworzyć prosty przepływ danych korzystając z popularnego narzędzia jakim jest Airflow.

    Minusem jest to, że narzędzia wykorzystane w artykule musisz skonfigurować samodzielnie.

    Możesz zacząć od przeskanowania kodu zobacz czym jest DAG co w praktyce znaczy Scheduler a w kolejnym kroku zabrać się za konfigurację.

    Link: https://medium.com/@devparmar967/a-quick-guide-for-building-datawarehouse-and-etl-pipelines-with-airflow-19cce17017bd

    ETL / ELT / ETLT a może wirtualizacja danych?

    Jedno z bardziej oklepanych pytań w trakcie rozmowy rekrutacyjnej na stanowisko związane z przetwarzaniem danych (Business Intelligence / Data Engineer etc.).

    „Jaka jest różnica między ETL a ELT?”

    Dla kogoś kto przygotowuje się do rozmowy na to stanowisko prawdopodobnie będzie to pestka. A co jak rekruter / rekruterka pójdzie o krok dalej i zada pytanie:

    „Czym jest CDC / Czym jest Wirtualizacja Danych?”

    W tym artykule autor przechodzi przez wszystkie podstawowe koncepcji, nie musisz szukać po X stronach w Google. Zerknij na ten wpis, zrób notatki ale przede wszystkim zrozum różnicę.

    Link: https://medium.com/codex/data-pipeline-architecture-variety-of-ways-you-can-build-your-data-pipeline-66b3dd456df1

    Narzędzia

    remark – korzystasz często z Markdown? Masz notatki w Obsidian lub Logseq? Dlaczego nie pójść o krok dalej, dołożyć nieco HTML-a i CSS-a skopiować swoje treści notatek i otrzymać pełnoprawne gotowe slajdy do prezentacji.

    Link: https://github.com/gnab/remark

    A tutaj przykład: https://remarkjs.com/#1

    Sprawdź Wiedzę

    #SQL Znalazłem dobre na przykładzie UBER-a. Sprawdza Twoją znajomość funkcji okna (WINDOW functions) i m.in. klauzuli HAVING.

    Napisz zapytanie w którym znajdziesz dla każdego użytkownika, który przynajmniej 2 razy skorzystał z UBER-a, różnicę czasu (czas pomiędzy) pierwszą i drugą podróżą.

    Link: https://app.bigtechinterviews.com/challenge/68J6fB6sJ42PwUjkVxdwtR

    Więcej pytań z SQL znajdziesz tutaj: SQL - Q&A

    Praca