Data Craze Weekly #2

Tę wiadomość możesz otrzymać bezpośrednio na swoją skrzynkę dzięki zapisowi na newsletter – Data Craze Weekly.

Przegląd Tygodnia

W #2 wydaniu Data Craze Weekly po przerwie zapraszam Cię do zmierza się z trudną prawdą (SQL jest królem!) oraz do sprawdzenia co nowego słychać w chumarach i odświeżenia podstaw hurtowni i przetwarzania danych.

SQL znowu królem 👑

Pamiętam dobrze moment jak na salony z buta wchodziły bazy NoSQL. „SQL is dead” latało po blogach i w internetach. Jednak ja zawsze byłem sceptyczny tym teoriom. Być może świeżutkie firmy wolą postawić na rozwiązania NoSQL (lub wolały :)) ale tam gdzie były większe $$$ tam w cieniu zawsze stał SQL.

Nie musisz znać SQL-a na wyrywki, ale w artykule szczególną uwagę zwraca fragment, że język ten je de facto standardem w większości ról. Od Frontendu, przez Backend na Machine Learning czy Analityce kończąc.

Link: https://spectrum.ieee.org/the-rise-of-sql

Co nowego w chmurze z perspektywy danych

Bartosz Konieczny, autor artykułu do którego link z przyjemnością Ci podsyłam robi świetną robotę. Przykładem jest m.in. ten cykl w którym autor skrupulatnie przechodzi przez usługi chmurowe i wymienia najświeższe aktualizacje związane z przetwarzaniem / inżynierią danych.

Jak na co dzień nie pracujemy z daną technologią to takie rzeczy będą nam umykać a czasami są to bardzo fajne perełki, np. hurtownia danych w AWS (Redshift) dostaje wersję serverless publicznie dostępną (odpada zarządzanie infrastrukturą).

Link: https://www.waitingforcode.com/data-engineering-cloud/what-new-cloud-data-engineers-part-7-05-08-2022/read

Hurtownia i przetwarzanie danych od podstaw

Zastanawiasz się czym są hurtownie danych i jakich narzędzi użyć do przetwarzania danych?

Ten artykuł da Ci podstawy teoretyczne, plus możesz w praktyce stworzyć prosty przepływ danych korzystając z popularnego narzędzia jakim jest Airflow.

Minusem jest to, że narzędzia wykorzystane w artykule musisz skonfigurować samodzielnie.

Możesz zacząć od przeskanowania kodu zobacz czym jest DAG co w praktyce znaczy Scheduler a w kolejnym kroku zabrać się za konfigurację.

Link: https://medium.com/@devparmar967/a-quick-guide-for-building-datawarehouse-and-etl-pipelines-with-airflow-19cce17017bd

ETL / ELT / ETLT a może wirtualizacja danych?

Jedno z bardziej oklepanych pytań w trakcie rozmowy rekrutacyjnej na stanowisko związane z przetwarzaniem danych (Business Intelligence / Data Engineer etc.).

„Jaka jest różnica między ETL a ELT?”

Dla kogoś kto przygotowuje się do rozmowy na to stanowisko prawdopodobnie będzie to pestka. A co jak rekruter / rekruterka pójdzie o krok dalej i zada pytanie:

„Czym jest CDC / Czym jest Wirtualizacja Danych?”

W tym artykule autor przechodzi przez wszystkie podstawowe koncepcji, nie musisz szukać po X stronach w Google. Zerknij na ten wpis, zrób notatki ale przede wszystkim zrozum różnicę.

Link: https://medium.com/codex/data-pipeline-architecture-variety-of-ways-you-can-build-your-data-pipeline-66b3dd456df1

Narzędzia

remark – korzystasz często z Markdown? Masz notatki w Obsidian lub Logseq? Dlaczego nie pójść o krok dalej, dołożyć nieco HTML-a i CSS-a skopiować swoje treści notatek i otrzymać pełnoprawne gotowe slajdy do prezentacji.

Link: https://github.com/gnab/remark

A tutaj przykład: https://remarkjs.com/#1

Sprawdź Wiedzę

#SQL Znalazłem dobre na przykładzie UBER-a. Sprawdza Twoją znajomość funkcji okna (WINDOW functions) i m.in. klauzuli HAVING.

Napisz zapytanie w którym znajdziesz dla każdego użytkownika, który przynajmniej 2 razy skorzystał z UBER-a, różnicę czasu (czas pomiędzy) pierwszą i drugą podróżą.

Link: https://app.bigtechinterviews.com/challenge/68J6fB6sJ42PwUjkVxdwtR

Więcej pytań z SQL znajdziesz tutaj: SQL - Q&A

Praca

Data Engineer – Tessian – UK / EU Remote – 40000£ – 100000£