Data Craze Weekly #2
Tę wiadomość możesz otrzymać bezpośrednio na swoją skrzynkę dzięki zapisowi na newsletter – Data Craze Weekly.
Przegląd Tygodnia
W #2 wydaniu Data Craze Weekly po przerwie zapraszam Cię do zmierza się z trudną prawdą (SQL jest królem!) oraz do sprawdzenia co nowego słychać w chumarach i odświeżenia podstaw hurtowni i przetwarzania danych.
SQL znowu królem 👑
Pamiętam dobrze moment jak na salony z buta wchodziły bazy NoSQL. „SQL is dead” latało po blogach i w internetach. Jednak ja zawsze byłem sceptyczny tym teoriom. Być może świeżutkie firmy wolą postawić na rozwiązania NoSQL (lub wolały :)) ale tam gdzie były większe $$$ tam w cieniu zawsze stał SQL.
Nie musisz znać SQL-a na wyrywki, ale w artykule szczególną uwagę zwraca fragment, że język ten je de facto standardem w większości ról. Od Frontendu, przez Backend na Machine Learning czy Analityce kończąc.
Link: https://spectrum.ieee.org/the-rise-of-sql
Co nowego w chmurze z perspektywy danych
Bartosz Konieczny, autor artykułu do którego link z przyjemnością Ci podsyłam robi świetną robotę. Przykładem jest m.in. ten cykl w którym autor skrupulatnie przechodzi przez usługi chmurowe i wymienia najświeższe aktualizacje związane z przetwarzaniem / inżynierią danych.
Jak na co dzień nie pracujemy z daną technologią to takie rzeczy będą nam umykać a czasami są to bardzo fajne perełki, np. hurtownia danych w AWS (Redshift) dostaje wersję serverless publicznie dostępną (odpada zarządzanie infrastrukturą).
Hurtownia i przetwarzanie danych od podstaw
Zastanawiasz się czym są hurtownie danych i jakich narzędzi użyć do przetwarzania danych?
Ten artykuł da Ci podstawy teoretyczne, plus możesz w praktyce stworzyć prosty przepływ danych korzystając z popularnego narzędzia jakim jest Airflow.
Minusem jest to, że narzędzia wykorzystane w artykule musisz skonfigurować samodzielnie.
Możesz zacząć od przeskanowania kodu zobacz czym jest DAG co w praktyce znaczy Scheduler a w kolejnym kroku zabrać się za konfigurację.
ETL / ELT / ETLT a może wirtualizacja danych?
Jedno z bardziej oklepanych pytań w trakcie rozmowy rekrutacyjnej na stanowisko związane z przetwarzaniem danych (Business Intelligence / Data Engineer etc.).
„Jaka jest różnica między ETL a ELT?”
Dla kogoś kto przygotowuje się do rozmowy na to stanowisko prawdopodobnie będzie to pestka. A co jak rekruter / rekruterka pójdzie o krok dalej i zada pytanie:
„Czym jest CDC / Czym jest Wirtualizacja Danych?”
W tym artykule autor przechodzi przez wszystkie podstawowe koncepcji, nie musisz szukać po X stronach w Google. Zerknij na ten wpis, zrób notatki ale przede wszystkim zrozum różnicę.
Narzędzia
remark – korzystasz często z Markdown? Masz notatki w Obsidian lub Logseq? Dlaczego nie pójść o krok dalej, dołożyć nieco HTML-a i CSS-a skopiować swoje treści notatek i otrzymać pełnoprawne gotowe slajdy do prezentacji.
Link: https://github.com/gnab/remark
A tutaj przykład: https://remarkjs.com/#1
Sprawdź Wiedzę
#SQL Znalazłem dobre na przykładzie UBER-a. Sprawdza Twoją znajomość funkcji okna (WINDOW functions) i m.in. klauzuli HAVING.
Napisz zapytanie w którym znajdziesz dla każdego użytkownika, który przynajmniej 2 razy skorzystał z UBER-a, różnicę czasu (czas pomiędzy) pierwszą i drugą podróżą.
Link: https://app.bigtechinterviews.com/challenge/68J6fB6sJ42PwUjkVxdwtR
Więcej pytań z SQL znajdziesz tutaj: SQL - Q&A
Praca
- Data Engineer – Tessian – UK / EU Remote – 40000£ – 100000£