Data Craze Weekly Newsletter #6

Tę wiadomość możesz otrzymać bezpośrednio na swoją skrzynkę dzięki zapisowi na newsletter – Data Craze Weekly.


Przegląd Tygodnia

Czym jest Modern Data Stack

Ding, ding, ding! Buzzword detected. Modern Data Stack to chyba najbardziej popularna fraza w świecie danych w ostatnim czasie. 

 

Do czego się tak na prawdę sprowadza?

 

W zasadzie do stworzenia takiej architektury i sposobu przetwarzania danych, aby zapewnić użytkownik końcowym to czego oni oczekują np. przetwarzanie w czasie prawie rzeczywistym, dobrą wydajność, dostępność danych itp.

 

Autor ciekawie przechodzi przez zdefniowane elementy Modern Data Stack, opisując ogólnie (bez narzucania wprost konkretnych narzędzi) na co warto zwrócić uwagę.

 

Jeżeli ta definicja pojawiła się w Twoim kręgu informacji, to ten artykuł pozwoli Ci sensownie poukładać wszystkie klocki związane z Modern Data Stack.

 

Link: https://medium.com/@bengoswami/how-to-build-a-morden-data-stack-378afbe04c2d

  

Aktualizacja Hurtowni Danych w AirBnB

Trochę bardziej techniczny artykuł schodzący do poziomu przechowywania danych.

 

Jakie kroki zaaplikowali inżynierowie z AirBnB aby poprawić wydajność swojej hurtownii.

 

Jeżeli ciekawią Cię m.in:

  • Apache Iceberg
  • Apache Spark 3.0
  • AQE (Adaptive Query Execution) w Spark
 

i dlaczego akurat te zmiany wpłynęło na poprawę wydajności w przypadku AirBnB (żeby nie było że są panaceum zawsze i na wszystko), to zerknij do linku poniżej.

 

A tutaj jeszcze ogólne wnioski:

Comparing the prior TEZ and Hive stack, we see more than 50% compute resource-saving and 40% job elapsed time reduction in our data ingestion framework with Spark 3 and Iceberg. 

From a usability standpoint, we made it simpler and faster to consume stored data by leveraging Iceberg’s capabilities for native schema and partition evolution.

Link: https://medium.com/airbnb-engineering/upgrading-data-warehouse-infrastructure-at-airbnb-a4e18f09b6d5

  

5 najpopularniejszych zapytań SQL

Uwaga, trochę clickbait .. 5 najpopularniejszych zapytań SQL faktycznie ale na podstawie zapytań stworzonych w narzędziu SQL Generator 5000 (o którym więcej w sekcji narzędzia).

 

Nie mniej i tak ciekawie sprawdzić co najczęściej ludzie wyklikują, a są to:

 
  • Korelacje (w SQL funkcja CORR)
  • Czyszczenie danych (w narzędziu jako CLEAN ale pod spodem jest to zbiór różnych funkcji np. COALESCE, CAST itp.)
  • JOIN 🙂
  • Tabele przestawne (PIVOT – jeżeli można z czegoś zrobić Excela to dlaczego by nie skorzystać)
  • Agregaty – czyli ogółem zbiór funkcji agregujących dane (np. MAX, SUM, COUNT)
 

Wnioski autora:

SQL Generator is more popular for automating tedious SQL rather than complex logic

SQL usage is diverse — in other words, we can’t just learn 5 things and suddenly become experts.

Wszyscy szukamy tego samego, nie ważne czy z SQL-em pracujemy miesiąc czy 10 lat 🙂 

 

Link: https://towardsdatascience.com/the-5-most-popular-sql-transforms-ca1f977ef2b2

  

Jak nadrobić 5500 godzin podcastu z pomocą AI

W jaki sposób nadrobić 5500 godzin podcastu, który dodatkowo każdego tygodnia wypuszcza kilka godzin nowego materiału?

 

Taką zagwozdkę miał autor dołączonego artykułu Enias Cailliau.

 

Z wykorzystaniem m.in. algorytmów NLP (Natural-Language-Processing), przekształcił ścieżki audio podcastu Joe Rogan, w tekst, który dalej procesował. Tworząc korelacje, czy oceniając wydźwięk (pozytywny / negatywny).

 

Jak to zrobił technicznie? Sprawdź w artykule.

 

Link: https://medium.com/steamship/im-consuming-5000-hours-of-joe-rogan-with-the-help-of-ai-9cb7cc7a4985

  

Narzędzia

SQL Generator 5000 – narzędzie, które pomoże Ci w łatwy sposób wygenerować popularne zapytania SQL, np. agregaty, tabele przestawne itp.

 

1. Tworzysz schemat danych (DDL-a z tabelką)

2. Wybierasz składnie SQL (gotową z listy)

3. Wypełniasz i klikasz Generate SQL

 
SQL Generator 5000 przykład
 

Link: https://app.rasgoml.com/sql

  

Sprawdź Wiedzę

#SQL Korzystając ze składni WITH RECURSIVE znajdź wszystkie poprzednie identyfikatory dla identyfikatora „e”. Gdzie relacja poprzedni -> nowy jest zdefiniowana następująco.

 

Tabela: derived_from, Kolumny: id_previous, id_new.

 

Wiersze:

id_previous: a, id_new: b

id_previous: g, id_new: c

id_previous: c, id_new: d

id_previous: d, id_new: e

 

ROZWIĄZANIE

 

Więcej pytań z SQL znajdziesz tutaj:

Więcej pytań z SQL znajdziesz tutaj: https://datacraze.pl/sql-bez-tajemnic-pytania-rekrutacyjne/

  

Praca

Backend Engineer (Python), SIZZLE – Remote EU / North America – 50 000 USD – 150 000 USD

 

Szukane umiejętności: Python, FastAPI, SQL, PostgreSQL, GraphQL.

  

Junior ETL Developer, GreenMinds – Fully Remote – 12 600 PLN – 14 280 PLN net/month – B2B

 

Szukane umiejętności: SQL, MSSQL / Oracle, ETL (Talend)

 

Leave a Comment

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *