Data Craze Weekly #7
Tę wiadomość możesz otrzymać bezpośrednio na swoją skrzynkę dzięki zapisowi na newsletter – Data Craze Weekly.
Przegląd Tygodnia
Błędy Danych W Wielkim Świecie
Często słyszymy o ciekawych produktach, sprytnych algorytmach i … wielkich zarobkach w dużych firmach technologicznych.
To co rzadziej do nas dociera to problemy z jakimi się borykają, a są one (podobnie jak skala firmy) często spore.
Dlatego tym bardziej warto poczytać z jakimi bugami mierzą się „wielcy” tego świata.
Ten przypadek z LinkedIn-a pokazuje skalę:
Back in October 2018, we had an instance at LinkedIn when data quality problems affected the job recommendations platform. Client job views and usage decreased by 40 to 60% for a short period of time. Once this decline in views was detected, it took a total of 5 engineers 8 days to identify the root cause and 11 days to resolve the issue.
Link: https://medium.com/@kylejameskirwan/real-oh-damn-moments-from-data-engineers-d900f1961c14
Więcej o kontraktach
O tym czym są kontrakty w świecie danych pisałem już w jednej z poprzednich edycji newslettera.
W skrócie jest to nic innego jak umowa pomiędzy zespołami (zwykle Frontend – Backend (Data)) nt. sposobu (schematu) przesyłania danych / rezultatów.
Tym razem chciałbym wrócić do tego tematu z przykładem z firmy GoCardless.
W artykule nie jest najistotniejsze kwestie techniczne, bo one będą specyficzne dla samej firmy (GoCardless).
Ważniejsze jest co udało się dzięki temu osiągnąć.
It has allowed us to build what we refer to as our contract-driven data infrastructure, where from a Data Contract we can deploy all the tooling and services required to generate, manage and consume that data.
Chociaż sam koncept nie jest nowy, to w świecie danych będziemy o tym słyszeć coraz więcej.
Jakość danych jest (zawsze była) kluczowa i każdy element SDLC (Software Development Lifecycle), który może pomóc w utrzymaniu jej na jak najwyższym poziomie będzie chętnie wykorzystywany.
Link: https://medium.com/gocardless-tech/implementing-data-contracts-at-gocardless-3b5c49074d13
Wizualizacje danych – więcej niż bar chart
Parę lat wstecz sporo czasu w mojej codziennej pracy poświęcalem wizualizacjom danych.
Dzięki świetnym narzędziom nie musiałem ich tworzyć od zera.
Moim zadaniem było jak najlepsze dopasowanie wizualizacji do historii, którą dane opowiadały … a na koniec dnia i tak wszystko kończyło w Excelu 😀
Jednak to co mnie zawsze fascynowała to praca osób, które wynosiły wizualizacje na inny, wielokrotnie wyższy poziom.
Jeżeli pracujesz na co dzień z danymi, jednym z Twoich zadań jest ich wizualizacja, pozwól się zainspirować.
Link: https://nightingaledvs.com/five-inspiring-data-visualization-galleries/
Narzędzia
Pluralith – visualize terraform infrastructure, directly from your codebase completely automated.
Używasz w swojej firmie / projekcie Terraform-a do budowania infrastruktury?
To narzędzie świetnie się sprawdzi to jej wizualizacji. Pokaże jak elementy są ze sobą połączone, a to wszystko bez większych problemów i dodatkowego nakładu pracy.
Jest opcja płatna i całkwoicie darmowa.
Link: https://www.pluralith.com
Sprawdź Wiedzę
#SQL
Stwórz, dwa równoważne (w kontekście zbiorów wynikowych) zapytania. Zapytania powinny być złączeniem danych sprzedażowych (tabela SALES) i danych o produktach (tabela PRODUCTS) (po kluczu złączenia PRODUCT_ID).
ROZWIĄZANIE: https://www.db-fiddle.com/f/3AqtpSy5NX8mUNC2BGoS53/0
Więcej pytań z SQL-a znajdziesz SQL - Q&A
Praca
- Principal Data Architect, APPSBROKER – London, Swindon, Remote, Romania – £80,000 – £100,000 (B2B / Yearly)
Szukane umiejętności: GCP / AWS, ETL Tools (ex. Matillion), Data Architecture, SQL, RDBMS, Python
- Database Developer, PCMI – Kraków, Remote (Hybrid) – PLN 10,500 – PLN 14,500 (B2B / Monthly)
Szukane umiejętności: MS SQL Server, SSRS, SSIS, SQL