Data Craze Weekly #7

Tę wiadomość możesz otrzymać bezpośrednio na swoją skrzynkę dzięki zapisowi na newsletter – Data Craze Weekly.

Data Craze Weekly

Cotygodniowa porcja wartościowych informacji ze świata danych!
Inżynieria danych, analityka, how-to prosto do Twojej skrzynki.

    Zero spamu, 100% wartości.


    Administratorem danych osobowych niezbędnych w procesie przetwarzania, w tym podanych powyżej, jest Data Craze - Krzysztof Bury, ul. Piaski 50, 30-199 Rząska, NIP: 7922121365. Zapisując się na newsletter wyrażasz zgodę na przetwarzanie swoich danych osobowych (imię, e-mail) w ramach działań DataCraze.


    Formularz jest chroniony przez reCAPTCHA od Google Polityka Prywatności i Regulamin usługi.

    Przegląd Tygodnia

    Błędy Danych W Wielkim Świecie

    Często słyszymy o ciekawych produktach, sprytnych algorytmach i … wielkich zarobkach w dużych firmach technologicznych.

    To co rzadziej do nas dociera to problemy z jakimi się borykają, a są one (podobnie jak skala firmy) często spore.

    Dlatego tym bardziej warto poczytać z jakimi bugami mierzą się „wielcy” tego świata.

    Ten przypadek z LinkedIn-a pokazuje skalę:

    Back in October 2018, we had an instance at LinkedIn when data quality problems affected the job recommendations platform. Client job views and usage decreased by 40 to 60% for a short period of time. Once this decline in views was detected, it took a total of 5 engineers 8 days to identify the root cause and 11 days to resolve the issue.

    Link: https://medium.com/@kylejameskirwan/real-oh-damn-moments-from-data-engineers-d900f1961c14

    Więcej o kontraktach

    O tym czym są kontrakty w świecie danych pisałem już w jednej z poprzednich edycji newslettera.

    W skrócie jest to nic innego jak umowa pomiędzy zespołami (zwykle Frontend – Backend (Data)) nt. sposobu (schematu) przesyłania danych / rezultatów.

    Tym razem chciałbym wrócić do tego tematu z przykładem z firmy GoCardless.

    W artykule nie jest najistotniejsze kwestie techniczne, bo one będą specyficzne dla samej firmy (GoCardless).

    Ważniejsze jest co udało się dzięki temu osiągnąć.

    It has allowed us to build what we refer to as our contract-driven data infrastructure, where from a Data Contract we can deploy all the tooling and services required to generate, manage and consume that data.

    Chociaż sam koncept nie jest nowy, to w świecie danych będziemy o tym słyszeć coraz więcej.

    Jakość danych jest (zawsze była) kluczowa i każdy element SDLC (Software Development Lifecycle), który może pomóc w utrzymaniu jej na jak najwyższym poziomie będzie chętnie wykorzystywany.

    Link: https://medium.com/gocardless-tech/implementing-data-contracts-at-gocardless-3b5c49074d13

    Wizualizacje danych – więcej niż bar chart

    Parę lat wstecz sporo czasu w mojej codziennej pracy poświęcalem wizualizacjom danych.

    Dzięki świetnym narzędziom nie musiałem ich tworzyć od zera.

    Moim zadaniem było jak najlepsze dopasowanie wizualizacji do historii, którą dane opowiadały … a na koniec dnia i tak wszystko kończyło w Excelu 😀

    Jednak to co mnie zawsze fascynowała to praca osób, które wynosiły wizualizacje na inny, wielokrotnie wyższy poziom.

    Jeżeli pracujesz na co dzień z danymi, jednym z Twoich zadań jest ich wizualizacja, pozwól się zainspirować.

    Link: https://nightingaledvs.com/five-inspiring-data-visualization-galleries/

    Narzędzia

    Pluralith – visualize terraform infrastructure, directly from your codebase completely automated.

    Używasz w swojej firmie / projekcie Terraform-a do budowania infrastruktury?

    To narzędzie świetnie się sprawdzi to jej wizualizacji. Pokaże jak elementy są ze sobą połączone, a to wszystko bez większych problemów i dodatkowego nakładu pracy.

    Jest opcja płatna i całkwoicie darmowa.

    Link: https://www.pluralith.com

    Sprawdź Wiedzę

    #SQL

    Stwórz, dwa równoważne (w kontekście zbiorów wynikowych) zapytania. Zapytania powinny być złączeniem danych sprzedażowych (tabela SALES) i danych o produktach (tabela PRODUCTS) (po kluczu złączenia PRODUCT_ID).

    ROZWIĄZANIE: https://www.db-fiddle.com/f/3AqtpSy5NX8mUNC2BGoS53/0

    Więcej pytań z SQL-a znajdziesz SQL - Q&A

    Praca

    Szukane umiejętności: GCP / AWS, ETL Tools (ex. Matillion), Data Architecture, SQL, RDBMS, Python

    Szukane umiejętności: MS SQL Server, SSRS, SSIS, SQL