Data Craze Weekly #5

Tę wiadomość możesz otrzymać bezpośrednio na swoją skrzynkę dzięki zapisowi na newsletter – Data Craze Weekly.

Data Craze Weekly

Cotygodniowa porcja wartościowych informacji ze świata danych!
Inżynieria danych, analityka, how-to prosto do Twojej skrzynki.

    Zero spamu, 100% wartości.


    Administratorem danych osobowych niezbędnych w procesie przetwarzania, w tym podanych powyżej, jest Data Craze - Krzysztof Bury, ul. Piaski 50, 30-199 Rząska, NIP: 7922121365. Zapisując się na newsletter wyrażasz zgodę na przetwarzanie swoich danych osobowych (imię, e-mail) w ramach działań DataCraze.


    Formularz jest chroniony przez reCAPTCHA od Google Polityka Prywatności i Regulamin usługi.

    Przegląd Tygodnia

    Optymalizacja PostgreSQL

    Slajdy które są w linku, zostały stworzone w 2017 trafiłem na nie przypadkiem w poprzednim tygodniu.

    Są tak solidne (i dalej aktualne) , że nie mogłem się nimi z Tobą nie podzielić.

    Autor skupia się na pokazaniu w jaki sposób, można zoptymalizować zapytania SQL, dość częste i trywialne mogłoby się wydawać, ale niestety kosztujące nas (przynajmniej w PostgreSQL) sporo mocy obliczeniowej i czasu.

    Nie korzystasz z PostgreSQL? Nic nie szkodzi, sprawdź zapytania i zobacz czy nie mają zastosowania również w Twoim silniku bazodanowym.

    Slajdy od 38, nt. DISTINCT wgniotły mnie w fotel.

    I jeszcze lekki cytat od autora:


    – Efficient execution of some popular queries requires the implementation of the alternative procedural algorithm
    – Implementation of custom algorithms is usually easier when using PL/PgSQL
    – The same algorithm implemented on SQL runs faster
    Process:
    – Implement and debug algorithm on PL/PgSQL
    – Convert to SQL

    Link: https://www.slideshare.net/pgdayasia/how-to-teach-an-elephant-to-rocknroll

    Czym jest Kafka i czy jej potrzebujesz

    Świetny artykuł jak stoisz przed wyborem wykorzytania Apache Kafka.

    Czym jest to narzędzie (technologia), kiedy warto z niej skorzystać, kiedy lepiej się wstrzymać.

    Poniżej krótki cytat z sekcji Conclusion ale naprawdę warto przeczytać całość.

    Kafka is a highly scalable and durable message processing platform with great real-time data processing features. It will be a good fit in use cases like IoT, Click Stream Analytics, Real-Time Data Integration, Event Sourcing, Log Aggregation, etc. But it is not a solution that can be used in any data processing requirement. Kafka should not be used as an ETL tool or as a database even though its feature set may seem similar.

    Link: https://memphis.dev/blog/apache-kafka-use-cases-when-to-use-it-when-not-to/

    PDF podzielony na części tematyczne. Każda część zakończona rekomendacjami.

    Warte przejrzenia chociażby z perspektywy kierunków w którym podążają duże firmy.

    Dwa cytaty poniżej:

    Companies that are developing AI will increasingly spin up their own Ethics as a Service (EaaS) offerings within their professional service organizations. We will see a race to hire AI ethicists to become compliant with the new regulations, making AI ethicists in even greater demand than AI developers.
    — KATHY BAXTER, PRINCIPAL ARCHITECT, SALESFORCE ETHICAL AI PRACTICE

    Data quality and data-driven decision-making go hand in hand. An organization-wide commitment to data governance mitigates risk and drives future success for everyone in the business.
    —SCOTT TEAL, PRODUCT MARKETING MANAGER, SNOWFLAKE

    Link: https://www.tableau.com/sites/default/files/2022-02/Data_Trends_2022.pdf

    Narzędzia

    TablePlus - “a native application which helps you easily edit database contents and structure in a clean, fluent manner.”

    Korzystasz z jakiegoś IDE do pracy z bazą danych np. DBeaver? Może warto przetestować coś innego?

    Jeżeli tak to na ratunek przychodzi TablePlus. „Ładne” (kwestia gustu) teoretycznie natywne (wspierające natywnie konkretne bazy danych) narzędzie.

    W teorii można korzystać za darmo (przynajmniej tak twierdzi repozytorium) w praktyce darmowe korzystanie mocno ogranicza narzędzie:

    The free trial is limited to 2 opened tabs, 2 opened windows, 2 advanced filters (filters are not available on the free TablePlus Windows) at a time. We can change the limitations without any notifications in the future releases.

    Jako alternatywa do np. Data Gripa, warte rozważenia.

    Link: https://github.com/TablePlus/TablePlus

    Sprawdź Wiedzę

    #SQL

    Dzisiaj bez zadania, ale bardzo Cię proszę otwórz slajdy z pierwszego linku.

    TUTAJ (dla przypomnienia)

    Zerknij na przykład 02 „IOS for large data offsets”.

    Najczęsciej spotykana paginacja na stronach internetowych OFFSET + LIMIT.

    Poczytaj jakie może mieć konsekwencje przy dużym offsecie. Sprawdź czy takie sytuacje są u Ciebie.

    Więcej pytań z SQL znajdziesz: SQL - Q&A

    Praca

    Szukane umiejętności: SQL, Python, Spark