Business Intelligence v akci
Kontaktujte nás na +420 511 116 188 nebo info@intecs.cz

Výzva vědců pohledem datového analytika

Výzva vědců pohledem datového analytika

Při pročítání dnešních novin (zejména komentáře Alexandra Mitrofanova) mne napadlo, že by bylo zajímavé se podívat na aktuální Výzvu vědců pohledem datové analytiky a zároveň demonstrovat použití PowerBI. Webové stránky výzvy nabízejí seznam všech akademiků, kteří se k výzvě připojili a také seznam všech podporovatelů z neakademické sféry.

Pro další analýzu použiji PowerBI Desktop (volně ke stažení bez registarce). Do PowerBI se pokusím načíst seznamy akademiků a podporovatelů a získat z nich nějaká zajímavá fakta. Přeskočím teď na konec a protože se mi to po několika pokusech podařilo, tady jsou výsledky.

Výstup z analýzy:
• Magisterský titul se vyskytuje 3x častěji než inženýrský (1287 : 455)
• Výzvu podepsalo 145 profesorů
• Nejčastěji zastoupená je Přírodovědecká fakulta UK
• Nejčastější instituce jsou UK, AV ČR a Masarykova univerzita
• Nejčastější jména jsou Jan (220), Petr (142) a Martin (112)
• Nejčastěji výzvu z žen podepsaly Jany (51), až na desátém místě celkově
• Nejčastěji se vyskytují tituly Ph.D. (976) a s odstupem CSc. (200)
• Existuje 5 používaných forem titulu Ph.D.
• Akademici zapsali celkem 1718 pracovišť (kateder, fakult, organizací a jejich kombinací)

VyzvaVedcu2

Jak jsem došel k těmto číslům (pozor, následuje střet s technologií)

PowerBI umí načítat obsah webových stránek a není tedy problém seznam akademiků načíst a najít v obsahu stránky datové struktury se jmény vědců. Použil jsem Chrome Developer Tools pro snadnější vizuální orientaci na stránce a pro vyhledání elementů se jmény a tituly. Zásadní (a vlastně jediný) problém nastává při zpracovávání jmen, titulů a institucí. Tvůrci webových stránek je umístili do DIVů několik SPANů pro titul před, za a jméno. Není problém načíst tato data do PowerBI, ale načtou se jako řádky a pro intuitivní práci je potřebujeme dostat do sloupců.

Jak na to?

Pro sloučení řádků je možné použít funkci PIVOT nebo GROUP. Předtím je ale nutné identifikovat titul a jméno, tvůrci stránek totiž při neexistujícím titulu před nebo po daný SPAN vynechávají, címž se rozbíjí jednotná struktura. Můj hlavní zádrhel spočíval v tom, jak vytvořit indexový sloupec v rámci jedné osoby, což vypadá jako jednoduchá věc. Po několika neúspěšných pokusech jsem to nakonec řešil přes separátní tabulku, kde pro každého vědce se poznačí nejmenší index řádku (je to krok GroupedRows pro ty, kdo si stáhnou výsledné řešení). Toto číslo pak odečítám od indexu řádku a tím dostanu vždy sekvenci 0, 1, 2, 3, … S touto fixní sekvencí již pak lze pracovat a vytvořit sloupce pro titul před, za, jméno a organizaci. Nakonec pak již stačí ručně dočistit překlepy, různé formy zápisů titulů a vytvořit sloupec s institucí, která sloučí všechny katedry a fakulty pod název univerzity. U neakademiků se pak autoři stránek výzvy rozhodli k tomu, že jméno a tituly uvedou jako jeden spojený text. Bylo by sice možné extrahovat tituly před a po od jména, ale to už bylo nad mé časové možnosti, proto u neakademiků je jediná použitelná metrika – počet.

Výsledný dashboard je fajn v tom, že si jej můžete stáhnout, kliknout na obnovit data a uvidíte aktuální počty podepsaných. Soubor s analýzou je ke stažení zde: Výzva vědců analýza.