Adatelemzés

Adatelemzés egyszerűen és gyorsan az alapoktól

2019-ben folytatódik az adat láz. Minden nagyobb cég már ezzel foglalkozik (évek óta), azonban mostanra kezdett el drasztikusan fejlődni a piac. Így, ha szeretnénk lépést tartani a versenytársakkal és nem mellesleg megtudni,  hogyan tudunk nyerni, akkor érdemes elkezdeni az adatelemzést. Rögtön egy gyors összegzéssel kezdjük, hogy egyben láthassuk hogyan épül fel az adatelemzés.

1. Probléma azonosításaHol rejtőzik a probléma? Milyen feladatot kell megoldanunk?
2. Adatok megismeréseMilyen részekre bonthatjuk az adatokat? Mik a főbb csoportok?
3. AdatgyűjtésKezdjük el gyűjteni a meghatározott probléma megoldására vonatkozó adatokat.
4. RendszerezésFontos, hogy az adatokat csoportosítva tároljuk.
5. TisztításHa kérdőívet vagy hasonló adatgyűjtést alkalmaztunk, valószínűleg szükségünk lesz arra, hogy az alapadatokat megtisztítsuk a nem illeszkedő adatoktól.
6. AdatelemzésKezdődhet maga az adatelemzés. Ismerjük meg az adatainkat. Milyen kapcsolat rejtőzik bennük? Milyen következtetést tudunk levonni? Készítsünk ezekről vizualizációt. Végső soron jöhet a jelentés elkészítése.
7. Data Storytelling – PrezentációKeltsük életre a jelentést és mutassuk be a kollégáknak és változtassunk.

Manapság már nem kell programozói nyelveket elsajátítanunk ahhoz, hogy könnyen elkészítsünk egy elemzést. Számos platform segítségünkre van, ahogy ezt a cikk során is majd észrevesszük.

Fontos, hogy mielőtt elkezded az adatelemzést, tisztában kell legyél az alapvető statisztikai fogalmakkal, mint pl. mi a különbség az átlag és a medián között. Természetesen az is feltétel, hogy egy diagramot értelmezni tudj.

A következő cikk segítségével belerázódhatsz az alapokba. Statisztika alapjai: https://www.komal.hu/cikkek/statszaml/statisztika.h.shtml

Azonosítsd a problémát és jelöld ki a célt

Mint az élet minden egyes területén fontos, hogy a cél kijelölésével induljunk el. Ez igaz az adatelemzésre is. Anélkül, hogy meglenne a fejünkben, vagy papíron, mi is a végcél, csak össze-vissza fogunk bámészkodni és elveszünk az adatok rengetegében. 

Elengedhetetlen, hogy a kiválasztott területről valamilyen előképzettségünk legyen. Tehát ha egyáltalán nem értünk, például az SEO területén a content gap elemzéshez, akkor ne is próbáljuk megjósolni, hogy hol tudunk elérni nagyobb eredményeket. Természetesen, ha elmélyülünk valamilyen szinten az adott témakörben, akkor már kezdhetjük is az elemzést, de sokra nem juthatunk, az alapvető tudás hiánya miatt.

Elemzés vagy predikció

Az egyik legfontosabb kérdés, amit fel kell tenned, hogy:

Szimpla elemzést szeretnék vagy predikciót is fel akarok állítani erre az adatra?

Egy gyors összegzésben: Ha szimpla elemzést választunk akkor a gyűjtött adatokból információkat jelenítünk meg, vizualizáció és szöveges összegzés segítségével. Ha viszont predikciót is szeretnénk felállítani akkor következtetéseket is levonunk az adatokból.

Ezt még elindulás előtt kell eldöntenünk, mivel látni fogjuk, hogy ez mennyire befolyásolja az egész adatelemzés menetét.

Határozzuk meg a célt

Mit szeretnénk elérni ezzel az adatelemzéssel? Több vásárlót? Megtalálni, hogy hol csökkenthetnénk a kiadásokon? Melyik bejegyzés produkál jobban? Milyen elveket kell követnünk annak érdekében, hogy növekedést érjünk el?

Állítsunk fel hipotézist

Készítsünk előzetesen kettő- vagy három előre jósolt eredményt annak érdekében, hogy legyen kiindulási alapunk.

Figyelem! Ne mindenáron próbáljuk meg ezeket megvalósítani. 

Ezeket csupán arra fogjuk használni, hogy előzetes feltevéseket készítsünk a várt eredményről.

Főbb adat csoportok

Két nagyobb csoportba rendezhetjük az adatokat. Minőségi és mennyiségi csoportokba.

Minőségi adat

Ezt a csoportot főleg az jellemzi, hogy nem számokat és rövid kifejezéseket tartalmaz, hanem főleg hosszú és nagyban eltérő szöveges információkról beszélünk. Ilyen például egy fókuszcsoport elemzése, interjúk, és szöveges kérdőívek.

Ezeknek az adatoknak a segítségével tágabb kérdésekre kaphatunk válaszokat, mint például az ügyfeleink az egyes termékeket miért preferálják jobban, mint a többit, milyen problémákkal küzdünk jelenleg, hogyan kell őket megoldani (igen, ezt is kideríthetjük az adatokból).

Mennyiségi adat

Ebben a körben számok és rövid szöveges válaszok segítségével keressük a választ. Ezt a területet fogjuk a célkeresztbe venni az adatelemzés során. Ezeket az adatokat statisztikai és matematikai modellek segítségével tudjuk átalakítani meghatározó információvá (amelyet majd egy platform számunkra automatikusan elvégez). 

Olyan kérdésekre tudunk választ kapni, mint a Mennyi, Milyen gyakran, és Milyen mértékben. Például: milyen gyakran kell bejegyzést megosztani a Facebook oldalamon?

Az adatokat legtöbb esetben kérdőívekkel és szavazásokkal szerezhetjük meg. Az abszolút győztes az esettanulmány, amely alatt egy kísérletet értünk. Egy kérdőív, vagy szavazás esetében könnyen megtörténik, hogy nem az őszinte valóságot tükrözi az eredmény. 

Az utóbbi esetben megtörténhet az, hogy teljesen mást állít az illető a kitöltés során, mint ahogy valójában van. Természetesen ez az anomália detektálással kiszűrhető, azonban így is tartalmazhatnak még fals információt az adat halmazok. Egy esettanulmány készítése közben ez nem történik meg.

A mennyiségi adatot még tovább bonthatjuk három fő csoportra.

Elsődleges adat

Ezeket az adatokat mi gyűjtjük, mi szerezzük be, mi tudjuk a hátterét. Ilyenek lehetnek az élmények, kutatások, kérdőívek, tanulmányok. Azáltal, hogy mi gyűjtjük ezeket az adatokat, teljességében ismerjük a hátterét, a célját, a történetét. Ez felruház bennünket azzal a tudással, amivel a többi adat csoport nem rendelkezik.

Másodlagos adat

A másodlagos adat alatt, az olyan fent felsorolt adatokat értjük, amelyeket nem mi gyűjtöttünk, hanem valaki más közzétett. Mivel ezt az adatot valaki más gyűjtötte, így ez nagy hátrány az előzővel szemben. Nem tudhatjuk a hátterét, célját és történetét. Ez olyan lényeges információktól foszt meg minket, ami az adatelemzés során döntő értékű lehet.

Mozaik adat

Végül jöhet a mozaik adat, amely az előző kettő kombinációja. Egyaránt tartalmaz a mi általunk gyűjtött és másodkézből származó adatot is. Nem kell mondanom, hogy ezzel a megoldással tudunk a legjobban félrelőni, ha nem tudjuk mit csinálunk.

Adatgyűjtés

Kezdjük a legegyszerűbb és könnyen elérhető formával a másodlagos adattal.

Az adatgyűjtés során könnyen áteshetünk a ló túloldalára és a saját szájunk ízére módosíthatjuk az adatokat, így a végleges eredményt teljesen eltorzítva. Ezért pl. olyan adatokat, amelyeket csak mi határozunk meg, egy amúgy független adathalmaznál, ne használjunk.

Ne használjuk olyan adatokat, amelyeket csak mi határozunk meg.

Másodlagos adat keresés

Az AnswerMiner data marketjében számos data setet találhatunk, azonban ezek főként csak bemutatásra alkalmasak, nem arra, hogy lényegi következtetéseket vonjunk le.

Talán az egyik legjobb forrás az ingyenesen elérhető https://www.data.gov/ oldal, ahol az Amerikai kormány által közzétett data seteket találjuk. Majdnem minden területet lefednek.

A következő egy gyűjtő oldal, ahol a jobbnál jobb valós adatokat gyűjtöttek össze leírásokkal és információkkal. https://datahub.io/search

A kaggle az adatosok körében jól ismert weboldal. Itt mindenki feltöltheti a saját data setjét, ha random generált, ha valóságos. A kaggle folyamatosan rendez data scientist-ek számára versenyeket, ahol a legjobb, minél átfogóbb megfejtés a nyertes. https://www.kaggle.com/datasets

Továbbiakban még ezek az oldalak lehetnek hasznosak számodra:

Számtalan lehetőség közül válogathatunk, ha szeretnél még több data set közül válogatni akkor ez a quora kérdés segíthet: Where can I find large datasets open to the public?

Elsődleges adat szerzés

Ahogy fentebb leírtam a legjobb adatszerzés az esettanulmány, azonban ehhez előre fel kell készülnünk és meghatározott struktúra alapján kell kialakítanunk a környezetet, a kérdéseket, nem mellesleg kiválasztanunk a résztvevőket. Erre egy teljesen különálló e-book-ot, cikket érdemes készíteni.

Egy kérdőív esetében, csak a jól kialakított kérdésekre kell koncentrálnunk, persze a cél meghatározása mellett.

Kérdőívek

Manapság már nem érdemes papír alapú kérdőíveket készíteni. A környezet védelme mellett, az adatok felvitele is nagy erő befektetést igényel. Ezért használjuk a következő ingyenes online megoldásokat a kérdőív létrehozására:

Legjobb online megoldások:

Ha wordpress weboldalunkhoz szeretnénk:

Ha open source megoldást keresünk akkor a LimeSurvey vagy a KoboToolbox ingyenes letölthető megoldása lesz számunkra a legjobb. Ezeknek a segítségével teljesen biztosak lehetünk abban, hogy az összes adat nálunk marad.

A könnyű rendszerezés, tisztítás és elemzés érdekében olyan kérdéseket tegyünk fel a résztvevők számára, amelyben csak előre meghatározott válaszok közül tud választani. Így terelve a kitöltőt és egyben egyszerűsítve a dolgunkat. Ilyen lehet egy legördülő lista, jelölő négyzet, vagy éppen egy skála.

Lehetőleg ne engedjük az „Egyéb” kitöltési lehetőséget!

Egyszerű egy kérdőívet összedobni, főleg azóta, hogy már vizuálisan is elkészíthetjük őket, azonban a megfelelő kérdések a legfontosabbak, amit érdemes átgondolnunk és pszichológiai leírások alapján feltennünk őket. Ezt egy másik cikkben fogjuk tárgyalni.

Google Analytics

A Google Analytics-et nem hiszem, hogy be kellene mutatnom. A platform vizualizációs képessége arra törekedik, hogy az adott információt bemutassa. Ez sok esetben elég számunkra, azonban amikor már többre lennénk kíváncsiak, vagy másfajta vizualizációra lenne szükségünk, abban az esetben elérhetjük a limitet. Ekkor egy adatelemző szoftver segítségével még több információt nyerhetünk ki az adatainkból, amit az Analytics számunkra mutat. Ez abban az esetben jöhet jól főleg, ha predikciót szeretnénk építeni az adatainkra.

Facebook

A Facebook esetében nem kapunk sok információt és chartot az adatainkról, csak éppen annyit, hogy tudjuk éppen növekedett-e a megtekintések száma vagy sem. Főleg predikció készítésére nem alkalmas a report rendszere.

Pedig ennél sokkal több mindent rejtenek az adatok.

Mit szólnál ahhoz, hogy ha megmondhatnánk, hogy éppen mennyi karaktert kell írnod egy bejegyzésbe, hogy az tetszen a követőidnek? Vagy éppen, hogy számodra melyik a legalkalmasabb időpont a megosztásra?

Természetesen ehhez már vannak globális számok, de azzal tisztában kell lennünk, hogy ezek többsége nagyobb vállalatok több százezres követő táborral rendelkező facebook oldalaikról származnak. Ezért neked nem biztos, hogy követned kell a többiek által meghatározott számokat.

Rendszerezés

Annak érdekében, hogy akár 2-3 év múlva is előkapjuk az adatokat és azonnal el tudjunk kezdeni vele dolgozni, rendszereznünk kell az adatokat.

Jegyzeteljünk, készítsünk teljeskörű leírást!

Egy-egy kérdés mivoltára nem biztos, hogy emlékezni fogunk ezért érdemes leírni, hogy miért is kérdeztük meg a kitöltőtől ezt a kérdést. Írjuk le a kérdőív történetét, miért hoztuk létre, ki a kitöltő célcsoport stb. Mi volt a cél amikor elkészítettük ezt a kérdőívet?

Tisztítás

Ha egy kérdőív során még is lehetőséget adtunk a kitöltőknek, hogy egyéb információkat is megadjanak a meghatározott mellett sok eltérés lehet a még is azonos válaszoknál. Ilyen például, ha valaki a Facebook-ot facebook-ként írja. Ez már is eltérést jelent az adatelemzés során. 

Beszélhetünk még arról is, hogy hol találtak rád. A válaszadó leírhatja azt, hogy online, az interneten, a neten, stb. Ezek a válaszok egy és ugyanazt jelentik.

Az adattisztítás során ezeket a válaszokat egy közös nevezőre hozzuk.

Mivel nem akarunk a végletekig elmenni, így a legjobb program erre nem más, mint az excel.

A keresés és csere modulja tökéletesen megfelel ennek a problémának az orvosolására. Szimplán adjuk meg a keresett szöveget, majd a csere mezőben határozzuk meg a közös értéket. Egy másik cikkben fogunk többet beszélni az adattisztítás folyamatáról, hiszen ez is külön kifejtést érdemel.

Adatelemzés

Na végre a folyamatok után bele kezdhetünk az adatelemzésbe. Most egy példa adat segítségével fogunk végig haladni a folyamaton, azonban minél kiterjedtebben, annak érdekében, hogy ezt a tudást, a már fent említett saját adataidon is alkalmazni tudd.

Ha még idáig nem lett volna egyértelmű, az AnswerMiner segítségét fogjuk kérni, hogy kielemezzük az adatainkat.

Ingyenesen tudunk regisztrálni, azonban így csak 1000 sor elemzésére van lehetőségünk, illetve a tárgyalt Facebook és Google Analytics konnektor csak a plus csomagtól érhető el (mert igen erre is van lehetőségünk). Viszont most elég olcsó áron, mindössze egy kb. Spotify előfizetés áráért tudunk előfizetni a small csomagra, amellyel már is 10.000 sorhoz jutunk hozzá és számos konnektorhoz.

Miután regisztráltunk a platformra, a következő kép fogad minket. Válasszuk ki azt a területet, ami érdekel minket és kattintsunk rá.

AnswerMiner kezdő képernyő

Az adataim

AnswerMiner tutorial kihagyása

A következőben megjelent számunkra egy tutorial, amelyet végig kattintva megismerhetjük a belső felületet angolul. Azonban a biztonság kedvéért megmutatom, hogy melyik lehetőség miért lesz számunkra fontos.

Az ikonokra húzva az egerünk megismerhetjük a belső felületet!

[devvn_ihotspot id=”11273″]

A most következő elemzési technikát az exploratory data analysis és a data analysis keverékének az összessége.

Az adatos körökben már mindenki ismeri a Titanic data set-et, amely tartalmazza a katasztrófa adatait. Ezen keresztül tökéletesen bemutatható egy szoftver, vagy platform működése, és egyben könnyen átláthatjuk az analízis folyamatát is.

Titanic dataset kiválasztása

Kattintsuk a „Sample Dataset” gombra, majd lentebb görgetve válasszuk ki a Titanic kártyát.

Titanic data set betöltődött

Már is megjelent a középső mezőben az adat. Szimplán kattintsunk a kártyára és már kezdődhet is az elemzés.

Origo

Itt ismét egy bemutatóval találkozunk angolul, amit végig kattinthatunk. De a következő képen ismét megtalálhatóak a legfontosabb információk erről a mezőről.

[devvn_ihotspot id=”11274″]

Itt találhatunk gyors információkat az adatunkról. Ez egy jó origo, hogy elkezdjük az elemzést. Fontos kiemelnem, ez arra elegendő, hogy egy átfogó képet kapjunk az adatunkról.

Ha megbarátkoztunk ezzel az oldallal, akkor következhet a táblázatos megjelenítés. A bal oldalon található gombok segítségével navigálhatunk ide.

A táblázat

Ismét az ikonokra kattintva ismerhetjük meg alaposan ezt a nézetet.

[devvn_ihotspot id=”11275″]

Tekintsük át a feltöltött adathalmazunkat, hogy megfelel-e az általunk felvitt adatoknak. Itt már statisztikai információkat kapunk az adatainkról, ilyen pl. min max és az átlag. Jelenleg itt adat módosításra nincs lehetőségünk, így, ha valamin szeretnénk változtatni, abban az esetben az Excelt kell segítségül hívnunk.

Ha már tudjuk, hogy csak egy oszlop diagramját keressük akkor az ikonra kattintva máris megtekinthetjük azt.

Összefüggések

A következőben lépjünk a „Relation Map” fülre. Ebben a nézetben az adatunkban rejlő összefüggéseket keressük. Remélem, hogy már láttad a Titanic-ot és nem kell bemutatni a történéseket. Ha nem láttad akkor itt az ideje.

[devvn_ihotspot id=”11276″]

A „Relation Map”-en eldobálva láthatjuk az oszlopainkat. Minél távolabb helyezkedik el egy oszlop a másiktól annál kisebb összefüggés található közte. Ha rávisszük az egerünket az egyik oszlop ikonjára, akkor vonalak fognak megjelenni, amik a kapcsolat erősségét szimbolizálják.

A felső képen látható, hogy ha rávisszük az egerünket a „Survived” oszlopra, akkor azonnal látható, hogy a nem és a státusszal áll erős kapcsolatban. Ezt megtehetjük a többi oszloppal is.

Ha két oszlop kapcsolatáról szeretnénk diagramot készíteni, akkor egyszerűen kattintsunk a vonalra, és már is látjuk az eredményt. Ha az ikonra kattintunk, akkor csak az adott oszlopról kapunk chart-ot, ahogy a táblázatos nézetben is már láthattuk.

Ebben a nézetben, ha kijelölünk egy oszlopot akkor a térképen csak a kijelöltek fognak megjelenni. Fontos, hogy minimum 4 darabot válasszunk ki.

[devvn_ihotspot id=”11277″]

Ezt követően átléphetünk a következő fülre. A „Relation Matrix” fülön ugyanazt a képet látjuk, mint az előzőnél, azonban most táblázatos formában. Ha valaki jobban bírja a számokat, akkor ez lesz a megfelelő. Ismét rákattintva az adott mezőre, a két oszlop kapcsolatának diagramját fogjuk kapni.

Keressük a minél erősebb kötődéseket, mert az alapján fogjuk igazán átlátni az adatainkat. Már tudjuk, hogy a Survived oszlop összefüggést mutat a nem oszloppal. Igy most már láthatjuk pontosan, hogy 55%. 

Természetesen maradjuk az észszerű keretek között. Ha valahol 100%-os összefüggést láthatunk, ahogy itt a Name oszlopnál szerepel, az pontosan azt jelenti, hogy mindenkinek van neve a felvitt adatok között, nem pedig azt, hogy a név a legnagyobb összefüggés ebben az adatban. Ezt a saját adatunkhoz illeszkedve mindig vegyük figyelembe.

[devvn_ihotspot id=”11278″]

Az utolsó fülnél pedig egymás mellé állítva láthatjuk az oszlopokat. Itt már a korreláció fajtáját is láthatjuk. Ismét rákattintva a sorra kaphatjuk ugyanazokat a diagramokat, ahogy az előző esetekben is.

Vizualizáció

Az adatvizualizáció segítségével mutathatjuk be mindenki számára a lényeges számokat az adatunkból. Ez a legkönnyebb és legérthetőbb formája annak, hogy az emberek befogadják ezt az információt. Nem mellesleg sokkal figyelemfelkeltőbb egy jól kinéző diagram, mint csak sorolni a számokat egymás után.

[devvn_ihotspot id=”11279″]

Míg a Tableau vagy egyéb adatvizualizációs szoftvernél számos beállítást el kell végeznünk, ahhoz hogy könnyen értelmezhető chartokat kapjunk, addig az AnswerMinernél az oszlopok kiválasztásával azonnal megkapjuk ezeket.

Itt már is felhasználhatjuk az elemzés elején meghatározott célunkat és összerakhatjuk az adatunkban talált kapcsolatokkal. A fentebb ismertetett folyamatoknak alkalmazásával készítsünk vizualizációt.

Ahogy már a relation map-en is észrevettük a „Survived” oszlop összefüggésben van a nem és a státusszal. A bal oldali oszlopban kiválasztva a kellő oszlopokat, a platform azonnal összerakta nekünk az összes releváns diagramot.

[devvn_ihotspot id=”11280″]

Rákattintva a chartra rögtön tovább léphetünk a diagram szerkesztő felületére. Ahogy a fenti képen látható, több lehetőségünk is van, mint pl. szerkeszteni és azonnal menteni is a chartot, ami a későbbiek során lesz jó. Azonban most kattintsunk a fehér nyílra.

[devvn_ihotspot id=”11281″]

Máris számtalan lehetőséget kapunk arra, hogy személyre szabjuk a chartot. Megváltoztathatjuk a diagram nevét vagy a színét, ahogy a feliratok nagyságát is. 

Előfizetésünktől függően lehetőségünk van az adott chart adatait letölteni egy adattáblába, így ha a számok bűvöletében élünk,könnyen felhasználhatjuk az eredményt. Ha nem kívánunk egy teljes reportot összedobni, akkor abban az esetben a chart megosztására is van lehetőségünk. Ebben a nézetben jelenleg még nincs elmentve a kiválasztott diagram, így fontos, hogy a beállítások után kattintsunk a mentés ikonra, így a későbbiekben is felhasználhatjuk vagy módosíthatjuk.

Prediction Tree – Döntési Fa

A prediction tree az egyik legjobb funkció a platformon. Ennek segítségével készíthetünk olyan döntési fát, amely megmutatja az adatunk alapján, hogy az általunk kiválasztott cél értéket, mi befolyásolja. Más szóval mi miatt alakult így a választott eredmény. Olyan kérdésekre kaphatunk választ, mint pl. melyik facebook bejegyzést szeretik az emberek (ezáltal megtudva azt, hogy merre kell változtatnunk), vagy hol tudunk spórolni a költségvetésben? A kérdések lehetősége végtelen.

[devvn_ihotspot id=”11282″]

Térjünk vissza a már kiválasztott értékünkhöz, hogy ki élte túl a Titanicot. A Target résznél – ami a cél érték – válasszuk ki a „Survived” oszlopot. A következőben a predictorokat, tehát a befolyásoló oszlopokat kell kiválasztanunk. Ha nem választunk ki egyet sem, akkor a rendszer automatikusan az összeset kijelöli számunkra. Ez abból a szempontból nem jó, hogy olyan mint a „Row number” nem érdekel minket. Ezért válasszuk ki az összes oszlopot („All cols” mező) és kezdjük el kiválogatni azokat az oszlopokat, amelyek biztos nem relevánsak a cél érték meghatározása szempontjából.

A fent látható módon ezért én kiszedtem a row number, boat és a body id oszlopokat, mivel ezek biztos nem játszottak szerepet. Ezek után már is láthatjuk a döntési fán a végeredményt.

Láthatjuk, hogy 37.62% esély volt arra, hogy túléljék az eseményt. Tovább lépve a következő dobozra láthatjuk, hogy ha nőről volt szó, akkor az esély egyből felugrott 72.45%-ra. Végső soron, ha a gazdasági státusz 3-nál nagyobb volt, tehát ha gazdag is volt akkor egyből 93.09% esély volt túlélni.

Jelenleg nincs lehetőség, hogy a prediction tree-t a platformon belül elmentsük és a későbbiekben a jelentésünkre rátegyük, azonban a mentés ikon segítségével képként lementhetjük az elkészített döntési fát.

További információkat is megtudhatunk a döntési fáról, illetve beállításon belül megadhatjuk, hogy az egész döntési fát lássuk, vagy csak azokat amelyek biztosan döntő szerepet játszottak. Megadhatjuk még azt is, hogy milyen módon számolja a platform a döntési fát.

Szűrés

A platform számos szűrési lehetőséget kínál számunkra. Ha módosításra jelenleg nincs is lehetőség a szűrési funkciót felhasználhatjuk arra, hogy egyes adatokat kizárjunk.

Lépjünk vissza az előző, adatvizualizáció felületre és kattintsunk a Filter lehetőségre.

Adatelemzés szűrési lehetőségei.

Ezután példaként válasszuk a „Boat” oszlopot és határozzuk meg hogy csak az 5-ik csónaktól érdekelnek minket az adatok.

Adatvizualizáció beállított szűrőkkel.

Máris láthatóvá válik, hogy az adatok teljesen megváltoztak.

Ha a szűrési feltételt adunk meg az adatvizualizáció, relation map, adattábla és a prediction tree füleken, akkor az mindegyik nézetre érvényes lesz. Ha az előbb látott módon rámegyünk valamelyik diagram szerkesztésére és ott használjuk a szűrési funkciót, akkor csak azon lesz érvényes a filter. Ugyanígy a report esetében is, akár az egész reportra, de akár csak egy diagramra is alkalmazhatunk szűrést a canvas fülön belül.

Jelentés

Elérkeztünk feladatunk utolsó lépéséhez. A jelentés – report elkészítéséhez. Ehhez a lépéshez egy külön oldalt kapunk a plaftormtól.

[devvn_ihotspot id=”11283″]

Nagyon egyszerű dolgunk van, egyszerűen drag&drop lehetőséggel, azaz megfogva és ráhúzva a középső területre, a végső helyére, rakhatjuk az általunk elkészített chartokat. Törekedjünk a szimmetriára. Ne pakoljuk össze-vissza a diagramokat, kihasználatlanul hagyva egy-egy kis területet. A platform megengedi, hogy olyan méretűre állítsuk be a diagramokat, amely a mi elképzeléseinknek megfelel, ezzel azonban megengedi azt is hogy túl kicsi legyen egy chart. Ügyeljünk arra, hogy olvashatóak maradjanak a feliratok, értelmezhetőek legyenek az arányok.

Könnyen hozzáadhatunk egy új képet, szöveget, feliratot a jelentésünkhöz, így akár megmagyarázva az adott diagram jelentését, vagy éppen az egész report történetét. 

Egy újabb fül hozzáadásával szétbonthatjuk különböző területekre a jelentésünket. Hogy mindenki, aki hozzájut ehhez a jelentéshez megértse a tartalmát, ajánlott egy külön fület létrehozni, amelyben a jelentésről írunk pár szót. (Honnan származik az adat, miért készült ez a jelentés stb.)

Végső soron, előfizetéstől függően elmenthetjük PDF-ként a jelentést vagy egy egyszerű link formájában megoszthatjuk azt a résztvevőkkel.

De hogyan is néz ki egy jelentés? Hát így:

Azt elfelejtettem írni, hogy természetesen beágyazható is.

Data Storytelling – Prezentáció

Könnyen megállja a helyét így is a jelentésünk egy hétfő reggeli megbeszélés során, ha fent leírtak alapján elvégezzük az elemzést. De ha azt szeretnénk, hogy holnap már az új céges autóban üljünk, akkor a data storytelling teszi fel az i-re a pontot.

Mi is az a Data Storytelling?

Egyszerűen leírva, amikor az adatot, a vizualizációt és a történet-mesélést egybegyúrjuk. 

Na ugye nem is volt nehéz.

Milyen egy hatásos data storytelling?

Ez már teljesen külön cikket érdemelne, azonban itt van néhány fontos tipp:

  • Az igazi story nem az adatról szól, vagy hogy mivel készült.
    Egy jó történet az emberekhez szól, érzelmileg megfogja őket és akár bele is képzelik magukat a mesélt történetben. (Nem mellesleg ez a legjobb módja a tanulásnak.)
  • Helyezd kontextusba a dolgot.
    Ha egyből belevágsz, hogy 5%-os árcsökkenés történt itt meg ott, mindenki csak kapkodni fogja a fejét. 
  • Ahogy az élet minden egyes területén a legfontosabb az egyensúly.
    Egyik részt sem szabad túlhúzni, elnyújtani, még a végén mindenki elalszik és persze a kevesebb néha több.
  • Mit, miért, mi a következő lépés?
    Ehhez már egy kissé többet kell kutatnunk, azonban így lesz teljes a jelentésünk. Nem elhanyagolható az sem, hogya következő lépés megválaszolásával elhozhatjuk a nézők számára az a-ha pillanatot.
  • A csattanó.
    Mindenkinek mást és mást jelent. Nem kell a csillagokat lehozni az égről. A legfontosabb legyen egy olyan pont, ahol a szálak összeérnek.
  • Mit nyerek ezzel?
    Már a legelején, meghatároztuk, hogy fontos kinek fog szólni az egész jelentés. Itt ismét előjön, mivel fontos, hogy a néző valamit kapjon az előadás végén.
  • Add magad.
    Ha másnak próbálod előadni magad, könnyen belebukhatsz és már is látni fogják rajtad a nézők, hogy te csak játszol és semmit nem tudsz az egészről.

Ezennel az adatelemzés végére értünk.

Remélem, hogy sikerült megcáfolni azt, hogy az adatelemzés szörnyűen nehéz lenne. Ahogy a fenti útmutatóból is látszik könnyen elvégezhetjük a folyamatot és már is olyan hasznos információk tudatában lehetünk, amelyekkel a jó irányba tudunk változtatni. 

A cikk egyes részeinél többször is említettem, hogy az egyes elemeket külön cikkben szükséges tárgyalni. Kérlek az alábbi szavazás kitöltésével segíts nekem, hogy melyikről szeretnél többet olvasni. Nem mellesleg, hogy szeretnél-e többet tudni az adatelemzésről.

[poll id=”2″]

Oszd meg milyen jelentést készítettél vagy tedd fel a kérdésed a komment résznél. Ha bármilyen hasznos infód lenne a többiek számára azt is szívesen várom.

Ui: A tanulás soha nem ér véget. Ennek a cikknek a célja az, hogy mindenki számára elérhető és egyszerű legyen az adatelemzés, ugyanis ahogy látható megannyi információt szűrhetünk ki egy pár perces munka után.

További olvasmányok:

http://adatlabor.hu/wp-content/uploads/2016/02/adatvezerelt_uzlet_szotar_v11.pdf – Ha az üzleti szférában akarjuk használni az adatelemzést a következő kifejezések ismerete elengedhetetlen.

Források:

https://medium.com/datadriveninvestor/the-data-science-method-dsm-a-framework-on-how-to-take-your-data-science-projects-to-the-next-91f9fd81e5d1https://medium.com/@aiden.dataminer/the-data-science-method-dsm-data-collection-organization-and-definitions-d19b6ff141c4https://www.questionpro.com/blog/qualitative-data/https://www.questionpro.com/blog/quantitative-data/https://www.answerminer.com/blog/the-importance-of-data-collectionhttps://www.answerminer.com/blog/data-collecting-methods-primary-datahttps://www.answerminer.com/blog/various-ways-to-find-datasethttps://datasmart.ash.harvard.edu/news/article/what-makes-good-data-story

Leave a Comment

Az e-mail címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük

Scroll to Top