Ako začať s údajmi

Kredit: https://www.flickr.com/photos/gleonhard/31254136671/in/photostream/

Všetci sme počuli zvukové sústo.

„Najcennejším zdrojom na svete už nie je ropa, ale údaje“ - The Economist

Možno. Ak sú však údaje podobné rope, stav údajov v mnohých organizáciách sa podobá tomuto:

Rozliatie oleja v hlbokomorskom horizonte

Do dátového oceánu sa stráca nespočet dátových tokov. Spýtajte sa akéhokoľvek vedca údajov a povedia vám, že najťažšou vecou v oblasti údajov je zachytenie správnych údajov. Ako teda začať?

1. Položte správne otázky

Zisťovanie údajov je pre neho zbytočné a časovo náročné. Potrebujeme zistiť naše metriky, ktoré by mali vychádzať z cieľov podnikania. Aké sú najpredávanejšie produkty? Kde používatelia opúšťajú viacstupňový proces? Koľko aktívnych používateľov máme? Mnohé organizácie predkladajú svojim zainteresovaným stranám metriky založené na veciach, ktoré sú schopné merať (napr. Výnosy), nie nevyhnutne to, čo najlepšie zodpovedá ich smerovaniu spoločnosti.

Keď vieme, čo sa snažíme merať, môžeme určiť, kde začať hľadať údaje a naplánovať kroky na začatie zaznamenávania príslušných údajov.

2. Poskytnite kultúru založenú na údajoch

Akonáhle sa organizácia rozrastie na určitú veľkosť, nemôže sa už viac spoliehať na „črevo“. Rozhodnutia by sa mali zakladať na údajoch a tieto údaje musia byť k dispozícii na všetkých úrovniach.

Môžu zamestnanci pristupovať k údajom a metrikám alebo sú za hranicou pätnástich úrovní bezpečnosti a byrokracie? Zamestnanci by mali byť oprávnení vykonávať prieskum údajov v súboroch údajov (ktoré by mali byť anonymizované a zabezpečené tak, aby rešpektovali súkromie). Na tento účel je ideálna platforma pre vlastné analytické služby. Táto práca musí byť otvorená a transparentná. Je nevyhnutné umiestniť prácu na palubnú dosku a zdieľať ju v rámci celej organizácie.

Organizácie musia poskytovať podporu, povzbudenie a zdroje pre tento druh práce. To znamená čas a peniaze, kultúra založená na údajoch však bude podporovať informovanejšie rozhodovanie.

3. Najímať dátových inžinierov

Je bežným nedostatkom organizácií, ktoré si najímajú vedcov údajov a nie technikov údajov. Vedci údajov sú absolútne kritickí, môžu nájsť vzorce údajov, predpovedať výsledky a písať modely, ktoré sa môžu naučiť zlepšovať samy. Výzva je, že všetko závisí od kvalitatívnych údajov. Dáta, ktoré je možné získať iba prostredníctvom veľkých dátových infraštruktúr, ETL a automatizovaných pracovných postupov. Toto je zvyčajne úloha dátového inžiniera. Dajte prácu ľuďom, ktorí sú na to kvalifikovaní, a čo je dôležitejšie, radi to robia.

4. Štart malé a lacné

Môže byť veľmi lákavé skočiť na veľký dátový humbuk, vytvoriť tím pre vedu o údajoch, zakúpiť softvér na analýzu podniku a minúť veľké množstvo peňazí s veľmi malým počtom prostriedkov, ktoré sa im ukážu. Pred vykonaním veľkej investície sa dá urobiť veľa. Tu je niekoľko nástrojov, ktoré môže organizácia použiť:

  • Analytické kódy jazyka Javascript, ako napríklad Mixpanel alebo Amplitude. Je zadarmo až pre určité množstvo používateľov mesačne.
  • Prúdenie vzduchu pre automatickú správu toku práce. Vytvoril Airbnb a inkuboval v Apache Software Foundation. Je to otvorený zdroj a de facto štandard pre dátových inžinierov.
  • Prístrojové panely, grafy a prieskum údajov pomocou programu Superset (tiež od spoločnosti Apache). Metabáza je tiež dobrou alternatívou a obe sú otvoreným zdrojom.
  • Vydanie komunity Databars a Kaggle. Obidva môžu byť použité pre procesy vedy o údajoch v cloude a zadarmo.
  • Amazon Web Services S3. Nie je to zadarmo, ale je tu zahrnuté, pretože s dnešnými technológiami nie je vždy potrebné mať dátový sklad. Úložisko je lacné a služby ako Databricks, MongoDB dátové jazero, AWS Athena znamená, že si ich môžete prečítať priamo z vášho dátového jazera.

Tieto nápady poskytnú organizácii dobrý základ na začatie zaznamenávania správnych údajov a uvedomenia si ich hodnoty.