Detalji implementacije
Multi klijentska, skalabilna i visoko dostupna lokalna podatkovna platforma u državnom sektoru.
Pregled
Dizajn i podizanje robusne, lokalne podatkovne platforme koja podržava multi klijentsku arhitekturu, skalabilnost i visoku dostupnost.
Ključne komponente
Talend Data Management platforma – za integraciju i kvalitetu podataka.
Talend Data Catalog platforma – za upravljanje metapodacima, otkrivanje podataka i njihove povezanosti.
VMware Greenplum MPP Database – za masovno paralelno procesiranje podataka.
Ishod
Glatka integracija u kompleksno IT okruženje državnog sektora, popraćena opsežnom validacijom performansi i funkcija pomoću raznolikih scenarija uporabe i projekata s podacima.
Detalji implementacije: Integracija i kvaliteta podataka
Klijent je odabrao Talend Data Management platformu koja uključuje slijedeće mogućnosti:
Alati za dizajn i produktivnost (Studio)
Talend Studio je softver koji, nakon što se preuzme i instalira, se koristi za kreiranje i testiranje Job-ova. Talend Studio uključuje:
- Kontrolu i orkestraciju toka podataka i integraciju podataka s glavnim Job-ovima
- Mapiranje, agregiranje, sortiranje, obogaćivanje i spajanje podataka
- Dijeljene repozitorije za suradnju tima
- Kontinuiranu integraciju
- Reviziju, usporedbu Job-ova, analizu utjecaja, testiranje, otklanjanje pogrešaka i podešavanje
- Most za uvoz/izvoz metapodataka i centralizirano upravljanje metapodacima
- Udaljeno pokretanje i paralelnost
- Dinamičku shema, ponovo upotrebljive Joblete i referentne projekte
- Wizard-e i interaktivne preglednike podataka
- Stvaranje verzija
- Izvoz i izvršavanje samostojećih Job-ova u runtime okruženju
- Automatsko dokumentiranje
- Kontrolirano upravljanje zakrpama
Studio konektori
Talend Studio obuhvaća slijedeće konektore za kreiranje Job-ova:
- RDBMS, Streaming Message Queues, Cloud DB, Cloud Storage, SaaS / Business, Big Data, DB for Analytics
Potpun popis komponenti:
https://www.talendforge.org/components/index.php?version=255&edition=8&showAll=1
Upravljanje i praćenje poslova
Talend Administration Center je softver za upravljanje Talend aplikacijama i komponentama te svim administrativnim značajkama i konfiguracijama koje ih okružuju:
- Mogućnost upravljanja ili pregleda korisnika, dopuštenja, projekata, izvršnih engina
- Statistika u stvarnom vremenu, za praćenje odbijenih zapisa ili zapisa o neuspješnom izvršavanju
- Dizajniranje i scheduliranje planova ulančavanja ili paralelizacije zadataka uključujući oporavak od pogreške
- Scheduleri za zadatke i planove na temelju vremena i događaja
- Logovi izvršenih Job-ova se sakupljaju i moguće ih je pregledati
- Logovi revizije se pohranjuju u dokumentima kako bi bilo moguće referenciranje i usklađivanje
- Visoka dostupnost, balansiranje opterećenja, failover za zadatke i planove izvršavanja
- Engine klasteri za Job-ove
- Single Sign-On (SSO) integracija s nekoliko davatelja SSO usluga
Kvaliteta podataka
Talend Data Management platforma uključuje DQ značajke za profiliranje, čišćenje i maskiranje podataka. Značajke kvalitete podataka obuhvaćaju:
- Profiliranje i analizu podataka s grafičkim prikazima i mogućnosti drilldown-a
- Privatnost podataka pomoću maskiranja i enkripcije
- Automatiziranu standardizaciju podataka, čišćenje i provođenje pravila
- Data mart kvalitete podataka koji sadržava analize i izvještaje pokrenute u Talend Studiju
- Semantička otkrića s automatskom detekcijom uzoraka
- Uzorkovanje podataka
- Obogaćivanje, harmonizaciju, djelomično podudaranje i deduplikaciju
- Biblioteku uzoraka
- Napredno profiliranje podataka:
- Detekcija prijevara korištenjem Benfordovog zakona
- Napredna statistika s indikatorima praga
- Analiza stupaca
- Napredna analiza podudaranja
- Analiza korelacije vremenskih stupaca
Detalji implementacije: Katalog podataka
Klijent je odabrao Qlik Talend Data Catalog Advanced Edition koji uključuje slijedeće mogućnosti:
Klijent je odabrao Qlik Talend Data Catalog Advanced Edition koji uključuje slijedeće mogućnosti:
- Fasetirano pretraživanje, uzorkovanje podataka, semantičko otkrivanje, kategorizacija i automatsko profiliranje
- Social curation pomoću označavanje podataka, komentara, recenzija, unaprjeđenja, certificiranja
- Otkrivanje i certificiranje veza među podacima
- Automatsko otkrivanje jezera podataka i ostalih izvora podataka
Alati za dizajn i produktivnosti
- Pretraživanje i analiza metapodataka
- Poslovni pojmovnik
- Dokumentiranje i obogaćivanje metapodataka
Mostovi
- Pretraživanje i sakupljanje podataka pomoću većinski podržanih RDBMS-a
- Sakupljanje podataka pomoću Talend Data Integration i Talend Data Preparation
- Sakupljanje podataka pomoću Tableau, Qlik Sense, Salesforce.com
- HiveQL parsiranje
- Sakupljanje podataka pomoću većinski podržanih alata za DM, BI i DI
- Sakupljanje podataka pomoću većine DM/DI alata i većinski podržanih SQL, BI i MM alata
- Spark s Python ili Scala parsiranjem
Upravljanje i praćenje
- Dokumentiranje metapodataka i pregled porijekla podatka
- Analiza utjecaja i upozorenja o izmjeni
- Aktivno/pasivno prebacivanje pri failover-u
- Prilagodljivo korisničko sučelje i REST API
- Sustav za kontroliranje više verzija i konfiguracija
- Poslovni proces s odobrenjima pri sastavljanju poslovnog pojmovnika