Articles

Data Modeling

Descoperiți modul în care modelarea datelor utilizează abstractizarea pentru a reprezenta și a înțelege mai bine natura fluxului de date într-un sistem informatic de întreprindere

ce este modelarea datelor?

modelarea datelor este procesul de creare a unei reprezentări vizuale fie a unui întreg sistem informațional, fie a unor părți ale acestuia pentru a comunica conexiunile dintre punctele de date și structuri. Scopul este de a ilustra tipurile de date utilizate și stocate în sistem, relațiile dintre aceste tipuri de date, modalitățile în care datele pot fi grupate și organizate și formatele și atributele acestora.

modelele de date sunt construite în jurul nevoilor de afaceri. Regulile și cerințele sunt definite în avans prin feedback de la părțile interesate de afaceri, astfel încât acestea să poată fi încorporate în proiectarea unui nou sistem sau adaptate în iterația unuia existent.

datele pot fi modelate la diferite niveluri de abstractizare. Procesul începe prin colectarea de informații despre cerințele de afaceri de la părțile interesate și utilizatorii finali. Aceste reguli de afaceri sunt apoi traduse în structuri de date pentru a formula un design concret al bazei de date. Un model de date poate fi comparat cu o foaie de parcurs, planul unui arhitect sau orice diagramă formală care facilitează o înțelegere mai profundă a ceea ce este proiectat.

modelarea datelor utilizează scheme standardizate și tehnici formale. Aceasta oferă o modalitate comună, consecventă și previzibilă de definire și gestionare a resurselor de date într-o organizație sau chiar dincolo.în mod ideal, modelele de date sunt documente vii care evoluează odată cu schimbarea nevoilor de afaceri. Acestea joacă un rol important în sprijinirea proceselor de afaceri și planificarea arhitecturii și strategiei IT. Modelele de date pot fi partajate cu furnizorii, partenerii și/sau colegii din industrie.

tipuri de modele de date

ca orice proces de proiectare, proiectarea bazelor de date și a sistemelor informatice începe la un nivel ridicat de abstractizare și devine din ce în ce mai concretă și specifică. Modelele de date pot fi, în general, împărțite în trei categorii, care variază în funcție de gradul lor de abstractizare. Procesul va începe cu un model conceptual, va trece la un model logic și se va încheia cu un model fizic. Fiecare tip de model de date este discutat mai detaliat mai jos:

  • modele de date conceptuale. Acestea sunt, de asemenea, denumite modele de domeniu și oferă o imagine de ansamblu a ceea ce va conține sistemul, a modului în care va fi organizat și a regulilor de afaceri implicate. Modelele conceptuale sunt de obicei create ca parte a procesului de colectare a cerințelor inițiale ale proiectului. De obicei, acestea includ clase de entități (care definesc tipurile de lucruri care sunt importante pentru ca afacerea să le reprezinte în modelul de date), caracteristicile și constrângerile acestora, relațiile dintre ele și cerințele relevante de securitate și integritate a datelor. Orice notație este de obicei simplă.
    diagrama unui model de date conceptuale
  • modele de date logice. Ele sunt mai puțin abstracte și oferă mai multe detalii despre conceptele și relațiile din domeniul în cauză. Este urmat unul dintre mai multe sisteme formale de notare a modelării datelor. Acestea indică atribute de date, cum ar fi tipurile de date și lungimile lor corespunzătoare, și arată relațiile dintre entități. Modelele de date logice nu specifică cerințe tehnice de sistem. Această etapă este frecvent omisă în practicile agile sau DevOps. Modelele de date logice pot fi utile în medii de implementare extrem de procedurale sau pentru proiecte orientate spre date prin natură, cum ar fi proiectarea depozitului de date sau dezvoltarea sistemului de raportare.
    diagrama unui model de date logice
  • modele de date fizice. Ele oferă o schemă pentru modul în care datele vor fi stocate fizic într-o bază de date. Ca atare, ele sunt cel mai puțin abstracte dintre toate. Acestea oferă un design finalizat care poate fi implementat ca o bază de date relațională, inclusiv tabele asociative care ilustrează relațiile dintre entități, precum și cheile primare și cheile străine care vor fi utilizate pentru a menține aceste relații. Modelele de date fizice pot include proprietăți specifice sistemului de gestionare a bazelor de date (DBMS), inclusiv reglarea performanței.
    diagrama unui Model de date fizice

procesul de modelare a datelor

ca disciplină, modelarea datelor invită părțile interesate să evalueze prelucrarea și stocarea datelor în detalii minuțioase. Tehnicile de modelare a datelor au convenții diferite care dictează ce simboluri sunt utilizate pentru a reprezenta datele, modul în care sunt prezentate modelele și modul în care sunt transmise cerințele de afaceri. Toate abordările oferă fluxuri de lucru formalizate care includ o secvență de sarcini care trebuie efectuate într-o manieră iterativă. Aceste fluxuri de lucru arată în general astfel:

  1. identificați entitățile. Procesul de modelare a datelor începe cu identificarea lucrurilor, evenimentelor sau conceptelor care sunt reprezentate în setul de date care urmează să fie modelat. Fiecare entitate ar trebui să fie coerentă și discretă logic de toate celelalte.
  2. identificați proprietățile cheie ale fiecărei entități. Fiecare tip de entitate poate fi diferențiat de toate celelalte, deoarece are una sau mai multe proprietăți unice, numite atribute. De exemplu, o entitate numită „Client” ar putea avea atribute precum prenumele, prenumele, numărul de telefon și salutul, în timp ce o entitate numită „adresă” ar putea include un nume și un număr de stradă, un oraș, un stat, o țară și un cod poștal.
  3. identificați relațiile dintre entități. Cea mai veche schiță a unui model de date va specifica natura relațiilor pe care fiecare entitate le are cu celelalte. În exemplul de mai sus, fiecare client „locuiește la” o adresă. Dacă acel model ar fi extins pentru a include o entitate numită” comenzi”, fiecare comandă ar fi expediată și facturată și la o adresă. Aceste relații sunt de obicei documentate prin unified modeling language (UML).
  4. harta atribuie entităților complet. Acest lucru va asigura modelul reflectă modul în care afacerea va utiliza datele. Mai multe modele formale de modelare a datelor sunt utilizate pe scară largă. Dezvoltatorii orientați pe obiecte aplică adesea modele de analiză sau modele de proiectare, în timp ce părțile interesate din alte domenii de afaceri pot apela la alte modele.
  5. alocați chei după cum este necesar și decideți un grad de normalizare care echilibrează nevoia de a reduce redundanța cu cerințele de performanță. Normalizarea este o tehnică pentru organizarea modelelor de date (și a bazelor de date pe care le reprezintă) în care identificatorii numerici, numiți chei, sunt atribuiți grupurilor de date pentru a reprezenta relațiile dintre ele fără a repeta datele. De exemplu, dacă clienților li se atribuie fiecare o cheie, acea cheie poate fi legată atât de adresa lor, cât și de istoricul comenzilor lor, fără a fi nevoie să repete aceste informații în tabelul cu numele clienților. Normalizarea tinde să reducă cantitatea de spațiu de stocare o bază de date va necesita, dar poate la cost pentru a interoga performanța.
  6. finalizarea și validarea modelului de date. Modelarea datelor este un proces iterativ care ar trebui repetat și rafinat pe măsură ce nevoile afacerii se schimbă.

tipuri de modelare a datelor

modelarea datelor a evoluat alături de sistemele de gestionare a bazelor de date, tipurile de modele crescând în complexitate pe măsură ce nevoile de stocare a datelor ale întreprinderilor au crescut. Aici sunt mai multe tipuri de modele:

  • modele de date ierarhice reprezintă unu-la-mai multe relații într-un format treelike. În acest tip de model, fiecare înregistrare are o singură rădăcină sau părinte care mapează la unul sau mai multe tabele copil. Acest model a fost implementat în IBM Information Management System (IMS), care a fost introdus în 1966 și a găsit rapid o utilizare pe scară largă, în special în sectorul bancar. Deși această abordare este mai puțin eficientă decât modelele de baze de date dezvoltate mai recent, este încă utilizată în limbaj extensibil de marcare (XML) sisteme și sisteme de informații geografice (GISs).
  • modelele de date relaționale au fost inițial propuse de cercetătorul IBM E. F. Codd în 1970. Acestea sunt încă implementate astăzi în numeroasele baze de date relaționale diferite utilizate în mod obișnuit în calculul întreprinderii. Modelarea relațională a datelor nu necesită o înțelegere detaliată a proprietăților fizice ale stocării datelor utilizate. În acesta, segmentele de date sunt unite în mod explicit prin utilizarea tabelelor, reducând complexitatea bazei de date.

bazele de date relaționale folosesc frecvent limbaj de interogare structurat (SQL) pentru gestionarea datelor. Aceste baze de date funcționează bine pentru menținerea integrității datelor și minimizarea redundanței. Acestea sunt adesea folosite în sistemele de puncte de vânzare, precum și pentru alte tipuri de procesare a tranzacțiilor.modelele de date entitate-relație (er) utilizează diagrame formale pentru a reprezenta relațiile dintre entitățile dintr-o bază de date. Mai multe instrumente de modelare ER sunt utilizate de data architects pentru a crea hărți vizuale care transmit obiectivele de proiectare a bazelor de date.

  • modelele de date orientate pe obiecte au câștigat tracțiune ca Programare orientată pe obiecte și au devenit populare la mijlocul anilor 1990. „obiectele” implicate sunt abstracții ale entităților din lumea reală. Obiectele sunt grupate în ierarhii de clasă și au caracteristici asociate. Bazele de date orientate pe obiecte pot încorpora tabele, dar pot sprijini și relații de date mai complexe. Această abordare este utilizată în bazele de date multimedia și hipertext, precum și în alte cazuri de utilizare.modelele de date dimensionale au fost dezvoltate de Ralph Kimball și au fost concepute pentru a optimiza vitezele de recuperare a datelor în scopuri analitice într-un depozit de date. În timp ce modelele relaționale și ER subliniază stocarea eficientă, modelele dimensionale cresc redundanța pentru a facilita localizarea informațiilor pentru raportare și recuperare. Această modelare este de obicei utilizată în sistemele OLAP.două modele de date dimensionale populare sunt schema stelelor, în care datele sunt organizate în fapte (elemente măsurabile) și dimensiuni (Informații de referință), unde fiecare fapt este înconjurat de dimensiunile sale asociate într-un model asemănător unei stele. Cealaltă este schema fulgului de zăpadă, care seamănă cu schema stelelor, dar include straturi suplimentare de dimensiuni asociate, făcând modelul de ramificare mai complex.

    beneficiile modelării datelor

    modelarea datelor facilitează dezvoltatorilor, arhitecților de date, analiștilor de afaceri și altor părți interesate să vizualizeze și să înțeleagă relațiile dintre datele dintr-o bază de date sau un depozit de date. În plus, poate:

    • Reduce erorile în dezvoltarea de software și baze de date.
    • creșterea coerenței în documentația și proiectarea sistemului în întreaga întreprindere.
    • îmbunătățiți performanța aplicației și a bazei de date.
    • usurinta de cartografiere a datelor în întreaga organizație.
    • îmbunătățirea comunicării între dezvoltatori și echipele de business intelligence.
    • ușura și accelera procesul de proiectare a bazei de date la nivel conceptual, logic și fizic.

    instrumente de modelare a datelor

    numeroase soluții comerciale și open source de inginerie software asistată de calculator (CASE) sunt utilizate pe scară largă astăzi, inclusiv instrumente multiple de modelare a datelor, diagrame și vizualizare. Iată câteva exemple:

    • erwin Data Modeler este un instrument de modelare a datelor bazat pe limbajul de modelare a datelor Integration DEFinition for Information modeling (IDEF1X) care acceptă acum alte metodologii de notare, inclusiv o abordare dimensională.
    • Enterprise Architect este un instrument de modelare și proiectare vizuală care acceptă modelarea sistemelor și arhitecturilor informatice ale întreprinderii, precum și a aplicațiilor software și a bazelor de date. Se bazează pe limbaje și standarde orientate pe obiecte.
    • ER / Studio este un software de proiectare a bazelor de date compatibil cu mai multe dintre cele mai populare sisteme de gestionare a bazelor de date de astăzi. Aceasta susține atât modelarea datelor relaționale și dimensionale.instrumentele gratuite de modelare a datelor includ soluții open source, cum ar fi Open ModelSphere.

    modelarea datelor și IBM Cloud

    cercetătorii de la IBM au fost printre pionierii care au creat primele modele de date ierarhice și relaționale și au proiectat, de asemenea, bazele de date în care aceste modele au fost implementate inițial.astăzi, IBM Cloud oferă o platformă completă care acceptă un portofoliu bogat de baze de date SQL și NoSQL, împreună cu instrumentele de dezvoltare necesare pentru a gestiona eficient resursele de date din cadrul acestora. IBM Cloud acceptă, de asemenea, instrumente open source care ajută dezvoltatorii să gestioneze stocarea obiectelor, fișierelor și blocurilor de date pentru a optimiza performanța și fiabilitatea.

    doriți să aflați mai multe despre modelarea datelor pe IBM Cloud? Înscrieți-vă pentru un IBMid și creați-vă contul IBM Cloud gratuit astăzi.