Informatica Materialelor

materials_informatics

Imagine luată din [1].

În 2005 a fost scris un articol în revista Materials Today [2] care introducea ideea că Informatica Materialelor ar trebui să fie considerată o sub-disciplină a științei și ingineriei materialelor, la fel cum Bioinformatica este în domeniul științelor vieții. Unul dintre punctele principale din acel articol este necesitatea de a evalua dacă avem un “ospăţ sau foamete de date”, în orice problemă de știința materialelor. Ideea că am putea avea un “ospăţ” sau o supra-abundență a datelor poate părea la început să fie un concept încurcat, dar se argumentează că  definirea cantitativă a ceea ce constituie date “suficiente” sau “corecte”, în orice problemă de știința materialelor este un  aspect critic al Informaticii Materialelor. Odată cu creșterea în popularitate a expresiilor cum ar fi “designul materialelor”, “ingineria materialelor integral computaţională” sau “genomul materialelor”, există sentimentul că informatica echivalează pur și simplu cu nevoia de mai multe date. Din această perspectivă, accentul activităților “informaticii”  înclină în mod invariabil către necesitatea de a colecta și de a genera mai multe date, abordarea problemelor legate de software și de gestionare a informațiilor pentru a organiza și interoga datele într-o formă digitală și distribuirea acestor date prin tehnologii informatice avansate. De aici, teme precum știința combinatorială a materialelor și screening-ul de cantități mari de date cuplate cu biblioteci digitale au înflorit într-o gamă largă de discipline orientate spre știința materialelor. În mod similar, a existat o creștere a eforturilor comunităţii științifice pentru materiale computaţionale, determinată în mare măsură de domeniul fizicii materiei condensate, profitând de instrumente și algoritmi de calcul pentru a genera matrici masive de rezultate care propun noi proprietăți ale materialelor.

Recunoscând în același timp că aceste eforturi sunt importante și necesare, trebuie subliniat faptul că acestea explorează doar un aspect al domeniului Informaticii Materialelor. Paradigma descoperirii de noi materiale bazată pe date trebuie să exploreze un spațiu al proprietăților cu mult mai multe dimensiuni care să include aspecte cum ar fi incertitudinea, asimetria, densitatea redusă de date, precum și diverse și numeroase forme de date, inclusiv numerice, textuale, conceptuale și imagistice. Integrarea tuturor acestor tipuri diferite și atribute ale datelor, împreună cu cantitatea lor, reprezinta Informatica Materialelor.

Dacă creșterea volumului de date este un criteriu important dar nu suficient pentru informatică, atunci spre ce direcție ar trebui să se îndrepte domeniul Informaticii Materialelor? Răspunsul la aceasta întrebare constă în valorificarea paradigmei “cantității mari de date” sau “Big Data”, unde cuvântul “mare” se referă la mărimea dimensionalității corelațiilor care trebuie explorate în analiza problemelor bazate pe date, din care volumul de date este doar un aspect. Comunitatea mai largă din știința informației a definit “Big Data“ ca fiind guvernată de patru metrici: volum, viteză, varietate și veridicitate. Cele “4V-uri” sunt nucleul informaticii și în prezent, eforturile cele mai mari din Informatica Materialelor sunt concentrate doar pe extinderea volumului de date în detrimentul celorlalte metrici.

Volumul de date este ușor de înțeles. Viteza de date se referă la exploatarea datelor achiziționate în timp real (de exemplu, datele din experimentele de dinamică). Varietatea datelor reprezintă faptul că datele iau multe forme în domeniul științei materialelor, care variază de la valori numerice discrete, descrieri calitative ale comportamentului materialelor și datele imagistice. Veridicitate recunoaște realitatea practică din domeniul științei materialelor și anume că avem o mulțime de date “lipsă” și datele pe care avem au incertitudine asociată cu ele. Cuantificarea aceastei incertitudini, știinţa completării datelor lipsă având la dispoziţie doar cunoștințe limitate, sunt obiective provocatoare dar  posibil de realizat atunci când sunt folosite judicios instrumentele de învățare statistică, căutare de tipare în date și analiză statistica a datelor cu principiile fizicii materialelor, chimiei și ingineriei. Chiar și cu date limitate, această abordare a fost folosită cu succes în descoperirea de noi materiale, identificarea unor noi parametri fizici care controlează relațiile structură-proprietate și dezvoltarea de mijloace rapide pentru generarea de date de referință. Aceasta este puterea Informaticii Materialelor.

În cele din urmă, trebuie reiterat faptul că scopul final pentru Informatica Materialelor  este de a descoperi noi cunoștințe. Creșterea volumului de date nu crește în mod necesar cunoașterea, un fapt bine cunoscut în știința informației dar și în alte domenii precum genomica și biotehnologia. De multe ori cunoșterea este ascunsă în date dar creșterea volumului de date fără a aborda celelalte V-uri agravează problema prin creșterea decalajului dintre cunoaștere și date. Poate exista un sentiment fals de securitate intelectuală fiind înconjurat de o mulțime de date. Informatica este știința modului de abordare a celor 4 V-uri ale “Big Data” simultan și integrarea constatărilor din aceste eforturi. Aici este locul unde instrumente cum ar fi machine learning cuplat cu statistica trebuie conectate în mod judicios la fundamentele științei materialelor, și anume teorie, modelare și experimente pentru a face din bazele de date un laborator pentru generarea de cunoştinţe noi și nu doar un depozit pentru găsirea unor informații cunoscute sau de așteptat. Informatica Materialelor este știința care formalizează utilizarea acestor instrumente și deține cheia pentru un viitor promițător și bogat pentru știința materialelor.

Material adaptat după [3].

Referințe:

[1] NSF 

[2] K. Rajan, Materials informatics. Mater. Today 8(10), 38-45 (2005); DOI: 10.1016/S1369-7021(05)71123-8

[3] K. Rajan, How do we go about harnessing the “Big Data” paradigm? Mater. Today 15(11), 470 (2012); DOI: 10.1016/S1369-7021(12)70204-3

Advertisements

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s