Comments: |
tad par gateriem:DD ož pēc jelgavas:)
2ajā reizē vairs ne par baļķiem. Bet par Datizraci, (Data Mining); Atvērto ĢIS sabiedrību; Tiešsaistes Analītisko Datu Apstrādi (OLAP); Datu noliktavām (Warehouse) un Datu Lielveikaliem (Datamart); Datu modeļiem un kubiem (drilldown un aggregation), datu integrēšanu, konsolidēšanu; utt utt
smalki. kas ir datu integr;e;snana?
Integrācija • Simbolu apzīmējumi: o Problēma: Simboli (atribūti) dažādos datu avotos var nozīmēt dažādas lietas; • Informācijas atšifrējumi: o Problēma: Analoģiskiem atribūtiem analoģiskas vērtības var būt dažādi apzīmētas • Informācijas formatēšana: o Problēma: Tāda pati kā atšifrējumiem. • Mērvienību bāze: o Problēma: Tie paši atribūti var būt apzīmēti dažādās mērvienībās. • Subjekta identifikācija: o Problēma: Tam pašam subjektam var būt dažādi identifikatori dažādās sistēmās. Tīrīšana • Neatbilstošo datu pārbaude: dzēšana, ja nepieciešams; • Acīmredzamo kļūdu labošana. Summēšana • Aditīvas mērvienības; • Neaditīvas mērvienības. Trūkstošo vērtību apstrāde • Iemesls to trūkumam? o Nav ierakstītas (piem., mantotā sistēma šādus datus neieraksta, vai arī ne visas patreizējās sistēmas to dara); o Nav izmantojamas; o Klients atteicās tās piegādāt. • Rīcība gadījumā, ja ir trūkstošās vērtības o Pievienot „karodziņa lauciņu”, lai apzīmētu to kā trūkstošo vērtību, vai o Definēt trūkstošo vērtību kā nulli, vai o Aprēķināt trūkstošo vērtību: Izmantot vidējo aritmētisko vērtību visā datu kopā; Izmantot vidējo aritmētisko vērtību līdzīgu ierakstu kopā (klasteros datu kopā); Izmantot attīstītu prognozēšanas tehniku (piem., regressijas kokus) Transformēšana • Proporcionēšana • Atvasināšana • Funkcijas / formulējumi • Mērogošana | |