Im dalej w las - tym więcej drzew, albo mrówczej pracy...
Niedawno pisałem o mrówczej pracy - przy scalaniu skonwertowanych danych i porządkowaniu dat zawarcia umów. Potem o mozolnej pracy przy "obróbce" wartości umów.
Nadszedł czas na najgorszy etap - porządkowanie danych dotyczących okresu obowiązywania umowy... Poprzednie problemy w tym momencie stały się błahostką.
Jak pisałem przy mrówczej pracy o datach zawarcia umów - spodziewałem się gorszego etapu mojej pracy przy przy porządkowaniu okresów obowiązywania umów.
Tutaj miała mnie czekać "walka" podobna do informacji o datach zawarcia umów - różne sposoby zapisu dwóch dat: "OD" i "DO".
Jednak nic podobnego - tutaj dopiero zderzyłem się ze swobodą zapisu okresu obowiązywania... Im dalej w las - tym więcej drzew...
Oczywiście część pozycji zawierała różnie zapisane dwie daty - OD i DO - i tutaj miałem już "rozpoznane" pole walki z konwersją tych dat na układ bazodanowy.
Problem powstał przy dość znacznej liczbie pozycji, gdzie:
- nie podano daty "OD" (wówczas przyjmowałem jako datę początku obowiązywania - datę zawarcia umowy)
- okres podawano w skróconej formie - bez roku, a czasami bez miesiąca (np. "1-15.12.2021")
- okres podawano jako "od daty zlecenia do końca realizacji" (wówczas w polu uwagi wpisywałem oryginalną zawartość pola "okres obowiązywania")
- okres podawano opisowo jako np. "po opłaceniu faktury", "zgodnie z harmonogramem", itp.
- okres podawano w dniach/tygodniach/miesiącach
- okres podawano jako kilka pojedynczych dni, albo kilka okresów
- nie podawano w ogóle okresu lub opisywano realizację umowy jako "bezterminowo"
Generalnie problem znowu polega na złej jakości danych - wprowadzanych na przestrzeni lat, przez różne osoby, bez walidacji poprawności danych.
I oczywiście znowu - dane te dla człowieka są w większości czytelne i jasne, ale baza danych ich albo nie przyjmie, albo będzie znacznie mniej użyteczna, jeśli nie zostaną poprawione.
Gdzie jestem
Okres obowiązywania danych to jedno pole w plikach PDF. W obróbce rozbiłem je na 3 pola:
- data OD
- data DO
- opis/uwagi, gdzie trafiają wyjaśnienia co do sposobu zapisu dat w bazie, jeśli w pliku PDF wyglądało to inaczej.
Oprócz tego jest uwzględnione wspomniane we wcześniejszym poście "zabezpieczenie" - czyli pole wyświetlające oryginalną wartość "okresu obowiązywania umowy", aby każdy mógł zweryfikować i sprawdzić, czy wszystko jest poprawnie po konwersji i obróbce.
W tej chwili stan realizacji tej części projektu wygląda następująco:
- data OD - 100%
- data DO - 65%
- opis/uwagi - 80%
Mam nadzieję, że do końca wakacji uda się zamknąć ten etap.
Co dalej?
Dalej pozostanie zrobić dodatkową kontrolę dat OD i DO z okresu obowiązywania umów i w zasadzie ostatni, najprostszy etap - weryfikacja i uporządkowanie nazw komórek organizacyjnych Urzędu Gminy odpowiedzialnych za daną umowę.
I nastąpi potem efekt najprzyjemniejszy, bo pokazujący stopniowo efekt końcowy - czyli implementacja wyszukiwarki na stronie WWW.