Zaproszenie do udziału w konkursie!

Zapraszamy wszystkich innowatorów z zakresu uczenia maszynowego do udziału w konkursie
„System automatycznego rozpoznawania mowy i mówcy”.

 

Przyjmowanie zgłoszeń od 12. września – zapisz się poniżej, by otrzymać przypomnienie o tym i innych konkursach GovTech.


Funkcjonowanie dziś, opis potrzeby Zamawiającego

Zgodnie z przepisami ustawy o dostępie do informacji publicznej oraz Regulaminu Senatu, Kancelaria Senatu zapewnia transmisje z posiedzeń Senatu oraz komisji senackich, a także udostępnia zapisy stenograficzne z tych posiedzeń na senackiej stronie internetowej.

 

Sporządzanie zapisów stenograficznych (stenogramów) jest kilkuetapowe i obecnie bazuje w 100% na pracy ludzkiej (sekretarze nadzorujący przebieg posiedzeń i sporządzający listy mówców; stenotypiści dokonujący transkrypcji na podstawie nagrań audio; redaktorzy weryfikujący prawidłowość transkrypcji na podstawie nagrań audio, w razie potrzeby też audio-video, oraz wprowadzający poprawki językowo-merytoryczne). W sytuacji długotrwałych obrad i zbiegu dużej liczby posiedzeń komisji mogą powstać w ramach tego procesu utrudnienia i opóźnienia (szczególnie w przypadku stenogramów z posiedzeń komisji). Nagrania audio-video z obrad, udostępniane na stronie internetowej natychmiast po zarejestrowaniu, nie są skorelowane z pozostałą udostępnianą dokumentacją, co może utrudniać precyzyjne odnajdywanie określonych fragmentów obrad.

 

Zamawiający chce, dzięki częściowej automatyzacji poszczególnych etapów procesu, ułatwić i przyspieszyć pracę nad dokumentacją z posiedzeń Senatu i komisji senackich, wyeliminować tzw. błędy ludzkie oraz wprowadzić nowe funkcjonalności poprawiające dostęp do informacji.

Oczekiwana zmiana

Funkcja automatycznego rozpoznawania mówców na podstawie głosu, ma:

  • usprawnić sporządzanie list mówców (w tym rozwiązać problem identyfikacji mówców odzywających się spontanicznie, z sali, których twarz jest niewidoczna) – sztuczna inteligencja ma przejąć większość pracy człowieka, w efekcie odciążyć pracowników merytorycznych oraz wyeliminować tzw. błędy ludzkie,
  • wiązać automatycznie, dzięki metadanym dotyczącym czasu wypowiedzi, dane tekstowe z materiałem video – to umożliwi wzbogacenie stenogramów i bazy zapisów wypowiedzi senatorów w linki do konkretnego miejsca w nagraniu video, pozwoli też na stworzenie szczegółowych menu dla nagrań video, a w przyszłości także bazy z zaawansowanymi funkcjami wyszukiwania.

Funkcja automatycznej transkrypcji mowy na tekst ma umożliwić skrócenie czasu niezbędnego do przygotowania stenogramów z obrad, w szczególności komisji senackich.

Wymagania funkcjonalne Docelowego Systemu

Aplikacja-system wspomagający pracę stenotypistów oraz redaktorów, który pozwoli szybko i automatycznie identyfikować mówców na podstawie analizy dźwięku (głosu) i wspomagająco obrazów wideo oraz wykonywać transkrypcję mowy na tekst.

 

Kluczowe funkcje systemu:

  • rozpoznawanie mówcy na podstawie nagrania audio-video
  • funkcja uczenia się na podstawie nowo gromadzonych danych (aktualizacja modelu)
  • automatyczna transkrypcja mowy na tekst

System jako dane wejściowe ma przyjmować nagrania audio-video i ma zwracać wynikowy plik w formacie XML/TXT o określonej strukturze (zawierający m.in. znaczniki czasu, dane rozpoznanego mówcy, treść wypowiedzi).

System powinien prawidłowo identyfikować mówców również w przypadku, gdy nie są oni widoczni na nagraniu video, czyli podstawowym źródłem identyfikacji mówcy powinien być dźwięk.

Użytkownicy i oczekiwana przez nich funkcjonalność podstawowa

Sekretarz

  1. możliwość podglądu transmisji audio-video na żywo wraz z podglądem wyników działania Systemu (online), tj. danych rozpoznanego mówcy, jego wypowiedzi;
  2. możliwość zatrzymania nagrania, cofnięcia go, powrotu do transmisji „na żywo”;
  3. sygnalizowanie nierozpoznanych mówców i fragmentów wypowiedzi, możliwość poprawiania i uzupełniania wynikowych danych online;
  4. wprowadzane przez użytkownika dane mają dynamicznie „uczyć” system i podnosić skuteczność dalszego rozpoznawania.

Stenotypista / Redaktor

  1. możliwość podglądu transmisji audio-video offline wraz z podglądem wyników działania Systemu, tj. danych rozpoznanego mówcy, jego wypowiedzi;
  2. możliwość nawigacji zarówno po nagraniu video, jak i po wykazie mówców ze znacznikami czasu, także po wypowiedziach;
  3. sygnalizowanie nierozpoznanych mówców i nierozszyfrowanych fragmentów wypowiedzi, możliwość poprawiania i uzupełniania wynikowych danych;
  4. wszystkie wprowadzane przez użytkownika dane mają dynamicznie „uczyć” system i podnosić skuteczność dalszego rozpoznawania.

Zadanie konkursowe

 

 

Jaki efekt chce osiągnąć Kancelaria Senatu?

 

Skrócenie czasu niezbędnego do przygotowania stenogramów z obrad, w szczególności komisji senackich.

 

Czemu Kancelaria Senatu potrzebuje docelowego rozwiązania?

 

Kancelaria Senatu chce, dzięki częściowej automatyzacji poszczególnych etapów procesu, ułatwić i przyspieszyć pracę nad dokumentacją z posiedzeń Senatu i komisji senackich, wyeliminować tzw. błędy ludzkie oraz wprowadzić nowe funkcjonalności poprawiające dostęp do informacji.

 

Jak na tym skorzystają obywatele?

 

Lepsza infrastruktura senatu to bardziej przejrzyste debaty parlamentarne, większy komfort oglądających (w szczególności osób z niepełnosprawnościami), oraz mniejsze ryzyko błędu w transkrypcji.

 

Jak przebiega konkurs?

 

Konkurs składa się z dwóch etapów.

 

Na pierwszym, Kancelaria Senatu oczekuje aplikacji (systemu) wraz z instrukcją jej uruchomienia. Aplikacja powinna generować wynikowy plik w formacie XML/TXT  zawierający przynajmniej znaczniki czasu (początek i koniec wypowiedzi), dane mówcy (imię i nazwisko lub oznaczenie osoby nieznanej), transkrypcję wypowiedzi oraz znaczniki miejsc wymagających interwencji użytkownika (niepewne rozpoznanie mówcy lub tekstu).

 

Na drugim, finaliści zmierzą się z wyzwaniem stworzenia podobnej aplikacji, z wyższym progiem skuteczności. W celu oceny złożonych Rozwiązań Zamawiający zorganizuje spotkanie, które odbędzie się w siedzibie Zamawiającego. Na spotkanie Uczestnik dostarczy sprzęt, który wymagany jest do uruchomienia jego Rozwiązań Konkursowych (aplikacji). Zamawiający na spotkaniu udostępni nagranie audio-video, którego poprawna analiza (rozpoznanie mówców oraz transkrypcja tekstu) w postaci wynikowego pliku w formacie XML/TXT stanowić będzie podstawę do oceny Rozwiązania.

 

 

Co mogę wygrać?

 

Autorzy 5 najlepszych rozwiązań w I Etapie, poza przejściem do drugiego, otrzymają również nagrody pieniężne. Wynoszą one:

 

  1. I nagroda:12 500 zł (słownie: dwanaście tysięcy pięćset złotych),
  2. II nagroda:7 500 zł (słownie: siedem tysięcy pięćset złotych),
  3. III nagroda:5 000 zł (słownie: pięć tysięcy złotych),
  4. IV nagroda:3 000 zł (słownie: trzy tysiące złotych),
  5. V nagroda:2 000 zł (słownie: dwa tysiące złotych).

 

II Etap wyłania jednego zwycięzcę i to on wygrywa zaproszenie do negocjacji zamówienia na wykonanie docelowego systemu. Wartość zamówienia to 600 000 złotych! Oprócz tego, wszyscy uczestnicy II Etapu otrzymają zwrot kosztów do 6 000 złotych.

 

 

Jakie są ważne terminy?

 

 

  • Zgłoszenia do 28.10.2019

 

  • Weryfikacja zgłoszeń do 04.11.2019

 

  • Przyjmowanie rozwiązań – I etap do 11.11.2019

 

  • Ocena propozycji 31.12.2019

 

  • Przyjmowanie rozwiązań – II etap do 08.01.2020

 

  • Ogłoszenie wyników do 05.02.2020

 

Gdzie mogę się dowiedzieć więcej? 

 

Więcej szczegółów zawiera Regulamin Konkursu oraz ogłoszenie w Biuletynie Informacji Publicznej.

 

Kontakt

 

Wyjaśnień udziela Biuro Prawne, Kadr i Organizacji Kancelarii Senatu pod adresem e-mail bpko@senat.gov.pl. Kancelaria Senatu nie gwarantuje, że pytania,  które wpłyną mniej niż dwa dni po terminie otrzymają odpowiedź. Uwaga! Zgodnie z wymogami prawa, odpowiedź na każde pytanie mające wpływ na równość konkurencji w postępowaniu będzie przesyłana do wszystkich uczestników konkursu.


Jesteś gotów podjąć wyzwanie?

Zapraszamy wszystkich innowatorów z zakresu przetwarzania dźwięku i obrazu do udziału w konkursie na
„System automatycznego rozpoznawania mowy i mówcy”.

 

Przyjmowanie zgłoszeń od 12. września – zapisz się poniżej, by otrzymać przypomnienie o tym i innych konkursach GovTech.


Rezultaty konsultacji biznesowych

Dla tego wyzwania prowadzone były konsultacje biznesowe, których ogłoszenie i podsumowanie znajduję się pod tymi adresami:

  1. Podsumowanie (protokół) ustaleń z konsultacji biznesowych (dialogu technicznego)
  2. Ogłoszenie o zamiarze przeprowadzenia konsultacji biznesowych (dialogu technicznego)
  3. Regulamin przeprowadzania konsultacji biznesowych (dialogu technicznego)
  4. Wstępne założenia konkursu na opracowanie systemu automatycznego rozpoznawania mowy i mówcy