SuperMemo jest lepsze od FSRS, zdecydowanie lepsze!

Od ponad trzech dekad SuperMemo World jest niekwestionowanym liderem w badaniach nad powtórkami rozłożonymi w czasie (ang. spaced repetition). Nasze algorytmy są wynikiem ciągłego, naukowo ukierunkowanego procesu doskonalenia, opartego na danych z milionów sesji nauki. W ostatnim czasie zaobserwowaliśmy jednak niepokojące zjawisko: rozprzestrzenianie się w przestrzeni publicznej błędnych wskaźników i fałszywych wniosków, przede wszystkim wokół skuteczności otwartego algorytmu FSRS. Czas wprowadzić do tej dyskusji trochę naukowej precyzji i rzetelności. Obecna narracja jest nie tylko błędna, jest metodologicznie wadliwa. Nie można wygrać wyścigu, przesuwając linię mety.

Szeroko rozpowszechnione twierdzenia o wyższości FSRS, które trafiły nawet do pracy doktorskiej, opierają się na błędnych porównaniach. Wykorzystują one metryki uczenia maszynowego, takie jak Log Loss czy AUC, które są przydatne podczas trenowania modeli, ale całkowicie nieodpowiednie do oceny precyzji kalibracyjnej algorytmu spaced repetition.

Od dekad rozwijamy algorytmy SuperMemo i doskonalimy jedyny benchmark, który naprawdę ma znaczenie: Metrykę Uniwersalną (the Universal Metric).

Ta metryka mierzy tylko jedno – różnicę między przewidywaną przez algorytm stabilnością pamięci a stabilnością rzeczywiście zaobserwowaną w danych empirycznych pomiarów. Idealny algorytm osiągnąłby wynik 0%. Nie ma tu miejsca na wymówki ani alternatywne interpretacje. To bezkompromisowa miara prawdy w naszej dziedzinie.

Gdy zastosujemy tę uniwersalną metrykę do wysokiej jakości danych z nauki, wyniki są jednoznaczne:

  • Algorytm SM-19: 1-3%
  • Algorytm SM-20 (nowy algorytm AI oparty na eksperckiej wiedzy SuperMemo o mózgu i zapamiętywaniu, wciąż w fazie rozwoju): zbliża się do SM-19, osiągając nawet blisko 0% w przypadku dobrze ustrukturyzowanego materiału
  • FSRS (wersja zoptymalizowana): 15-20%.

Powiedzmy to jasno: błąd na poziomie 15-20% nie oznacza bynajmniej, że algorytm FSRS jest „lepszy”. Nie jest też „konkurencyjny”. To jednoznaczny sygnał poważnej niedoskonałości w precyzji predykcyjnej. Sugestia, że te wyniki są porównywalne to żart, naukowy mem, który należy natychmiast odłożyć do lamusa.

Błędy w obecnych porównaniach FSRS nie są drobnymi uchybieniami, to błędy fundamentalne:

  1. Użyto niewłaściwego punktu odniesienia. Wczesne porównania zestawiały FSRS z ‘R(SM17)(exp)’, czyli teoretycznym modelem wykładniczym, a nie rzeczywistymi, dynamicznymi prognozami algorytmu SM-17. To tak, jakby twierdzić, że pokonało się sportowca światowej klasy, ścigając się z jego posągiem.
  2. Użyto mikroskopijnego zbioru danych. Wyciąganie daleko idących wniosków z 16 kolekcji to statystyczna krótkowzroczność. Nasze badania są potwierdzone przez ścieżki nauki milionów użytkowników.
  3. Zignorowano optymalizację w czasie rzeczywistym. Nowoczesne algorytmy SuperMemo aktualizują swój model natychmiast po każdej powtórce.

Nie deprecjonujemy pracy nad FSRS, to godny pochwały projekt open-source i wyraźny krok naprzód w porównaniu z przestarzałymi algorytmami, takimi jak SM-2. Jednak twierdzenie, że przewyższa on 40 lat dedykowanych badań i rozwoju SuperMemo, to nie tylko przesada, to wprowadzanie w błąd uczących się, którzy szukają najskuteczniejszych narzędzi.

Wzywamy społeczność skupioną wokół spaced repetition – naukowców, twórców oprogramowania i uczących się – do przyjęcia metryki uniwersalnej jako jedynego, rzetelnego wskaźnika oceny jakości algorytmów. Porównujmy jabłka z jabłkami. Przestańmy używać miar treningowych jako wskaźników skuteczności.

Przytoczone powyżej wstępne dane z testów pokazują, że SM-19 jakością predykcji pamiętania z dużym zapasem przewyższa aktualną wersję FSRS. Aby umożliwić bezpośrednie, obiektywne porównanie obu algorytmów w identycznych warunkach za pomocą metryki uniwersalnej, podjęliśmy decyzję o zintegrowaniu FSRS z przyszłą wersją SuperMemo dla Windows. SM-20 stanie się również częścią serwisu internetowego oraz aplikacji mobilnych SuperMemo.com, a także publicznego API, aby umożliwić globalne wykorzystanie tego algorytmu.

Misją SuperMemo World od zawsze było minimalizowanie czasu nauki przy maksymalizacji retencji pamięci długoterminowej uczących się. Ta misja opiera się na fundamencie uczciwości naukowej, nie na wygrywaniu plebiscytów popularności opartych na wadliwych metodach.

Co dalej? Domagajmy się przejrzystych, obiektywnych analiz. Niech metryka uniwersalna wyznacza kierunek rozwoju spaced repetition, tak byśmy mogli skupić się na tym, co naprawdę ważne: jakości uczenia i rozwoju nowych naukowych zastosowań tej metody. Głębokie rozumienie procesów formowania ludzkiej pamięci jest kluczem do pokonania barier uczenia ciągłego w sztucznych sieciach neuronowych i pierwszym krokiem do superinteligencji.

Krzysztof Biedalak, CEO