Jak wspominałem, odkryłem metodę analizy porównawczej tekstów, pozwalającą na postawienie hipotezy, że dwa teksty w różnych językach są przekładem. Pomysł zasadza się na obliczeniu funkcji charakterystycznych obu tekstów i ich porównaniu. Czym jest funkcja charakterystyczna? To jest "wyciąg" z tekstu, zawierający jedynie cyfry. Taki "hash Poduchy" - poduchan. Na przykład taki:
436436125041543614354361435152435153436143543614354361153155.
Bierzemy oba teksty i porównujemy ich funkcje charakterystyczne. W trywialnym przypadku oba poduchany pasują do siebie w 100 procentach. Czasami tłumaczone teksty są zlepkiem innych. Różnice mogą wynikać z również z niedokładności przekładu, lub różnic w składni. Zbieżność poduchanowa z tych przyczyn nie będzie idealna. Trzeba będzie zastosować algorytmy stosowane w genetyce, aby szukać podciągów. Efektywność metody może wzrosnąć jeśli liczby z tekstu rozdzieli się spacjami. Otrzymamy ciągi, które będzie łatwiej dopasować przy zaistnieniu różnic. Będziemy porównywać nie cyfry, a liczby.
Zmodyfikowany poduchan wyglądać może wtedy tak:
436 436 1 2 50 415 436 1 435 436 1 435 152 435 153 436 1 435 436 1 435 436 1 153 155.
Brak komentarzy:
Prześlij komentarz
Uwaga: tylko uczestnik tego bloga może przesyłać komentarze.