Кудзусідзі (яп. くずし字) — старовинний рукописний стиль письма японськими ієрогліфами. Наразі такий формат тексту є майже недоступним для прочитання людьми.

Приклад кудзусідзі

Історія

У перекладі кудзусідзі означає «символи, що розпадаються». Таке письмо часто зустрічається на японських гравюрах, мечах.[1] Символи кудзусідзі використовували понад 1000 років (з 8 століття до початку 20-го), однак сьогодні його може прочитати менше 0,01 % населення світу. У 19 столітті Японія реформувала свою офіційну писемну мову і з часом кудзусідзі зник із вжитку, внаслідок чого мільйони документів японської культури та історії стали недоступними для більшості людей. Зміст великої кількості старовинних текстів японською мовою, написаних кудзусідзі, давно цікавив дослідників, які намагалися розшифрувати ці рукописи. Щоб розшифрувати ієрогліф, експерти посилаються на спеціалізовані словники для ідентифікації скорописних і напівскорописних знаків. Словники, призначені для розшифровки знаків стилю кудзусідзі, створені відповідно до правил. Для початку необхідно визначити лінію (елемент), з якого починається знак. Потім його знаходять в змісті словника або в його додатку, щоб розглянути всі можливі варіанти «трансформації» знаків складової абетки чи ієрогліфів.

Лише частина текстів кудзусідзі перекладена на сучасні символи кандзі. Вважають, що для того, щоб переписати тексти вручну, потрібно сотні років.[2][3]

Розшифрування

Дослідники потребували комп'ютерні системи оптичного розпізнавання символів для транскрипції текстів кудзусідзі у сучасні символи кандзі. Щоб розв'язати цю проблему влаштували змагання, підготувавши k-MNIST набір даних, який містить 60 000 (28x28 для хіраґани та 68х68 для кандзі) чорно-білих зображень рукописних символів. Набір даних k-MNIST доступний на GitHub і Kaggle, та часто використовувався для хакатонів.[4] Набір даних Kuzushiji включає символи як у кандзі (логографічна система, де кожен символ представляє слово або фразу (з тисячами символів)), так і в хіраґана (складова абетка, де слова будуються із складів (аналогічно алфавіту)) з 35 книг 18 століття.[5]

За допомогою штучного інтелекту можливо перекласти тексти, до цього часу невідомі науковцям, що дає нові можливості дослідити невідомі джерела історичних даних. Станом на 2019 рік, машини навчилися розпізнавати до 95 % текстів.[2] За іншими даними розшифровка текстів написана хіраґаною сягає вище 97 %.[5]

Примітки