Синхронний корпус LIVAC

LIVAC
Посилання	livac.org
Тип	програмне забезпечення
Мови	Англійська, традиційна та спрощена китайська, українська
Започатковано	липень 1995
Стан	активний

LIVAC Synchronous Corpus — це незвичайний мовний корпус, який динамічно підтримується з 1995 року. На відміну від інших чинних корпусів, LIVAC застосував суворий і регулярний, а також «Windows» підхід до обробки та фільтрації масових медіа-текстів із репрезентативних китайських мовних спільнот, таких як Гонконг, Макао, Тайбей, Сінгапур, Шанхай, Пекін, а також Гуанчжоу і Шеньчжень.^[1] Таким чином, зміст у більшості випадків навмисно повторюється, представлений текстовими зразками, взятими з редакційних статей, місцевих та міжнародних новин, а також новин фінансів, спорту та розваг.^[2] До 2020 року наразі було відфільтровано 3 мільярди символів текстів новин, з яких 700 мільйонів символів було оброблено та проаналізовано. Завдяки ретельному аналізу на основі обчислювальної лінгвістичної методології LIVAC водночас накопичив велику кількість точних і значущих статистичних даних про китайську мову та їх мовні спільноти в Пан-китайському регіоні, і результати показують значні та важливі варіації.^[3]^[4]

Підхід «Windows» є найбільш репрезентативною особливістю LIVAC і дає змогу кількісно проаналізувати Пан-китайські медіатексти відповідно до різних атрибутів, таких як місце розташування, час і предметні домени. Таким чином, стали можливими різні типи порівняльних досліджень і застосувань в інформаційних технологіях, а також розробка часто пов'язаних інноваційних застосувань.^[5]^[6] Крім того, LIVAC дозволив брати до уваги поздовжні зміни, сприяючи ключовому слову в контексті (KWIC) та всебічному вивченню цільових слів та їхніх основних понять, а також мовних структур за останні 20 років, на основі змінних, таких як регіон, тривалість і зміст. Результати розлогого та накопичуваного аналізу даних, що міститься в LIVAC, дозволили створити текстові бази даних власних імен, топонімів, назв організацій, нових слів, а також щотижневі та річні списки медіа-діячів. Пов'язані програми включали створення баз даних дієслів і прикметників, формулювання індексів настроїв і пов'язаний з ними аналіз думок, щоб виміряти та порівняти популярність світових медіа-діячів у китайських ЗМІ (LIVAC Annual Pan-Chinese Celebrity Rosters, пізніше перейменований як Пан-китайські списки медіаособистостей)^[7]^[8]^[9]^[10] та створення щомісячних нових лексиконів слів (LIVAC Annual Pan-Chinese New Word Rosters).^[11]^[12]^[13]^[14] На цій основі став можливим аналіз появи, поширення та трансформації нових слів, видання словників неологізмів.^[15]^[16]

Нещодавно зосереджено на відносному балансі між двоскладовими словами та висхідними трискладовими словами в китайській мові,^[17] а також на порівняльному вивченні легких дієслів у трьох китайських мовних спільнотах.^[18]

Обробка корпусних даних

Доступ до медіатекстів, ручне введення тощо.
Уніфікація тексту, включаючи перетворення спрощених ієрогліфів у традиційні китайські ієрогліфи, що зберігаються як версії Big5 та Unicode
Автоматична сегментація слів
Автоматичне вирівнювання паралельних текстів
Перевірка вручну, позначення частини мови
Вилучення слів і додавання до регіональних підкорпусів
Поєднання регіональних підкорпусів для оновлення корпусу LIVAC та головної лексичної бази даних

Маркування для зберігання даних

Використовувані категорії включають загальні терміни та власні назви, такі як: загальні імена, прізвища, напівназви; географічні, організації та комерційні структури тощо; час, прийменники, місце розташування тощо; стек-слова; запозичення; відмінкове слово; числівники тощо.
Побудова баз даних власних імен, топонімів, конкретних термінів тощо.
Створіть списки: «списки нових слів», «знаменитості або медіа-персони», «списки назв місць», складні слова та відповідні слова
Позначення інших частин мови для підбази даних, таких як загальні іменники, числівники, класифікатори числівників, різні типи дієслів, а також прикметники, займенники, прислівники, прийменники, сполучники, частки, що позначають настрій, звукоподражання, вставні слова тощо.

Додатки

Складання Пан-китайських або місцевих словників
Дослідження інформаційних технологій, як-от інтелектуальне введення тексту китайською мовою для мобільних телефонів, автоматичне перетворення мови в текст, аналіз думок
Порівняльні дослідження мовного та культурного розвитку панкитайських регіонів
Дослідження щодо викладання та вивчення мови, а також перетворення мови в текст
Індивідуальний сервіс з лінгвістичних досліджень та лексичного пошуку для міжнародних корпорацій та державних установ

Дивитися також

Джерела

Зовнішні посилання

Офіційний вебсайт

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

Search