Синхронний корпус LIVAC

мовний корпус

LIVAC Synchronous Corpus — це незвичайний мовний корпус, який динамічно підтримується з 1995 року. На відміну від інших чинних корпусів, LIVAC застосував суворий і регулярний, а також «Windows» підхід до обробки та фільтрації масових медіа-текстів із репрезентативних китайських мовних спільнот, таких як Гонконг, Макао, Тайбей, Сінгапур, Шанхай, Пекін, а також Гуанчжоу і Шеньчжень.[1] Таким чином, зміст у більшості випадків навмисно повторюється, представлений текстовими зразками, взятими з редакційних статей, місцевих та міжнародних новин, а також новин фінансів, спорту та розваг.[2] До 2020 року наразі було відфільтровано 3 мільярди символів текстів новин, з яких 700 мільйонів символів було оброблено та проаналізовано. Завдяки ретельному аналізу на основі обчислювальної лінгвістичної методології LIVAC водночас накопичив велику кількість точних і значущих статистичних даних про китайську мову та їх мовні спільноти в Пан-китайському регіоні, і результати показують значні та важливі варіації.[3][4]

LIVAC
Посилання livac.org
Тип програмне забезпечення
Мови Англійська, традиційна та спрощена китайська, українська
Започатковано липень 1995
Стан активний

Підхід «Windows» є найбільш репрезентативною особливістю LIVAC і дає змогу кількісно проаналізувати Пан-китайські медіатексти відповідно до різних атрибутів, таких як місце розташування, час і предметні домени. Таким чином, стали можливими різні типи порівняльних досліджень і застосувань в інформаційних технологіях, а також розробка часто пов'язаних інноваційних застосувань.[5][6] Крім того, LIVAC дозволив брати до уваги поздовжні зміни, сприяючи ключовому слову в контексті (KWIC) та всебічному вивченню цільових слів та їхніх основних понять, а також мовних структур за останні 20 років, на основі змінних, таких як регіон, тривалість і зміст. Результати розлогого та накопичуваного аналізу даних, що міститься в LIVAC, дозволили створити текстові бази даних власних імен, топонімів, назв організацій, нових слів, а також щотижневі та річні списки медіа-діячів. Пов'язані програми включали створення баз даних дієслів і прикметників, формулювання індексів настроїв і пов'язаний з ними аналіз думок, щоб виміряти та порівняти популярність світових медіа-діячів у китайських ЗМІ (LIVAC Annual Pan-Chinese Celebrity Rosters, пізніше перейменований як Пан-китайські списки медіаособистостей)[7][8][9][10] та створення щомісячних нових лексиконів слів (LIVAC Annual Pan-Chinese New Word Rosters).[11][12][13][14] На цій основі став можливим аналіз появи, поширення та трансформації нових слів, видання словників неологізмів.[15][16]

Нещодавно зосереджено на відносному балансі між двоскладовими словами та висхідними трискладовими словами в китайській мові,[17] а також на порівняльному вивченні легких дієслів у трьох китайських мовних спільнотах.[18]

Обробка корпусних даних

  1. Доступ до медіатекстів, ручне введення тощо.
  2. Уніфікація тексту, включаючи перетворення спрощених ієрогліфів у традиційні китайські ієрогліфи, що зберігаються як версії Big5 та Unicode
  3. Автоматична сегментація слів
  4. Автоматичне вирівнювання паралельних текстів
  5. Перевірка вручну, позначення частини мови
  6. Вилучення слів і додавання до регіональних підкорпусів
  7. Поєднання регіональних підкорпусів для оновлення корпусу LIVAC та головної лексичної бази даних

Маркування для зберігання даних

  1. Використовувані категорії включають загальні терміни та власні назви, такі як: загальні імена, прізвища, напівназви; географічні, організації та комерційні структури тощо; час, прийменники, місце розташування тощо; стек-слова; запозичення; відмінкове слово; числівники тощо.
  2. Побудова баз даних власних імен, топонімів, конкретних термінів тощо.
  3. Створіть списки: «списки нових слів», «знаменитості або медіа-персони», «списки назв місць», складні слова та відповідні слова
  4. Позначення інших частин мови для підбази даних, таких як загальні іменники, числівники, класифікатори числівників, різні типи дієслів, а також прикметники, займенники, прислівники, прийменники, сполучники, частки, що позначають настрій, звукоподражання, вставні слова тощо.

Додатки

  1. Складання Пан-китайських або місцевих словників
  2. Дослідження інформаційних технологій, як-от інтелектуальне введення тексту китайською мовою для мобільних телефонів, автоматичне перетворення мови в текст, аналіз думок
  3. Порівняльні дослідження мовного та культурного розвитку панкитайських регіонів
  4. Дослідження щодо викладання та вивчення мови, а також перетворення мови в текст
  5. Індивідуальний сервіс з лінгвістичних досліджень та лексичного пошуку для міжнародних корпорацій та державних установ

Дивитися також

Джерела

Зовнішні посилання

Офіційний вебсайт