Кембриджський корпус англійської мови

Кембриджський корпус англійської мови (англ. Cambridge English Corpus, абр. CEC) — це багатомільярдний корпус англійської мови, що містить як текстовий корпус, так і розмовні дані. Кембриджський корпус містить дані з низки джерел, включаючи письмову та розмовну, британську та американську англійську . CEC також містить Кембриджський навчальний корпус - корпус з 40 мільйонів слів, складений з екзаменаційних відповідей з англійської мови, написаних тими, хто вивчає її.

Корпус використовується для підготовки публікацій видавництва Кембриджського університету з викладання англійської мови, а також для досліджень у галузі корпусної лінгвістики . Наразі доступ обмежений для авторів та дослідників, що працюють над проектами та публікаціями видавництва Кембриджського університету, а також для дослідників Cambridge English Language Assessment[en]. [1]

Письмові дані

Кембриджський корпус англійської мови містить зразки сучасної письмової англійської мови, взяті з газет, журналів, романів, листів, електронної пошти, підручників, веб-сайтів та багатьох інших джерел.

Зразки усної мови

Кембриджський корпус англійської мови містить широкий спектр розмовної англійської, взятої з багатьох джерел, включаючи повсякденні розмови, телефонні дзвінки, радіопередачі, презентації, виступи, зустрічі, телевізійні програми та лекції.

Кембриджський навчальний корпус

Кембриджський навчальний корпус (англ. Cambridge Learner Corpus, абр. CLC) — це колекція екзаменаційних сценаріїв, написаних студентами, які вивчають англійську мову, створений у співпраці з Cambridge English Language Assessment[en]. CLC містить сценарії більше 180 000 студентів з близько 200 країн, що говорять 138 різними мовами, та постійно поповнюється. [2] На даний момент до нього включені наступні іспити:

Унікальною особливістю кембриджського навчального корпусу є система кодування помилок. Фахівці з мови виявляють та анотують помилки в екзаменаційних сценаріях. Це означає, що корпус можна використовувати для отримання інформації про частоту різних типів помилок, контексти, в яких вони допускаються, а також групи студентів, які зазнають туднощів у певних мовних областях. [3]

Автори ресурсів кембриджського викладання англійської мови[en] можуть використовувати цю інформацію для виявлення найпоширеніших помилок – наприклад, Cambridge Advanced Learner's Dictionary містить функції «Common mistake», які виділяють часті помилки учнів.

І навпаки, система кодування помилок також показує, чого можуть досягти учні на кожному рівні. Це є центральним елементом роботи English Profile[en], спільної програми для покращення вивчення, викладання та оцінювання англійської мови в усьому світі. Партнерами-засновниками програми є видавництво Кембриджського університету, Cambridge English Language Assessment[en], Кембриджський університет, Університет Бедфордшира[en], Британська Рада та English UK. Мета проекту - описати, що учні знають та вміють робити англійською мовою на кожному рівні Загальноєвропейських компетенцій (англ. Common European Framework of Reference, абр. CEFR). [4]

Спеціалізовані корпуси

Кембриджський корпус англійської мови містить ряд спеціалізованих корпусів:

Кембриджський корпус ділової англійської мови

Кембриджський корпус ділової англійської мови (англ. Cambridge Business English Corpus) є великою колекцією британської та американської ділової мови, включаючи звіти, документи та книги, що стосуються різних аспектів бізнесу, а також ділові розділи багатьох національних газет.

Кембриджський корпус ділової англійської мови також включає Корпус розмовної ділової англійської мови в Кембриджі та Ноттінгемі (англ. Cambridge and Nottingham Spoken Business English Corpus, абр. CANBEC), що є результатом спільного проекту між видавництвом Кембриджського університету та Університетом Ноттінгема . Це колекція записів англійської мови всіх розмірів - від великих транснаціональних компаній до невеликих партнерств. Він містить офіційні та неформальні зустрічі, презентації, телефонні розмови, бесіди за обідом, а також розмовну мову з інших ділових ситуацій.

Кембриджський корпус юридичної англійської мови

Cambridge Legal English Corpus містить книги, журнали та газетні статті, що стосуються права та юридичних процесів.

Кембриджський фінансовий англійський корпус

Кембриджський корпус юридичної англійської мови (англ. Cambridge Legal English Corpus) містить тексти, пов'язані з економікою та фінансами, включаючи провідні фінансові журнали та газети.

Кембриджський академічний англійський корпус

Кембриджський академічний англійський корпус (англ. Cambridge Academic English Corpus) містить письмове та усне академічне мовлення студентів та аспірантів різних навчальних закладів США та Великобританії, включаючи лекції, семінари, студентські презентації, журнали, есе та підручники.

Кембриджський і Ноттінгемський корпус дискурсу англійською мовою

Кембриджський і Ноттінгемський корпус дискурсу англійською мовою (англ. The Cambridge and Nottingham Corpus of Discourse in English, абр. CANCODE) — це колекція розмовної англійської мови, записаної в сотнях місць на Британських островах у найрізноманітніших ситуаціях (наприклад, невимушена розмова, спілкування, пошук інформації та дискусії). Корпус CANCODE є результатом спільного проекту між видавництвом Кембриджського університету та Університетом Ноттінгема.

У корпусі CANCODE близько п’яти мільйонів слів і є дуже багатим ресурсом для дослідників розмовної англійської мови. Однак дані мають певні обмеження. Більшість людей знали, що їх записують, вони спілкувалися в неформальних ситуаціях, наприклад, відпочиваючи вдома, з іншими людьми, які мають досить рівний соціальний статус. Це означає, що взаємодія, як правило, відбувається за взаємною згодою, тому в корпусі наявна мінімальна кількість конфліктів та змагальних обмінів думками. [5]

Кембридж-Корнельський корпус розмовної північноамериканської англійської мови

Кембридж-Корнельський корпус розмовної північноамериканської англійської мови (англ. Cambridge University Press/Cornell Corpus) є великою колекцією неформальних, високоінтерактивних, багатосторонніх розмов між членами сім'ї або друзями в Північній Америці. The Cambridge-Cornell corpus є результатом спільного проекту між видавництвом Кембриджського університету та Корнелльським університетом.

Кембриджський корпус розмовної північноамериканської англійської мови

Кембриджський корпус розмовної північноамериканської англійської мови[en] (англ. The Cambridge Corpus of Spoken North American English, абр. CAMSNAE) — це велика колекція розмовної американської англійської мови . Він включає записи людей, що займаються повсякденним життям – на роботі, вдома з сім’єю, у магазині, за їжею тощо.

Дивитися також

  • Cambridge English Language Assessment[en]

Посилання

Зовнішні посилання