Ирина Овчинникова - Информационно-коммуникационные технологии в школьном обучении русскому языку и подготовке к ЕГЭ
Тезаурус (от греч. thesaures «сокровище, сокровищница») – 1) словарь, в котором максимально полно представлены все слова языка с исчерпывающим перечнем примеров их употребления в текстах; 2) идеографический словарь, в котором показаны семантические отношения (родовидовые, синонимические и др.) между лексическими единицами. Тезаурус в первом значении в полном объеме осуществим лишь для мертвых языков. Структурной основой для тезауруса во втором значении обычно служит иерархическая система понятий, обеспечивающая поиск от смыслов к лексическим единицам, т. е. поиск слова, исходя из обозначенного им понятия. Тезаурусы обычно издаются как иллюстрированные словари: приводится изображение с пронумерованными по-чертежному деталями, в текстовой части нумерованный список сопровождается названиями (иногда на нескольких языках). Поиск в тезаурусе ведется по иерархическому дереву: от более общего наименования к более частному. Например, чтобы выяснить наименование (или внешний вид) кокошника, необходимо обратится к предметной области «одежда», далее выбрать рубрику «головные уборы».
В тезаурусах преодолевается один из весьма существенных недостатков традиционных словарей. Ведущий отечественный специалист по прикладной лингвистике А.И. Новиков полно охарактеризовал этот недостаток в предисловии к монографии «Семантика информационных технологий» Ю. Филипповича и А. Прохорова: «Традиционный словарный способ представления лексики характеризуется тем, что слова в нем организуются на основе какого-либо формального принципа (например, алфавитное расположение). Вследствие этого и значения, которые задаются в таких словарях в виде дефиниций, также оказываются разобщенными и в явном виде не обнаруживают своей системности. Ее можно установить в результате специальной деятельности, заключающейся в обнаружении некоторых общих компонентов в этих значениях, или других признаках их связности. Иногда сделать это бывает достаточно трудно. Это дает основания считать, что традиционный словарь, являясь инструментом представления лексического состава языка, как правило, не отражает достаточно полно и эксплицитно внутреннюю системность языка. Он может служить материалом для такой системности, для чего требуется специальная деятельность лингвиста и соответствующие методы анализа» (Филиппович, Прохоров 2002: 5–6). Естественно, рядовой носитель языка, а тем более школьник, не владеет специальными методами анализа и не сможет на основе традиционных словарей составить представление о предметной области, выявить меру различия близких понятий и т. п. Эти задачи позволит ему решить тезаурус.
Некоторые полезные тезаурусы представлены в Интернете по адресу http://www.rutenia.ru/folklore/. С содержанием лингвистических понятий можно ознакомиться в «Тезаурусе по теоретической и прикладной лингвистике» С.Е. Никитиной (Никитина 1978). Опыт словарно-тезаурусного описания семантики информационных технологий обсуждается в монографии Ю.Н. Филипповича и А.В. Прохорова (Филиппович, Прохоров 2002).
Задание 1. Найдите определение термина тезаурус в сетевых энциклопедиях Википедия и Кругосвет. Сохраните скриншоты с определениями для итоговой презентации по спецкурсу.
Задание 2. Ознакомьтесь с тезаурусами, доступными по адресу http://www.rutenia.ru/folklore/.
База данных не является понятием собственно прикладной лингвистики. Это понятие общее для всех информационных технологий. База данных – это структурированная совокупность взаимосвязанных данных в рамках некоторой предметной области, предназначенная для длительного хранения во внешней (не оперативной) памяти компьютера и постоянного применения. Тем не менее создание базы данных – ключевая технология компьютерной лексикографии. Современные словари создаются на основе хранимых в памяти компьютера контекстов, для их создания используют программы, позволяющие формальным образом представить морфологические, словообразовательные, синтаксические и даже семантические характеристики слова.
Формирование базы данных начинается с табличного представления сырого материала. В стандартный пакет программного обеспечения Windows входят электронные таблицы Excel, позволяющие организовать материал и производить стандартную статистическую обработку. Однако управлять базой данных в Excel неудобно. Для управления базой данных Microsoft Office предлагает систему управления базой данных Access (СУБД Access). Это сравнительно простая система, позволяющая из исходного материала, введенного в базу данных, формировать множество таблиц по количественным и качественным параметрам, заданным самим пользователем. СУБД Аccess широко используется в лингвистических работах.
Задание 1. Ознакомьтесь с приложением Excel. Используя возможности приложения, попытайтесь составить таблицу образцов склонения русских существительных.
Задание 2. Выберите одну из доступных в Интернет лингвистическую базу данных:
http://www.speech.nw.ru/,
http://www.imli.ru/zagovor/,
www.lingsoft.fi/doc/rustwol.txt.
Подготовьте презентацию о ней.
Рекомендуемое домашнее задание(Индивидуально) Выбрать одну из доступных в Интернете лингвистическую базу данных: http://www.speech.nw.ru/, www.imli.ru/zagovor/, www.lingsoft.fi/doc/rustwol.txt. Подготовьте презентацию о ней.
Составить таблицу формообразования (по выбору) в Excel.
Четвертый урок
Тема: Основные ИКТ прикладной русистики: корпус данных и корпус текстов
Цель в предметной области: знакомство с Национальным корпусом русского языка и другими корпусами, систематизация знаний о лексическом значении слова.
Цель в формировании информационно-коммуникационной компетентности: знакомство с технологией национальных корпусов.
Задачи:
1. Установить основные отличия корпуса данных от базы данных.
2. Определить цели создания национальных корпусов.
3. Определить достоинства представления национального языка в виде корпуса.
4. Определить спектр задач, решаемых на материале Национального корпуса русского языка.
Формы: лекция с обсуждением. приемы реализации задач:
1. Характеристика корпуса текстов с показом мультимедийной презентации.
2. Показать достоинства работы с корпусом текстов в презентации.
3. Продемонстрировать возможности поиска информации в корпусе на компьютере.
4. Индивидуальная работа над материалами из Национального корпуса русского языка.
Материалы для урока
Корпус данных – особый вид базы данных. В отличие от базы данных, корпус данных претендует на отражение реальной картины, существующей в предметной области. Обычно корпус данных формируется из текстов. По запросу пользователя из корпуса извлекаются материалы. Единица извлечения материала определяется единицей хранения. Если единицей хранения является слово, то на запрос пользователя из корпуса будет извлекаться отдельное слово (как в орфографических словарях); если же единица хранения – словосочетание, то пользователь на запрос о слове получит ближайшие контексты интересующего его слова; при единице хранения предложении «ответом» пользователю будет целое предложение и т. п.
В качестве материалов предлагаем главу о корпусной лингвистике из учебного пособия И.Г. Овчинниковой и И.А. Углановой «Компьютерное моделирование речевой коммуникации» (Пермь 2006). Приведем некоторые выдержки из данного пособия.
Корпусная лингвистика – одна из наиболее востребованных отраслей прикладного языкознания. Бурное развитие корпусной лингвистики обусловлено необходимостью создания ресурсов, обеспечивающих доступ к языковому материалу, качественно обработанному и репрезентативному. Одна из основных прикладных задач, стимулирующих бурное развитие корпусной лингвистики, – обеспечение систем машинного перевода, новое поколение которых использует корпусы текстов на разных языках как базы примеров и аналогий, пригодных для повторного использования при переводе новых документов. Корпусная лингвистика использует программное обеспечение, рассчитанное на обработку естественного языка. В процессе создания корпусов текстов на различных языках совершенствуются программы, позволяющие работать с естественным языком на компьютере (так называемые NLP – natural language processing). Такого рода программы широко используются за пределами корпусной лингвистики и научных исследований.
Корпусы текстов представляют сырой материал для создания и тестирования программ по переработке естественного языка. В данном случае под текстами понимаются и высказывания устной речи как в СМИ, так и в естественной коммуникации (например, соответствующие подкорпусы Британского национального корпуса). В целом все известные корпусы реализуют четыре варианта: