Об ИИ без мифов. Путеводитель по истории Искусственного Интеллекта - Черняк Леонид
Особый интерес вызывает деятельность компании Tachyum, созданной выходцем из Словакии Радославом Даниляком. Здесь была разработана процессорная архитектура под названием Prodigy, что переводится как чудо или виртуоз, она представляет собой универсальный 64-ядерный процессор, объединяющий в себе качества CPU и GPU и при этом потребляющий на порядок меньше энергии. Процессор уже выпускается, на его основе в Словацком национальном суперкомпьютерном центре будет построен самый мощный в мире AI-компьютер. Этот проект должен стать центром кристаллизации общеевропейских исследований в области AI, он привлекает к себе и административные, и деловые, но, главное, академические ресурсы. Показательно, что техническим консультантом Tachyum является Стив Фарбер, один из двух разработчиков архитектуры ARM и участник проекта по созданию неизоморфного компьютера SpiNNaker, способного эмулировать мозг.
Что же касается возникшего было энтузиазма, вызванного созданием нейроморфных, то есть подобных мозгу компьютеров, то он постепенно угасает. Причина очевидна – то, что делается на основе полупроводников, плохо соотносится с живым мозгом, или, как его называют, wetware, то есть «влажным железом». Это общая закономерность – все, что сделано человечеством для перемещения по земле, по воде и воздухе, для создания новых материалов и видов энергии, для передачи данных, не является прямым воспроизведением существующего в природе. Скорее всего и создатели компьютерных архитектур будущего пойдут тем же путем, не пытаясь иными средствами повторить живое.
История NLP
NLP принято переводить как «обработка текста на естественном языке», хотя в оригинале текст не упомянут. Перевод вообще странен, если вдуматься. «Текст на естественном языке», а бывают ли тексты на неестественном языке? Казалось бы, к NLP имеют отношение лингвисты, а это явная периссология, пользуясь их терминологией, поэтому оставим NLP. Подавляющая часть работ из области NLP связана с операциями над текстами, но есть еще устная речь и другие знаковые системы, например, жестовые языки, из NLP им посвящено небольшое количество публикаций.
Многие источники определяют NLP как способность программы или компьютера понимать человеческий язык или текстовые документы, хотя точнее интерпретировать, возможность такого перевода understanding обсужден выше. NLP, так же как и CV, служит интерфейсом между уровнем данных и уровнем информации в пирамиде DIKW, то есть представляет собой средство преобразования данных-текстов в более удобную для человека форму, иначе говоря, NLP – это зонтичный термин для различных средств, служащих для автоматизации работы с текстами. Потребность в них постоянно возрастает, поскольку человечество порождает тексты с гигантской скоростью. На своеобразие NLP, как научного направления, влияют особенности языка – это не некое объективно существующее природное явление с известными свойствами, язык – является плодом тысячелетней эволюции, он создан человеческим сообществом и не имеет строгих законов, неоднозначен и перманентно изменяется во времени. Наука о языке не может быть столь же стройной как естественные науки, по этой причине не удается выстроить совершенно строгую и логичную последовательность имен и открытий, приведших к тому виду, в котором это направление AuI существует сегодня. NLP сложилось примерно так как складывается большое мозаичное полотно.
Предыстория NLP
По данным палеолингвистики – одного из направлений исторической лингвистики, реконструирующего дописьменные языки, предпосылки к появлению языка как средства коммуникации возникли примерно полмиллиона лет назад. Сторонники моноцентрической теории считают, что следующий шаг – создание единого прамирового языка – был сделан 70 тысяч лет назад, разумеется эти даты достаточно условны. Количество существующих на данный момент живых языков колеблется в пределах от 2500 до 7000, количество мертвых не поддается оценке. Долгие тысячелетия язык существовал в форме устной речи, в отдельных горных районах есть свистящие языки и по историческим меркам совсем недавно, в XIX веке были созданы жестовые языки для неслышащих.
Первые опыты записи простейших сообщений датируются 9-м тысячелетием до н. э., об этом свидетельствуют найденные в Месопотамии глиняные печати. Самую раннюю из известных систем письма, клинопись, придумали шумеры в 4-м тысячелетии до н. э. Первые попытки изучения языка датируются 2-м тысячелетием, это случилось в Вавилоне, там глиняные таблички размножились в таком количестве, что были созданы прообразы библиотек с элементами каталогизации. С тех пор и на протяжении столетий параллельно сосуществовали два направления: одно – исследования языка, приведшие к появлению науки лингвистики, второе – систематизация текстов, начавшееся с создания библиотечных систем, вылившееся в информационную науку (information science). В СССР до семидесятых годов совершенно заслуженно называли ее информатикой, но потом это название усилиями относительно небольшой группы энтузиастов у нее отобрали и так стали называть computer science, чем создали изрядные затруднения.
Радикальные изменения в работе с текстами начались в конце XV века в Европе после изобретения печати наборным шрифтом, обычно его связывают с именем Иоганна Гутенберга (Johannes Gutenberg, 1400–1468). Печатные оттиски с цельных досок делали намного раньше, что же касается набора из отдельных литер, он был изобретен в Китае за два столетия до Гутенберга. Наборная печать оказался востребована и обрела популярность в Европе под влиянием преобразований Эпохи Возрождения. Набор не только привел к увеличению тиражей книг, но еще и способствовал созданию определенных стандартов на издания, что позволило перейти от плохо упорядоченных монастырских скрипториев к близким к современности университетским библиотекам с их систематическим хранением книг.
Каталоги, как неотъемлемая часть любой библиотеки, были придуманы в еще Ассирии в середине 1 века до н. э., но свой классический вид (ящики с каталожными карточками) они приобрели благодаря изобретению Карла Линнея. Этот ученый создал не только единую систему классификации растительного и животного мира, но и вообще стал основоположником систем классификации, за что получил титул «отца современной таксономии». До Линнея каталоги имели вид тетрадей, а он заменил непрерывные тетради дискретными карточками, которые можно дополнять и переупорядочивать со всеми вытекающими последствиями. Библиотечные каталоги на карточках появились впервые в Австро-Венгрии в 1780 году, для записи данных о книгах использовалась рубашка удобных по формату игральных карт. После Французской революции и в наполеоновские времена карточные каталоги были заметно усовершенствованы. Окончательный стандарт на формат карточки 3х5 дюймов и конструкцию ящика был прият в конце XIX века. С 90-х годов прошлого века бумажные каталоги стали вытесняться компьютерными и в 2015 был напечатан последний тираж каталожных карточек.
С появлением печатных книг возникла массовая грамотность, она стимулировала изучение языка и появление лингвистики. Впрочем, термин лингвистика (linguistics) появился намного позже, только лишь в середине XIX века, до этого лингвистами (linguist) называли студентов, изучающих язык. Предпосылки к созданию новой науки создал Вильгельм фон Гумбольдт, а также Иоганн Гердер и Иоганн Кристоф Аделунг. Отцом современной лингвистики считают швейцарца Фердинанда де Соссюра (Ferdinand de Saussure, 1857–1913), основателя Женевской лингвистической школы, заложившего основы структурной лингвистики. Материалы прочитанных им лекций собрали и издали в виде книги «Курс общей лингвистики» в 1916 году его ученики Шарль Балли и Альбер Сеше. История лингвистики – самостоятельная дисциплина, мы ее затрагивать не будем.
В истории обнаруживаются и более ранние попытки применить формальные методы для работы с текстами, известен, например, Авраам бен Самуэль Абулафия, еврейский мыслитель и каббалист, живший в Испании во второй половине XIII века. Он был современником Раймунда Луллия, есть сведения, что Абулафия и Луллий состояли в переписке. Объектом исследования Абулафии был трактат Сефер Йецира (Книга творения) – один из основополагающих каббалистических текстов. В нем рассматривается то, как бог создал язык и способ его записи 22 буквами еврейского алфавита. Абулафия пошел дальше, он стремился понять можно ли, следуя формальным правилам, манипулировать символами для получения новых истин. Идеологически Абулафия и Луллий близки, первый манипулировал буквами, а второй с помощью своей машины – словами. Абулафия назвал созданное им наукой о комбинации букв, которую можно считать зародышем NLP.