Александр Долгин - Экономика символического обмена
317
В разделе частично использованы материалы обзорной работы: Adomavicius G., Tuzhilin А. Toward the next generation of recommender systems: a survey of the state-of-the-art and possible extensions // IEEE Transactions on Knowledge and Data Engineering, Vol. 17, № 6, June 2005.
318
С середины 1990-х гг. рекомендательные системы выделились в самостоятельную область научных исследований, которые опираются на достижения когнитивных наук, наработки информационно-поисковых систем, теорию прогнозирования и проч.
319
Это можно записать следующим образом: где С – это множество пользователей (вплоть до многих миллионов), S – группа предлагаемых товаров (тоже миллионы единиц), U – функция полезности, описывающая полезность предмета S для пользователя С.
320
Дополнительно о рекомендательных системах см. приложение 1, глава 11.
321
См. приложение 1, раздел 11.8.
322
См.: Terveen L., Hill W. Beyond Recommender Systems: Helping People Help Each Other // Carroll J. (ed.) HCI in The New Millennium. Addison-Wesley, 2001.
323
Baeza-Yates R., Ribeiro-Neto B. Modern Information Retrieval. Addison-Wesley, 1999; Salton G. Automatic Text Processing. Addison-Wesley, 1989.
324
Belkin N., Croft B. Information Filtering and Information Retrieval // Comm. ACM, Vol. 35, № 12, 1992. P. 29–37.
325
Например, система Fab, специализирующаяся на рекомендациях веб-страниц, представляет их контент в виде 100 наиболее важных слов. Система Syskill & Webert описывает документы с помощью 128 самых информативных слов. Существуют различные методы вычисления «важности» и «информативности» слов в документах. Например, метод частотности / обратной частотности. Суть его такова: пусть N – некоторое количество документов, которые могут быть рекомендованы пользователям. В части этих документов (ni) встречается ключевое слово kj. Кроме того, предположим, что fij – это количество раз, которое ключевое слово kj встречается в неком конкретном документе dj. Тогда TFij – частота употребления ключевого слова kj в документе dj – определяется как где максимум вычисляется из частотности fz,j всех ключевых слов kz, встречающихся в документе dj. Однако если ключевые слова широко распространены во многих документах, то система не в состоянии корректно выбрать необходимый текст. Поэтому измерение обратной частотности слова (IDFi) часто используется наряду с измерением обычной частотности (Tfij). Обратная частотность для ключевого слова ki обычно определяется как Тогда вес ключевого слова ki в документе dj определяется как а контент документа dj определяется как (Adomavicius G., Tuzhilin A. Toward the next generation of recommender systems…)
326
Это можно записать так: Существуют другие контентные методы, такие как байесов классификатор, машинное самообучение, включающие кластеризацию дерева решений, искусственные нейронные сети.
327
Tapestry помогала пользователю оценивать электронные сообщения как «плохие» или «хорошие», ориентируясь по оценкам других людей. Например, некто мог обратить внимание на документы, которые отметил конкретный человек, или мог воспользоваться документами, аннотации которых содержат ключевые слова. (См.: Terveen L., Hill W. Beyond Recommender Systems…)
328
Тут возникает задача суммирования рецензий, рассмотренная, например, в работе: Hu M., Liu B. Mining and Summarizing Customer Review // Proc. of the 10th ACM SIGKDD, 2004. P. 168–177.
329
Поисковик Google сообщал о намерении платить внештатным экспертам за присланные аналитические материалы о продуктах.
330
Breese J. S., Heckerman D., Kadie C. Empirical Analysis of Predictive Algorithms for Collaborative Filtering //Proc. 14th Conf. Uncertainty in Artificial Intelligence, July 1998; Billsus D., Pazzani M. Learning Collaborative Information Filters // Proc. Intl Conf. Machine Learning, 1998.
331
Nakamura A., Abe N. Collaborative Filtering Using Weighted Majority Prediction Algorithms // Proc. 15th Intl Conf. Machine Learning, 1998; Delgado J., Ishii N. Memory-Based Weighted-Majority Prediction for Recommender Systems // Proc. ACM SIGIR’99 Workshop Recommender Systems: Algorithms and Evaluation, 1999; Resnick P., Iakovou N., Sushak M., Bergstrom P., Riedl J. GroupLens: An Open Architecture for Collaborative Filtering of Netnews // Proc. 1994 Computer Supported Cooperative Work Conf., 1994; Shardanand U., Maes P. Social Information Filtering: Algorithms for Automating «Word of Mouth» // Proc. Conf. Human Factors in Computing Systems, 1995.
332
В методе линейного сходства клиент и потенциальный рекомендатель представляются как два вектора m-мерного пространства, а сходство между ними определяется по косинусу угла между двумя соответствующими векторами: где – скалярное произведение двух векторов. Примем для простоты, что в нашем распоряжении для тестирования вкусов только три произведения. Тогда каждого рекомендателя можно схематически обозначить в виде точки в прямоугольной декартовой трехмерной системе координат (х, у, z), а ее положение полностью определится оценками данных произведений. Вкус клиента тоже можно охарактеризовать точкой, в соответствии с высказанными предпочтениями. Если из начала координат в эти две точки провести векторы, то угол между ними будет характеризовать степень близости вкусов клиента и рекомендателя.
333
Такие как голосование по умолчанию, обратная частотность, предсказание на основании взвешенного большинства и др.
334
Sarwar B., Karypis G., Konstan J., Riedl J. Item-Based Collaborative Filtering Recommendation Algorithms // Proc. 10th Intl WWW Conf., 2001. По их мнению, системы, ориентированные на анализ оценок, данных товарам, показывают лучшие результаты по сравнению с коллаборативными алгоритмами, ориентированными на анализ потребителей. Так же считают и авторы работы: Deshpande M., Karypis G. Item-Based Top-N Recommendation Algorithms // ACM Trans. Information Systems, Vol. 22, № 1, 2004. P. 143–177.
335
Billsus D., Pazzani M. Learning Collaborative Information Filters; Breese J. S., Heckerman D., Kadie C. Empirical Analysis of Predictive Algorithms for Collaborative Filtering; Getoor L., Sahami M. Using Probabilistic Relational Models for Collaborative Filtering // Proc. Workshop Web Usage Analysis and User Profiling (WEBKDD ’99), Aug. 1999; Goldberg K., Roeder T., Gupta D., Perkins C. Eigentaste: A Constant Time Collaborative Filtering Algorithm // Journal of Information Retrieval, Vol. 4, № 2, July 2001. P. 133–151; Hofmann T. Collaborative Filtering via Gaussian Probabilistic Latent Semantic Analysis // Proc. 26th Ann. Intl ACM SIGIR Conf., 2003; Marlin B. Modeling User Rating Profiles for Collaborative Filtering // Proc. 17th Ann. Conf. Neural Information Processing Systems (NIPS ’03), 2003; Pavlov D., Pennock D. A Maximum Entropy Approach to Collaborative Filtering in Dynamic, Sparse, High-Dimensional Domains // Proc. 16th Ann. Conf. Neural Information Processing Systems (NIPS ’02), 2002.