27. Лариса (naiti@list.ru) 2009/04/08 10:57
[ответить]
Ай... Как нехорошо... 28 лет... Пусть земля мягкой ему будет.
А программа живет...
26. *Зиновьев Сергей Викторович (sinowev@mail.ru) 2009/01/10 19:07
[ответить]
Прекрасная идея. Это и нужно. Очень интересен вопрос - Возможна ли Лингвоаналитическая идентификация личности-автора на основе современных инофрмационных технологий? Например на основе многослойных нейросетевых технологий, вероятностные нейронные сети, в том числе перцептроны (исскуственные нейронные сети" которые позволяют вычислять энтропию и количество информации содержащейся в сигнале. Это то же может служить вариантом защиты авторских прав.
25. Jet2007/06/04 21:30
[ответить]
May he rest in peace...
22. Анна Кельберт2005/02/02 21:49
[ответить]
>>21.Tester
>Может ли автор программы обновить выборки по текущему состоянию Библиотеки Мошкова, добавив еще выборки по разделам "Русская фантастика" и "Зарубежная фантастика" (в последнем случае будет очевидно анализироваться смесь стилей автора и переводчика)?
С горечью сообщаю, что автор программы, Дима Хмелёв, скончался от аневризмы аорты 25 октября 2004 года, в возрасте 28-и лет. Что касается программы и базы данных, его друзья постараются всё поддерживать, и отвечать на вопросы. Это будет довольно сложно, поэтому заранее приношу свои извинения за задержки. Страничка памяти Димы появится на интернете примерно через полгода. Если интересно, вот ссылка на его страницу в том виде, в каком она осталась: http://www.ma.utexas.edu/users/dima/
Что касается собственно Вашего вопроса, программа Лингвоанализатор уже работает на базе данных "Русской фантастики" на сайте rusf.ru: http://www.rusf.ru/books/analysis/
Вероятно, поэтому база данных на lib.ru задумывалась, как содержащая только классику. Работа с переводной литературой осложняется тем, что каждая пара "автор/переводчик" представляет из себя отдельного автора, с одной стороны, и взаимосвязаны, с другой. Например, как расценивать произведения разных авторов, переведённые одним человеком? Безусловно, это тема для отдельного анализа. Но вряд ли имеет смысл добавлять эти произведения в базу данных классической литературы.
21. Tester2005/01/31 18:16
[ответить]
Может ли автор программы обновить выборки по текущему состоянию Библиотеки Мошкова, добавив еще выборки по разделам "Русская фантастика" и "Зарубежная фантастика" (в последнем случае будет очевидно анализироваться смесь стилей автора и переводчика)?
20. *Хмелёв Дмитрий Викторович (dima@vvv.srcc.msu.su) 2004/08/23 02:05
[ответить]
>>19.Парфенова Татьяна Александровна
>Хитроумное изобретение,но это ж какую нужно иметь текстовую базу,чтобы получить хоть сколько-нибудь объективный результат.
>Еле удержалась от хулиганства загнать страницу из "Ады" Набокова,то-то было бы весело(и опять Акунин ?).
Дело вовсе не в базе, а в правильной постановке задачи
19. Парфенова Татьяна Александровна (t_a_parfonova@list.ru) 2004/08/20 16:35
[ответить]
Хитроумное изобретение,но это ж какую нужно иметь текстовую базу,чтобы получить хоть сколько-нибудь объективный результат.
Еле удержалась от хулиганства загнать страницу из "Ады" Набокова,то-то было бы весело(и опять Акунин ?).
18. *Хмелёв Дмитрий Викторович (dima@vvv.srcc.msu.su) 2004/05/25 02:24
[ответить]
Проблема заключается в том, что при переезде на новый сервер были утеряны все списки авторов. Увы, у себя я их тоже не могу найти. Вполне возможно, что упомянутый Сидоров исчез из библиотеки Мошкова. Приношу свои изменения и постараюсь хоть что-нибудь с этим сделать. Ваша аргументация по поводу некорректности программы теряет смысл, поскольку вы, по-видимому, сравниваете свой текст не с тем результатом, который выдал Лингвоанализатор.
Ещё раз, тысяча извинений за пропавшие списки (претензии по большей части должны идти к Паше Петриенко).
17. *Merlin Aka Alex950082004/05/22 23:55
[ответить]
Я, конечно, не очень большой специалист, но мне кажется, что в алгоритме есть серьезные дыры. В частности, мой, извините за выражение, "роман" был практически полностью идентифицирован с автором Сидоровым А, а единственного такого Сидорова в библиотеке Мошкова я обнаружил в виде Фимы Жиганца, творца блатных баек.
Развлечения ради я построил кривые лексикографической зависимости творений указанного Жиганца-Сидорова и моего опуса по пяти параметрам - пересечению базовых лексем в нормальной форме, удельному распределению длинн предложений, удельному распределению простых и сложносоставных предложений в зависимости от их объема, относительному рапределению знаков препинания и относительному использованию слов, не входящих в определенный словарь (по словарю Зилизняка и по словарю Ожегова отдельно).
единственную - да и то крошечную корреляцию нашел только в последнем случае - чуть меньше 2% у Сидорова против 0.22% у меня.
60% совпадение по базовым лексемам можно считать как "несовпадение" в том смысле, что при использовании одного языка на больших массивов под "совпадением" можно принимать нечто, превышающее 90%, поскольку в этом случае нормальное распределение Гаусса должно работать.
По второму параметру кривые просто разнонаправленны, по третьему - они так же практически ортогональны. Что касается относительной частоты используемых знаков препинания, то единственное относительное совпадение дает знак переноса (он же - минус), поскольку при конвертации текста тире у меня потерялись.
Таким образом, складывается впечатление, что Ваша программа некорректна в том смысле, что для анализа используются некорректные данные. Или, что более вероятно, используется нерепрезентативная выборка доступных подмнжеств.
Насколько я понял, частотно-спектральный анализ и позиционный анализ лексем Вы упустили, однако при анализе текстов эти способы анализа дают гарантированный отсев некоррелируемых текстов. А в результате, как мне кажется, в большинстве случаев Ваша программа производит сравнение по уточняющим, вторичным признакам априори некоррелируемых текстов. Отсюда и некорректные результаты.
Мне представляется вероятным, что при проектировании анализатора была допущена традиционная ошибка, заключающаяся во внутреннем ограничении области применения. То есть подразумевалось, что в силу единства используемого языка анализируемые объекты имеют близкие частотные и позиционные параметры лексикографии. И в принципе это справедливо для значительной части материала - в среднем около 80% людей используют подмножество языка, ограниченное сверху школьным курсом литературы. Но с точки зрения формальной корректности получается, что 20% материала (а здесь, где много людей творческих, возможно и существенно большая доля) будет анализироваться принципиально некорректно.
Не кажется ли Вам, что для получения более достоверных результатов анализа стоит поставить на входе частотно-позиционные фильтры?
PS. У себя на форуме для поиска повторной регистрации забаненых участников я использую именно такой фильтр, и достоверность совпадений оставляет около 98% на 4 Кб текста.
16. Кутолин Сергей (kutol@narod.ru) 2003/11/27 17:37
[ответить]
Путь с использованием цепей Маркова и относительной энтропии, мне кажется, весьма перспективным, необходимым, но недостаточным,- необходимо использовавание и обычных критериев текстологического анализа, применяемого в математической лингвистике(см.,например, известную монографию - учебник Пиотровских, по моему,может несколько ошибаюсь,но когда-то, правда давно этим грешил.Есть и другой и весьма проблемный вопрос... Относительная энтропия не может служить плодотворной оценкой дискурсивной продукции. Таковой же является антиэнтропия(см.Н.И.Кобозев.Исследование в области термодинамики и информации мышления.М.:МГУ,1974).А так всех хороших пожеланий. Это ведь только еще начало. А вот мои "Сказки" вообще не имеют лингвистической оценки. Но я думаю, что вовсе не потому, что нет аналогов, а просто их не предусмотрели. А если бы взяли тексты Рябинина и Афанасьева, то появились бы и результаты анализа...
Все же остальные критерии "Анализатора" прозрачны, обоснованы и, естественно, наивны. Вполне возможно, что если бы матрицу вероятности вставить в уравнения Фоккера - Планка, которым занимались и Ягломы, и Колмагоров, то получились бы более "дискурсивные"- осмысленные результаты с меньшим разбросом по по спискам.
15. Mak Ivan (ivan_mak@mail.ru) 2003/03/24 01:37
[ответить]
>>14.Дима Хмелёв
>>Почитал о принципе действия анализатора и, кажется понял, почему результаты зависят от вида форматирования текста :-)
>Разве они зависят? Такое должно происходить только при исправлении знаков препинания (добавлении пробелов между ними и словами), или может случаться глюк когда много дополнительного форматирования с тагами.
Разница была, когда один и тот же текст сохранялся, сначала из Word-а, а потом из файла "дос с форматированием". Пробелы добавлялись для красных строк и выравнивания текста. Знаки препинания не менялись.
14. Дима Хмелёв (dima@vvv.srcc.msu.su) 2003/03/23 03:21
[ответить]
>Почитал о принципе действия анализатора и, кажется понял, почему результаты зависят от вида форматирования текста :-)
Разве они зависят? Такое должно происходить только при исправлении знаков препинания (добавлении пробелов между ними и словами), или может случаться глюк когда много дополнительного форматирования с тагами.
>Интересно, если анализатор пишет 60% Тургенева и 70% Чехова, это значит, что во мне 130% русского писателя, да? :-))
Скромнее надо быть, скромнее, и брать максимум в качестве обобщающей функции ;)) (совсем скромные берут минимум ;)
13. Mak Ivan (ivan_mak@mail.ru) 2003/03/22 02:59
[ответить]
Почитал о принципе действия анализатора и, кажется понял, почему результаты зависят от вида форматирования текста :-)
Интересно, если анализатор пишет 60% Тургенева и 70% Чехова, это значит, что во мне 130% русского писателя, да? :-))
12. Хмелёв Дмитрий Викторович (dima@vvv.srcc.msu.su) 2003/01/19 18:33
[ответить]
>>9.Andrey Cherezov
>А не пробовали считать вероятность автора по теореме Байеса (или Бейеса :) ?
Нет, я поступаю проще, используя лишь оценку максимума правдоподобия через цепи Маркова. Впрочем, смотря что имеется ввиду. Ведь и на оценку максимума правдоподобия можно смотреть как на байесовскую, изначально задававшую равномерное распределение на всех возможных ответах. Если вопрос в том, использовал ли я неравномерное априорное распределение, то нет. В общем, следует уточнить вопрос.
>А по поводу вашего анализатора - он есть где-нибудь в виде самостоятельного приложения для тестов?
Пока нет. Но может будет. Впрочем, написать такую программу с использованем приведённых формул труда не представляет.
11. Хмелёв Дмитрий Викторович (dima@vvv.srcc.msu.su) 2003/01/19 18:24
[ответить]
>>7.Рашид Мурманский
>Список Христианство
>Лосев А Ф 65.0% (2.408771)
>Театрал 2.389214
>Ранович А Б 55.1% (2.414494)
>Первоисточники по истории раннего христианства 2.402365
>Список Русский детектив
>Акунин Б 64.3% (2.372872)
>Левиафан 2.347602
>На 235 килобайт текста, о чем это говорит? Можно не эпсилонами и дельтами, а конкретно? О том что я чисто посдирал или, наоборот ?
Это, скорее всего, говорит об общности используемого лексикона. Впрочем, большинство современных авторов смахивают на Акунина, поскольку он наиболее яркий представитель из авторов у Мошкова, пишуших на современном русском языке.
>Бояндин К 51.1% (2.362099)
> А это почти 900кв козлов Антон, "прирожденные разведчики
>Список Проза
>Суси В 84.5% (2.399905)
>Базар, вокзал, милиция 2.399051
>Список Современная проза
>Нетребо Л 78.7% (2.402335)
>Список Русский детектив
>Сартинов Е 83.9% (2.402165)
>
>Так чего все это значит, по-человечески?
Почитайте предлоеженные произведения. Весьма вероятно, что вы обнаружите что-то общее, хотя бы в используемом языке. Более подробно --- читайте другие статьи, приведённые в разделе
9. Andrey Cherezov (ac@eserv.ru) 2003/01/14 06:04
[ответить]
А не пробовали считать вероятность автора по теореме Байеса (или Бейеса :) ?
А по поводу вашего анализатора - он есть где-нибудь в виде самостоятельного приложения для тестов?
7. Рашид Мурманский2003/01/07 09:33
[ответить]
Список Христианство
Лосев А Ф 65.0% (2.408771)
Театрал 2.389214
Ранович А Б 55.1% (2.414494)
Первоисточники по истории раннего христианства 2.402365
Список Русский детектив
Акунин Б 64.3% (2.372872)
Левиафан 2.347602
На 235 килобайт текста, о чем это говорит? Можно не эпсилонами и дельтами, а конкретно? О том что я чисто посдирал или, наоборот ?
А вот результат Лингвоанализатора Михалев "Роман"
Такого же по размеру файла
Список Все авторы
Угрюмова В 75.5% (2.354662)
Два героя 2.351132
Список История
Лебединский М Ю 67.1% (2.374127)
Список Христианство
Лосев А Ф 60.7% (2.359251)
Театрал 2.351085
Список Дополнение устойчивой подвыборки 1
Угрюмова В 73.8% (2.354662)
Два героя 2.351132
Список Дополнение устойчивой подвыборки 2
Угрюмова В 79.1% (2.354662)
Два героя 2.351132
Список Дополнение устойчивой подвыборки 3
Угрюмова В 65.5% (2.354662)
Два героя 2.351132
Список Дополнение устойчивой подвыборки 5
Угрюмова В 65.7% (2.354662)
Два героя 2.351132
Это что значит? Опять же в простых словах
А вот файл 448 кв Остапенко "ненависть"
Список История
Лебединский М Ю 77.7% (2.407794)
От пращуров моих... (1-я часть) 2.391882
Список Классика
Чехов А П 81.7% (2.367492)
Именины 2.353884
Рассказы 2.355003
Гончаров И А 73.7% (2.367652)
Список Проза
Меттер И М 57.9% (2.363408)
Список Современная проза
Королев В 72.6% (2.364322)
Ярмолинец В 39.3% (2.366815)
Кокурина Е 2.9% (2.369257)
Истории с небес 2.365495
Глазами женщины 2.368657
Список Русский детектив
Акунин Б 71.6% (2.371953)
Левиафан 2.345455
Дольд-Михайлик Ю 62.9% (2.373487)
У Черных рыцарей 2.370890
Список Устойчивая подвыборка 1
Брайан Д 68.5% (2.360629)
Диадема богини 2.353300
Песня снегов 2.360468
Бояндин К 51.1% (2.362099)
А это почти 900кв козлов Антон, "прирожденные разведчики
Список Проза
Суси В 84.5% (2.399905)
Базар, вокзал, милиция 2.399051
Список Современная проза
Нетребо Л 78.7% (2.402335)
Список Русский детектив
Сартинов Е 83.9% (2.402165)
Так чего все это значит, по-человечески?
6. Дима Хмелёв2002/07/03 02:42
[ответить]
>>3.Модус ВивендиТихая Людмила
> С Днем рождения!
>Хаппи пёздей ту ю! В смысле, с Днем рождения, Дмитрий :)))
Спасибо за поздравления. Транскрипция, правда, иногда хромает, но всё равно приятно.
5. 2b2002/07/02 18:03
[ответить]
в общем, насколько я понял (вглянув пока навскидку), штука хорошая. уже проверил на собственной шкуре, осталось интерпретировать результат. спасибо за предоставленную возможность!
4. Максим Мошков2002/06/23 17:25
[ответить]
>>3.Модус Вивенди
> программкой, призванной считать повторы в тексте? К сожалению, не помню названия - помню только, что была кнопка (которая не работала), а теперь ее нет :(
> Кнопка есть, программка работает, но видеть ее могут только залогиненые авторы Самиздата.
3. Модус Вивенди (Eugenek_13@ngs.ru) 2002/06/23 16:15
[ответить]
Хаппи пёздей ту ю! В смысле, с Днем рождения, Дмитрий :)))
А раз Максим всё видит (даже это), то такой вопрос: что сталось с программкой, призванной считать повторы в тексте? К сожалению, не помню названия - помню только, что была кнопка (которая не работала), а теперь ее нет :(
2. Максим Мошков2002/06/23 12:34
[ответить]
>>1.Тихая Людмила
>Нельзя ли текст маленького объема тоже подвергнуть анализу?
Это бессмысленно - алгоритм лингвоанализа нормально работает только на больших об'емах текста. на малых его результаты совершенно случайны и недостоверны. недостаточно об'ема для анализа.
1. Тихая Людмила (tiha@mail.ru) 2002/06/23 12:14
[ответить]
Дмитрий Викторович!
С Днем рождения!
Успехов, радости, счастья!
Очень интересно о лингвоанализаторе 3-эпсилон!!
Нельзя ли текст маленького объема тоже подвергнуть анализу?
Очень-очень интересно!