Хмелёв Дмитрий Викторович : другие произведения.

Комментарии: О Лингвоанализаторе 3-эпсилон
 (Оценка:3.51*123,)

Самиздат: [Регистрация] [Найти] [Рейтинги] [Обсуждения] [Новинки] [Обзоры] [Помощь|Техвопросы]
  • © Copyright Хмелёв Дмитрий Викторович (Anna Kelbert <akelbert@gmail.com>)
  • Размещен: 21/05/2002, изменен: 27/05/2002. 18k. Статистика.
  • Статья:

  • Добавить комментарий Отсортировано по:[убыванию][возрастанию]
    Страниц (3): 1 2 3
    ОБЩИЕ ГОСТЕВЫЕ:
    23:27 "Форум: Трибуна люду" (976/8)
    23:26 "Форум: все за 12 часов" (342/101)
    22:59 "Технические вопросы "Самиздата"" (230/3)
    17:02 "Диалоги о Творчестве" (249/3)
    25/11 "Форум: Литературные объявления" (666)
    25/11 "О блокировании "Самиздата"" (294)
    ОБСУЖДЕНИЯ: (все обсуждения) (последние)
    00:21 Олейник М.И. "В канун конца света" (2/1)
    00:15 Козлов И.В. "Принимаются стихотворения " (87/13)
    00:07 Виноградов П. "Пишу рецензии. Не очень дёшево, " (224/48)
    00:06 Берг D.Н. "Мы из Кронштадта, подотдел " (625/6)
    00:05 Сезин С.Ю. ""Красный призрак" и "Белые " (1)
    00:00 Ролько Т., Юрцва "Принудительная геометрия Вселенной" (129/1)
    23:53 Энвэ М. "Некуда бежать, негде спрятаться " (222/3)
    23:52 Кротов С.В. "Чаганов: Война. Часть 4" (281/16)
    23:51 Родривар Т. "Случайный попутчик" (389/1)
    23:44 Рубен "Миллион не влезет в гирю!" (20/1)
    23:40 Акулов В.В. "Теория игр и война" (2/1)
    23:38 Баламут П. "Ша39 Бронетанковая" (427/7)
    23:33 Гусилетов А.И. " Гуцериев, как судьба русского " (1)
    23:28 Безбашенный "Запорожье - 1" (40/13)
    23:20 Фамилия И. "В чём причины популярности " (3/1)
    23:20 Коркханн "Угроза эволюции" (874/19)
    23:17 Давыдов С.А. "То, что я читаю и смотрю" (933/7)
    22:59 Самиздат "Технические вопросы "Самиздата"" (230/4)
    22:56 Кошкин Д. "Кошмары Раккун-Сити. Фанфик " (2/1)
    22:51 Динас В. "Камера молчания" (5/4)

    РУЛЕТКА:
    Дикий
    Я пришла на тихий
    Книга о вкусных
    Рекомендует Ковальчук А.Ю.

    ВСЕГО В ЖУРНАЛЕ:
     Авторов: 108572
     Произведений: 1671061

    Список известности России

    СМ. ТАКЖЕ:
    Заграница.lib.ru
    | Интервью СИ
    Музыка.lib.ru | Туризм.lib.ru
    Художники | Звезды Самиздата
    ArtOfWar | Okopka.ru
    Фильм про "Самиздат"
    Уровень Шума:
    Интервью про "Самиздат"

    НАШИ КОНКУРСЫ:
    Рождественский детектив-24


    28/11 ПОЗДРАВЛЯЕМ:
     Абакумова Е.Б.
     Абрашова Е.А.
     Айа Э.А.
     Афанасьев И.С.
     Бархол Е.
     Баянова Н.А.
     Белолипецкий А.В.
     Биньковская А.А.
     Богатырёв Р.
     Булгакова И.В.
     Вильгельми А.В.
     Винокур И.
     Волк А.
     Галевская Г.
     Гаркавый В.А.
     Глушин А.В.
     Глыбина В.А.
     Гришко В.Р.
     Деева А.Н.
     Дженкинс К.
     Дорошенко И.Э.
     Дэльз С.В.
     Жгутова-Полищук В.
     Жук Т.А.
     Измайлов К.И.
     Казарян К.С.
     Климарев И.В.
     Климова Л.В.
     Кобзева Е.А.
     Коломиец Е.А.
     Коскина Т.
     Ксандер В.
     Луканина Е.В.
     Макарова А.А.
     Мамедова Л.Р.
     Морозов С.В.
     Мосиенко Ю.В.
     Нино
     Орлова Я.С.
     Павлов О.А.
     Первушина Т.В.
     Першина Л.П.
     Печенкина Л.В.
     Писакова С.Э.
     Пугнин Ю.В.
     Пугнин Ю.В.
     Риш К.
     Родионов М.В.
     Ройтберг В.И.
     Романенко Г.В.
     Роуг Л.
     Свидерский С.В.
     Сереброва Э.
     Симдянкин Е.Ю.
     Сиюткина Е.В.
     Собенков Р.И.
     Сокова Н.В.
     Суворов А.М.
     Сэй А.
     Сэр С.С.
     Толстокулакова И.Г.
     Федишин В.Е.
     Храмцова А.
     Чарторыжская А.
     Черевков А.С.
     Чмелёва Л.А.
     Шах Ю.
     Ярмолинская А.Л.
     Ariashari
     Eeshka
     Nutik
     Rabbit L.
     Richmund T.
    ПОСЛЕДНИЕ ПОСТУПЛЕНИЯ: (7day) (30day) (Рассылка)
    19:11 Иевлев Г.В. "В плену горячей звезды"
    11:40 Низовцев Ю.М. "О необходимости присутствия "
    26/11 Джонстон П. "Список смерти"
    26/11 Ледовский В.А. "Силы разные..."
    26/11 Кротков А.П. "Маски-шоу Павла Воткова"
    25/11 Небов К. "Потерянный ключ от забытой "
    25/11 Пен-Пен "Я - Секретный Босс среди мобов!"
    27. Лариса (naiti@list.ru) 2009/04/08 10:57 [ответить]
      Ай... Как нехорошо... 28 лет... Пусть земля мягкой ему будет.
      
      А программа живет...
    26. *Зиновьев Сергей Викторович (sinowev@mail.ru) 2009/01/10 19:07 [ответить]
      Прекрасная идея. Это и нужно. Очень интересен вопрос - Возможна ли Лингвоаналитическая идентификация личности-автора на основе современных инофрмационных технологий? Например на основе многослойных нейросетевых технологий, вероятностные нейронные сети, в том числе перцептроны (исскуственные нейронные сети" которые позволяют вычислять энтропию и количество информации содержащейся в сигнале. Это то же может служить вариантом защиты авторских прав.
    25. Jet 2007/06/04 21:30 [ответить]
      May he rest in peace...
    22. Анна Кельберт 2005/02/02 21:49 [ответить]
      > > 21.Tester
      >Может ли автор программы обновить выборки по текущему состоянию Библиотеки Мошкова, добавив еще выборки по разделам "Русская фантастика" и "Зарубежная фантастика" (в последнем случае будет очевидно анализироваться смесь стилей автора и переводчика)?
      
      С горечью сообщаю, что автор программы, Дима Хмелёв, скончался от аневризмы аорты 25 октября 2004 года, в возрасте 28-и лет. Что касается программы и базы данных, его друзья постараются всё поддерживать, и отвечать на вопросы. Это будет довольно сложно, поэтому заранее приношу свои извинения за задержки. Страничка памяти Димы появится на интернете примерно через полгода. Если интересно, вот ссылка на его страницу в том виде, в каком она осталась: http://www.ma.utexas.edu/users/dima/
      
      Что касается собственно Вашего вопроса, программа Лингвоанализатор уже работает на базе данных "Русской фантастики" на сайте rusf.ru:
      http://www.rusf.ru/books/analysis/
      Вероятно, поэтому база данных на lib.ru задумывалась, как содержащая только классику. Работа с переводной литературой осложняется тем, что каждая пара "автор/переводчик" представляет из себя отдельного автора, с одной стороны, и взаимосвязаны, с другой. Например, как расценивать произведения разных авторов, переведённые одним человеком? Безусловно, это тема для отдельного анализа. Но вряд ли имеет смысл добавлять эти произведения в базу данных классической литературы.
    21. Tester 2005/01/31 18:16 [ответить]
      Может ли автор программы обновить выборки по текущему состоянию Библиотеки Мошкова, добавив еще выборки по разделам "Русская фантастика" и "Зарубежная фантастика" (в последнем случае будет очевидно анализироваться смесь стилей автора и переводчика)?
    20. *Хмелёв Дмитрий Викторович (dima@vvv.srcc.msu.su) 2004/08/23 02:05 [ответить]
      > > 19.Парфенова Татьяна Александровна
      >Хитроумное изобретение,но это ж какую нужно иметь текстовую базу,чтобы получить хоть сколько-нибудь объективный результат.
      >Еле удержалась от хулиганства загнать страницу из "Ады" Набокова,то-то было бы весело(и опять Акунин ?).
      
      Дело вовсе не в базе, а в правильной постановке задачи
    19. Парфенова Татьяна Александровна (t_a_parfonova@list.ru) 2004/08/20 16:35 [ответить]
      Хитроумное изобретение,но это ж какую нужно иметь текстовую базу,чтобы получить хоть сколько-нибудь объективный результат.
      Еле удержалась от хулиганства загнать страницу из "Ады" Набокова,то-то было бы весело(и опять Акунин ?).
    18. *Хмелёв Дмитрий Викторович (dima@vvv.srcc.msu.su) 2004/05/25 02:24 [ответить]
      Проблема заключается в том, что при переезде на новый сервер были утеряны все списки авторов. Увы, у себя я их тоже не могу найти. Вполне возможно, что упомянутый Сидоров исчез из библиотеки Мошкова. Приношу свои изменения и постараюсь хоть что-нибудь с этим сделать. Ваша аргументация по поводу некорректности программы теряет смысл, поскольку вы, по-видимому, сравниваете свой текст не с тем результатом, который выдал Лингвоанализатор.
      
      Ещё раз, тысяча извинений за пропавшие списки (претензии по большей части должны идти к Паше Петриенко).
      
      
      
    17. *Merlin Aka Alex95008 2004/05/22 23:55 [ответить]
      Я, конечно, не очень большой специалист, но мне кажется, что в алгоритме есть серьезные дыры. В частности, мой, извините за выражение, "роман" был практически полностью идентифицирован с автором Сидоровым А, а единственного такого Сидорова в библиотеке Мошкова я обнаружил в виде Фимы Жиганца, творца блатных баек.
      Развлечения ради я построил кривые лексикографической зависимости творений указанного Жиганца-Сидорова и моего опуса по пяти параметрам - пересечению базовых лексем в нормальной форме, удельному распределению длинн предложений, удельному распределению простых и сложносоставных предложений в зависимости от их объема, относительному рапределению знаков препинания и относительному использованию слов, не входящих в определенный словарь (по словарю Зилизняка и по словарю Ожегова отдельно).
      единственную - да и то крошечную корреляцию нашел только в последнем случае - чуть меньше 2% у Сидорова против 0.22% у меня.
      60% совпадение по базовым лексемам можно считать как "несовпадение" в том смысле, что при использовании одного языка на больших массивов под "совпадением" можно принимать нечто, превышающее 90%, поскольку в этом случае нормальное распределение Гаусса должно работать.
      По второму параметру кривые просто разнонаправленны, по третьему - они так же практически ортогональны. Что касается относительной частоты используемых знаков препинания, то единственное относительное совпадение дает знак переноса (он же - минус), поскольку при конвертации текста тире у меня потерялись.
      Таким образом, складывается впечатление, что Ваша программа некорректна в том смысле, что для анализа используются некорректные данные. Или, что более вероятно, используется нерепрезентативная выборка доступных подмнжеств.
      Насколько я понял, частотно-спектральный анализ и позиционный анализ лексем Вы упустили, однако при анализе текстов эти способы анализа дают гарантированный отсев некоррелируемых текстов. А в результате, как мне кажется, в большинстве случаев Ваша программа производит сравнение по уточняющим, вторичным признакам априори некоррелируемых текстов. Отсюда и некорректные результаты.
      Мне представляется вероятным, что при проектировании анализатора была допущена традиционная ошибка, заключающаяся во внутреннем ограничении области применения. То есть подразумевалось, что в силу единства используемого языка анализируемые объекты имеют близкие частотные и позиционные параметры лексикографии. И в принципе это справедливо для значительной части материала - в среднем около 80% людей используют подмножество языка, ограниченное сверху школьным курсом литературы. Но с точки зрения формальной корректности получается, что 20% материала (а здесь, где много людей творческих, возможно и существенно большая доля) будет анализироваться принципиально некорректно.
      Не кажется ли Вам, что для получения более достоверных результатов анализа стоит поставить на входе частотно-позиционные фильтры?
      PS. У себя на форуме для поиска повторной регистрации забаненых участников я использую именно такой фильтр, и достоверность совпадений оставляет около 98% на 4 Кб текста.
    16. Кутолин Сергей (kutol@narod.ru) 2003/11/27 17:37 [ответить]
      Путь с использованием цепей Маркова и относительной энтропии, мне кажется, весьма перспективным, необходимым, но недостаточным,- необходимо использовавание и обычных критериев текстологического анализа, применяемого в математической лингвистике(см.,например, известную монографию - учебник Пиотровских, по моему,может несколько ошибаюсь,но когда-то, правда давно этим грешил.Есть и другой и весьма проблемный вопрос... Относительная энтропия не может служить плодотворной оценкой дискурсивной продукции. Таковой же является антиэнтропия(см.Н.И.Кобозев.Исследование в области термодинамики и информации мышления.М.:МГУ,1974).А так всех хороших пожеланий. Это ведь только еще начало. А вот мои "Сказки" вообще не имеют лингвистической оценки. Но я думаю, что вовсе не потому, что нет аналогов, а просто их не предусмотрели. А если бы взяли тексты Рябинина и Афанасьева, то появились бы и результаты анализа...
      Все же остальные критерии "Анализатора" прозрачны, обоснованы и, естественно, наивны. Вполне возможно, что если бы матрицу вероятности вставить в уравнения Фоккера - Планка, которым занимались и Ягломы, и Колмагоров, то получились бы более "дискурсивные"- осмысленные результаты с меньшим разбросом по по спискам.
    15. Mak Ivan (ivan_mak@mail.ru) 2003/03/24 01:37 [ответить]
      > > 14.Дима Хмелёв
      >>Почитал о принципе действия анализатора и, кажется понял, почему результаты зависят от вида форматирования текста :-)
      >Разве они зависят? Такое должно происходить только при исправлении знаков препинания (добавлении пробелов между ними и словами), или может случаться глюк когда много дополнительного форматирования с тагами.
      
      Разница была, когда один и тот же текст сохранялся, сначала из Word-а, а потом из файла "дос с форматированием". Пробелы добавлялись для красных строк и выравнивания текста. Знаки препинания не менялись.
    14. Дима Хмелёв (dima@vvv.srcc.msu.su) 2003/03/23 03:21 [ответить]
      >Почитал о принципе действия анализатора и, кажется понял, почему результаты зависят от вида форматирования текста :-)
      Разве они зависят? Такое должно происходить только при исправлении знаков препинания (добавлении пробелов между ними и словами), или может случаться глюк когда много дополнительного форматирования с тагами.
      >Интересно, если анализатор пишет 60% Тургенева и 70% Чехова, это значит, что во мне 130% русского писателя, да? :-))
      Скромнее надо быть, скромнее, и брать максимум в качестве обобщающей функции ;)) (совсем скромные берут минимум ;)
    13. Mak Ivan (ivan_mak@mail.ru) 2003/03/22 02:59 [ответить]
      Почитал о принципе действия анализатора и, кажется понял, почему результаты зависят от вида форматирования текста :-)
      
      Интересно, если анализатор пишет 60% Тургенева и 70% Чехова, это значит, что во мне 130% русского писателя, да? :-))
    12. Хмелёв Дмитрий Викторович (dima@vvv.srcc.msu.su) 2003/01/19 18:33 [ответить]
      > > 9.Andrey Cherezov
      >А не пробовали считать вероятность автора по теореме Байеса (или Бейеса :) ?
      
      Нет, я поступаю проще, используя лишь оценку максимума правдоподобия через цепи Маркова. Впрочем, смотря что имеется ввиду. Ведь и на оценку максимума правдоподобия можно смотреть как на байесовскую, изначально задававшую равномерное распределение на всех возможных ответах. Если вопрос в том, использовал ли я неравномерное априорное распределение, то нет. В общем, следует уточнить вопрос.
      
      >А по поводу вашего анализатора - он есть где-нибудь в виде самостоятельного приложения для тестов?
      
      Пока нет. Но может будет. Впрочем, написать такую программу с использованем приведённых формул труда не представляет.
      
    11. Хмелёв Дмитрий Викторович (dima@vvv.srcc.msu.su) 2003/01/19 18:24 [ответить]
      > > 7.Рашид Мурманский
      >Список Христианство
      >Лосев А Ф 65.0% (2.408771)
      >Театрал 2.389214
      >Ранович А Б 55.1% (2.414494)
      >Первоисточники по истории раннего христианства 2.402365
      >Список Русский детектив
      >Акунин Б 64.3% (2.372872)
      >Левиафан 2.347602
      >На 235 килобайт текста, о чем это говорит? Можно не эпсилонами и дельтами, а конкретно? О том что я чисто посдирал или, наоборот ?
      Это, скорее всего, говорит об общности используемого лексикона. Впрочем, большинство современных авторов смахивают на Акунина, поскольку он наиболее яркий представитель из авторов у Мошкова, пишуших на современном русском языке.
      
      >Бояндин К 51.1% (2.362099)
      > А это почти 900кв козлов Антон, "прирожденные разведчики
      >Список Проза
      >Суси В 84.5% (2.399905)
      >Базар, вокзал, милиция 2.399051
      >Список Современная проза
      >Нетребо Л 78.7% (2.402335)
      >Список Русский детектив
      >Сартинов Е 83.9% (2.402165)
      >
      >Так чего все это значит, по-человечески?
      Почитайте предлоеженные произведения. Весьма вероятно, что вы обнаружите что-то общее, хотя бы в используемом языке. Более подробно --- читайте другие статьи, приведённые в разделе
      
    9. Andrey Cherezov (ac@eserv.ru) 2003/01/14 06:04 [ответить]
      А не пробовали считать вероятность автора по теореме Байеса (или Бейеса :) ?
      
      А по поводу вашего анализатора - он есть где-нибудь в виде самостоятельного приложения для тестов?
    7. Рашид Мурманский 2003/01/07 09:33 [ответить]
      Список Христианство
      Лосев А Ф 65.0% (2.408771)
      Театрал 2.389214
      Ранович А Б 55.1% (2.414494)
      Первоисточники по истории раннего христианства 2.402365
      Список Русский детектив
      Акунин Б 64.3% (2.372872)
      Левиафан 2.347602
      На 235 килобайт текста, о чем это говорит? Можно не эпсилонами и дельтами, а конкретно? О том что я чисто посдирал или, наоборот ?
      
      А вот результат Лингвоанализатора Михалев "Роман"
      Такого же по размеру файла
      
      Список Все авторы
      Угрюмова В 75.5% (2.354662)
      Два героя 2.351132
      Список История
      Лебединский М Ю 67.1% (2.374127)
      Список Христианство
      Лосев А Ф 60.7% (2.359251)
      Театрал 2.351085
      Список Дополнение устойчивой подвыборки 1
      Угрюмова В 73.8% (2.354662)
      Два героя 2.351132
      Список Дополнение устойчивой подвыборки 2
      Угрюмова В 79.1% (2.354662)
      Два героя 2.351132
      Список Дополнение устойчивой подвыборки 3
      Угрюмова В 65.5% (2.354662)
      Два героя 2.351132
      Список Дополнение устойчивой подвыборки 5
      Угрюмова В 65.7% (2.354662)
      Два героя 2.351132
      Это что значит? Опять же в простых словах
      
      А вот файл 448 кв Остапенко "ненависть"
      
      Список История
      Лебединский М Ю 77.7% (2.407794)
      От пращуров моих... (1-я часть) 2.391882
      Список Классика
      Чехов А П 81.7% (2.367492)
      Именины 2.353884
      Рассказы 2.355003
      Гончаров И А 73.7% (2.367652)
      Список Проза
      Меттер И М 57.9% (2.363408)
      Список Современная проза
      Королев В 72.6% (2.364322)
      Ярмолинец В 39.3% (2.366815)
      Кокурина Е 2.9% (2.369257)
      Истории с небес 2.365495
      Глазами женщины 2.368657
      Список Русский детектив
      Акунин Б 71.6% (2.371953)
      Левиафан 2.345455
      Дольд-Михайлик Ю 62.9% (2.373487)
      У Черных рыцарей 2.370890
      Список Устойчивая подвыборка 1
      Брайан Д 68.5% (2.360629)
      Диадема богини 2.353300
      Песня снегов 2.360468
      Бояндин К 51.1% (2.362099)
       А это почти 900кв козлов Антон, "прирожденные разведчики
      Список Проза
      Суси В 84.5% (2.399905)
      Базар, вокзал, милиция 2.399051
      Список Современная проза
      Нетребо Л 78.7% (2.402335)
      Список Русский детектив
      Сартинов Е 83.9% (2.402165)
      
      Так чего все это значит, по-человечески?
    6. Дима Хмелёв 2002/07/03 02:42 [ответить]
      > > 3.Модус Вивенди Тихая Людмила
      > С Днем рождения!
      >Хаппи пёздей ту ю! В смысле, с Днем рождения, Дмитрий :)))
      Спасибо за поздравления. Транскрипция, правда, иногда хромает, но всё равно приятно.
      
    5. 2b 2002/07/02 18:03 [ответить]
      
      в общем, насколько я понял (вглянув пока навскидку), штука хорошая. уже проверил на собственной шкуре, осталось интерпретировать результат. спасибо за предоставленную возможность!
      
    4. Максим Мошков 2002/06/23 17:25 [ответить]
      > > 3.Модус Вивенди
      > программкой, призванной считать повторы в тексте? К сожалению, не помню названия - помню только, что была кнопка (которая не работала), а теперь ее нет :(
      
      > Кнопка есть, программка работает, но видеть ее могут только залогиненые авторы Самиздата.
      
      
    3. Модус Вивенди (Eugenek_13@ngs.ru) 2002/06/23 16:15 [ответить]
      Хаппи пёздей ту ю! В смысле, с Днем рождения, Дмитрий :)))
      А раз Максим всё видит (даже это), то такой вопрос: что сталось с программкой, призванной считать повторы в тексте? К сожалению, не помню названия - помню только, что была кнопка (которая не работала), а теперь ее нет :(
    2. Максим Мошков 2002/06/23 12:34 [ответить]
      > > 1.Тихая Людмила
      >Нельзя ли текст маленького объема тоже подвергнуть анализу?
      
      Это бессмысленно - алгоритм лингвоанализа нормально работает только на больших об'емах текста. на малых его результаты совершенно случайны и недостоверны. недостаточно об'ема для анализа.
    1. Тихая Людмила (tiha@mail.ru) 2002/06/23 12:14 [ответить]
      Дмитрий Викторович!
      
      С Днем рождения!
      Успехов, радости, счастья!
      
      Очень интересно о лингвоанализаторе 3-эпсилон!!
      Нельзя ли текст маленького объема тоже подвергнуть анализу?
      Очень-очень интересно!
      
      Творческих успехов и всяких.
      Людмила
    Страниц (3): 1 2 3

    Связаться с программистом сайта.

    Новые книги авторов СИ, вышедшие из печати:
    О.Болдырева "Крадуш. Чужие души" М.Николаев "Вторжение на Землю"

    Как попасть в этoт список

    Кожевенное мастерство | Сайт "Художники" | Доска об'явлений "Книги"