В других языках в фаворитах ходят другие буквы. Вспомните «Золотого жука» Эдгара По – там герой уверенно принимает наиболее часто встречающийся в тексте знак за букву «е». На пергаменте был английский текст, но и в испанском и во французском языке, которыми также пользовались пираты Карибского моря, «е» – чаще всего встречающаяся буква.
Определить частоту встречаемости букв просто, нужно только учитывать характер текста. Буква «ф» в русскоязычных текстах относительно редка (частота 0,002, из согласных чаще всего встречаются «т» и «н») – за исключением математических (за счет таких слов как функция и дифференциал). Лучше использовать средние данные по различным источникам. Оказалось, что с учетом разной частоты встречаемости энтропия на символ уже 4,35 бит. Искусственный «текст» с этими поправками будет выглядеть по Добрушину примерно так:
еынт цияьа оерб однг ьуемлолйк збя енвтша (2)
Как видите, этого приближения явно недостаточно, чтобы случайно подобранная фраза зазвучала по-русски. Мы подходим к важному феномену: наличию связей, корреляций между символами в тексте. В самом деле, не каждая буква может занимать любое место. После пробела никогда не встретится мягкий знак, а «и» – редко, лишь в заимствованных словах (Йорк, йод). Система корреляций между символами оказывается разной у разных языков. Русский язык относится к индоевропейским, в них возможны сочетания нескольких согласных (взвод, встреча, бодрствовать) и закрытые, оканчивающиеся на согласный слоги. А в японском и полинезийском языках гласные и согласные строго чередуются, и закрытых слогов нет. Это хорошо обыграл Г. Мелвил в повести «Тайпи», где герой представляется друзьям-канакам самым простым английским именем Том. Оказалось, что произнести его они не в состоянии. Томи, Томо – пожалуйста.
Но и любая гласная не может появиться после любой согласной. «Я» после «г» в русском языке крайне редка (лишь в заимствованном слове «гяур»), только Марина Цветаева осмеливалась писать – «рвя и жгя».
Добрушин учел корреляции между соседними буквами. Получилась следующая фраза:
умароно кач всванный рося ных ковкров недаре (3)
Энтропия на символ снижается до 3,52 бит, но фразу уже можно прочесть, не запинаясь. Но ведь корреляции касаются не только соседних букв, но и третьих и четвертых за выбранными. Если учтем частоту трехбуквенных сочетаний, будет фраза вроде:
покак пот дурноскака наконепио зне стволовил се твой обниль (4)
В ней уже встречаются вполне русские слова и части слов (энтропия 3,01 бит/символ). С учетом четырехбуквенных сочетаний получается фраза, которую, если ее быстро произнести, можно счесть за русскую:
весел враться не сухом и непо и корко (5)
Ясно, что учет более дальних корреляций приведет к появлению чисто русских слов, в дальнейшем уже и не в бессмысленных комбинациях, а энтропия на символ будет снижаться. Расшифровка поврежденного или закодированного текста «по Паганелю» как раз и связана с учетом корреляций между символами.
А как обстоит дело с символами в нуклеотидной последовательности ДНК или в аминокислотной – белка? Этот вопрос занимал меня давно, еще тогда, когда не был прочтен ни один ген, а за расшифровку первого белка – инсулина Сэнгер получил свою первую Нобелевскую премию. Поэтому я старался каждую появившуюся в литературе последовательность оценить с этой точки зрения. И уже первые результаты смущали и заставляли задуматься.
Вероятность встречи в любом месте одного из четырех символов, слагающих последовательность гена, или одного из двадцати символов, слагающих белок, была пропорциональна только процентному содержанию этого символа в тексте и не зависела от соседних. То есть, генетический текст оказывался построенным согласно модели 2 Добрушина.
Гены – дети случая. С какой-то стороны это меня огорчило. Я надеялся, что системы корреляций, паче чаяния они в нуклеотидных текстах окажутся, будут разными в разных геномах. А это принесло бы пользу новой отрасли систематики – геносистематике, развивающейся на наших глазах. Хороший пример из анализа лингвистических текстов. По-видимому, древнейшая или хотя бы одна из древнейших письменностей Европы – слоговое письмо А догреческого населения острова Крит – пока еще не расшифрована. Мы можем ее читать, но не понимаем языка. Однако мы знаем, что построен он был наподобие японского или полинезийского, в которых гласные и согласные строго чередуются. Греки-ахейцы, взявшие Трою, переняли это письмо и стали писать на нем по-гречески (линейное письмо В ). Вряд ли это было удобно: название города Кносс читалось как Ко-но-со, имя богини любви Афродиты – А-по-ро-ти-та, медь (халкос) – ка-ко и так далее. Ведь греческий язык – индоевропейский, в нем согласные могут стоять рядом. В результате новая волна греков-дорийцев, затопившая Элладу, полностью это письмо забыла, и греки были неграмотными, пока не создали свой алфавит на основе финикийского слогового. Но мы теперь знаем, что предшественники греков, пеласги, индоевропейцами, скорее всего, не были. Есть, правда, и другие мнения на этот счет. Интереснейшие соображения о древних, тысячи лет назад отзвучавших языках и давным-давно сошедших с арены истории народах можно высказать, анализируя сочетания символов в письме А.
В случае с ДНК и белками этот перспективный путь для нас, похоже, закрыт. Аналогия между информацией языковой и нуклеотидной не идет до конца. В чем же причина? Рискну высказать спекуляцию, не настаивая на ее справедливости.
Попробуйте вслух прочитать фразу 2, по возможности быстрее, но чтобы было «понятно», чтобы произнесенное соответствовало написанному. Боюсь, что это вам не удастся. А ведь от верно произнесенного слова может зависеть многое, вплоть до жизни.
Поэтому любой язык, усваивая новые слова, стихийно перерабатывает их для лучшего, четкого выговаривания. Результатом этого процесса и является как бы сама собой возникающая связь между символами в тексте, учитываемая Добрушиным система корреляций, в каждом языке своя. Человек, говоря на чужом языке, не усвоенном с раннего детства, лишь с большим трудом избавляется в устной речи от акцента. Ведь акцент – не что иное, как перенесение привычных правил произнесения фонем и их сочетаний в другой язык, для того не приспособленный. Каждый может вспомнить примеры из своей практики. В частности, я с великим трудом привык к московскому говору – на моей родине, на Урале, не «акают», не произносят безударное «о» как «а».
Иное дело с текстами на языке ДНК. Фермент РНК-полимераза, синтезируя на матрице ДНК предшественник информационной рибонуклеиновой кислоты, «произносит» любые сочетания символов.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22
Определить частоту встречаемости букв просто, нужно только учитывать характер текста. Буква «ф» в русскоязычных текстах относительно редка (частота 0,002, из согласных чаще всего встречаются «т» и «н») – за исключением математических (за счет таких слов как функция и дифференциал). Лучше использовать средние данные по различным источникам. Оказалось, что с учетом разной частоты встречаемости энтропия на символ уже 4,35 бит. Искусственный «текст» с этими поправками будет выглядеть по Добрушину примерно так:
еынт цияьа оерб однг ьуемлолйк збя енвтша (2)
Как видите, этого приближения явно недостаточно, чтобы случайно подобранная фраза зазвучала по-русски. Мы подходим к важному феномену: наличию связей, корреляций между символами в тексте. В самом деле, не каждая буква может занимать любое место. После пробела никогда не встретится мягкий знак, а «и» – редко, лишь в заимствованных словах (Йорк, йод). Система корреляций между символами оказывается разной у разных языков. Русский язык относится к индоевропейским, в них возможны сочетания нескольких согласных (взвод, встреча, бодрствовать) и закрытые, оканчивающиеся на согласный слоги. А в японском и полинезийском языках гласные и согласные строго чередуются, и закрытых слогов нет. Это хорошо обыграл Г. Мелвил в повести «Тайпи», где герой представляется друзьям-канакам самым простым английским именем Том. Оказалось, что произнести его они не в состоянии. Томи, Томо – пожалуйста.
Но и любая гласная не может появиться после любой согласной. «Я» после «г» в русском языке крайне редка (лишь в заимствованном слове «гяур»), только Марина Цветаева осмеливалась писать – «рвя и жгя».
Добрушин учел корреляции между соседними буквами. Получилась следующая фраза:
умароно кач всванный рося ных ковкров недаре (3)
Энтропия на символ снижается до 3,52 бит, но фразу уже можно прочесть, не запинаясь. Но ведь корреляции касаются не только соседних букв, но и третьих и четвертых за выбранными. Если учтем частоту трехбуквенных сочетаний, будет фраза вроде:
покак пот дурноскака наконепио зне стволовил се твой обниль (4)
В ней уже встречаются вполне русские слова и части слов (энтропия 3,01 бит/символ). С учетом четырехбуквенных сочетаний получается фраза, которую, если ее быстро произнести, можно счесть за русскую:
весел враться не сухом и непо и корко (5)
Ясно, что учет более дальних корреляций приведет к появлению чисто русских слов, в дальнейшем уже и не в бессмысленных комбинациях, а энтропия на символ будет снижаться. Расшифровка поврежденного или закодированного текста «по Паганелю» как раз и связана с учетом корреляций между символами.
А как обстоит дело с символами в нуклеотидной последовательности ДНК или в аминокислотной – белка? Этот вопрос занимал меня давно, еще тогда, когда не был прочтен ни один ген, а за расшифровку первого белка – инсулина Сэнгер получил свою первую Нобелевскую премию. Поэтому я старался каждую появившуюся в литературе последовательность оценить с этой точки зрения. И уже первые результаты смущали и заставляли задуматься.
Вероятность встречи в любом месте одного из четырех символов, слагающих последовательность гена, или одного из двадцати символов, слагающих белок, была пропорциональна только процентному содержанию этого символа в тексте и не зависела от соседних. То есть, генетический текст оказывался построенным согласно модели 2 Добрушина.
Гены – дети случая. С какой-то стороны это меня огорчило. Я надеялся, что системы корреляций, паче чаяния они в нуклеотидных текстах окажутся, будут разными в разных геномах. А это принесло бы пользу новой отрасли систематики – геносистематике, развивающейся на наших глазах. Хороший пример из анализа лингвистических текстов. По-видимому, древнейшая или хотя бы одна из древнейших письменностей Европы – слоговое письмо А догреческого населения острова Крит – пока еще не расшифрована. Мы можем ее читать, но не понимаем языка. Однако мы знаем, что построен он был наподобие японского или полинезийского, в которых гласные и согласные строго чередуются. Греки-ахейцы, взявшие Трою, переняли это письмо и стали писать на нем по-гречески (линейное письмо В ). Вряд ли это было удобно: название города Кносс читалось как Ко-но-со, имя богини любви Афродиты – А-по-ро-ти-та, медь (халкос) – ка-ко и так далее. Ведь греческий язык – индоевропейский, в нем согласные могут стоять рядом. В результате новая волна греков-дорийцев, затопившая Элладу, полностью это письмо забыла, и греки были неграмотными, пока не создали свой алфавит на основе финикийского слогового. Но мы теперь знаем, что предшественники греков, пеласги, индоевропейцами, скорее всего, не были. Есть, правда, и другие мнения на этот счет. Интереснейшие соображения о древних, тысячи лет назад отзвучавших языках и давным-давно сошедших с арены истории народах можно высказать, анализируя сочетания символов в письме А.
В случае с ДНК и белками этот перспективный путь для нас, похоже, закрыт. Аналогия между информацией языковой и нуклеотидной не идет до конца. В чем же причина? Рискну высказать спекуляцию, не настаивая на ее справедливости.
Попробуйте вслух прочитать фразу 2, по возможности быстрее, но чтобы было «понятно», чтобы произнесенное соответствовало написанному. Боюсь, что это вам не удастся. А ведь от верно произнесенного слова может зависеть многое, вплоть до жизни.
Поэтому любой язык, усваивая новые слова, стихийно перерабатывает их для лучшего, четкого выговаривания. Результатом этого процесса и является как бы сама собой возникающая связь между символами в тексте, учитываемая Добрушиным система корреляций, в каждом языке своя. Человек, говоря на чужом языке, не усвоенном с раннего детства, лишь с большим трудом избавляется в устной речи от акцента. Ведь акцент – не что иное, как перенесение привычных правил произнесения фонем и их сочетаний в другой язык, для того не приспособленный. Каждый может вспомнить примеры из своей практики. В частности, я с великим трудом привык к московскому говору – на моей родине, на Урале, не «акают», не произносят безударное «о» как «а».
Иное дело с текстами на языке ДНК. Фермент РНК-полимераза, синтезируя на матрице ДНК предшественник информационной рибонуклеиновой кислоты, «произносит» любые сочетания символов.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22