ДНК генома человека насчитывает 3,2х109 п.н. (по другим данным, 3,165х109 п.н. или 3х109 п.н.). На долю смысловых (кодирующих, структурных) нуклеотидных последовательностей для полипептидов в нем приходится 1,2\% ДНК. Если присовокупить смысловые последовательности для нетранслируемых в полипептиды РНК — рибосом-ных, транспортных и др., то суммарное количество ДНК, выполняющее
биоинформационно-генетическую функцию непосредственно, в геноме человека составляет порядка 3\%.
Впервые в конце 70-х гг. ХХ в. была полностью определена последовательность нуклеотидов ДНК генома фага φ (греч. фи — phi) Х174 — 5375 п.н., 9 генов. Рубеж ХХ-ХХI вв. ознаменован реализацией проекта «Геном человека», состоящего в определении последовательности нукле-отидов (секвенирование) в молекулах ДНК всех хромосом человека.
На начало 2001 г. информации оказалось достаточно, чтобы представить организацию человеческого генома в целом (область интереса структурной геномики). Транскрибируемая часть составляет 28-30\% генома, но транслируется до белков не более 5\% (экзон-ная порция). 45-50\% ДНК генома представлено повторяющимися последовательностями. Из них 45\% приходится на «избыточную» (она же «паразитическая», «эгоистическая») ДНК. Приведенные эпитеты возникли потому, что соответствующие участки нуклеиновой кислоты, не выполняя видимой генетической функции, реплицируясь в обязательном порядке, сохраняются в клеточных геномах в ряду поколений. Науке еще предстоит раскрыть функции многих участков генома (область интереса функциональной геномики).
В области структурной геномики не все доведено до необходимого уровня ясности: доля ДНК, участвующей в синтезе белков непосредственно, оценивается разными исследователями и в 1,2\%, и в 3\%, и в 5\%.
В геноме человека структурные (смысловые, кодирующие) гены расположены по длине хромосом блоками, между которыми находятся протяженные участки некодирующей межгенной ДНК. От участков «избыточной» ДНК гены отделены « монотонными» последовательностями из Г-Ц пар до 30 тыс. п.н. длиной. Допускается, но не доказано бесспорно, что такие участки имеют отношение к регуляции активности смысловых генов.
В ДНК обнаруживаются уникальные нуклеотидные последовательности, представленные в геноме в единственном экземпляре, а также повторяющиеся последовательности: 3\% ДНК — это короткие повторы, 5\% — длинные. Среди повторяющихся нуклеотидных последовательностей есть, во-первых, тандемные повторы, когда соответствующие участки ДНК следуют друг за другом по типу «голова-хвост», и диспергированные повторы, когда участки-повторы разбросаны по геному. Во-вторых, в зависимости от числа копий имеются высоко-повторяющиеся (от десятков или сотен тысяч до миллионов копий), среднеповторяющиеся (тысячи и десятки тысяч копий) и слабопов-
торяющиеся (единицы, десятки или сотни копий) последовательности. В-третьих, длина повторяющихся последовательностей варьирует от сотен и реже тысяч до 2-10 нуклеотидов. В-четвертых, относительно небольшая доля повторов представлена идентичными последовательностями, тогда как большая их часть характеризуется наличием в копиях повторяющейся последовательности нуклеотидных замен, выпадений (делеций) и вставок (инсерций).
В современном генетическом словаре есть термин сателлитная ДНК. Она представлена большим числом копий коротких нуклео-тидных фрагментов. Выделяют микросателлитные (длина повторяющегося фрагмента 1-4 п.н.) и минисателлитные (длина 4-6 п.н.) повторы. К последним относятся теломерные повторы (см. п. 2.4.3.4-г). У представителей ряда видов повторяющиеся единицы теломерной ДНК имеют идентичный нуклеотидный состав (у человека — ТТАГГГ), у других нуклеотидный состав различается. Теломерные повторы относятся к категории тандемных.
В геноме животных и человека имеются кластеры генов, возникновение которых в эволюции связывают с неоднократной дупликацией предковой нуклеотидной последовательности. Молекулярная дивергенция членов такого кластера, например, вследствие нуклеотидных замен, с последующим отбором вела к возникновению совокупностей структурных (смысловых) генов со «скромными» различиями по нуклеотид-ному составу, кодирующих в принципе один и тот же полипептид, но с определенными функциональными особенностями. В качестве примера приведем β-глобиновый кластер, расположенный у человека на коротком плече хромосомы 11, члены которого обусловливают экспрессию β-полипептида гемоглобина: эмбриона — ген ε, плода — гены Ay и Gy, взрослого — гены δ и β. Кластерная организация характеризует гены, контролирующие синтез рибосомных и транспортных РНК, гистоновых белков. Здесь, однако, имеет место многократный повтор стереотипной нуклеотидной последовательности. Кластеры смысловых (кодирующих, структурных) генов обозначают как мультигенные семейства.
Диспергированные повторы образуют несколько семейств. Это короткие или SINE (англ. Short Interspersed Nucleotide Elements) повторы. Представителем этого семейства является Alu-повтор (300 п.н., высоко-повторяющаяся последовательность с числом копий у человека 105-106 на геном. Alu-повтор встречается в интронах, межгенной и сателлитной ДНК). У млекопитающих есть семейство длинных или LINE (англ. Long Interspersed Nucleotide Elements) повторов (не более 6-7 тыс. п.н.). От-
дельные члены семейства различаются последовательностью нуклеоти-дов. Это среднеповторяющиеся последовательности с числом копий у человека 103-105 на геном. К LINE-повторам относятся ретротранспо-зоны (МГЭ, или «прыгающие» генетические элементы), в структуре которых имеется ген обратной транскриптазы (см. теломеразный ферментный комплекс, п. 2.4.3.4-г).
Нуклеотидные повторы обнаруживаются в кодирующей ДНК. Так, особенность а2-пептида коллагена I типа (кожа, сухожилия, кости, строма внутренних органов) — это повтор из аминокислот пролина, ок-сипролина и глицина, которым соответствуют повторы соответствующих кодонов в экзонах коллагенового гена Colla I. Благодаря названным аминокислотным повторам достигается плотная «упаковка» пептидов в коллагеновых волокнах.
Повторы не типичны для ДНК прокариот, которая представлена почти исключительно уникальными последовательностями.
Сведения о различных категориях нуклеотидных последовательностей эукариотического генома, которыми располагает современная наука, фрагментарны, нередко противоречивы и недостаточны для того, чтобы однозначно оценить их участие в процессах жизнедеятельности клеток, индивидуальном и историческом развитии живых форм.
Наряду со структурной и функциональной геномикой, интенсивно развивается сравнительная геномика, имеющая целью, если говорить о человечестве, конкретизировать генетический полиморфизм и особенности гено(аллело)фондов различных популяций, народностей, расовых и этнических групп, а также сопоставить геномы представителей различных таксонов живых существ (включая инфекционные и паразитарные агенты).
Внимания заслуживают однонуклеотидные замены, с которыми связывают особую разновидность генетического полиморфизма (многообразия) — однонуклеотидный генетический полиморфизм (ОНП, англ. SNP — Single Nucleotide Polymorphism). Будучи распространенными (встречаются через каждые 1-2 тыс. п.н., в геноме человека их 3,2х106), они играют важную роль в наследственном полиморфизме людей. Так как примерно половина (1,5х106) однонуклеотидных замен в геноме человека приходится на экспрессируемую (смысловая, кодирующая, транслируемая) часть генома, их идентификация используется в целях картирования генов на хромосомах, молекулярной диагностики наследственных болезней, изучения генетической предрасположенности к мультифакториальным болезням.