Analyse de SéquencesAnalyse de Séquences Macromoléculaires...

20
1 Analyse de Séquences Analyse de Séquences Macromoléculaires II Cours : 10 h TD : 12 h ( l l) O. Lecompte Laboratoire de Bioinformatique et Génomique Intégratives – IGBMC http://www-bio3d-igbmc.u-strasbg.fr/~lecompte/enseignement.html [email protected] + mini-projet (travail personnel) Banques de données Interrogation textuelle (SRS,Entrez) Prédictions ab initio Alignement de 2 séquences Introduction à la comparaison de séquences Alignement multiple Motifs Profils ASM2 O. Lecompte – IGBMC Recherche de similarité (Fasta,Blast) Motifs, Profils Phylogénie moléculaire Recherche de similarité

Transcript of Analyse de SéquencesAnalyse de Séquences Macromoléculaires...

  • 1

    Analyse de SéquencesAnalyse de Séquences Macromoléculaires II

    Cours : 10 hTD : 12 h

    ( l l)

    O. LecompteLaboratoire de Bioinformatique et Génomique Intégratives – IGBMChttp://www-bio3d-igbmc.u-strasbg.fr/~lecompte/enseignement.html

    [email protected]

    + mini-projet (travail personnel)

    Banques de données

    Interrogation textuelle (SRS,Entrez) Prédictions ab

    initio

    Alignement de 2 séquences

    Introduction à la comparaison de séquences

    Alignement multiple

    Motifs Profils

    ASM2O. Lecompte – IGBMC

    Recherche de similarité (Fasta,Blast)

    Motifs, Profils

    Phylogénie moléculaire

    Recherche de similarité

  • 2

    Multiple alignment / Pairwise alignment

    ASM2O. Lecompte – IGBMC

    Query: 177 EMGDTGPCGPCSEIHYDRIGGRDAAHLVNQDDPNVLEIWNLVFIQYNR---EADG----I 229G G GP E+ Y LE+ LVF+QY + AD I

    Sbjct: 193 AGG--GNAGPAFEVLYKG-----------------LEVATLVFMQYKKAPANADPSQVVI 233

    Query: 230 LK-----PLPKKSIDTGMGLERLVSVLQNKMSNYDTDLFVPYFEAIQKGTGARPYTGKVG 284+K P+ K +DTG GLERLV + Q + YD L E +++ G ++

    Sbjct: 234 IKGEKYVPMETKVVDTGYGLERLVWMSQGTPTAYDAVLGY-VIEPLKRMAGVEKIDERIL 292

    Query: 285 AEDA---------DGIDMAYR--------------------------VLADHARTITVAL 309E++ D D+ Y +ADH + +T L

    Sbjct: 293 MENSRLAGMFDIEDMGDLRYLREQVAKRVGISVEELERLIRPYELIYAIADHTKALTFML 352

    Additional domain

    Transmembraneregion

    B�������

    A������

    E������

    B�������

    Error in ORFdefinition

    1��

    FAMILY

    2��

    FAMILY

    Phosphorylation site

    domain organization, structural motifskey functional residues, ORF definition

    localization signals, conservation pattern...

    Intra-group conservation

    Universal conservation

    Differential conservation between

    the two families

    NLS

    FunctionalFunctionalgenomicsgenomics

    EvolutionaryEvolutionarystudiesstudies

    StructureStructuremodeling modeling

    Drug designDrug designMutagenesis Mutagenesis experimentsexperiments

    Lecompte et al Gene. 270:17-30 (2001)

  • 3

    Alignement multiple

    Méthodes utilisées

    Estimation de la qualité d’un alignement

    Utilisation de l’alignement multiple

    ASM2O. Lecompte – IGBMC

    Utilisation de l alignement multiple

    Méthodes utilisées

    Alignement multiple optimal Alignement multiple optimalexemple : MSA (Lipman et al. 1989, Gupta et al. 1995)

    ASM2O. Lecompte – IGBMC

  • 4

    application de la programmation dynamique utilisée pour aligner 2 é N di i

    Alignement multiple optimal

    séquences => N dimensions

    Exemple : alignement de 3 séquences

    ASM2O. Lecompte – IGBMC

    Problème : temps de calcul et mémoire

    Temps requis proportionnel à Nk pour k séquences de longueur N

    => dans la pratique, utilisation impossible pour plus de 10 séquences

    OMA (Reinert et al. 2000) combine l’alignement optimal et une éth d é i d t “di id d ”

    Alignement multiple optimal

    méthode récursive de type “divide-and-conquer”.

    Divide

    Divide Divide

    Align optimally

    ASM2O. Lecompte – IGBMC

    Alignment of 5 sulfate binding proteins, length 224-263 residues:MSA OMA ClustalW>12hours 62.9min 0.6sec

    Concatenate

  • 5

    Méthodes utilisées

    Alignement multiple optimal Alignement multiple optimalex : MSA, OMA

    Alignement multiple progressifClustalW (Thompson et al. Nucleic Acids Res. 1994)ClustalX (Thompson et al. Nucleic Acids Res. 1997)

    ASM2O. Lecompte – IGBMC

    Alignement multiple progressif

    P i i Principe :aligner progressivement les séquences (ou groupes de séquences) par paires

    Problème :

    Par qui commencer ? Dans quel ordre procéder ?

    aligner d’abord les séquences les plus proches

    ASM2O. Lecompte – IGBMC

    g q p p

    Comment évaluer la distance entre les séquences ? aligner toutes les séquences deux à deux

    calculer la distance entre séquences à partir des alignements

  • 6

    Alignement multiple progressif1) Alignements 2 à 2 de toutes les séquences (pairwise alignments)g q p g

    L’alignement peut être obtenu par :

    Hbb_human 3 LTPEEKSAVTALWGKV..NVDEVGGEALGRLLVVYPWTQRFFESFGDLST ...|.| :|. | | |||| . | | ||| |: . :| |. :| | |||

    Hba_human 2 LSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF.DLS. ...

    Hbb_human 1 VHLTPEEKSAVTALWGKVNVDEVGGEALGRLLVVYPWTQRFFESFGDLST ...| |. |||.|| ||| ||| :|||||||||||||||||||||:||||||

    Hbb_horse 1 VQLSGEEKAAVLALWDKVNEEEVGGEALGRLLVVYPWTQRFFDSFGDLSN ...

    Hba_human 2 LSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF.DLSH ...|| :| | | | || | | ||| |: . :| |. :| | |||.

    Hbb_horse 3 LSGEEKAAVLALWDKVNEE..EVGGEALGRLLVVYPWTQRFFDSFGDLSN ...

    Ex : alignements pairwise locaux de séquences

    d’hémoglobine

    ASM2O. Lecompte – IGBMC

    Lalignement peut être obtenu par :- méthode globale ou locale- programmation dynamique ou méthodes heuristiques

    Exemple dans le programme Clustalx:=> alignements locaux=> choix entre :

    - méthode heuristique (utilisée dans Fasta) => plus rapide- programmation dynamique (Smith & Waterman) => plus fiable

    Alignement multiple progressif

    Exemple dans Clustalx :

    -.17 -

    Hbb_humanHbb horse

    12

    Ex : 7 globin sequences

    2) Construction d’une matrice de distances

    Exemple dans Clustalx :

    distance entre 2 séquences = 1- nb résidus identiquesnb résidus comparés

    ASM2O. Lecompte – IGBMC

    .17

    .59 .60 -

    .59 .59 .13 -

    .77 .77 .75 .75 -

    .81 .82 .73 .74 .80 -

    .87 .86 .86 .88 .93 .90 -

    Hbb_horseHba_humanHba_horseMyg_phycaGlb5_petmaLgb2_lupla

    234567

    1 2 3 4 5 6 7

  • 7

    Alignement multiple progressif

    • Sequential branching3) Détermination de l’ordre d’alignement

    • Sequential branching

    • Construction d’un arbre- Neigbor-Joining (NJ)- UPGMA- Maximum likelihood

    Progressive alignment using sequential branching

    Hba human

    Progressive alignment following a guide tree

    Hbb human.081226

    ASM2O. Lecompte – IGBMC

    Hba_human

    Hba_horse

    Hbb_horse

    Hbb_human

    Myg_phyca

    Glb5_petma

    Lgb2_lupla

    12

    34

    56

    Hbb_human

    Hbb_horse

    Hba_human

    Hba_horse

    Myg_phyca

    Glb5_petma

    Lgb2_lupla

    13

    45

    6

    2.084.055

    .065

    .226

    .219

    .398

    .389

    .442

    .015

    .061

    .062

    Alignement multiple progressif

    Les séquences sont progressivement alignées (algorithme global ou local) :- alignement de 2 séquences- alignement d’une séquence et d’un profil- alignement de 2 profils

    4) Alignement progressif

    ASM2O. Lecompte – IGBMC

    xxxxxxxxxxxxxxx

    xxxxxxxxxxxxxxx

    xxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

    xxxxxxxxxxxxxxx

    xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

  • 8

    Construction d’un profil

    Profil = matrice de scores position-spécifiques (Position-specific scoring matrix=PSSM)

    Profile (pos p, res r) = wd x Mat (res d, res r)

    avec Mat : la matrice de substitutionwd : le poids du résidu d à la position p

    d=1

    20

    Profil :

    Profil matrice de scores position spécifiques (Position specific scoring matrix PSSM)

    20 aa

    Scores calculés à partir :

    • d’une matrice de substitutions (Blosum…)

    • des fréquences des résidus à chaque position

    p=1Alignement :

    ASM2O. Lecompte – IGBMC

    A C D E F G H I K L M N P Q R S T V W YPos 1 –1 –1.3Pos 2Pos 3Pos 4

    Calcul (avec poids des résidus = fréquence des résidus) :Profile (pos 1, A) = 2/3 x Blo62 (T,A) + 1/3 x Blo62 (W,A) = 2/3 x 0 + 1/3 x (–3) = -1 Profile (pos 1, C) = 2/3 x Blo62 (T,C) + 1/3 x Blo62 (W,C) = 2/3 x (-1) + 1/3 x (-2) = -1.3...

    positionsSeq 1 T X X XSeq 2 T X X XSeq 3 W X X X

    i=1

    Séquence consensus 20 aa

    Profil (PSSM)

    SFVCQACRKAKTKCDLFVCQACWKSKTKCDRLVCLQCKKIKRKCDSFVCLRCKQRKIKCDSKACDNCRKRKIKCNSTACVNCRKRKIKCT

    A C D E F G H I K L M N P Q R S T V W Y S 0 -4 -3 -3 -11 -7 -4 -10 -1 -8 -4 -1 -6 0 -1 9 5 -7 -18 -9 F -7 -6 -10 -7 0 -15 -1 -4 -1 -2 -1 -6 -11 -3 -2 -6 -3 -4 -12 -2 A 8 -1 -11 -7 -10 -11 -9 1 -6 -5 -2 -9 -6 -5 -7 -3 -1 7 -19 -10 C 0 32 -16 -15 -3 -18 -5 -6 -9 -8 -2 -11 -11 -12 -9 -2 -5 -2 -20 -4 D -5 -11 2 -1 -10 -10 -4 -7 -3 -5 -4 -1 -8 0 -5 -3 -1 -6 -20 -9 N 0 -9 -1 0 -11 -5 0 -11 2 -10 -4 4 -6 6 3 0 -1 -9 -19 -7 C 0 32 -16 -15 -3 -18 -5 -6 -9 -8 -2 -11 -11 -12 -9 -2 -5 -2 -20 -4 R -6 -10 -6 -3 -11 -11 1 -12 7 -10 -6 -3 -9 1 10 -4 -4 -11 -9 -6

    q

    ASM2O. Lecompte – IGBMC

    STACVNCRKRKIKCTSHACDQCRRKRIKCRSRACDQCRKKKIKCDTKACDRCHRKKIKCNTVVCTNCKKRKSKCD

    R 6 10 6 3 11 11 1 12 7 10 6 3 9 1 10 4 4 11 9 6 K -3 -10 -3 0 -13 -9 0 -11 13 -9 -4 0 -6 5 9 -2 -1 -9 -18 -9 R -2 -7 -5 -2 -12 -10 -3 -9 6 -8 -4 -3 -7 1 8 -1 -1 -7 -15 -9 K -3 -9 -3 0 -14 -9 0 -11 16 -10 -5 0 -6 4 9 -2 -2 -9 -18 -10 I -4 -6 -12 -10 -6 -17 -9 7 -6 -1 0 -8 -10 -5 -7 -6 0 3 -16 -9 K -3 -9 -2 1 -14 -9 0 -11 17 -10 -5 0 -6 4 7 -2 -1 -9 -19 -10 C 0 32 -16 -15 -3 -18 -5 -6 -9 -8 -2 -11 -11 -12 -9 -2 -5 -2 -20 -4 D -6 -13 12 2 -15 -4 -2 -15 0 -14 -9 7 -7 0 -2 0 0 -13 -21 -8

  • 9

    .081.226 Hbb_human

    Pondération des résidus dans un profil

    Hbb h 0 081 + 0 226/2 + 0 061/4 + 0 015/5 + 0 062/6 221

    .084

    .055

    .065.219

    .398

    .389

    .442

    .015

    .061

    .062

    Hbb_horse

    Hba_human

    Hba_horse

    Myg_phyca

    Glb5_petma

    Lgb2_lupla

    ClustalW diminue le poids des séquences sur-représentées

    ASM2O. Lecompte – IGBMC

    Hbb_human 0.081 + 0.226/2 + 0.061/4 + 0.015/5 + 0.062/6

    Hbb_horse 0.084 + 0.226/2 + 0.061/4 + 0.015/5 + 0.062/6

    Hba_human 0.055 + 0.219:2 + 0.061/4 + 0.015/5 + 0.062/6

    Hba_horse 0.065 + 0.219:2 + 0.061/4 + 0.015/5 + 0.062/6

    Myg_phyca 0.398 + 0.015/5 + 0.062/6

    Glb5_petma 0.389 + 0.062/6

    Lgb2_lupla 0.442

    = .221

    = .225

    = .194

    = .203

    = .411

    = .398

    = .442

    • Pénalité linéaire (affine) : P = x + y L

    Pénalités des gaps

    • Les pénalités position-spécifiques et résidu-spécifiques :

    Dans ClustalW, les pénalités liées à l’introduction de gap sont :

    - diminuées aux positions où préexiste un gap

    - augmentées à proximité d’un gap préexistant (à moins de 8 résidus)

    - diminuées dans les régions hydrophiles (loop)

    sinon : les pénalités d’ouverture de gap sont modifiées selon une table résidu- spécifique (Pascarella & Argos, 1992) => fréquence relative des résidus adjacents aux gaps

    ASM2O. Lecompte – IGBMC

    HLTPEEKSAVTALWGKVN--VDEVGGEALGRLLVVYPWTQRFFESFGDLQLSGEEKAAVLALWDKVN--EEEVGGEALGRLLVVYPWTQRFFDSFGDLVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLSVLSAADKTNVKAAWSKVGGHAGEYGAEALERMFLGFPTTKTYFPHFDLS

    0

    10

    20

    30

    L’alignement final se présentera sous forme

    de blocs étendus.Certains résidus isolés

    peuvent être mal alignés.

  • 10

    Alignement multiple progressif

    HBB_HUMAN --------VHLTPEEKSAVTALWGKVN--VDEVGGEALGRLLVVYPWTQRFFESFGDLSTPDAVMGNPKVKAHGKKVLGAFSDGLAHLDNHBB_HORSE --------VQLSGEEKAAVLALWDKVN--EEEVGGEALGRLLVVYPWTQRFFDSFGDLSNPGAVMGNPKVKAHGKKVLHSFGEGVHHLDNHBA_HUMAN ---------VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF-DLS-----HGSAQVKGHGKKVADALTNAVAHVDDHBA_HORSE ---------VLSAADKTNVKAAWSKVGGHAGEYGAEALERMFLGFPTTKTYFPHF-DLS-----HGSAQVKAHGKKVGDALTLAVGHLDDMYG_PHYCA ---------VLSEGEWQLVLHVWAKVEADVAGHGQDILIRLFKSHPETLEKFDRFKHLKTEAEMKASEDLKKHGVTVLTALGAILKKKGHGLB5_PETMA PIVDTGSVAPLSAAEKTKIRSAWAPVYSTYETSGVDILVKFFTSTPAAQEFFPKFKGLTTADQLKKSADVRWHAERIINAVNDAVASMDDLGB2_LUPLU --------GALTESQAALVKSSWEEFNANIPKHTHRFFILVLEIAPAAKDLFSFLKGTSEVP--QNNPELQAHAGKVFKLVYEAAIQLQV *: : : * . : .: * : * : . . .:: *. : .

    HBB_HUMAN -----LKGTFATLSELHCDKLHVDPENFRLLGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVANALAHKYH------HBB_HORSE -----LKGTFAALSELHCDKLHVDPENFRLLGNVLVVVLARHFGKDFTPELQASYQKVVAGVANALAHKYH------HBA HUMAN MPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR

    H1 H2 H3 H4

    H6 H7H5

    ASM2O. Lecompte – IGBMC

    HBA_HUMAN -----MPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR------HBA_HORSE -----LPGALSNLSDLHAHKLRVDPVNFKLLSHCLLSTLAVHLPNDFTPAVHASLDKFLSSVSTVLTSKYR------MYG_PHYCA -----HEAELKPLAQSHATKHKIPIKYLEFISEAIIHVLHSRHPGDFGADAQGAMNKALELFRKDIAAKYKELGYQGGLB5_PETMA T--EKMSMKLRDLSGKHAKSFQVDPQYFKVLAAVIADTVAAG---------DAGFEKLMSMICILLRSAY-------LGB2_LUPLU TGVVVTDATLKNLGSVHVSKG-VADAHFPVVKEAILKTIKEVVGAKWSEELNSAWTIAYDELAIVIKKEMNDAA--- : *. * . : : . : : .: ... . :

    ClustalX

    ASM2O. Lecompte – IGBMC

  • 11

    Alignement multiple progressif

    Local Global

    SB

    MLUPGMA

    NJ

    SBpima multal

    multalignclustalx

    MLpima

    ASM2O. Lecompte – IGBMC

    pileupMLpima

    SB - sequential branching UPGMA- Unweighted Pair Grouping MethodML - maximum likelihoodNJ - neighbor-joining

    Méthodes utilisées

    Alignement multiple optimal Alignement multiple optimalex : MSA, OMA

    Alignement multiple progressifex : ClustalW, ClustalX

    Alignement multiple itératif

    ASM2O. Lecompte – IGBMC

    g pex : PRRP, SAGA

  • 12

    Iterative refinement

    PRRP (Gotoh, 1993) refines an initial progressive multiple alignment by iteratively dividing the alignment into 2 profiles and realigning them.

    initial alignment

    divide sequencesinto 2 groups

    profile 1

    pairwiseprofile

    alignmentrefined

    alignment

    ASM2O. Lecompte – IGBMC

    g

    profile 2

    converged?

    no

    Globalprogressif

    Genetic AlgorithmsSAGA (Notredame et al.1996) evolves a population of alignments in a quasi

    select a number of individuals to be parents

    modify the parents by shuffling gaps merging 2 alignments etc

    population n

    select a number of individuals to be parents

    modify the parents by shuffling gaps merging 2 alignments etc

    population n

    evolutionary manner, iteratively improving the fitness of the population

    ASM2O. Lecompte – IGBMC

    modify the parents by shuffling gaps, merging 2 alignments etc.

    evaluation of the fitness using OF (sum-of-pairs or COFFEE)

    END

    population n+1

    modify the parents by shuffling gaps, merging 2 alignments etc.

    evaluation of the fitness using OF (sum-of-pairs or COFFEE)

    END

    population n+1

  • 13

    Progressive

    Méthodes d’alignement multiple

    Local Global

    SB

    ML UPGMANJ

    SBpima multal

    multalignil

    clustalx

    MLpima

    ASM2O. Lecompte – IGBMC

    Iterative

    Genetic Algo. HMM

    pileup

    dialignsaga hmmt

    prrp

    BaliBASE

    Comparaison des programmes

    BaliBASE(Thompson et al. Bioinformatics. 1999 ; Bahr et al, NAR 2001 ; Thompson et al., Proteins 2005)

    • alignements basés sur des superpositions de structures tridimensionnelles

    • alignements comparés uniquement pour les régions superposables

    • différents cas :

    - nombre de séquences

    longueur des séquences

    ASM2O. Lecompte – IGBMC

    - longueur des séquences

    - similarité entre séquences

    - séquence “orpheline” / famille de séquences

    - sous-familles

    - insertions, extensions

    - …

  • 14

    “Orphan” Sequences Families of Sequences

    BaliBASE

    p qFamily (>25% ID) Family 1 (>25% ID)

    Family 2 (>25% ID)

    ASM2O. Lecompte – IGBMC

    Family 3 (>25% ID)

    Orphan Sequence (

  • 15

    Choix d’un programme

    Progressif/ItératifLes méthodes itératives améliorent généralement l’alignementProblèmes :

    89 seq histone (66 à 92 aa)

    Global/Local Séquences colinéaires => méthodes globalesExtensions N/C-terminales ou insertions => méthodes locales

    ASM2O. Lecompte – IGBMC

    - Séquences orphelines- Le processus itératif peut être très long !

    89 seq histone (66 à 92 aa)ClustalW 2 mins 41 secsPRRP 3 hours 40 minsDialign 3 hours 48 mins

    Pour améliorer l’alignement, il faut inclure autant de séquences que possible !

    Méthodes d’alignement multiple

    Co-operativestrategies2000

    MAFFTMUSCLE

    ProbCons

    DbClustalT-Coffee

    Iterativestrategies1996

    PRRPSAGADialign

    HMMER

    Progressivealignment1987

    Optimalalignment1975

    Clustal

    PIMA

    MultAlignPileUp

    ASM2O. Lecompte – IGBMC

    20051975 1995 20001985 1990

    1994McClure

    1999BAliBASE

  • 16

    Combinaison d’approches

    • T-Coffee (Notredame et al. 2000) performs local and global alignments for all pairs of sequences, then combines them in a progressive multiple alignment, similar to ClustalW.

    • DbClustal (Thompson et al. 2000) is designed to align the sequences detected by a database search. Locally conserved motifs are detected using the Ballast program (Plewniak et al. 1999) and are used in the

    ASM2O. Lecompte – IGBMC

    global multiple alignment as anchor points.

    • MAFFT (Katoh et al. 2002) detects locally conserved segments using a Fast Fourier Transform, then uses a restricted global DP and a progressive algorithm

    DbClustal

    A partir d ’une séquence « query » :

    1) Recherche de séquences similaires=> Blast

    2) Recherche de LMS (Local Maximum Segments)

    Intègre recherche de similaritéCouplage local et global

    ASM2O. Lecompte – IGBMC

    => Ballast

    3) Alignement global intégrant les ancres locales fournies par Ballast

    http://bips.u-strasbg.fr/PipeAlign/

  • 17

    Query

    Ballast

    E(N) < 0.1

    E(N) > 0.1

    ASM2O. Lecompte – IGBMC LMS (local maximum segments)Plewniak et al. Bioinformatics 2000

    Ballast

    S. cerevisiae GAL4 regulatory protein

    I II III IV V VI VII VIII

    ASM2O. Lecompte – IGBMC

    Zn2 Cys6 Putative inhibitory domain

  • 18

    Blast Database Search Ballast Anchors DbClustal Alignment

    DbClustal

    Blast Database Search Ballast Anchors DbClustal Alignment

    Query Sequence

    Anchors

    Query Sequence

    Database Hits

    ASM2O. Lecompte – IGBMC

    Domain A

    Domain B

    Domain C

    ClustalW

    Comparaison ClustalW / DbClustal

    ASM2O. Lecompte – IGBMC

    DbClustal

  • 19

    MAFFT

    • Local homologous segments detected using a Fast Fourier Transform

    • Pairwise alignments are performed using restricted global dynamic programming

    Multiple alignment is built up using a progressive algorithm

    ASM2O. Lecompte – IGBMC

    • Multiple alignment is built up using a progressive algorithm, similar to ClustalW

    • Multiple alignment is then iteratively refined by dividing alignment into 2 parts and realigning

    MAFFT

    Pairwise alignments

    GLWGKAAAEEEGLWLFF—---KGVFGAEQEGLFVFFGGK=2

    k2-1

    c(k)

    g

    ASM2O. Lecompte – IGBMC

    1. Fast Fourier Transform

    to detect local conserved segments

    2. Segment Level Dynamic Programming

    to select ‘consistent’ segments

    3. Fix residues at the centre of each segment pair and

    realign between fixed points (white regions only)

    -GLWGKAAAEEEGLWLFFKGVFGAEQEGLFVFFGG-K=-1

  • 20

    MUSCLEEdgar et al, NAR 2004

    ASM2O. Lecompte – IGBMC