Synthetic protein sequences based on consensus motifs typically ignore co-evolving residues, that imply interpositional dependencies (IPDs). IPDs can be essential to activity, and designs that disregard them may result in suboptimal results. This protocol uses StickWRLD to identify IPDs and help inform rational protein design, resulting in more efficient results.
Alinhamentos de proteína são comumente utilizados para avaliar a semelhança de resíduos de proteínas, e a sequência de consenso derivada utilizado para identificar as unidades funcionais (por exemplo, domínios). Os modelos tradicionais de construção de consenso não levam em conta as dependências de interposição – funcionalmente necessário co-variação de resíduos que tendem a aparecer simultaneamente ao longo da evolução e do outro lado da árvore phylogentic. Estas relações podem revelar pistas importantes sobre os processos de dobragem de proteínas, termoestabilidade, e a formação de sítios funcionais, que por sua vez podem ser usados para informar a engenharia de proteínas sintéticas. Infelizmente, essas relações essencialmente formar sub-motivos que não pode ser prevista por simples "regra da maioria" ou modelos de consenso, mesmo baseados em HMM, eo resultado pode ser um "consenso" biologicamente inválido que não só é nunca visto na natureza, mas é menos viável do que qualquer proteína existente. Nós desenvolvemos uma uma visuaisferramenta alytics, StickWRLD, que cria uma representação em 3D interativo num alinhamento de proteínas e claramente mostra covarying resíduos. O usuário tem a capacidade de panorâmica e zoom, bem como alterar dinamicamente o limiar estatístico subjacente à identificação dos covariantes. StickWRLD foi anteriormente utilizado com sucesso para identificar resíduos covarying funcionalmente exigidas em proteínas tais como a adenilato-quinase e de sequências de ADN, tais como locais-alvo da endonuclease.
Alinhamentos de proteínas têm sido muito utilizadas para avaliar a semelhança de resíduos de uma família de proteínas. Frequentemente as características mais interessantes de uma proteína (por exemplo, sítios de ligação catalíticos ou outros) são o resultado de proteína dobrar trazendo regiões distais da sequência linear em contato, e como resultado dessas regiões aparentemente não relacionados no alinhamento tendem a evoluir e mudar em de forma coordenada. Em outros casos, a função de uma proteína pode estar dependente da sua assinatura electrostático, e mutações que afectam o dipolo electrónico são compensadas por alterações resíduos carregados distantes. Efeitos alostéricos também pode induzir de longo alcance dependências sequenciais e espaciais entre identidades de resíduos. Independentemente da sua origem, esses covariações funcionalmente necessários de resíduos – dependências inter-posicionais (DIP) – pode não ser óbvio com exame visual do alinhamento (Figura 1). Identificação de DIP – bem como deque resíduos específicos dentro desses cargos tendem a covary como uma unidade – pode revelar pistas importantes sobre os processos de dobramento de proteínas e a formação de sítios funcionais. Esta informação pode então ser utilizada para optimizar as proteínas sintéticas (artificiais) em termos de estabilidade térmica e actividade. Ele tem sido conhecido que nem todas as mutações pontuais em direção a um consenso proporcionar uma melhor estabilidade ou atividade. Mais recentemente, proteínas concebido para tirar vantagem de DIP conhecidas na sua sequência foram mostrados para resultar numa maior actividade do que a mesma proteína concebido estritamente de consenso 1,2 (manuscrito em preparação), semelhante à ideia de estabilização mutações pontuais 3.
Infelizmente, os modelos tradicionais de construção de consenso (por exemplo, a regra da maioria), apenas capturar IPDs por acidente. Métodos de consenso e posição de pontuação específica Matrix são ignorantes e só IPDs "correctamente" incluí-los em modelos, quando os resíduos dependentestambém são os resíduos mais populares para aquelas posições na família. Modelos de cadeia de Markov pode capturar IPDs quando estão sequencialmente proximal, mas a sua implementação típica ignora tudo, exceto vizinhos imediatos seqüenciais, e até mesmo no seu melhor, cálculos Hidden Markov Model (ver Figura 2) tornar-se intratável quando dependências são separados na seqüência por mais de uma dúzia de posições 4. Uma vez que estes IPDs essencialmente formar "sub-temas" que não pode ser prevista por simples "regra da maioria" ou modelos de consenso, mesmo baseados em HMM 5,6 o resultado pode ser um "consenso" biologicamente inválido que não só é nunca visto na natureza, mas é menos viável do que qualquer proteína existente. Os sistemas baseados em campos aleatórios de Markov, tais como GREMLIN 7, tentar ultrapassar estes problemas. Adicionalmente enquanto que as técnicas biológicas / bioquímicas sofisticadas, tais como não-contíguo 3,8 recombinação pode ser usado para identify elementos essenciais de proteínas por região, eles exigem tempo considerável e bancada de trabalho de precisão à base de um único par de ser alcançado.
StickWRLD 9 é um programa baseado em Python que cria uma representação em 3D interativa de um alinhamento proteína que faz IPDs clara e fácil de entender. Cada posição no alinhamento está representada como uma coluna no visor, em que cada coluna é constituída por uma pilha de esferas, um para cada um dos 20 aminoácidos que podem estar presentes em que posição dentro do alinhamento. O tamanho de esfera é dependente da frequência da ocorrência dos aminoácidos, de tal modo que o utilizador pode recolher imediatamente o resíduo de consenso ou a distribuição relativa de aminoácidos dentro dessa posição olhando simplesmente para o tamanho das esferas. As colunas que representam cada posição são enrolados em torno de um cilindro. Isto dá cada esfera que representa uma possível aminoácido em cada posição no alinhamento, um "linha de visão" clarapara todas as outras possibilidades de aminoácidos em todas as outras posições. Antes de visualização, StickWRLD calcula a força da correlação entre todas as combinações possíveis de resíduos para identificar a IPDs 9. Para representar DIP, são desenhadas linhas entre os resíduos que são co-evolução em maior ou menor do que seria de esperar se os resíduos presentes nas posições eram independentes (DIP).
Não só esta visualização mostra que posições de sequência interagir evolutivamente, mas como as linhas de borda IPD são desenhadas entre as esferas de aminoácidos em cada coluna, o usuário pode determinar rapidamente quais aminoácidos específicos tendem a ser co-evoluindo em cada posição. O utilizador tem a capacidade de rodar e explorar a estrutura IPD visualizado, bem como dinamicamente alterar os limites estatísticos que controlam a visualização das correlações, fazendo StickWRLD uma ferramenta poderosa para a descoberta DIP.
Aplicações como GREMLIN 7 similarly exibir informações relacional complexa entre os resíduos -, mas essas relações são computados via modelos de Markov mais tradicionais, que não são projetados para determinar quaisquer relações condicionais. Como tal, estes são capazes de serem apresentados como projecções 2D. Em contrapartida, StickWRLD pode calcular e exibir dependências condicionais multi-nó, que pode ser ofuscado se rendido como um gráfico 2D (um fenômeno conhecido como oclusão borda).
Visualização em 3D do StickWRLD também tem várias outras vantagens. Ao permitir que os usuários manipulem as visuais -, rodar e zoom – características que podem ser ofuscadas ou unintuitive em uma representação 2D pode ser mais facilmente visto no cilindro 3D de StickWRLD. StickWRLD é essencialmente uma ferramenta visual analytics, aproveitando o poder da capacidade de reconhecimento de padrões do cérebro humano para ver padrões e tendências, ea capacidade de explorar os dados a partir de várias perspectivas se presta a isso.
StickWRLD tem sido utilizado com sucesso para identificar tais DIP no domínio da tampa 16 adenilato-quinase, assim como bases de ADN associados no dependente de rho terminadores 9, e uma nova especificidade de splice-site na Archaea ARNt intrão 6 locais-alvo da endonuclease. Estes IPDs não eram detectáveis através de um exame direto dos alinhamentos.
StickWRLD exibe cada posição de um alinhamento como uma coluna de 20 "esferas", em que cada esfera representa um dos 20 resíduos de aminoácidos e o tamanho da esfera indica a frequência de ocorrência de que resíduo em particular dentro dessa coluna (Figura 4). As colunas são dispostas de um cilindro, com linhas de aresta de ligação em diferentes resíduos de colunas (indicando um DPI). Estas linhas de bordo só são desenhados se os resíduos correspondentes são covarying a uma frequência superando tanto o valor de p (significância) e (esperados) – observados os limites residuais.
Detecção de resíduos co-ocorrência interdependentes, ou IPDs, em regiões distais de um alinhamento de DNA ou sequência de proteína é difícil o uso de ferramentas de alinhamento de sequências padrão 6. Embora tais ferramentas gerar um consenso, ou motivo, seqüência, esse consenso é, em muitos casos, um simples cálculo da média do governo de maioria e não transmite relações de co-variação que podem formar um ou mais sub-temas – grupos de resíduos que tendem a co-evoluir. Mesmo modelos HMM, que são capazes de detectar dependências vizinhos, não pode com precisão modelo motivos de sequência com IPDs distal 5. O resultado é que o consenso calculados podem, de facto, ser uma sequência de "sintético" não encontrada na natureza – e proteínas modificadas com base em tais consenso computacional não podem, de facto, ser o ideal. Na verdade, a Pfam HMM para ADK iria sugerir que uma proteína quimérica contendo a metade do motivo tetraciste�a, e metade do H, S, D, T motivo, é funcionalmente tão aceitávelcomo qualquer ADK realmente existente. Este não é o caso, tais como quimeras (e muitos outros blendings destes motivos) são cataliticamente morto 4,19.
Ao olhar para as correlações, é crítico que o limiar residual ser ajustado para permitir a descoberta de correlações relevantes, definindo o limite acima do nível em que quaisquer arestas são vistas e, em seguida, gradualmente aumentando o limiar de volta para baixo. Isto garante que apenas as bordas mais significativos são considerados inicialmente.
Uma abordagem alternativa é começar com o limite residual definir extremamente baixo. Isto resulta na exposição de todas as arestas significativas. A partir daqui o limite residual pode ser aumentada lentamente, permitindo bordas para cair fora até padrões emergem. Enquanto esta abordagem é menos útil quando se olha para a inclusão de nós específicos (por exemplo, aplicação do conhecimento do domínio), que permite a descoberta de relações inesperadas utilizando StickWRLD como uma visual ferramenta analítica para descobrir padrões emergentes na visualização de dados.
StickWRLD é limitada principalmente pela memória disponível do sistema no qual ele é administrado, bem como a resolução do dispositivo de exibição. Embora não haja um limite teórico para o número de pontos de dados StickWRLD pode examinar, e sequências até 20.000 posições foram testadas, na prática, tem um melhor desempenho com StickWRLD sequências até cerca de 1.000 posições.
A principal vantagem de StickWRLD reside na sua capacidade para identificar os grupos de resíduos que covary um com o outro. Esta é uma vantagem significativa sobre a abordagem tradicional da sequência de consenso estatística, que é uma média estatística simples e não leva em conta a co-evolução. Embora em alguns casos resíduos covarying pode ser simplesmente um artefato de filogenia, mesmo estes resíduos têm resistido ao "teste de seleção", e como tal não são susceptíveis de prejudicar a functionalidade de qualquer proteína manipulada para incluí-los.
Enquanto utilizando StickWRLD para identificar DIP em uma sequência de ADN ou proteína canónica consenso / motivo antes variantes sintéticas engenharia irá reduzir o potencial de erro e suporta optimização rápida da função, deve-se notar que StickWRLD pode ser utilizado como uma ferramenta de identificação de correlação generalizada e não está limitada exclusivamente a dados de proteínas. StickWRLD pode ser usado para descobrir visualmente a co-ocorrência de quaisquer variáveis em qualquer conjunto de dados codificados adequadamente.
The authors have nothing to disclose.
StickWRLD was made possible in part through funding provided to Dr. Ray by the Research Institute at Nationwide Children’s Hospital, and by NSF grant DBI-1262457.
Mac or Ubuntu OS computer | Various | NA | Any Mac or linux (e.g. Ubuntu) computer capable of running python & associated shell scripts |
Python programming language | python.org | NA | Python version 2.7.6 or greater recommended |
wxPython library | wxpython.org | NA | Latest version recommended |
SciPy library | scipy.org | NA | Latest version recommended |
PyOpenGL library | pyopengl.sourceforge.net | NA | Latest version recommended |
StickWRLD Python scripts | NCH BCCM | NA | Available from http://www.stickwrld.org |
fasta2stick.sh file converter | NCH BCCM | NA | Available from http://www.stickwrld.org |
Protein and/or DNA sequence data | NA | NA | Samples available at http://www.stickwrld.org |