Información

Conjunto de datos de alineación de secuencias de proteínas disponibles y modelo HMM

Conjunto de datos de alineación de secuencias de proteínas disponibles y modelo HMM



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Soy nuevo en biología y encuentro que mi algoritmo puede usarse en la alineación de secuencias de proteínas, ya que es un modelo HMM por lo tanto. Encuentro que la gente usa HMM para generar copias ruidosas de la secuencia de consenso de diferentes longitudes. Hay una figura que muestra el proceso:

Parece que el profesor Richard Durbin puede publicar algún conjunto de datos. Pero, ¿cómo puedo encontrar conjuntos de datos disponibles? Me perdí en el bio-vocabulario y no pude encontrar conjuntos de datos. También me pregunto si este tema es muy secundario en esta comunidad.

Actualización: dado que puedo abusar del vocabulario, puede ser mejor publicar la palabra original que leí.


Las secuencias de ADN y proteínas (ambas son razonables para usar en HMM) están disponibles en una variedad de fuentes, como EMBL, NCBI y otras.

Para ingresarlos en un modelo como un HMM que se basa en comparaciones entre diferentes secuencias, lo más probable es que necesite producir un alineación de secuencia, que es un formato de datos en el que las secuencias se procesan en una matriz (generalmente no delimitadas de ninguna manera, sino donde cada columna es un solo carácter de cadena) donde las columnas o posiciones de la matriz se considera que ocupan la misma posición en la secuencia. Estas posiciones pueden ser "huecos", generalmente representados por "-". El diagrama en la parte superior de la figura de Durbin es tal alineación.

Hay muchas muchas herramientas para alinear secuencias, tanto de proteínas como de ADN (el ADN es un "nucleótido"; el ARN también es una secuencia de "nucleótidos", pero el ADN es mucho más común de alinear en la mayoría de las aplicaciones).

Algunas de las herramientas comunes para generar alineamientos de secuencias múltiples son ClustalO y MAFFT. En particular, no está tan interesado (creo) en herramientas como BLAST, que se tratan principalmente de buscar secuencias únicas en bases de datos utilizando alineación local, en lugar de generar múltiples alineaciones de secuencia para la entrada a otros programas.

Creo que con un poco de búsqueda puede encontrar múltiples bases de datos de alineación de secuencias existentes. La gente no suele guardarlos y ponerlos en bases de datos o repositorios porque normalmente los datos que utilizas son muy específicos del problema que te interesa y son bastante sencillos de generar. Es probable que la mayoría de las bases de datos sean bastante antiguas por este motivo; Encontré una de esas bases de datos antiguas (descritas aquí) con un poco de búsqueda en Google.


HHblits: búsqueda de secuencias de proteínas iterativas ultrarrápidas por alineación HMM-HMM

La función de la proteína basada en la secuencia y la predicción de la estructura depende fundamentalmente de la sensibilidad de la búsqueda de secuencia y la precisión de las alineaciones de secuencia resultantes. Presentamos una herramienta de código abierto y de propósito general que representa tanto las secuencias de consulta como las de la base de datos por modelos de Markov ocultos de perfil (HMM): 'Búsqueda de secuencia iterativa ultrarrápida basada en HMM-HMM' (HHblits http: //toolkit.genzentrum. lmu.de/hhblits/). En comparación con la herramienta de búsqueda de secuencias PSI-BLAST, HHblits es más rápido debido a su prefiltro de perfil discretizado, tiene un 50–100% más de sensibilidad y genera alineaciones más precisas.


Resumen del autor

La detección de homología de proteínas basada en secuencias se ha estudiado ampliamente, pero sigue siendo un gran desafío para los homólogos remotos con secuencias divergentes. Hasta ahora, los métodos más sensibles emplean la comparación HMM-HMM, que modela una familia de proteínas usando HMM (Modelo Oculto de Markov) y luego detecta homólogos usando la alineación HMM-HMM. HMM no puede modelar patrones de interacción de residuos de largo alcance y, por lo tanto, contiene muy poca información sobre la estructura 3D global de una familia de proteínas. Como tal, la comparación de HMM no es lo suficientemente sensible para homólogos de parentesco lejano. En este artículo, presentamos un método de comparación MRF-MRF para la detección de homología. En particular, modelamos una familia de proteínas usando campos aleatorios de Markov (MRF) y luego detectamos homólogos por alineación MRF-MRF. En comparación con HMM, los MRF pueden modelar el patrón de interacción de residuos de largo alcance y, por lo tanto, contienen información para la estructura 3D general de una familia de proteínas. En consecuencia, la comparación MRF-MRF es mucho más sensible que la comparación HMM-HMM. Para implementar la comparación MRF-MRF, hemos desarrollado una nueva función de puntuación para medir la similitud de dos MRF y también un algoritmo ADMM eficiente para optimizar la función de puntuación. Los experimentos confirman que la comparación MRF-MRF de hecho supera a la comparación HMM-HMM en términos de precisión de alineación y detección de homología remota, especialmente para proteínas beta principalmente.

Citación: Ma J, Wang S, Wang Z, Xu J (2014) MRFalign: Detección de homología de proteínas mediante la alineación de campos aleatorios de Markov. PLoS Comput Biol 10 (3): e1003500. https://doi.org/10.1371/journal.pcbi.1003500

Editor: Thomas Lengauer, Max-Planck-Institut für Informatik, Alemania

Recibió: 27 de octubre de 2013 Aceptado: 8 de enero de 2014 Publicado: 27 de marzo de 2014

Derechos de autor: © 2014 Ma et al. Este es un artículo de acceso abierto distribuido bajo los términos de la Licencia de Atribución Creative Commons, que permite el uso, distribución y reproducción sin restricciones en cualquier medio, siempre que se acredite el autor y la fuente originales.

Fondos: Este trabajo cuenta con el apoyo de la subvención R01GM089753 de los Institutos Nacionales de Salud, el premio NSF CAREER CCF-1149811 y la Beca de Investigación Alfred P. Sloan. Los autores también agradecen al equipo Beagle de la Universidad de Chicago y a TeraGrid por su apoyo a los recursos computacionales. Los patrocinadores no tuvieron ningún papel en el diseño del estudio, la recopilación y el análisis de datos, la decisión de publicar o la preparación del manuscrito.

Conflicto de intereses: Los autores han declarado que no existen intereses en competencia.

Este artículo de Métodos está asociado con RECOMB 2014.


Métodos

Diseño de secuencia dirigida y base de datos de búsqueda

Las secuencias enlazadoras naturales, que están relacionadas de forma intermedia con dos proteínas relacionadas lejanamente, facilitan la detección de homología en los métodos de búsqueda de secuencias empleados habitualmente. Como se describe en una publicación anterior [22], la escasez de enlazadores naturales en el espacio de secuencias de proteínas hace que los métodos de detección de homología sean ineficaces. Para superar esta limitación, se desarrolló anteriormente un enfoque para llenar los vacíos en el espacio de búsqueda, diseñando intencionalmente secuencias de ligadores similares a proteínas entre todas las familias conocidas de pliegues de proteínas provistas en la base de datos SCOP (Clasificación Estructural de Proteínas) [32] [22]. . Brevemente, en este enfoque, cada familia de dominios de proteínas, para cada pliegue conocido en la base de datos SCOP, se representó como una colección de perfiles. Se realizaron alineaciones HMM-HMM entre familias de proteínas relacionadas para generar un modelo combinado que captura las preferencias y frecuencias inherentes de residuos entre las familias alineadas. A continuación, se empleó un enfoque basado en la ruleta para seleccionar los residuos preferidos en cada posición en la alineación entre cada par de familias de proteínas relacionadas. Cuando se repitió a lo largo de la alineación, el enfoque generó una secuencia de "enlazador artificial" que incorporó de manera significativa las propensiones de residuos observadas entre las familias alineadas. Usando este enfoque de diseño dirigido, se generaron 3611010 secuencias diseñadas entre 3901 familias para 374 pliegues en la base de datos SCOP [32]. Están disponibles individualmente como archivos planos descargables independientes en el servidor NrichD [29] para su uso en conjunto con cualquier procedimiento de búsqueda de secuencia.

Consultar conjunto de datos

La base de datos de familias de secuencias (Pfam 30) [30] se agrupan en función de la similitud de secuencias en 16306 familias de proteínas en la base de datos Pfam correspondientes a 1293837 secuencias de semillas. Los dominios correspondientes a las familias de proteínas están representados por un alineamiento de secuencia múltiple, que constituye las secuencias semilla. Para retener solo un conjunto representativo, se aplicó blastclust a los miembros de cada familia, con una identidad de secuencia del 60% y una cobertura de longitud de secuencia del 90%, disminuyendo el número de secuencias que representan todas las familias de Pfam a 234727.

La asociación de pliegues para los dominios PFAM no siempre es directa, ya que varios dominios SCOP pueden estar asociados con un dominio de secuencia única y viceversa. Para identificar las asociaciones de dominio de SCOP para varias familias de PFAM, hemos agrupado las asociaciones de PFAM-SCOP mediante la integración de varios conjuntos de datos. En primer lugar, hemos utilizado las definiciones de dominio SCOP disponibles para cada proteína de estructura conocida asociada con una entrada PFAM basada en el ID de PDB, como se proporciona en la base de datos SCOPe 2.06 [33]. En segundo lugar, el RCSB ha desarrollado un proceso, basado en el servicio web HMMER, que toma las asignaciones PDB-Pfam de SIFTS [34] y les agrega asignaciones adicionales [35, 36]. Esto se proporciona en el recurso RCSB como un archivo descargable. En tercer lugar, los recursos académicos como PDBfam contienen anotaciones PFAM para

99,4% de cadenas con más de 50 residuos [37]. Como se muestra en la Fig. 1, las asociaciones combinadas de PFAM-PDB-SCOP de los tres recursos dieron como resultado asociaciones de 4058 veces de 7726 familias de secuencias de Pfam con estructura conocida.

Esquema esquemático del flujo de trabajo: Protocolo adoptado para el reconocimiento de estructuras de familias de estructura desconocida. Se obtuvo un consenso a partir del mapeo estructural para las familias de secuencias proporcionadas por Xu y Dunbrack [34] y el mapeo de PDB a Pfam disponible en Pfam [30].

Basándonos en nuestra asociación de familias de dominios Pfam con los dominios estructurales de SCOP, nuestro conjunto de datos se dividió en dos conjuntos: el conjunto de "Evaluación" correspondiente a las familias de Pfam para las que está disponible la asociación estructural (y el pliegue) y el conjunto de "Aplicación" correspondiente a las familias para las cuales actualmente no hay ninguna asociación de estructura disponible.

Conjunto de evaluación

Se asociaron 7726 familias de secuencias con estructuras y para 4058 familias se dispuso de definiciones de pliegues SCOP para las regiones asignadas. Se consideraron las asociaciones de dominio estructural dadas en Pfam y PDBfam [34] con una condición adicional de una cobertura de longitud superior al 60% del dominio SCOP para excluir asociaciones estructurales indiscriminadas o falsas (archivo adicional 1: Tabla S1). Estos formaron las asociaciones estructurales "conocidas" y se emplearon para probar la fuerza de nuestro enfoque. Los clanes agrupan familias de proteínas relacionadas, constituyendo familias secuencialmente divergentes que comparten un ancestro evolutivo común. Hay 595 clanes en Pfam 30. La deducción de la estructura de cualquier miembro del clan se traduce en la estructura y, en consecuencia, en la asociación con las otras familias del clan [30]. El número de familias en cada clan varía de 2 a 254.

Conjunto de datos de la aplicación

Las 8580 familias restantes que no tenían asociación de estructura disponible se examinaron para el reconocimiento de estructura a nivel de pliegue extrayendo las secuencias de semillas del alineamiento. Tomamos una secuencia de consulta representativa por grupo (blastclust) de cada familia de forma iterativa, hasta que encontramos resultados en nuestra base de datos utilizando jackhmmer [24], en los parámetros utilizados para el conjunto de evaluación.

Método de búsqueda: evaluación y valoración

El flujo de trabajo se ha ilustrado esquemáticamente en la Fig. 1. Empleamos un programa de detección de homología sensible, rejuveneciéndolo aún más al proporcionar una base de datos de secuencias que constituyen tanto secuencias naturales como diseñadas [29]. Esta base de datos de búsqueda, que integra 3611010 secuencias diseñadas con 4694921 secuencias naturales, está disponible como recurso en la base de datos NrichD como SCOP (v1.75) -NrichD con un total de 8305931 secuencias. El algoritmo de búsqueda empleado, jackhmmer, es un método de búsqueda de secuencia iterativa basado en perfiles que construye un HMM (modelo oculto de Markov) [24] después de la primera búsqueda y lo usa como consulta en las iteraciones sucesivas, recodificándolo después de cada ronda. . Establecimos un filtro de valor E de 10 −4 para los aciertos reportados y un máximo de 5 iteraciones mientras aseguramos la menor incidencia de desviación del perfil asegurándonos de que la proteína de consulta esté presente en cada iteración. El dominio de secuencia puede estar asociado con dominios estructurales únicos o múltiples correspondientes a los mismos o diferentes pliegues estructurales. Minimizamos los casos en los que un tramo equivalente de un dominio de secuencia se asoció con diferentes pliegues de SCOP utilizando filtros de cobertura de longitud de secuencia estrictos. Para evaluar el desempeño de nuestro enfoque, se consideraron las familias en el “Conjunto de evaluación”. Cuantificamos la importancia de nuestro enfoque midiendo la precisión, sensibilidad y especificidad e identificando criterios para maximizarlos. Estas son medidas estadísticas de desempeño y están representadas por las siguientes ecuaciones:

Para una familia Pfam de consulta determinada, el número de asociaciones de pliegues correctas que califican los umbrales impuestos se cuantifican como TP (verdadero positivo), mientras que las que fallan se designan como FN (falso negativo). De manera similar, para una familia Pfam de consulta determinada, el número de asociaciones de pliegues incorrectos que califican los umbrales impuestos se designan como FP (falso positivo), mientras que aquellos que no son aciertos de pliegues distintos del pliegue correcto se consideran TN (verdadero negativo).

Para cada familia de Pfam, basándose en los pliegues de los aciertos obtenidos a través de búsquedas jackhmmer, se asocia un pliegue SCOP con la secuencia de consulta. Para analizar los resultados obtenidos para las familias de secuencias sin una estructura conocida previamente, los criterios determinados a partir de la evaluación fueron la cobertura de la longitud de la consulta mejor que 60% y el valor E mejor que 10 −4. Además, se agregaron más restricciones para excluir falsos positivos. Para el conjunto de datos de evaluación, observamos que el pliegue correcto se asoció con la frecuencia normalizada más alta para una consulta determinada.

La frecuencia de plegado normalizada viene dada por ( frac, i in left [1, n right]. )

dónde norte es el número total de pliegues asociados con una secuencia de consulta y pliegue (I) representa el número de homólogos identificados de ese pliegue en la búsqueda de perfil. norte es el número total de asociaciones entre pliegues para la consulta.

Según la observación anterior, utilizando la frecuencia de pliegue normalizada, podríamos clasificar las asociaciones en nuestro conjunto de datos de la aplicación como:

Seguro* - Si el pliegue con la frecuencia más alta también tuvo una asociación mayor o igual al 95% de cobertura de consultas.

Seguro - Si el pliegue con mayor frecuencia proporciona la mejor cobertura entre el 60 y el 95%.

Conflicto - Cuando la frecuencia de doblez más alta no proporcionó la mejor cobertura de consulta.

Sin ambigüedad - Si solo hay un pliegue estructural asociado con una consulta, consideramos la asociación realizada con la mejor cobertura de consulta.


Resultados

Identificación y análisis de tirosina recombinasas

Los análisis estructurales y de secuencia anteriores indicaron que los YR generalmente tienen dos dominios funcionales principales: el dominio de unión al núcleo (CB) se une al sitio del ADN de recombinación, y el dominio catalítico (CAT) cataliza todas las reacciones de escisión y unión del ADN necesarias para la recombinación (Esposito & Scocca , 1997 Nunes-Düby et al, 1998 Swalla et al, 2003). Algunos YR tienen un dominio de unión al brazo (AB) N-terminal adicional que reconoce las secuencias de ADN accesorias, los denominados sitios del brazo, cerca de los sitios de recombinación. Las estructuras cristalinas mostraron que el dominio CAT tiene un pliegue similar en diversos YR (Guo et al, 1997 Subramanya et al, 1997 Tirumalai et al, 1997 Skaar et al, 2015) y los análisis de secuencia comparativa revelaron dos regiones altamente conservadas (denominadas cajas) y tres parches con una conservación menos significativa (Esposito & Scocca, 1997 Nunes-Düby et al, 1998). Las regiones conservadas incluyen los residuos catalíticos, es decir, el nucleófilo de tirosina y el pentad catalítico RKHRH (Jayaram et al, 2015), así como el núcleo proteico hidrofóbico. El dominio CB está mucho menos conservado a nivel de secuencia, pero también se conserva su arquitectura estructural (Swalla et al, 2003). A su vez, el dominio AB es muy variable con una diversidad estructural y de secuencia sustancial entre los miembros de la familia YR (Clubb et al, 1999 Fadeev et al, 2009 Szwagierczak et al, 2009 ).

Para analizar la diversidad de años, empleamos la siguiente estrategia. Primero, realizamos una búsqueda iterativa de jackhmmer contra la base de datos de proteomas de referencia UniProt utilizando la proteína XerD prototípica de Escherichia coli como consulta inicial. En cada ciclo de esta búsqueda, se alinearon las secuencias de aciertos y se construyó un modelo de perfil oculto de Markov (perfil HMM). Profile HMM es un modelo probabilístico que se utiliza para describir los rasgos de secuencia característicos de la alineación. Este perfil HMM se utilizó luego como una nueva consulta en el siguiente ciclo de búsqueda. Este procedimiento iterativo permite la identificación de homólogos distantes de la consulta original (Johnson et al, 2010 Potter et al, 2018). A continuación, se agruparon las secuencias resultantes y se alinearon los representantes de los grupos. La alineación se truncó para contener solo las regiones CB y CAT, que están presentes de forma ubicua en todas las proteínas YR. Esta alineación resultante se utilizó luego para reconstruir el árbol filogenético con el paquete PhyML (Fig. 1A y Apéndice Fig. S1). La topología del árbol fue apoyada por pruebas paramétricas aBayes y no paramétricas SH-LRT (Anisimova et al, 2011). Con base en la filogenia, luego dividimos los YR en subgrupos con soportes de rama significativos (más de 0.98 y 0.85 para aBayes y SH-LRT, respectivamente, Tabla S1 del Apéndice). Para cada subgrupo, creamos un perfil distintivo HMM, que luego usamos para encontrar todos los homólogos de YR en la colección de proteomas de referencia de UniProt. Para las secuencias resultantes, creamos logotipos de secuencia para visualizar las regiones conservadas dentro de los subgrupos (Apéndice Figs. S2-S4) y analizamos las diferencias específicas entre subgrupos (Fig 2). Mapeamos todas las proteínas YR a sus genomas de origen y rastreamos la distribución taxonómica de cada subgrupo (Fig. 1B, Conjunto de datos EV1). Finalmente, extrajimos las cincuenta proteínas YR más abundantes y caracterizamos su distribución, clasificación y función putativa (Fig. 1C, Dataset EV2).

Figura 1. Diversidad y distribución de tirosina recombinasas (YR)

  1. Árbol filogenético de máxima verosimilitud de YR. Dos grupos principales de YR, los YR simples y los que contienen el dominio de unión al brazo (AB), están resaltados en azul y rojo, respectivamente. Los subgrupos de YR se muestran como hojas en el árbol. ABayes evaluó el apoyo estadístico para la ramificación, y para todos los subgrupos, su valor es superior a 0,98.
  2. Distribución taxonómica de YR.En la parte superior, se muestra un árbol esquemático de la filogenia YR correspondiente al panel (A) (solo se muestran los nodos con soporte estadístico de más de 0,98). La filogenia de los taxones bacterianos se muestra a la izquierda. La abundancia de YR de un subgrupo específico en un taxón particular se indica mediante puntos de diferente tamaño en el gráfico (coloreados como en (A)). El número exacto de genomas se proporciona en Dataset EV1.
  3. Las cincuenta proteínas YR más abundantes que se encuentran en las secuencias genómicas disponibles en NCBI. Las barras indican la abundancia de YR en diferentes taxones bacterianos con distintos colores. Los YR se nombran por el nombre del subgrupo (en negrita) y la clasificación funcional. Los nombres de YR simples y que contienen dominios AB están coloreados como en (A). Los números NCBI GI para todas las secuencias están disponibles en Dataset EV2.

Los datos fuente están disponibles en línea para esta figura.

Figura 2. Análisis de conservación de subgrupos de tirosina recombinasa (YR)

Para cada uno de los subgrupos, las estructuras secundarias de un miembro de la familia representativo se predijeron utilizando Jpred o se recuperaron de las correspondientes entradas del Protein Data Bank (PDB). Las hélices y las hebras se muestran como rectángulos y flechas, respectivamente. Se marcan el nucleófilo de tirosina y la pentada de RKHRH catalítica. Las variaciones estructurales características de los YR que se conservan dentro de distintos subgrupos se resaltan en rojo. AB: dominio de unión al brazo CB: dominio de unión al núcleo CAT: dominio catalítico DUF3701: dominio de función desconocida (número de acceso de Pfam: PF12482).

Este análisis mostró que todos los YR se pueden clasificar en dos grupos filogenéticos principales: YR simples, que consisten en un dominio CB y CAT, y YR complejos, que contienen un dominio AB adicional (Figs. 1A y 2). Dentro de estos grupos principales, se identificaron subgrupos más pequeños, que comparten una arquitectura de dominio generalmente conservada, pero varían en características estructurales y de secuencia específicas (Apéndice, Fig. S1). En particular, los YR dentro de los subgrupos tienen una distribución taxonómica característica y comparten funciones predichas similares. En las siguientes secciones, resumimos las características de la secuencia clave y las características funcionales de todos los grupos y subgrupos principales.

Años simples

El primer grupo importante de YR revelado en nuestro estudio incluye YR simples. Los miembros de este grupo generalmente comprenden solo dominios CB y CAT y pueden clasificarse además en catorce subgrupos (Figs. 1A y 2, Apéndice Fig. S1).

El subgrupo más grande, Xer, contiene principalmente recombinasas que son responsables de la resolución de dímeros cromosómicos en bacterias y arqueas, como XerC / D, XerH, XerS y XerA (Carnoy & Roten, 2009 Cortez et al, 2010 Nolivos et al, 2010 Debowski et al, 2012). Las comparaciones de secuencias revelaron que las proteínas de este subgrupo están muy conservadas, con numerosos residuos conservados también fuera del bolsillo del sitio activo y el núcleo hidrofóbico (Apéndice Figs S2-S4). El subgrupo está ampliamente distribuido y sus miembros están presentes en casi todas las clases de bacterias y arqueas analizadas (Fig. 1B, Dataset EV1), lo que es consistente con el papel esencial de estas proteínas. En los taxones restantes, otros YR simples específicos de la clase pueden compensar la función Xer. Por ejemplo, en Halobacteria encontramos un tipo específico de YR simples, llamados Arch1, que se asemejan a Xer pero contienen una inserción de secuencia corta y distinta (Fig. 2 y Fig. S3 del Apéndice). De manera similar, Oscillatoriophycideae carece de una proteína Xer y en su lugar contiene miembros del subgrupo Cyan separado (llamado así por Cyanobacteria, un filo de la clase). Además, el subgrupo Cand une los YR relacionados con Xer de phyla "Candidato" no clasificado, una "materia oscura microbiana" (Rinke et al, 2013 ).

Tirosina recombinasas que contienen dominios de unión al brazo

El segundo gran grupo YR une proteínas que contienen un dominio AB además de los dominios CB y CAT (Apéndice Fig. S1). Los miembros mejor caracterizados de este grupo actúan como integrasas de fagos o ICE. Este grupo YR que contiene el dominio AB consta de seis subgrupos principales que se analizan en detalle en las siguientes secciones.

En tTn916 subgrupo

El subgrupo más grande de YR que contienen dominios AB es el IntTn916 subgrupo. Es el más diverso entre los YR que contienen el dominio AB y contiene integrasas de numerosos ICE y fagos bien documentados. Sus miembros están más representados en bacterias grampositivas, pero también encontramos algunos ejemplos en otros taxones, como Fusobacteria, Synergista y Chlamydia (Fig 1B). Este subgrupo contiene algunos de los YR que contienen dominios AB más abundantes, como la micobacteriana phiRV2 profago integrasa (Cole et al, 1998) y la integrasa del transposón Tn916 portador de resistencia a tetraciclina (Franke & Clewell, 1981), cada uno de los cuales se encuentra en los genomas de aproximadamente 4.000 cepas bacterianas (Fig. 1C).

Generalmente, los miembros del subgrupo contienen un dominio AB en su extremo N-terminal, que presenta tres cadenas beta y una hélice alfa (Figuras 2 y 3), como se ve en la estructura de RMN del dominio AB de la integrasa Tn916 (Wojciak et al, 1999). En algunos casos, el dominio AB no fue predicho directamente por Pfam (Apéndice Fig. S1), pero nuestro análisis de secuencia posterior reveló que el dominio AB se conserva en todo el subgrupo (Fig. 3). Otro rasgo característico del IntTn916 El subgrupo es una inserción de cadena beta conservada entre la segunda y la tercera cadena beta en el dominio CAT (figura 2 y figura S3 del apéndice). Un trabajo estructural y bioquímico reciente sobre la integrasa Tn1549 mostró que este segmento de proteína es importante para dar forma al sustrato de ADN para la recombinación (Rubio-Cosials et al, 2018 ).

Figura 3. Conservación de la secuencia de los dominios de unión al brazo de las tirosina recombinasas (YR)

Para cada subgrupo, los logotipos web se produjeron después de la búsqueda de HMM contra la base de datos de proteomas de referencia de UniProt y las estructuras secundarias se predijeron utilizando Jpred o se recuperaron de las entradas de PDB correspondientes (que se muestran debajo de los logotipos). Los logotipos están coloreados por tipo de residuo, y la composición típica del dominio YR se muestra encima de los logotipos como en la Fig.2.

En particular, los miembros relacionados con fagos e ICE de este subgrupo no forman grupos separados en su lugar, la mayoría de los grupos contienen integrasas tanto de ICE como de fagos (Figura S6 del Apéndice). Por ejemplo, muchas integrasas de actinomicetos ICE se agrupan junto con las integrasas de fagos actinobacterianos (ver el grupo pSAM2 en el Apéndice Fig. S6). Curiosamente, muchos YR dentro de los grupos integran sus respectivos MGE en sitios genómicos específicos, con una preferencia recurrente por los flancos conservados de genes esenciales, como los genes que codifican tRNA (Apéndice Fig. S6). Una excepción notable es el grupo específico que incluye las integrasa Tn916 y Tn1549, que se insertan en regiones ricas en AT sin una especificidad de secuencia estricta (Trieu-Cuot et al, 1993 Scott et al, 1994 Wang et al, 2000 Lambertsen et al, 2018). Esta característica podría haber contribuido al éxito de los respectivos MGE en la propagación a una amplia gama de bacterias.

En tBPP-1 subgrupo

El INTBPP-1 es un subgrupo YR más pequeño que contiene el dominio AB, que está estrechamente relacionado con IntTn916. Sus miembros se encuentran en gammaproteobacteria, betaproteobacteria y fagos (Fig 1B). Ejemplos de este subgrupo incluyen supuestas integrasas del fago Bordetella BPP-1, el fago Stx2a y el fago Salmonella Gifsy-2 (McClelland et al, 2001 Liu et al, 2004 Ogura et al, 2015), siendo esta última una de las proteínas más abundantes en este subgrupo (Fig.1C). En tBPP-1 Los YR presentan un dominio AB que está anotado como DUF3596 en Pfam (PF12167 Apéndice Fig. S1) y exhibe una estructura canónica de tres cadenas beta / una hélice (Fig 3). Similar a IntTn916 miembros, el IntBPP-1 El subgrupo presenta una inserción de cadena beta entre la segunda y la tercera cadena beta en el pliegue del dominio CAT (Fig. 2 y Fig. S3 del Apéndice). Los miembros de la familia también tienen una conservación más débil de la primera histidina en la pentada catalítica de RKHRH (Apéndice Fig. S4).

En tCTnDOT subgrupo

El segundo subgrupo de YR más grande que contiene el dominio AB es IntCTnDOT. Incluye proteínas de Bacteroidetes (Fig 1B), como las integrasas del ICE CTnDOT y el elemento movilizable NBU1 (Shoemaker et al, 1996 Whittle et al, 2002), así como YR de la isla genómica 1 de Salmonella (SG1) (Doublet et al, 2005 Douard et al, 2010) (Conjunto de datos EV3). La anotación inicial de Pfam sugirió que los YR en este subgrupo contienen solo dominios CB y CAT, con un dominio CB predicho sustancialmente más grande que el encontrado en YR simples. Sin embargo, las predicciones de la estructura secundaria propusieron previamente que la integrasa de un elemento CTnDOT prototipo de Bacteroides comprende un dominio AB canónico (Kim et al, 2010) (Fig.3) y los experimentos bioquímicos posteriores confirmaron su interacción con los sitios de ADN del brazo subterminal en el transposón (DiChiara et al, 2007 Madera et al, 2010). De acuerdo, nuestro análisis comparativo reveló que el segmento N-terminal de todos los IntCTnDOT miembros consta de dos dominios conservados: un dominio CB canónico y un dominio AB ascendente (Fig. 3 y Fig. S1 del Apéndice). En consecuencia, hemos actualizado la anotación Pfam correspondiente, que ahora está disponible en la nueva versión (Pfam 32.0).

Al analizar los logotipos de secuencia, observamos además que los años de la Int.CTnDOT El subgrupo muestra una conservación más débil del primer residuo de arginina en la pentada de RKHRH catalítica estrictamente conservada (Recuadro I en el Apéndice Fig. S2) en el dominio CAT. La arginina está presente en esta posición en las integrasas NBU1, NBU2 y Tn4555, pero está ausente en las integrasas de los elementos CTnDOT, ERL (S) y Tn5520 (Cheng et al, 2000). Experimentos bioquímicos previos demostraron que en la integrasa CTnDOT, este residuo está funcionalmente sustituido por otra arginina ubicada más abajo en la secuencia de la proteína (Kim et al, 2010). De manera consistente, encontramos que esta arginina alternativa se conserva en muchas integrasas en el Int.CTnDOT subgrupo (ver R conservado en IntCTnDOT logo en el Apéndice Fig S3). Por lo tanto, los YR de este subgrupo llevan la arginina catalítica en una de las dos ubicaciones alternativas, lo que da como resultado una conservación general más débil.

En tSXT subgrupo

El siguiente gran subgrupo de YR que contienen dominios AB es IntSXT, que comprende integrasas de varios ICE, islas genómicas y fagos. Un rasgo característico de este subgrupo es la presencia de un dominio DUF4102 N-terminal (Apéndice Fig. S1). Esto se anotó previamente como un dominio AB de integrasas de islas genómicas (Szwagierczak et al, 2009) y contiene una cadena beta adicional y una hélice alfa en comparación con los dominios AB de otros YR (Figuras 2 y 3). El análisis filogenético reveló que dos de los seis grupos dentro de la IntSXT El subgrupo contiene integrasas tanto de ICE como de fagos (Apéndice Fig. S7). Los miembros de los principales grupos comparten distintos perfiles de inserción genómica, integrando sus MGE cerca de genes esenciales. Por ejemplo, las integrasas de los fagos P4 y Sf6 se agrupan junto con varios ICE YR, todos los cuales se insertan aguas abajo de los genes de tRNA (grupo P4, Apéndice Fig S7) (Boyd et al, 2009 Van Houdt et al, 2012). De manera similar, las integrasas del fago epsilon15, el elemento CMGI-3 y los elementos relacionados forman un grupo separado, y todos se dirigen al flanco 3 ′ del guaA gen involucrado en la biosíntesis de GMP (Kropinski et al, 2007 Bi et al, 2012) (clúster epsilon15, Apéndice Fig S7). Se observa el mismo patrón para las integrasas del fago enterobacteriano cdt1, el elemento SXT y los ICE estrechamente relacionados, todos los cuales se insertan junto al prfC gen que codifica un factor involucrado en la terminación de la traducción (Hochhut & Waldor, 1999 Asakura et al, 2007) (Clúster SXT Apéndice Fig S7). Así, los miembros de cada IntSXT Los grupos parecen conducir sus diversos MGE a ubicaciones específicas, quizás debido a rasgos característicos en las secuencias de integrasa. Su preferencia por los flancos de genes conservados podría ayudar a promover su diseminación entre especies y explicar su distribución taxonómica característica. Además, la distribución mixta de ICE y fagos integrasas sugiere que estos elementos intercambian frecuentemente sus integrasas. Esto también está respaldado por observaciones previas de que los ICE con diferentes maquinarias de conjugación tienen integrasas estrechamente relacionadas (Cury et al, 2017 ).

En tP2 subgrupo

El INTP2 El subgrupo de YR que contienen el dominio AB contiene integrasas de fagos proteobacterianos, como HP1 y P2. Otro miembro interesante de este subgrupo es la recombinasa Rci transmitida por plásmido, que regula la conjugación del plásmido R64 mediante la reorganización de distintos segmentos génicos para generar diversas proteínas pili (Komano et al, 1987 Gyohda y Komano, 2000 Roche et al, 2010). Los dominios CAT de YR en este subgrupo son muy similares a los de YR simples, como también se observa con estructuras cristalinas determinadas previamente (Hickman et al, 1997 Skaar et al, 2015). La mayoría de los YR de este subgrupo contienen un dominio AB con un pliegue clásico (Fig. 3), excepto las recombinasas Rci que carecen del dominio AB. De acuerdo con análisis de secuencia previos (Boyd et al, 2009), nuestras reconstrucciones filogenéticas sugieren que IntP2 Los YR están relacionados con la integrasa del fago lambda, sin embargo, este agrupamiento no está bien respaldado por el análisis estadístico (Fig. 1A y Fig. S1 del Apéndice). Aunque la bien estudiada integrasa del fago lambda se usa a menudo como un prototipo de la superfamilia de tirosina recombinasa (Landy, 2015), nuestro análisis reveló que es bastante diferente de otros YR. Contiene alteraciones sustanciales incluso en el dominio CAT, incluida una inserción de dos hebras beta después de la tercera hebra beta del pliegue canónico, y el reemplazo de la hélice alfa C-terminal con una hebra beta (Fig 2, Apéndice Figs S3 y S4).

En tDes subgrupo

Finalmente, IntDes es un pequeño subgrupo de YR que llevan dominios AB. Sus miembros se encuentran solo en el género Desulfovibrio de Deltaproteobacteria (Fig 1B). Este subgrupo presenta perturbaciones de secuencia específicas en el núcleo catalítico: es decir, el primer residuo de arginina de la pentada de RKHRH se desplaza en comparación con otros YR y la primera histidina se sustituye por una tirosina (Figuras S2 y S4 del Apéndice). La función biológica de estos años se desconoce hasta la fecha.

Identificación y clasificación de elementos integrativos y conjugativos

La gran mayoría de los años que analizamos permanecen sin anotar en las bases de datos genómicas. Esto dificulta particularmente la identificación y caracterización de los MGE portadores de YR. Para probar si nuestro sistema de clasificación puede ayudar a predecir la función YR, a continuación verificamos si los YR no anotados que se encuentran en los subgrupos relacionados con ICE son de hecho integraciones de ICE. Para ello, examinamos la vecindad genómica de los YR para identificar proteínas conocidas de la maquinaria conjugativa (como en Guglielmini et al, 2014 Abby et al, 2016). Si se encontraba una integrasa en la proximidad (± 100 kb) de proteínas conocidas de la maquinaria de conjugación, entonces se consideró que la región correspondiente era un ICE putativo (Fig. 4A). Los ICE recuperados de la base de datos ICEberg se utilizaron para la evaluación comparativa. Este análisis reveló un total de 59 ICE no anotados previamente (Apéndice Fig. S8, Conjunto de datos EV4). Los supuestos ICE se validaron posteriormente mediante la identificación manual de sus secuencias de repetición terminales. Identificamos con confianza repeticiones terminales en 50 de 59 ICE predichos. Para 49 de estos, la maquinaria de conjugación se encontró dentro de los límites previstos del elemento, lo que confirma aún más su identidad. En un elemento predicho, la maquinaria de conjugación se ubicó fuera de las fronteras (Dataset EV4), lo que sugiere una co-ocurrencia coincidente de YR y genes de conjugación en este caso.

Figura 4. Identificación y caracterización de ICE basada en tirosina recombinasa

  1. Descripción general de la canalización computacional para la identificación de ICE. Las regiones genómicas de los genes de la tirosina recombinasa (YR) se expandieron 100 kb corriente arriba y corriente abajo y se analizaron para detectar la presencia de genes relacionados con la conjugación y secuencias repetidas.
  2. Diversidad estructural de ICE portadores de YR. Todos los ICE se agruparon en cinco subgrupos según su clasificación YR (izquierda). Los números de ICE en cada uno de los subgrupos se muestran como barras con números (en el medio). Se muestran representaciones esquemáticas de arquitecturas ICE, alineadas por sus genes integrasa (símbolo rojo, derecha). Los marcos de lectura abiertos de proteínas de varios tipos de mecanismos de conjugación se representan con diferentes colores como se indica en la parte inferior de la figura.

Para caracterizar aún más los ICE detectados, nuestro objetivo era reconstruir el sitio de inserción ingenuo (es decir, la secuencia genómica bacteriana antes de la integración) de los ICE identificados y buscar esos sitios no interrumpidos en genomas estrechamente relacionados. Dado que los ICE funcionales pueden trasladarse a nuevos sitios genómicos, la identificación exitosa de sitios ingenuos puede proporcionar la confirmación definitiva de su identidad y naturaleza móvil. Sin embargo, la identificación de dichos sitios ingenuos requiere una movilidad reciente del ICE y también puede verse desafiada por una disponibilidad limitada de datos completos de la secuencia del genoma para especies relacionadas en bases de datos públicas. Sin embargo, encontramos sitios ingenuos para 18 de los 49 ICE, lo que valida aún más estos elementos e indica su actividad reciente (Conjunto de datos EV4, Apéndice Fig S9).

Los años en los nuevos ICE pertenecían a cinco subgrupos de años (Fig 4B, conjunto de datos EV4), y la mayoría de los ejemplos se encuentran en el Int.Tn916 (23), intP2 (17) y IntSXT (14) subgrupos. Para analizar más a fondo los ICE detectados, a continuación reconstruimos la filogenia de sus YR y trazamos la estructura genética de sus respectivas maquinarias de conjugación (Fig 4B y Apéndice Fig S8). Los ICE con YR estrechamente relacionados generalmente se asociaron con sistemas de conjugación estrechamente relacionados, pero los grupos ICE con proteínas YR relacionadas algo más distantes a menudo contenían tipos no relacionados de módulos de conjugación (Fig. 4B y Fig. S8 del Apéndice). Por ejemplo, los grupos ICE que llevan años de los diversos Int.Tn916 y IntSXT Los subgrupos revelaron varios sistemas de conjugación. A su vez, algunos grupos de la IntSXT YR y el distintivo IntKX YR asociados con el mismo sistema de conjugación, llamado MPFGRAMO (Fig. 4B y Fig. S8 del Apéndice), ubicados en diferentes lados del YR. En conjunto, esto sugiere un intercambio recurrente de módulos de conjugación entre ICEs relacionados lejanamente, de acuerdo con informes anteriores (Cury et al, 2017 ).

Además, para completar la caracterización de la maquinaria de movilización de los ICE, buscamos genes de escisionasa (Xis) dentro de los ICE recién identificados y reportados previamente (Fig. 4B y Fig. S8 del Apéndice). Xis regula la direccionalidad de la reacción de recombinación en algunos de los sistemas conocidos que contienen YR (Connolly et al, 2002 Wood y Gardner, 2015). Encontramos que solo los YR que contienen AB están asociados con las proteínas Xis, lo que puede sugerir una posible cooperación entre el dominio AB y Xis. De acuerdo con esta idea, recientemente se propuso una interacción física para la integrasa y Xis del fago lambda (Cho et al, 2002 Laxmikanthan et al, 2016). No pudimos detectar Xis en ninguno de los 15 ICE con YR simples del Int.KX subgrupo.

En conjunto, la identificación exitosa de nuevos ICE confirma el valor predictivo de nuestro sistema de clasificación para la anotación automatizada de la función YR y demuestra su utilidad para mejorar la caracterización del mobiloma bacteriano.


Discusión

Muchos programas de MSA están disponibles gratuitamente. Sin embargo, elegir el programa más adecuado para cada conjunto de datos no es trivial. Las características de las secuencias a alinear, como la identidad compartida, así como su número y longitud, son aspectos que deben evaluarse en todo proyecto dependiente de MSA. La parametrización de cada programa de MSA, como la elección de matrices de sustitución y las penalizaciones de apertura / extensión de huecos, por ejemplo, cuando están disponibles, también afectan en gran medida la alineación final [24]. Normalmente se prefiere ejecutar programas MSA con parámetros predeterminados cuando no se dispone de información sobre las secuencias a alinear y / o para usuarios sin conocimientos previos en este campo particular del análisis de secuencias. Con eso en mente, optamos por comparar una selección de programas en su mayoría con sus opciones predeterminadas. Aunque los resultados presentados en este documento son compatibles con el hardware actual de bajo costo y los plazos de la mayoría de los proyectos de investigación, deben usarse solo como pautas, y alentamos a los usuarios a estudiar cuidadosamente los parámetros de cada programa para obtener el mejor resultado posible. La suite BAliBASE es un conjunto de datos de evaluación comparativa confiable, pero aún podría considerarse pequeño para cumplir con ciertos proyectos de MSA [21]. Por lo tanto, es imperativo comprender las limitaciones propias de cada programa para generar resultados confiables.

Como se indica en artículos relacionados [21, 22], ningún programa de MSA disponible superó a todos los demás en todos los casos de prueba. Para los primeros cinco conjuntos de referencia, nuestros resultados indicaron que T-Coffee, Probcons, MAFFT y Probalign fueron definitivamente superiores con respecto a la precisión de alineación en todos los conjuntos de datos BAliBASE, en consonancia con publicaciones similares [7, 8, 21, 22]. Los cuatro programas tienen un enfoque basado en la coherencia en sus algoritmos, lo que supone una mejora exitosa en la alineación de secuencias. A pesar de cumplir con ciertos criterios de coherencia, DIALIGN-TX se basa en alineaciones por pares locales y se sabe que es superado por los alineadores globales [5]. No obstante, observamos que el enfoque basado en la coherencia puede no ofrecer por sí solo la mayor calidad de alineación. CLUSTAL OMEGA funcionó bien al alinear algunos conjuntos de datos con extremos terminales N / C largos de secuencias de longitud completa (BB) y no tiene consistencia. La presencia de estos residuos no conservados en los extremos terminales, por otro lado, contribuyó a reducir las puntuaciones en las alineaciones generadas por T-Coffee y Probcons, que produjeron las puntuaciones SP / TC más altas al alinear las secuencias truncadas (BBS). A pesar de tener un paso de refinamiento iterativo, que podría mejorar los resultados, Probcons sigue siendo un programa de alineación global, por lo que es más propenso a errores de alineación inducidos por la presencia de residuos no conservados en los extremos terminales [20]. Ciertamente, MAFFT, Probalign e incluso CLUSTAL OMEGA pueden preferirse sobre T-Coffee y Probcons al alinear secuencias con estas largas extensiones terminales. La combinación de la estrategia de refinamiento iterativo con la coherencia de las alineaciones locales en MAFFT (método L-INS-i) podría haber contribuido a prevenir y corregir la alineación de las secuencias de longitud completa [22]. De manera similar, las alineaciones subóptimas (determinadas por variaciones de la Temperatura parámetro) generado por la función de partición de Probalign, también podría mejorar la capacidad de este programa para manejar secuencias con extensiones terminales no conservadas [8]. Aparentemente, el perfil HMM de secuencias largas también mejoró los alineamientos producidos por CLUSTAL OMEGA.

En cuanto a los conjuntos de referencia restantes de BAliBASE (6, 7 y 9), observamos que los cuatro programas basados ​​en la consistencia mencionados anteriormente aún generaban mejores alineaciones, aunque MUSCLE presentó mejores resultados. En algunos subconjuntos de la Referencia 9, MUSCLE estuvo cerca o mejor que algunos de los cuatro principales programas de puntuación de SP / TC. En este conjunto de referencia, la alineación de secuencias con motivos lineales generados por MUSCLE podría ser facilitada por La distancia de Kimura, la segunda etapa en la alineación progresiva de este programa. los Distancia de Kimura establece que solo las coincidencias exactas contribuyen a la puntuación de coincidencia. Aunque rápido, el método tiene limitaciones ya que no considera qué cambios de aminoácidos se están produciendo entre secuencias. Esta limitación puede revertirse en beneficio ya que el programa, asumiendo la misma penalización por cualquier sustitución de aminoácidos en los primeros pasos de la alineación progresiva, evitaría un aumento de la distancia entre pares de secuencias cercanas con errores o residuos comodín (cualquier aminoácido) en el nivel lineal. motivos.

En los conjuntos de datos BAliBASE más grandes, el uso de la capacidad multinúcleo de T-Coffee era indispensable para evaluar la precisión de la alineación porque, cuando se ejecutaba en modo de un solo núcleo, su tiempo de cálculo excedía con mucho el umbral preestablecido de 2,5 horas. . En el conjunto de datos más grande (el último subconjunto de la Referencia 9), T-Coffee tardó más de nueve días en completar la alineación. La paralelización de T-Coffee ciertamente debe verse como una mejora importante para un programa MSA, ya que los núcleos de procesamiento están creciendo en número incluso en las computadoras de escritorio domésticas, sin mencionar más módulos RAM más rápidos. Curiosamente, MAFFT fue el único programa, entre los cuatro principales programas de puntuación de SP / TC, capaz de alinear todos los conjuntos de referencia en menos de 2,5 horas con los ajustes preestablecidos descritos en la sección Metodología. Lo más probable es que esto se deba a la flexibilidad del modo "automático" de MAFFT para elegir el método de alineación más apropiado según el tamaño del conjunto de datos, cambiando del modo de alta precisión (L-INS-i) al modo de alta velocidad y menos precisión (FFT -NS-2) [25]. Aunque no es la versión utilizada en este trabajo, también se lograron mejoras recientes en la paralelización para MAFFT [26], lo que indica una tendencia a hacer un uso completo del hardware disponible y reducir el tiempo de ejecución de los programas MSA. Además de la paralelización, todavía hay mucho espacio para mejorar en el campo de la alineación de secuencias múltiples en el rendimiento. Por ejemplo, CLUSTAL OMEGA implementó una versión modificada de mBed [27], que produjo árboles guía rápidos y precisos, y logró reducir el tiempo de cálculo y los requisitos de memoria para finalizar la alineación de grandes conjuntos de datos. Además del rendimiento, también hay mucho espacio para mejoras de precisión, ya que algunos resultados presentados en este estudio aún estaban lejos de las alineaciones de referencia de BAliBASE.


HMMBinder: predicción de proteínas de unión al ADN mediante funciones basadas en perfiles HMM

Las proteínas de unión al ADN a menudo juegan un papel importante en varios procesos dentro de la célula. Durante la última década, se ha utilizado una amplia gama de algoritmos de clasificación y técnicas de extracción de características para resolver este problema. En este artículo, proponemos un nuevo método de predicción de proteínas de unión al ADN llamado HMMBinder. HMMBinder utiliza características de monograma y bigrama extraídas de los perfiles HMM de las secuencias de proteínas. Hasta donde sabemos, esta es la primera aplicación de características basadas en perfiles HMM para el problema de predicción de proteínas de unión al ADN. Aplicamos Support Vector Machines (SVM) como técnica de clasificación en HMMBinder. Nuestro método se probó en conjuntos de datos de referencia estándar. Demostramos experimentalmente que nuestro método supera a los métodos de vanguardia que se encuentran en la literatura.

1. Introducción

Las proteínas de unión al ADN juegan un papel vital en varios procesos celulares. Son esenciales en la regulación transcripcional, recombinación, reordenamientos del genoma, replicación, reparación y modificación del ADN [1]. Las proteínas que se unen al ADN tanto en eucariotas como en procariotas mientras actúan como activadores o represores son proteínas de unión al ADN. Se ha observado que los porcentajes de proteínas procariotas y eucariotas que pueden unirse al ADN son sólo del 2-3% y del 4-5%, respectivamente [2, 3]. Ha habido una amplia variedad de métodos experimentales como in vitro métodos [4, 5] como ensayos de unión a filtros, inmunoprecipitación de cromatina en microarrays (chip-chip), análisis genético y cristalografía de rayos X, que se utilizan para predecir proteínas de unión al ADN. Sin embargo, se ha demostrado que estos métodos son costosos y requieren mucho tiempo. Por lo tanto, existe una demanda creciente para encontrar un método computacional rápido y rentable para resolver este problema.

La mayoría de los métodos computacionales utilizados en la literatura para predecir las proteínas de unión al ADN formularon el problema como un problema de aprendizaje supervisado. En la práctica, el número de proteínas que se unen al ADN conocidas es muy pequeño en comparación con las proteínas grandes que no se unen al ADN y las proteínas desconocidas. La predicción de la proteína de unión al ADN a menudo se modela como un problema de clasificación de clase binaria donde, dada una secuencia de proteína como entrada, la tarea es predecir si la proteína se une al ADN o no. Tenga en cuenta que el desafío aquí es seleccionar un conjunto de datos adecuado para el entrenamiento y las pruebas que incorporen la situación de desequilibrio. En la literatura se han utilizado muchos algoritmos de aprendizaje supervisado para resolver el problema. Entre ellos, redes neuronales artificiales (ANN) [6], máquinas de vectores de soporte (SVM) [7, 8], métodos de conjunto [9], clasificador Nave Bayes [10], bosque aleatorio [11], redes neuronales convolucionales [12] , Regresión logística [13], Clasificador AdaBoost [5], etc., están bien considerados. Las máquinas de vectores de soporte (SVM) son uno de los clasificadores de mejor rendimiento utilizados para la identificación de proteínas de unión al ADN [7, 8, 14, 15].

Se han desarrollado una gran cantidad de herramientas y métodos basados ​​en la web para la predicción de proteínas de unión al ADN y están disponibles para su uso. En este artículo, nos gustaría mencionar varios de ellos: DNABinder [7], DNA-Prot [16], iDNA-Prot [11], iDNA-Prot

dis [14], DBPPred [17], iDNAPro-PseAAC [8], PseDNA-Pro [18], Kmer1 + ACC [19], Local-DPP [20], SVM-PSSM-DT [21], PNImodeler [22 ], CNNsite [12] y BindUP [23]. La mayoría de estos métodos han utilizado características basadas en secuencia, perfil o estructura. En los métodos basados ​​en características estructurales en la literatura, las características utilizadas fueron motivos estructurales, potencial electrostático, momento dipolar y

-Modelos de solo carbono [13, 24, 25]. Por otro lado, los métodos basados ​​en secuencias a menudo dependían de la información basada en el perfil de PSSM o de las composiciones de pseudo-aminoácidos [8, 14, 15, 17, 20, 26, 27]. En [28], los perfiles basados ​​en HMM se utilizaron para generar características para el reconocimiento de pliegues de proteínas.

En este artículo, proponemos HMMBinder, una nueva herramienta de predicción de proteínas de unión al ADN que utiliza características basadas en el perfil HMM de una secuencia de proteínas. Nuestro método utiliza características de monograma y bigrama derivadas del perfil HMM que muestra efectividad en comparación con las características basadas en secuencia o PSSM. También usamos SVM como clasificador y conjuntos de datos de referencia estándar para probar nuestro método. Usando las métricas de evaluación estándar, nuestro método mejora significativamente los métodos de vanguardia y las características utilizadas en la literatura. También desarrollamos un servidor web que está disponible públicamente en http://brl.uiu.ac.bd/HMMBinder.

El resto del artículo está organizado siguiendo la guía general de 5 pasos sugerida en [29] para la predicción de atributos de proteínas. En primer lugar, se describen los conjuntos de datos de referencia seleccionados para este problema, seguidos de una descripción de la representación de la proteína mediante la extracción de características. Luego describimos el algoritmo de clasificación que seleccionamos para nuestro enfoque seguido de las técnicas de evaluación del desempeño implementadas en este documento. Por último, describimos el servidor web que desarrollamos para este problema. La sección de resultados presenta los detalles de los resultados experimentales seguidos de una discusión analítica. El documento concluye con un resumen y una indicación del trabajo futuro.

2. Métodos y materiales

En esta sección, proporcionamos los detalles de los materiales y métodos de este documento. La Figura 1 proporciona un diagrama de sistema de nuestro método propuesto. Para la fase de entrenamiento, todas las secuencias de proteínas se alimentan a HHBlits [30], un software de alineación secuencia a secuencia que utiliza la última base de datos UniProt. HHBlits produce un archivo HMM como salida que luego es utilizado por nuestro método de extracción de características para generar características de monograma y bigrama. Las características de monograma y bigrama se concatenan juntas y luego se utilizan como conjunto de características de entrenamiento para entrenar al clasificador. Usamos SVM con kernel lineal como algoritmo de clasificación y se almacena un modelo entrenado para la fase de prueba. La fase de prueba también es similar a la fase de entrenamiento, sin embargo, las etiquetas para el conjunto de datos de prueba no se le dan al clasificador. Este modelo almacenado también se utiliza para la implementación del servidor web de HMMBinder.

2.1. Conjuntos de datos

La selección de conjuntos de datos de referencia es esencial en el diseño de clasificación y predicción. En este documento utilizamos un conjunto de datos de referencia popular llamado punto de referencia1075 para entrenar nuestro modelo. Más tarde, probamos el rendimiento mediante validación cruzada y en un conjunto de prueba independiente separado conocido como independiente186 conjunto de datos. Esta sección proporciona una breve descripción de estos dos conjuntos de datos. Ambos conjuntos de datos se utilizan ampliamente en la literatura sobre predicción de proteínas de unión al ADN [8, 14, 18, 20, 31].

2.1.1. Benchmark del conjunto de datos1075

Este conjunto de datos se introdujo por primera vez en [14]. Este conjunto de datos consta de 1075 secuencias de proteínas. Entre ellos, 525 son secuencias de proteínas que se unen al ADN y 550 son secuencias de proteínas que no se unen al ADN. Todas las secuencias de proteínas se tomaron de PDB [32]. Este conjunto de datos es uno de los conjuntos de datos de predicción de proteínas de unión a ADN más grandes y, por lo tanto, es adecuado para fines de entrenamiento.

2.1.2. Independiente del conjunto de datos 186

Lou y col. [17] construyó este conjunto de datos independiente que consta de 93 secuencias de proteínas que se unen al ADN y 93 que no se unen al ADN. Utilizaron BLASTCLUST [33] en el conjunto de datos de referencia para eliminar las secuencias que tienen más del 25% de similitud.

2.2. Extracción de características

utilizado para un problema de clasificación binaria consta de dos tipos de instancias: positivas y negativas. Formalmente,

A continuación, la tarea es representar cada instancia de proteína como vectores de características adecuados para el entrenamiento. La idea es representar cada una de las instancias de proteínas como un vector de características.

, se muestra como un vector de características con dimensión

. La mayoría de los métodos en la literatura de predicción de proteínas de unión al ADN utilizan características basadas en secuencias y perfiles de PSSM o características basadas en estructuras. Hasta donde sabemos, no se han aplicado funciones utilizando perfiles HMM. En este artículo, hemos utilizado HHBlits [30] para generar perfiles HMM. Los perfiles HMM son comparativamente más efectivos [30, 34] para la detección remota de homología. Los perfiles HMM se generaron utilizando cuatro iteraciones de HHBlits con un valor de corte establecido en 0,001 utilizando la última base de datos UniProt [35]. Los perfiles HMM son

matriz producida por HHBlits. Estos 20 valores son la probabilidad de sustitución de cada tipo de residuo de aminoácido a lo largo de la secuencia de proteínas en cada posición. Estos valores se convierten primero en probabilidades lineales utilizando la siguiente fórmula:

Generamos dos tipos de características, monograma y bigrama, utilizando la matriz de perfil HMM generada que se indica aquí como

. Proporcionamos una breve descripción de las características de monogramas y bigramas extraídas de la matriz de perfiles HMM.

2.2.1. Características del monograma

Las características del monograma [36] se calculan tomando la suma normalizada de los valores de probabilidad de sustitución en columnas. El tamaño de este grupo de características es 20 debido a 20 aminoácidos diferentes. La característica se puede definir formalmente de la siguiente manera:


Conclusiones

Aunque el rendimiento relativo de los métodos MSA dependía del conjunto de datos, en la mayoría de los casos, UPP produjo alineaciones con tasas de error de SP más bajas y puntuaciones de TC más altas que MAFFT, Muscle y Clustal-Omega. Los árboles ML calculados con alineaciones UPP también fueron más precisos que los árboles ML para las otras alineaciones. Sin embargo, la comparación entre UPP y PASTA es más interesante. Debido a que UPP usa PASTA para calcular la alineación y el árbol de su columna vertebral, por diseño, UPP es idéntico a PASTA para conjuntos de datos libres de fragmentos que contienen como máximo 1000 secuencias. La comparación entre UPP y PASTA con respecto a la precisión de la alineación es interesante: las alineaciones de UPP tienden a tener tasas de error de SP más bajas que las alineaciones de PASTA, pero también puntuaciones de TC más bajas, lo que indica que estos dos criterios no están tan bien correlacionados. Sin embargo, los árboles ML basados ​​en alineaciones PASTA (para conjuntos de datos libres de fragmentos) suelen ser más precisos que los árboles ML basados ​​en alineaciones UPP. Para conjuntos de datos con secuencias fragmentarias, UPP tiene casi las mismas tasas de error de SP que logra con las secuencias de longitud completa, mientras que las tasas de error de SP de PASTA aumentan sustancialmente con la fragmentación, en consecuencia, las UPP ΔLas tasas de error del árbol FN no tienden a aumentar tanto con la fragmentación, aunque sí lo hacen para PASTA. Por lo tanto, UPP es muy robusto a datos fragmentarios, mientras que PASTA no lo es. Por lo tanto, mientras PASTA tiene una ventaja sobre UPP para conjuntos de datos sin fragmentos, UPP presenta ventajas con respecto a PASTA para conjuntos de datos con fragmentos.

Para comprender el desempeño de la UPP, es útil considerar la estrategia de alineación que utiliza. En primer lugar, calcula una alineación de la columna vertebral utilizando PASTA para un conjunto de datos relativamente pequeño (como máximo 1000 secuencias), lo que le permite comenzar con una alineación de alta precisión. Luego, en lugar de usar un HMM de perfil único para representar su alineación de columna vertebral, UPP usa una colección de HMM de perfil, cada uno en un subconjunto de las secuencias. Los subconjuntos se obtienen de las regiones locales del árbol de la columna vertebral, que es un árbol ML estimado para las secuencias de la columna vertebral. Por tanto, las secuencias de estos subconjuntos tienden a estar estrechamente relacionadas.Las alineaciones de subconjunto inducidas para estas regiones localizadas más pequeñas son, por lo tanto, más adecuadas para los HMM, especialmente cuando el conjunto de datos completo muestra una heterogeneidad sustancial general.

Estas observaciones ayudan a explicar por qué el uso de varios HMM, cada uno para una región dentro del árbol de la columna vertebral, proporciona alineaciones mejoradas en comparación con el uso de un solo HMM. Sin embargo, UPP también restringe la columna vertebral a las secuencias de longitud completa, y este paso algorítmico es fundamental para mejorar la robustez de las secuencias fragmentarias. Por lo tanto, estos aspectos del diseño algorítmico de UPP (restringir la columna vertebral a secuencias de longitud completa y usar un conjunto de HMM en lugar de un solo HMM) aumentan la sensibilidad a la homología remota (especialmente para secuencias fragmentarias) y reduce el error de alineación SP y el error de árbol, pero cada uno apunta a un aspecto diferente del desempeño algorítmico.

UPP exhibe una gran escalabilidad con respecto al tiempo de ejecución (que escala de una manera casi lineal), paralelismo y precisión de alineación. Por ejemplo, nuestro estudio mostró que el error SP de alineación para la alineación de la columna vertebral está bastante cerca del error SP de alineación para la alineación devuelta por UPP. Por lo tanto, UPP permite alinear grandes conjuntos de datos con casi la misma precisión que conjuntos de datos más pequeños.

En general, UPP es un método MSA que puede proporcionar una precisión muy alta para conjuntos de datos de secuencias que se han considerado demasiado difíciles de alinear, incluidos conjuntos de datos con altas tasas de evolución, secuencias fragmentarias o muchos miles de secuencias, incluso hasta un millón de secuencias. UPP funciona bien tanto para los puntos de referencia filogenéticos como estructurales (ver [25] para una discusión más detallada de estas tareas relacionadas pero diferentes). Finalmente, UPP está en paralelo (para memoria compartida) y tiene una función de puntos de control, pero no requiere supercomputadoras para lograr una precisión excelente para conjuntos de datos ultra grandes en períodos de tiempo razonables.


Fondo

En bioinformática, la alineación de secuencias múltiples es una concepción fundamental. Su objetivo es alinear más de dos secuencias biomoleculares y se aplica para diversas tareas de análisis biológico, por ejemplo, la predicción de la estructura de las proteínas y la inferencia filogenética [1]. El uso de MSA para encontrar diferencias de secuencia puede ayudar en la construcción y anotación de ontologías biológicas, por ejemplo, la ontología más grande del mundo, Gene Ontology [2], en la que los investigadores realizan muchos trabajos [3-7]. Con el fin de extraer y compartir conocimientos sobre la alineación, los investigadores establecieron algunas ontologías basadas en la alineación de secuencias múltiples [8]. Además, la alineación de múltiples secuencias podría ayudar a llamar a SNP y, por lo tanto, a encontrar variantes de genes relacionados con la enfermedad [9-13].

Hay muchos tipos de métodos para la alineación de secuencias múltiples, y la mayoría de ellos son progresivos [1]. Usando un método progresivo para alinear un conjunto de secuencias, en primer lugar, para cada secuencia emparejada, necesitamos hacer una alineación por pares y luego calcular la distancia del par. Se constituyó una matriz de distancias a partir de las distancias de cada par. Posteriormente, se generó un árbol guía a partir de la matriz de distancias. Como último paso, en base al orden proporcionado, que ofrecía el árbol guía, se ejecutó progresivamente la alineación perfil-perfil.

Para dos secuencias, la tarea de alineación por pares simplemente aplica programación dinámica. Y la función de puntuación para la programación dinámica se basa generalmente en una matriz de sustitución, por ejemplo, BLOSUM62 y PAM250 para secuencias de proteínas. En los problemas de alineación de secuencias múltiples, cuando necesitamos alinear secuencias dadas X y y, también los algoritmos aplican un programa dinámico, sin embargo, la función de puntuación ya no se basa simplemente en cierta matriz de sustitución, ya que si el residuo XI debe estar alineado con el residuo yj no solo se preocupa por las secuencias X y y pero también preocupado por los demás. Numerosos algoritmos utilizan la probabilidad posterior PAG(XIyj|X,y) para calcular las puntuaciones de sustitución. PAG(XIyj|X,y) representan la probabilidad de que el residuo en la posición XI en secuencia X y residuo en posición yj en secuencia y coinciden en la alineación de secuencia múltiple "verdadera" [14].

Para calcular la probabilidad posterior, diferentes algoritmos practican una gran cantidad de enfoques. Entre esa cantidad considerable de algoritmos de alineación progresiva, la mayoría aplica el modelo de Markov oculto para calcular la probabilidad posterior, por ejemplo, ProbCons [15]. Pero mientras tanto, algunos algoritmos aplican otros enfoques de consistencia de probabilidad, por ejemplo, la función de partición, que fue aplicada por Probalign [16] para calcular la probabilidad posterior.

Howell y col. [17] y McCaskill et al. [18] utiliza la función de partición para predecir la estructura secundaria del ARN. Song y col. [19] utiliza la función de partición para alinear las estructuras de pseudonudo de ARN. El uso de la función de partición para hacer la alineación fue iniciado por Miyazawa [20]. Wolfsheimer y col. [21] estudió la función de partición de parámetros para la alineación. MSARC utiliza un método de agrupación de residuos basado en la función de partición para alinear secuencias múltiples [22]. Retzlaff y col. [23] utiliza la función de partición como parte del cálculo para alineaciones multidireccionales parcialmente locales. La función de partición es un modelo útil para la alineación.

Algunos algoritmos aplican enfoques integrados, por ejemplo, MSAProbs [24] y QuickProbs [25] calculan la probabilidad posterior de acuerdo con la combinación de HMM y la función de partición, mientras que para GLProbs [26], se basa en la media de la identidad de las secuencias en un conjunto , la probabilidad posterior se calculó de forma adaptativa. Estos artículos indicaron que se producirá un resultado preferible al combinar dos o más tipos de probabilidad posterior, mientras que el que utilice un solo tipo producirá un resultado peor.

Con el fin de optimizar los parámetros de HMM en un problema de MSA, varios algoritmos emplean muchos tipos de algoritmos de optimización, como la optimización del enjambre de partículas [27-30], los algoritmos evolutivos [31] y el recocido simulado [32], para hacer el la precisión de la alineación mejoró.

Won y col. [33] utilizan un método evolutivo para aprender la estructura HMM para la predicción de la estructura secundaria de proteínas. Rasmussen y col. [27] utilizan una optimización de enjambre de partículas: método híbrido de algoritmo evolutivo para entrenar el modelo de Markov oculto para la alineación de secuencias múltiples. Long y col. [28] y Sun et al. [29] utilizan el método de optimización de enjambre de partículas de comportamiento cuántico para entrenar el HMM para MSA. Y Sun et al. [30] también utilizan métodos de optimización de enjambre de partículas de deriva aleatoria para entrenar al HMM para MSA.

Sin embargo, estos estudios ignoraron la combinación de la función de partición y el HMM optimizado. Por lo tanto, en este documento se presenta un algoritmo novedoso para MSA llamado ProbPFP. ProbPFP integra el rendimiento de probabilidades posteriores por HMM optimizado por enjambre de partículas y el rendimiento por función de partición.

Comparamos ProbPFP con 13 enfoques sobresalientes o clásicos, es decir, Probalign [16], ProbCons [15], DIALIGN [34], Clustal Ω [35], PicXAA [36], KALIGN2 [37], COBALT [38], CONTRAlign [39], Align-m [40], MUSCLE [41], MAFFT [42], T-Coffee [43] y ClustalW [44], de acuerdo con la puntuación total de la columna y la puntuación de la suma de pares. Los resultados indicaron que ProbPFP obtuvo las puntuaciones medias máximas entre los dos conjuntos de datos de referencia SABmark [40] y OXBench [45], junto con la segunda puntuación media más alta en el conjunto de datos BAliBASE [46].


Referencias

Adams, J. A. Mecanismos cinéticos y catalíticos de las proteínas quinasas. Chem. Rvdo. 101, 2271–2290 (2001).

Blume-Jensen, P. & amp Hunter, T. Señalización de quinasa oncogénica. Naturaleza 411, 355–365 (2001).

Lahiry, P., Torkamani, A., Schork, N. J. & amp Hegele, R. A. Mutaciones de quinasa en enfermedades humanas: interpretación de las relaciones genotipo-fenotipo. Nat. Rev. Genet. 11, 60–74, https://doi.org/10.1038/nrg2707 (2010).

Zhang, J., Yang, P. L. & amp Gray, N. S. Dirigirse al cáncer con inhibidores de quinasa de molécula pequeña. Nat. Rev.Cáncer 9, 28–39, https://doi.org/10.1038/nrc2559 (2009).

Manning, G., Whyte, D. B., Martínez, R., Hunter, T. & amp Sudarsanam, S. El complemento de proteína quinasa del genoma humano. Ciencias 298, 1912–1934 (2002).

Ten Eyck, L. F., Taylor, S. S. & amp Kornev, A. P. Patrones espaciales conservados en toda la familia de las proteínas quinasas. Biochim. Biophys. Acta 1784, 238–243, https://doi.org/10.1016/j.bbapap.2007.11.002 (2008).

Middelbeek, J., Clark, K., Venselaar, H., Huynen, M. A. & amp Van Leeuwen, F. N. La familia de las alfa-quinasas: una rama excepcional en el árbol de las proteínas quinasas. Celda. Mol. Life Sci. 67, 875–890 (2010).

Stefely, J. A. et al. La ADCK3 mitocondrial emplea un pliegue similar a una proteína quinasa atípica para permitir la biosíntesis de la coenzima Q. Mol. Celda 57, 83–94, https://doi.org/10.1016/j.molcel.2014.11.002 (2015).

LaRonde-LeBlanc, N. & amp Wlodawer, A. Un retrato familiar de las quinasas RIO. J. Biol. Chem. 280, 37297–37300 (2005).

Xiao, J., Tagliabracci, V. S., Wen, J., Kim, S.-A. & amp Dixon, J. E. Estructura cristalina de la caseína quinasa de Golgi. procedimientos de la Academia Nacional de Ciencias 110, 10574–10579 (2013).

Blackford, A. N. & amp Jackson, S. P. ATM, ATR y DNA-PK: la trinidad en el corazón de la respuesta al daño del ADN. Mol. Celda 66, 801–817 (2017).

Steussy, C. N. et al. Estructura de la piruvato deshidrogenasa quinasa: nuevo patrón de plegado para una serina proteína quinasa. J. Biol. Chem. 276, 37443–37450 (2001).

Ogden, T. H. & amp Rosenberg, M. S. Precisión de alineación de secuencias múltiples e inferencia filogenética. Syst. Biol. 55, 314–328 (2006).

Jiang, Y. et al. Una evaluación ampliada de los métodos de predicción de la función de las proteínas muestra una mejora en la precisión. Biología del genoma 17, 184 (2016).

Chartier, M., Chenard, T., Barker, J. & amp Najmanovich, R. Kinome Render: una herramienta independiente y accesible en la web para anotar el árbol del kinoma de proteínas humanas. PeerJ 1, e126, https://doi.org/10.7717/peerj.126 (2013).

Möbitz, H. El ABC de las conformaciones de proteína quinasa. Biochimica et Biophysica Acta (BBA) -Proteínas y proteómica 1854, 1555–1566 (2015).

Brooijmans, N., Chang, Y. W., Mobilio, D., Denny, R. A. & amp Humblet, C. Una base de datos de quinasas estructural enriquecida para permitir el descubrimiento de fármacos y análisis basados ​​en la estructura de todo el kinoma. Protein Sci. 19, 763–774 (2010).

McSkimming, D. I., Rasheed, K. & amp Kannan, N. Clasificación de conformaciones de quinasas mediante un enfoque de aprendizaje automático. Bioinformática BMC 18, 86 (2017).

Creixell, P. et al. Desenmascarar los determinantes de la especificidad en el kinoma humano. Celda 163, 187–201 (2015).

Rahman, R., Ung, P. M.-U. & amp Schlessinger, A. KinaMetrix: un recurso web para investigar conformaciones de quinasas y espacio de inhibidores. Ácidos nucleicos Res. 47, D361 – D366 (2018).

van Linden, O. P., Kooistra, A. J., Leurs, R., de Esch, I. J. & amp de Graaf, C. KLIFS: Una base de datos estructural basada en el conocimiento para navegar en el espacio de interacción quinasa-ligando. J. Med. Chem. https://doi.org/10.1021/jm400378w (2013).

Hartmann, S. & amp Vision, T. J. Uso de tecnologías ecológicamente racionales para filogenómica: ¿se puede inferir con precisión un árbol filogenético a partir de una alineación entrecortada? BMC Evol. Biol. 8, 95 (2008).

Kwon, A. et al. Rastreando el origen y evolución de las pseudokinasas a través del árbol de la vida. Sci. Señal. 12, eaav3810 (2019).

Consorcio Magrane, M. & amp UniProt. UniProt Knowledgebase: un centro de datos de proteínas integrados. Base de datos 2011, bar009 (2011).

Hildebrand, A., Remmert, M., Biegert, A. & amp Söding, J. Predicción automática de estructuras rápida y precisa con HHpred. Proteinas 77(Supl. 9), 128-132, https://doi.org/10.1002/prot.22499 (2009).

Ye, Y. & amp Godzik, A. FATCAT: un servidor web para la comparación de estructuras flexibles y la búsqueda de similitudes de estructuras. Ácidos nucleicos Res. 32, W582–585 (2004).

Yamaguchi, H., Matsushita, M., Nairn, A. C. & amp Kuriyan, J. Estructura cristalina del dominio de proteína quinasa atípica de un canal TRP con actividad fosfotransferasa. Mol. Celda 7, 1047–1057 (2001).

Zhao, Y. et al. Estructuras cristalinas de PI3Kalpha complejadas con PI103 y sus derivados: nuevas direcciones para el diseño de inhibidores. ACS Med. Chem. Letón. 5, 138–142, https://doi.org/10.1021/ml400378e (2014).

Ferreira-Cerca, S., Kiburu, I., Thomson, E., LaRonde, N. & amp Hurt, E. El mutante catalítico de la quinasa / ATPasa de Rio1 dominante induce la captura de factores de biogénesis pre-40S tardíos en ribosomas similares a 80S. Ácidos nucleicos Res. 42, 8635–8647, https://doi.org/10.1093/nar/gku542 (2014).

Maurice, F., Pérébaskine, N., Thore, S. y Fribourg, S. In vitro dimerización de la quinasa RIO2 humana. Biología del ARN En prensa, 1–10, https://doi.org/10.1080/15476286.2019.1653679 (2019).

Tso, S.-C. et al. Diseño basado en estructura y mecanismos de inhibidores alostéricos para α-cetoácido deshidrogenasa quinasa de cadena ramificada mitocondrial. procedimientos de la Academia Nacional de Ciencias 110, 9728–9733 (2013).

Kato, M., Li, J., Chuang, J. L. & amp Chuang, D. T. Distintos mecanismos estructurales para la inhibición de las isoformas de piruvato deshidrogenasa quinasa por AZD7545, dicloroacetato y radicicol. Estructura 15, 992–1004, https://doi.org/10.1016/j.str.2007.07.001 (2007).

Cheng, H. et al. ECOD: una clasificación evolutiva de dominios de proteínas. PLOS Comput. Biol. 10, e1003926 (2014).

Tsutakawa, S. E., Jingami, H. & amp Morikawa, K. Reconocimiento de un desajuste de TG: la estructura cristalina de una endonucleasa de reparación de parche muy corta en un complejo con un dúplex de ADN. Celda 99, 615–623 (1999).

Braschi, B. et al. Nombres genéticos. org: los recursos de HGNC y VGNC en 2019. Ácidos nucleicos Res. 47, D786 – D792 (2018).

Tai, C.-H., Vincent, J. J., Kim, C. & amp Lee, B. SE: un algoritmo para derivar la alineación de secuencias a partir de un par de estructuras superpuestas. Bioinformática BMC 10, S4 (2009).

Sievers, F. et al. Generación rápida y escalable de alineaciones de múltiples secuencias de proteínas de alta calidad utilizando Clustal Omega. Mol. Syst. Biol. 7, 539 (2011).

Waterhouse, A. M., Procter, J. B., Martin, D. M., Clamp, M. & amp Barton, G. J. Jalview Versión 2: un editor de alineación de secuencias múltiples y un banco de trabajo de análisis. Bioinformática 25, 1189–1191 (2009).

Zhang, W. et al. Las estructuras cristalinas de los complejos Gon7 / Pcc1 y Bud32 / Cgi121 proporcionan un modelo para el complejo completo KEOPS de levadura. Ácidos nucleicos Res. 43, 3358–3372, https://doi.org/10.1093/nar/gkv155 (2015).

Padyana, A. K., Qiu, H., Roll-Mecak, A., Hinnebusch, A. G. & amp Burley, S. K. Base estructural para la autoinhibición y activación mutacional del factor de iniciación eucariota 2 alfa proteína quinasa GCN2. J. Biol. Chem. 280, 29289–29299, https://doi.org/10.1074/jbc.M504096200 (2005).

Kumar, A. et al. Estructura de PINK1 y mecanismos de mutaciones asociadas a la enfermedad de Parkinson. eLife 6, https://doi.org/10.7554/eLife.29985 (2017).

Christie, M., Boland, A., Huntzinger, E., Weichenrieder, O. & amp Izaurralde, E. La estructura de la pseudoquinasa PAN3 revela la base de las interacciones con la deadenilasa PAN2 y las proteínas GW182. Mol. Celda 51, 360–373, https://doi.org/10.1016/j.molcel.2013.07.011 (2013).

Nagae, M. et al. Análisis estructural 3D de la proteína O-manosil quinasa, POMK, un producto genético causante de la distroglicanopatía. Células de genes 22, 348–359, https://doi.org/10.1111/gtc.12480 (2017).

Xu, Q. et al. Identificación de estructuras tridimensionales de complejos de autofosforilación en cristales de proteína quinasas. Señal de ciencia 8, rs13, https://doi.org/10.1126/scisignal.aaa6711 (2015).

Crooks, G. E., Hon, G., Chandonia, J.-M. & amp Brenner, S. E. WebLogo: un generador de logotipos de secuencias. Genome Res. 14, 1188–1190 (2004).

Modi, V. & amp Dunbrack, R. L. Definición de una nueva nomenclatura para las estructuras de quinasas activas e inactivas. procedimientos de la Academia Nacional de Ciencias 116, 6818–6827 (2019).

Jaccard, P. La distribution de la flore dans la zone alpine. Revue générale des sciences pures et appliqué 15(Diciembre), 961–967 (1907).

Xiong, S. et al. Base estructural para la autoinhibición del dominio quinasa NDR1 por un segmento de activación atípicamente largo. Estructura 26, 1101-1115. e1106 (2018).

Hanks, S. K., Quinn, A. M. y Hunter, T. La familia de las proteínas quinasas: características conservadas y filogenia deducida de los dominios catalíticos. Ciencias 241, 42–52 (1988).

Hunter, T. En Métodos Enzymol. Vol. 200 3-37 (Elsevier, 1991).

Talavera, G. & amp Castresana, J. Mejora de las filogenias después de eliminar bloques divergentes y ambiguamente alineados de alineaciones de secuencias de proteínas. Syst. Biol. 56, 564–577 (2007).

Kumar, S., Stecher, G., Li, M., Knyaz, C. & amp Tamura, K. MEGA X: análisis de genética evolutiva molecular en plataformas informáticas. Mol. Biol. Evol. 35, 1547–1549 (2018).

Letunic, I. & amp Bork, P. Interactive tree of life (iTOL) v3: una herramienta en línea para la visualización y anotación de árboles filogenéticos y de otro tipo. Ácidos nucleicos Res. 44, W242 – W245 (2016).

Lemoine, F. et al. Renovación del bootstrap filogenético de Felsenstein en la era del big data. Naturaleza 556, 452 (2018).

de Cárcer, G., Manning, G. & amp Malumbres, M. De Plk1 a Plk5: evolución funcional de quinasas tipo polo. Ciclo celular 10, 2255–2262 (2011).

Needham, E. J., Parker, B. L., Burykin, T., James, D. E. & amp Humphrey, S. J. Iluminando el fosfoproteoma oscuro. Sci. Señal. 12, eaau8645 (2019).

Sauder, J. M., Arthur, J. W. & amp Dunbrack, R. L. Jr. Comparación a gran escala de algoritmos de alineación de secuencias de proteínas con alineaciones de estructuras. Proteínas: estructura, función y genética 40, 6–22 (2000).

Yona, G. & amp Levitt, M. Dentro de la zona del crepúsculo: una herramienta sensible de comparación de perfil-perfil basada en la teoría de la información. J. Mol. Biol. 315, 1257–1275 (2002).

Fox, G., Sievers, F. & amp Higgins, D. G. Uso de predicciones de estructura de proteínas de novo para medir la calidad de alineaciones de secuencias múltiples muy grandes. Bioinformática 32, 814–820 (2015).

Le, Q., Sievers, F. & amp Higgins, D. G. Evaluación comparativa de alineación de secuencias múltiples de proteínas a través de la predicción de estructuras secundarias. Bioinformática 33, 1331–1337 (2017).

Tokumitsu, H., Wayman, G. A., Muramatsu, M. & amp Soderling, T. R. Proteína quinasa quinasa dependiente de calcio / calmodulina: identificación de dominios reguladores. Bioquímica 36, 12823–12827 (1997).

Osawa, M. et al. Un nuevo reconocimiento de la diana revelado por la calmodulina en un complejo con la quinasa quinasa dependiente de Ca2 + -calmodulina. Nat. Struct. Mol. Biol. 6, 819 (1999).

Tokumitsu, H., Muramatsu, M.-a., Ikura, M. & amp Kobayashi, R. Mecanismo regulador de la proteína quinasa quinasa dependiente de Ca2 + / calmodulina. J. Biol. Chem. 275, 20090–20095 (2000).

Dai, G. et al. Se requiere la activación por calcodulina de la quinasa 1 similar al polo durante la entrada mitótica. Biochem. Cell Biol. 91, 287–294 (2013).

Kauselmann, G. et al. Las proteínas quinasas de tipo polo Fnk y Snk se asocian con una proteína de unión a integrina y Ca2 + y se regulan dinámicamente con plasticidad sináptica. La revista EMBO 18, 5528–5539 (1999).

Plotnikova, O. V., Pugacheva, E. N., Dunbrack, R. L. & amp Golemis, E. A. Activación rápida dependiente del calcio de la quinasa Aurora-A. Comunicaciones de la naturaleza 164, https://doi.org/10.1038/ncomms1061 (2010).

Mallampalli, R. K., Glasser, J. R., Coon, T. A. & amp Chen, B. B. Calmodulin protege Aurora B en el medio del cuerpo para regular la fidelidad de la citocinesis. Ciclo celular 12, 663–673 (2013).

Brinkworth, R. I., Breinl, R. A. & amp Kobe, B. Base estructural y predicción de la especificidad del sustrato en proteínas serina / treonina quinasas. procedimientos de la Academia Nacional de Ciencias 100, 74–79 (2003).

Anastassiadis, T., Deacon, S. W., Devarajan, K., Ma, H. y Peterson, J. R. El ensayo completo de la actividad catalítica de la quinasa revela las características de la selectividad del inhibidor de la quinasa. Nat. Biotechnol. 29, 1039 (2011).

Obispo, A. C. et al. Un interruptor químico para alelos sensibles a inhibidores de cualquier proteína quinasa. Naturaleza 407, 395 (2000).

Ye, Y. & amp Godzik, A. Alineación de estructura flexible mediante el encadenamiento de pares de fragmentos alineados que permiten giros. Bioinformática 19(Supl. 2), 246-255 (2003).

Söding, J., Biegert, A. & amp Lupas, A. N. El servidor interactivo HHpred para la detección de homología de proteínas y la predicción de estructuras. Ácidos nucleicos Res. 33, W244–248, https://doi.org/10.1093/nar/gki408 (2005).

Yamaguchi, M. et al. Cryo-EM de APC / C complejo de punto de control mitótico revela regulación recíproca y conformacional de la ligadura de ubiquitina. Mol. Celda 63, 593–607, https://doi.org/10.1016/j.molcel.2016.07.003 (2016).

Dong, C. et al. La estructura cristalina de un dímero inactivo de quinasa de unión a PDZ. Biochem. Biophys. Res. Comun. 476, 586–593, https://doi.org/10.1016/j.bbrc.2016.05.166 (2016).

Eddy, S. R. En Genome Informatics 2009: Genome Informatics Series Vol. 23 205–211 (World Scientific, 2009).

El sistema de gráficos moleculares PyMOL. (Schrödinger, Inc., San Carlos, CA, 2002).

R: Un lenguaje y un entorno para la informática estadística. (Fundación R para la Computación Estadística, Viena, Austria, 2015).


Ver el vídeo: clase introducción a la bioinformática - Alineamientos de secuencias nivel básico (Agosto 2022).