Información

¿Por qué una secuencia de proteína 2019-nCoV en la base de datos del NCBI coincidiría con una proteína enviada en 2018?

¿Por qué una secuencia de proteína 2019-nCoV en la base de datos del NCBI coincidiría con una proteína enviada en 2018?



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Parece que se está gestando una pequeña teoría de la conspiración sobre algunos datos en la base de datos del NCBI, y no tengo el conocimiento necesario para darle sentido.

Básicamente es así:

  1. Ir a NCBI BLAST
  2. Haga clic en el botón grande Protein BLAST
  3. Ingrese AVP78033 en el cuadro de búsqueda principal y haga clic en BLAST
  4. Haga clic en el primer resultado que muestre una coincidencia del 100% y haga clic en "Ver 5 títulos más" en la primera entrada.

Esto muestra que la búsqueda es una coincidencia completa para un Coronavirus de murciélago similar al SARS proteína de un artículo de investigación de 2018, para Virus de la neumonía en el mercado de mariscos de Wuhan (que el sitio de NCIS indica que es un alias para 2019-nCoV), y para Coronavirus murciélago desde el 29 de enero de 2020.

Mi pregunta es: ¿por qué una proteína de Coronavirus de murciélago similar al SARS y 2019-nCoV se muestran como una combinación perfecta entre sí? ¿Significa esto que 2019-nCoV podría ser en realidad un coronavirus previamente descubierto que recientemente comenzó a infectar a los humanos? ¿O podría ser que una muestra recolectada recientemente de Wuhan se identificó erróneamente como 2019-nCoV cuando en realidad es el mismo coronavirus de la presentación de 2018?

Al hacer clic en los enlaces de ese sitio, parece que aparecen docenas de páginas similares pero diferentes que no tengo el conocimiento para distinguir, pero la columna de adhesión de los resultados de búsqueda descritos anteriormente contiene un enlace a esta página, que dice que es una referencia provisional y reconoce que es idéntico al coronavirus del murciélago:

REFSEQ PROVISIONAL: Este registro aún no ha sido sujeto a la revisión final del NCBI. La secuencia de referencia es idéntica a QHD43418. La anotación se añadió usando homología con SARSr-CoV NC_004718.3.

¿Puede alguien que realmente entienda estas cosas, por favor, darle sentido a esto?


2019-nCoV es un virus que se originó en el murciélago (al menos esta es la hipótesis actual). Muestra una similitud de secuencia del 96% con la secuencia de BatCoV RaTG13 (ver referencia 1), mostrando su origen.

Todavía es un 87,99% idéntico al "coronavirus tipo murciélago SARS", lo que explica el impacto que encontró y no es inesperado, ya que estos virus están muy relacionados (consulte la referencia 2).

Estos virus están estrechamente relacionados, por lo que no esperaría demasiadas diferencias. Entonces, las proteínas de la envoltura pueden ser críticas para la función / estructura del virus, por lo que las mutaciones pueden ocurrir con menos frecuencia. Y si ocurren, solo esperaría algunos cambios a lo largo del tiempo, por lo que con este poco de tiempo transcurrido, probablemente aún no se ve ninguna mutación. Además, debido a la redundancia causada por la degeneración del codón, no todas las mutaciones en el material genómico se traducen en cambios en la proteína.

Referencias:

  1. El análisis evolutivo del genoma completo del nuevo virus corona (2019-nCoV) rechaza la hipótesis de aparición como resultado de un reciente evento de recombinación
  2. Caracterización genómica y epidemiología del nuevo coronavirus de 2019: implicaciones para los orígenes del virus y la unión al receptor

¿Por qué una secuencia de proteína 2019-nCoV en la base de datos del NCBI coincidiría con una proteína enviada en 2018? - biología


(El servidor completó las predicciones para 627218 proteínas enviadas por 151212 usuarios de 158 países)
(La biblioteca de plantillas se actualizó el 2021/06/22)

I-TASSER (Refinamiento de ASSEmbly de subprocesos iterativos) es un enfoque jerárquico para la predicción de la estructura de la proteína y la anotación de función basada en la estructura. Primero identifica las plantillas estructurales de la PDB mediante el enfoque de múltiples subprocesos LOMETS, con modelos atómicos de longitud completa construidos mediante simulaciones iterativas de ensamblaje de fragmentos basadas en plantillas. Luego, se obtienen conocimientos sobre la función del objetivo volviendo a enhebrar los modelos 3D a través de la base de datos de funciones de proteínas BioLiP. I-TASSER (como 'Zhang-Server') se clasificó como el servidor n. ° 1 para la predicción de la estructura de proteínas en los recientes experimentos CASP7, CASP8, CASP9, CASP10, CASP11, CASP12, CASP13 y CASP14 de toda la comunidad. También se clasificó como el mejor para la predicción de funciones en CASP9. El servidor está en desarrollo activo con el objetivo de proporcionar la estructura de proteínas y las predicciones de funciones más precisas utilizando algoritmos de última generación. Informe los problemas y las preguntas en el tablero de mensajes de I-TASSER y nuestros desarrolladores estudiarán y responderán las preguntas en consecuencia. (>> Más sobre el servidor).

Debido a un corte de energía y una falla del servidor web, el I-TASSER no está disponible actualmente para su uso. Estamos trabajando para restaurar el sistema, que volverá a funcionar durante la primera semana de marzo. Pedimos disculpas por las molestias que esto pueda ocasionar.


¿Por qué una secuencia de proteína 2019-nCoV en la base de datos del NCBI coincidiría con una proteína enviada en 2018? - biología

8 horas por mantenimiento en nuestro centro de datos. Este intervalo podría potencialmente ser más corto dependiendo del progreso del trabajo. Nos disculpamos por cualquier inconveniente. *** --> *** DAVID estará inactivo desde las 5 p.m. EST del viernes 24 de junio de 2011 a las 3 p.m. EST del domingo 26 de junio de 2011 debido al mantenimiento en nuestro centro de datos. Este intervalo podría potencialmente ser más corto dependiendo del progreso del trabajo. Nos disculpamos por cualquier inconveniente. *** --> *** Actualmente estamos aceptando usuarios Beta para nuestro nuevo servicio web DAVID que permite el acceso a DAVID desde varios lenguajes de programación. Por favor contáctenos para acceder. *** --> *** El mapeo de símbolos genéticos para la carga y conversión de listas ha cambiado. Consulte el anuncio del foro de DAVID para obtener más detalles. --> *** Anuncio del nuevo Servicio Web DAVID que permite el acceso a DAVID desde varios lenguajes de programación. Más información. *** --> *** DAVID 6.8 estará inactivo por mantenimiento el jueves, 23 de febrero de 2016, de 9 a.m. a 1 p.m. EST *** -->
*** Bienvenido a DAVID 6.8 ***
*** Si está buscando DAVID 6.7, visite nuestro sitio de desarrollo. ***
-->
*** Bienvenido a DAVID 6.8 con la base de conocimientos actualizada (más información). ***
*** Si está buscando DAVID 6.7, visite nuestro sitio de desarrollo. ***
-->
*** Bienvenido a DAVID 6.8 con la base de conocimientos actualizada (más información). ***
*** El servidor DAVID 6.7 está actualmente fuera de servicio por mantenimiento. ***
--> *** Por favor lea: Debido al mantenimiento del centro de datos, DAVID estará fuera de línea desde el viernes 17 de junio a las 4 p.m. EST hasta el domingo 19 de junio con la posibilidad de volver a estar en línea antes. *** -->


El nuevo genoma completo del coronavirus del brote de Wuhan ya está disponible en GenBank

La secuencia completa del genoma anotado del nuevo coronavirus asociado con el brote de neumonía en Wuhan, China, ahora está disponible en GenBank de forma gratuita y de fácil acceso para la comunidad biomédica global. La Figura 1 muestra la relación del virus de Wuhan con coronavirus seleccionados.

Figura 1. Árbol filogenético que muestra la relación de Wuhan-Hu-1 (encerrado en un círculo rojo) con coronavirus seleccionados. La alineación de nucleótidos se realizó con MUSCLE 3.8. El árbol filogenético se estimó con MrBayes 3.2.6 con parámetros para GTR + g + i. La barra de escala indica sustituciones estimadas por sitio y todos los valores de soporte de sucursales son 99,3% o más.

Según los CDC, a partir del 11 de enero, las autoridades sanitarias chinas dicen que han identificado más de 40 infecciones humanas como parte de este brote que se informó por primera vez el 31 de diciembre. La Organización Mundial de la Salud anunció la identificación preliminar del nuevo coronavirus en enero. 9. El registro de GenBank de Wuhan-Hu-1 incluye datos de secuencia, anotaciones y metadatos de este virus aislado hace aproximadamente dos semanas de un paciente que se cree que contrajo la enfermedad en un mercado de mariscos de la provincia de Hubei.

El acceso rápido a los datos de secuencia de bases de datos públicas como GenBank juega un papel vital en ayudar a los países a desarrollar kits de diagnóstico específicos para brotes de enfermedades como este.


Descripción de datos

Organización del genoma de cuatro coronavirus

Todos los coronavirus seleccionados tienen una organización genómica similar con genes codificantes de espiga (proteína S), envoltura (proteína E), membrana (proteína M), nucleoproteína (proteína N) y varios marcos de lectura abiertos. El SARS-CoV, 2019-nCoV, MERS-CoV y RaTG13-CoV expresan 9, 8, 10 y 9 genes codificadores de proteínas no redundantes, respectivamente (Figura 1A). En el SARS-CoV, orf3b se superpone con orf3a y el gen E, orf7b se superpone con orf7a, orf8b se superpone con orf8a, y orf9b es parte de orf9a (Gen N). En 2019-nCoV, solo orf7b se superpone con orf7a y otros genes están separados. En MERS-CoV, el orf4b se superpone con orf4a y orf8b es parte del gen N. En RaTG13-CoV, ns7b y ns7a se superponen.

Figura 1 Organización del genoma de cuatro coronavirus y caracterización de epítopos de células B / T predichos. (A) Organización del genoma de SARS-CoV, 2019-nCoV, MERS-CoV y RaTG13-CoV. (B) La distribución de los epítopos B / T predichos de E, M, N y S en cuatro coronavirus. (C) La relación entre la longitud de la proteína y el número de epítopos de células B / T previstos. El copo de nieve indica el número de aminoácidos predichos para los epítopos de células B, el círculo indica el número de epítopos de células T predichos presentados por alelos HLA I y el triángulo indica el número de epítopos de células T predichos presentados por alelos HLA II. (D)& # xa0 Las proteínas de ejemplo que tienen una longitud de proteína anormal y la relación entre el número de epítopos de células B / T.

Caracterización de los epítopos predichos de células B / T

Aunque algunos genes se superponen, predijimos los epítopos potenciales de células B / T de todos los genes porque los genes superpuestos codifican proteínas diferentes. Los resultados muestran que el número de epítopos predichos es diferente pero similar entre las proteínas homólogas de cuatro coronavirus (Figura 1B y Tabla complementaria 3). Tomemos la proteína S como ejemplo, se predice un promedio de 444 péptidos como epítopos presentados por alelos HLA I entre cuatro coronavirus. La mayor parte es la proteína S en MERS-CoV que ocupa 482, la menor es la de RaTG13 que ocupa 423. Se predice un promedio de 1.615 péptidos como epítopos presentados por alelos HLA II. La mayor parte es la S en MERS-CoV que ocupa 1.804, la menor es la de 2019-nCoV que ocupa 1471. Se predice un promedio de 323 aminoácidos como parte de los epítopos de las células B. La mayor parte es la proteína S en 2019-nCoV que ocupa 359, la menor es la de SARS-CoV que ocupa 279. La diferencia de los epítopos de células B / T predichos es menor en S. En otros genes homólogos, ocurre un fenómeno similar.

Normalmente, el número de epítopos de células B / T predichos se correlaciona positivamente con la longitud de las proteínas que los genes traducen (Figura 1C). Sin embargo, también hay algunas excepciones de genes más largos con menos epítopos de células B / T previstos, como la proteína M en comparación con la proteína N en 2019-nCoV (Figura 1D). Con casi la mitad de la longitud de la proteína codificada, la proteína M posee más epítopos de células T presentados tanto por los alelos HLA I como por los alelos HLA II que la proteína N, lo que indica que se prefiere que la proteína M sea reconocida por las células T que la proteína N. Además, todas las proteínas tienen epítopos predichos presentados por alelos HLA II excepto ORF8a en SARS-CoV, que podría atribuirse a su corta longitud y menor inmunogenicidad.

Para una mejor visualización de los epítopos de células B / T predichos, creamos una base de datos llamada COVIEdb (http://biopharm.zju.edu.cn/coviedb/). Con cuatro páginas principales & # x201cB-epitope & # x201d, & # x201cT-epitope & # x201d, & # x201cPeptide & # x201d y & # x201cValidated & # x201d, los investigadores pudieron encontrar información útil fácil y rápidamente. Los resultados predichos de los epítopos de células B se podrían buscar en la página & # x201cB-epitope & # x201d. Con el virus y el gen seleccionados, aparecerían los correspondientes epítopos de células B previstos. Los resultados predichos de los epítopos de células T se podrían buscar en la página & # x201cT-epitope & # x201d. Al igual que en la página & # x201cB-epitope & # x201d, el coronavirus y la proteína son necesarios. Además, también debe seleccionarse el tipo de epítopos de células T. En esta página solo se mostrarán los pares de péptido-HLA que cumplieron con los umbrales de todas las herramientas. Los datos de búsqueda en la página & # x201cPeptide & # x201d son el resultado combinado de epítopos de células B y epítopos de células T previstos previamente. En esta página, el único parámetro seleccionable es la proteína. La página & # x201cValidated & # x201d que contiene los epítopos B / T predichos que han sido validados por la literatura reciente (Le Bert et & # xa0al., 2020 Zhang B. Z. et & # xa0al., 2020). Hasta la fecha, solo hay 116 epítopos validados en la página & # x201cValidated & # x201d. Sin embargo, con la creciente investigación sobre coronavirus, se agregarían más datos validados a la página & # x201cValidated & # x201d.

Epítopos compartidos de células B / T

Aunque la tasa de evolución del coronavirus humano es rápida, intentamos descubrir epítopos de células B / T conservados y compartidos en diferentes coronavirus para el desarrollo de la vacuna del pan-coronavirus. Según los epítopos de células B y los epítopos de células T predichos, encontramos 77 péptidos que existen en todos los coronavirus que tienen el potencial de inducir la activación de células T y 10 de ellos con una puntuación B mayor que 4 (Tabla 1 y Tabla complementaria 4). En particular, el péptido YFKYWDQTY de ORF1ab podría ser presentado por un 7,33% de personas, lo que podría ser un buen candidato para el diseño de vacunas.

tabla 1 Los posibles epítopos de células T con B_score mayor que 4.

Todos los epítopos de células T compartidos en cuatro coronavirus se encuentran en ORF1ab. Sin embargo, la proteína S del coronavirus es la proteína más importante donde se encuentra el dominio de unión al receptor (RBD). Entonces, investigamos más a fondo los epítopos compartidos que se encuentran en la proteína S. Hay 265 epítopos potenciales en la proteína S compartidos por tres coronavirus y 35 de ellos con una puntuación B mayor que 5 (Tabla complementaria 5). Los péptidos VYDPLQPEL y TVYDPLQPEL incluso tienen B_score mayor que 6. Cabe señalar que, aunque estos dos péptidos difieren sólo en un aminoácido, los alelos HLA que pueden unirse con ellos son diferentes. VYDPLQPEL puede presentarse por HLA-C07: 02, HLA-C04: 01 y HLA-C14: 02, con una frecuencia general del 8.26% en la población Han china, mientras que TVYDPLQPEL puede presentarse por HLA-A02: 06 y HLA-C12: 03, con 2,44% de frecuencia. Los dos péptidos son diferentes en el aspecto de los epítopos, pero podríamos tomarlos como uno al elegir el objetivo de la vacuna, lo que indica la viabilidad de los péptidos para ser un objetivo potencial de la vacuna del pan-coronavirus.

Creemos que estos resultados y la base de datos desarrollada podrían beneficiar no solo el desarrollo de la vacuna (especialmente la vacuna de múltiples epítopos que podría proteger de varios coronavirus), sino también proporcionar los objetivos para el diseño de fármacos, como el anticuerpo neutralizante en 2019-nCoV y el posible coronavirus. brote en el futuro.


Discusión

En este trabajo, empleamos nuestra metodología previa de minería de datos [22] para identificar posibles motivos funcionales, pero aplicamos a los virus MERS-CoV y SARS-CoV / CoV-2. La principal ventaja de este método es la búsqueda restringida a objetivos proteicos humanos implicados en la patogénesis del virus. El paso inicial nos permite reducir a priori la consulta en las bases de datos 3DID y ELM. Como resultado, la información de motivo de dominio sin vaina está potencialmente asociada con genes humanos relacionados con la patogénesis de MERS-CoV y SARS-CoV / CoV2. Nuestro enfoque es entonces similar a los métodos utilizados por Hagai, T., et al., Becerra, A. et al y Zhang, A et al [29, 39, 40] en la predicción de motivos funcionales. Estos métodos incluyen algunas características distintivas, como la predicción de regiones desordenadas en la proteína, la alta frecuencia de motivos de aminoácidos en los conjuntos de datos de secuencias de proteínas en estudio y la escasez de motivos de aminoácidos en secuencias barajadas. Los filtros se confeccionaron de acuerdo con la información obtenida en cada proceso de minería de datos. Todos esos pasos filtrados guiaron nuestro análisis hacia una mayor especificidad que vinculó los motivos funcionales predichos como parte de los epítopos inmunes como lo hicimos anteriormente para los virus de la influenza A [22]. Es distintivo de nuestro enfoque de predicción, porque se utilizó para reducir la alta tasa de falsos positivos asociados con la predicción computacional de motivos [41]. Además, nuestro método podría ser una alternativa para la vacunación inversa asistida por computadora.

Un resultado interesante es que la tendencia de los motivos emparejados se produjo en las proteínas más variables, la ORF1ab y la proteína S de los proteomas de coronavirus. El ORF1ab contiene las proteínas no estructurales responsables de la maquinaria de traducción de los virus en el entorno intracelular [42] y la proteína S es esencial para la unión del virus a la célula huésped [43]. La tendencia de los motivos a aparecer en las proteínas implicadas en la replicación del virus también se observó en los virus de la gripe [44]. Por lo tanto, la alta frecuencia de motivos de tipo huésped en esas proteínas virales sugiere que tales proteínas podrían ser las principales secuestradoras. Otro hallazgo es el gran número de motivos compartidos en el proteoma o proteínas distintas de un proteoma, lo que refleja que los motivos virales evolucionan de forma independiente a la luz de la adquisición de mecanismos similares a los del huésped para el éxito en la invasión de las células huésped.

El análisis de enriquecimiento de dominio mostró que los procesos biológicos generales y las funciones moleculares podrían ser la consecuencia del mimetismo de MERS-CoV y SARS-CoV / CoV-2 para secuestrar la célula huésped. Los términos ontológicos más significativos son la asociación del metabolismo de la biosíntesis de glucógeno y el ahorro de energía. Este resultado concuerda con que los virus utilizan las fuentes de carbono de las células infectadas para lograr la replicación viral y la producción de viriones [45]. Es razonable que el glucógeno, una forma de almacenamiento de glucosa, se utilice en una actividad celular agotadora e inesperada [46] como infectada. Por otro lado, como esta vía biosintética es vital para la supervivencia de los virus, apuntar a componentes esenciales como la glucógeno sintasa quinasa podría ayudar a tratar las infecciones por virus. Se informó que el uso de dos inhibidores de la glucógeno sintasa alteró el ensamblaje y la liberación del virus de la hepatitis C [47]. Por lo tanto, las proteínas que encontramos en el presente estudio podrían usarse para explorarlas como dianas de fármacos.

En otro contexto, se han sugerido motivos como inmunógenos potenciales [41]. Nuestra atención se centró en el motivo de búsqueda que coincidía con los epítopos inmunitarios. De hecho, encontramos que algunos motivos coincidían con los epítopos del IEDB. Algunos de ellos estaban anidados en los epítopos del anterior SARS-CoV y también estaban presentes en los nuevos SARS-CoV-2. Reafirma la evidencia de respuestas inmunes de reacción cruzada a las infecciones por coronavirus por SARS-CoV y SARS-CoV-2 [48-51]. Además, nuestro estudio identificó los epítopos que albergan motivos que podrían interactuar con dominios de proteínas humanas. Es bastante relevante porque tales dominios-motivos compartidos en los diferentes coronavirus pueden desencadenar un proceso de mimetismo molecular común que podría conducir a enfermedades autoinmunes. Se demostró que los anticuerpos derivados de pacientes vacunados contra la influenza reaccionan con secuencias homólogas de la nucleoproteína del virus de la influenza A y el dominio del receptor 2 de hipocretina de humanos, el último de los cuales estuvo involucrado en la narcolepsia, un efecto adverso autoinmune atribuido a la vacuna contra la influenza [ 52]. La inmunización contra la influenza también se atribuye al síndrome de Guillain-Barré [53], una enfermedad en la que su patogénesis se asocia con el mimetismo molecular de varios patógenos bacterianos y virales [54-56]. Por lo tanto, nuestros resultados son vitales para ayudar en los esfuerzos racionales de desarrollo de vacunas actualmente en curso, principalmente porque varias enfermedades autoinmunes se han asociado con COVID-19 [57].


Extraña similitud de inserciones únicas en la proteína de pico 2019-nCoV con gp120 y Gag del VIH-1

Actualmente estamos presenciando una gran epidemia causada por el nuevo coronavirus de 2019 (2019-nCoV). La evolución de 2019-nCoV sigue siendo esquiva. Encontramos 4 inserciones en la glicoproteína de pico (S) que son exclusivas del 2019-nCoV y no están presentes en otros coronavirus. Es importante destacar que los residuos de aminoácidos en los 4 insertos tienen identidad o similitud con los de la gp120 del VIH-1 o la Gag del VIH-1. Curiosamente, a pesar de que las inserciones son discontinuas en la secuencia de aminoácidos primaria, el modelado 3D del 2019-nCoV sugiere que convergen para constituir el sitio de unión al receptor. Es poco probable que el hallazgo de 4 insertos únicos en el 2019-nCoV, todos los cuales tienen identidad / similitud con los residuos de aminoácidos en proteínas estructurales clave del VIH-1, sea de naturaleza fortuita. Este trabajo proporciona información aún desconocida sobre 2019-nCoV y arroja luz sobre la evolución y patogenicidad de este virus con importantes implicaciones para el diagnóstico de este virus.


CUOTA

AsianScientist (25 de febrero de 2020) & # 8211 Científicos en China han secuenciado el genoma del virus COVID-19 demostrando que es un virus completamente nuevo, aunque estrechamente relacionado con el coronavirus (CoV) responsable del síndrome respiratorio agudo severo (SARS). Sus hallazgos se publican en la revista Revista médica china.

A principios de diciembre de 2019, la gente de la ciudad de Wuhan, en la provincia china de Hubei, comenzó a enfermarse después de ir a un mercado local de mariscos. Experimentaron síntomas como tos, fiebre, dificultad para respirar y complicaciones relacionadas con el síndrome de dificultad respiratoria aguda. El diagnóstico inmediato fue neumonía, pero la causa exacta no se explicó.

En el presente estudio, los investigadores dirigidos por el Dr. Wang Jianwei de la Academia China de Ciencias Médicas, Instituto de Biología de Patógenos, China, utilizaron la secuenciación de próxima generación (NGS) para identificar definitivamente el patógeno que causa la enfermedad en Wuhan. Se centraron en cinco pacientes ingresados ​​en el Hospital Jin Yin-tan en Wuhan, la mayoría de los cuales eran trabajadores del mercado de mariscos de Huanan en Wuhan.

Los científicos primero obtuvieron muestras de líquido de lavado broncoalveolar (BAL) tomadas de los pacientes, aislaron el ADN y el ARN y luego secuenciaron el material genético. La mayoría de las secuencias virales pertenecían a la familia de virus CoV, que incluye el SARS-CoV y el CoV relacionado con el síndrome respiratorio de Oriente Medio (MERS).

Luego, los investigadores construyeron la secuencia genómica completa del nuevo virus, ahora conocido como COVID-19, y encontraron que su secuencia genómica es un 79 por ciento similar al SARS-CoV, aproximadamente un 51,8 por ciento similar al MERS-CoV y aproximadamente un 87,6%. 87,7 por ciento similar a otros CoV similares al SARS de los murciélagos de herradura chinos (llamados ZC45 y ZXC21). Estos hallazgos sugieren claramente que el virus se originó en los murciélagos.

Este estudio allana el camino para futuros estudios para comprender mejor el virus y sus fuentes, dijeron los investigadores. Aunque cuatro de los cinco pacientes en los que se identificó este virus estaban asociados con un mercado de mariscos en Wuhan, se desconoce el origen exacto de la infección. El CoV podría haberse transmitido a los humanos a través de un portador intermedio, como en el caso del SARS-CoV (carne de civeta de palma) o MERS-CoV (camello).

“Todos los CoV humanos son zoonóticos, y varios CoV humanos se han originado a partir de murciélagos, incluidos los CoV del SARS y MERS. Nuestro estudio muestra claramente la necesidad urgente de un monitoreo regular de la transmisión de CoVs de origen murciélago a los humanos ”, dijo Wang.

"La aparición de este virus es una amenaza masiva para la salud pública y, por lo tanto, es de vital importancia comprender la fuente de este virus y decidir los próximos pasos antes de que seamos testigos de un brote a mayor escala", agregó.

Fuente: Academia China de Ciencias Médicas, Instituto de Biología de Patógenos Foto: Shutterstock.
Descargo de responsabilidad: este artículo no refleja necesariamente las opiniones de AsianScientist o su personal.


Funciones de la proteína S

La proteína S en la superficie del virus es un factor clave involucrado en la infección. Es una glucoproteína trimérica de clase I TM responsable de la entrada viral, y está presente en todo tipo de VHC, así como en otros virus como el VIH (glucoproteína 160 del VIH, Env), virus de la influenza (hemaglutinina de la influenza, HA), paramixovirus. (paramixovirus F) y Ébola (glucoproteína del virus del Ébola) [30]. Al igual que otros coronavirus, la proteína S del SARS-CoV-2 media el reconocimiento del receptor, la unión celular y la fusión durante la infección viral [16, 20, 21, 31,32,33].

El trímero de la proteína S ubicado en la superficie de la envoltura viral es la unidad básica por la cual la proteína S se une al receptor [16, 33]. El dominio S1 contiene el RBD, que es el principal responsable de la unión del virus al receptor, mientras que el dominio S2 contiene principalmente el dominio HR, incluidos HR1 y HR2, que está estrechamente relacionado con la fusión del virus [34].

Enlace del receptor

Como se mencionó anteriormente, la proteína SARS-CoV-2 S se une a la célula huésped reconociendo el receptor ACE2 [33]. La ECA2 es un homólogo de la ECA, que convierte la angiotensina I en angiotensina 1-9 [35]. La ECA2 se distribuye principalmente en pulmón, intestino, corazón y riñón, y las células epiteliales alveolares de tipo II son las principales células de expresión [36]. El ACE2 también es un receptor conocido del SARS-CoV. La subunidad S1 de la proteína SARS-CoV S se une con ACE2 para promover la formación de endosomas, lo que desencadena la actividad de fusión viral a un pH bajo (Fig. 1a, b) [37].

La interacción entre la proteína S y ACE2 se puede utilizar para identificar huéspedes intermediarios de SARS-CoV-2, ya que ACE2 de diferentes especies, como anfibios, aves y mamíferos, tiene una estructura primaria conservada [38]. Luan y col. comparó las afinidades de unión entre ACE2 y SARS-CoV-2 S de mamíferos, aves, serpientes y tortugas y encontró que el ACE2 de Bóvidos y Cricetidae interactuó bien con SARS-CoV-2 S RBD pero que ACE2 de serpientes y tortugas no pudo.

La proteína S se une a ACE2 a través de la región RBD de la subunidad S1, mediando la unión viral a las células huésped en forma de trímero [15]. El SARS-CoV-2 S se une al ACE2 humano con una constante de disociación (KD) de 14,7 nM, aunque el de SARS-CoV S es de 325,8 nM [15], lo que indica que el SARS-CoV-2 S es más sensible a ACE2 que el SARS-CoV S. A través de la identificación de las proteínas del SARS-CoV-2, los investigadores encontraron

24% de diferencia en S entre SARS-CoV-2 y SARS-CoV, mientras que la de RBD es

Fusión viral

La fusión viral se refiere a la fusión de la membrana viral y la membrana de la célula huésped, lo que da como resultado la liberación del genoma viral en la célula huésped. La escisión de las subunidades S1 y S2 del SARS-CoV-2 es la base de la fusión. La proteína S se escinde en dos partes, la subunidad S1 y la subunidad S2, por las proteasas del huésped, y las subunidades existen en una forma no covalente hasta que se produce la fusión viral [40]. Los investigadores han descubierto que el sitio de escisión de furina específico se encuentra en el sitio de escisión del SARS-CoV-2, pero no en otros CoV similares al SARS [41, 42]. La mutación del sitio de escisión en el SARS-CoV-2 o los CoV similares al SARS ha revelado que la proteína S del SARS-CoV-2 existe en un estado no escindido, pero que las demás están principalmente en un estado escindido. El SARS-CoV-2 S tiene múltiples sitios de escisión de furina, lo que aumenta la probabilidad de ser escindido por proteasas de tipo furina y, por lo tanto, mejora su infectividad [43, 44]. El dominio de escisión similar a la furina también está presente en el virus de la influenza altamente patógena y está relacionado con su patogenicidad, como se observó en el brote de influenza aviar en Hong Kong en 1997 [45, 46]. Además, las proteasas de la célula huésped, como TMPRSS2, son esenciales para el cebado de la proteína S, y se ha demostrado que se activan en la entrada del SARS-CoV y el virus de la influenza A [18, 47, 48]. Otra proteasa de la célula huésped que se ha demostrado que escinde la proteína S viral es la tripsina [49]. En resumen, la proteína S del SARS-CoV-2 es similar a la del SARS-CoV, y las proteasas de la célula huésped son esenciales para promover la escisión de la proteína S tanto del SARS-CoV-2 como del SARS-CoV. La presencia de un sitio de división de furina específico en el SARS-CoV-2 S podría ser una de las razones por las que el SARS-CoV-2 es más contagioso que el SARS-CoV.

La formación de 6-HB es esencial para la fusión viral. El FP en el extremo N-terminal de SARS-CoV-2 y los dos dominios HR en S2 es esencial para la fusión viral [50]. Después de la escisión de la proteína S, el FP de SARS-CoV-2 queda expuesto y desencadena la fusión viral. Bajo la acción de algunos ligandos especiales, la proteína de fusión sufre un cambio conformacional y luego se inserta en la membrana de la célula huésped (Fig. 1c) [51]. Por ejemplo, el ligando del virus de la influenza A es H +, mientras que el ligando del VIH es un correceptor como CCR5 o CXCR4 [14]. La distancia entre la membrana viral y la membrana de la célula huésped se acorta y el dominio HR1 de la proteína S está muy próximo a la membrana de la célula huésped, mientras que el dominio HR2 está más cerca del lado de la membrana viral. Luego, HR2 vuelve a plegarse a HR1, los dos dominios HR forman una estructura de seis hélices en un formato antiparalelo del núcleo de fusión, la membrana viral se tira hacia la membrana de la célula huésped y se une firmemente a ella, y las dos membranas se fusionan [52 ].


Resultados

Acceso público al resultado de datos y software

En https://scholarworks.iu.edu/ con DOI 10.5967 / K8DZ06G3 se encuentra un repositorio persistente de acceso abierto de este conjunto de datos de genes porcinos anotados. El acceso al Transcriptome Shotgun Assembly es DQIR01000000 en DDBJ / EMBL / GenBank, BioProject PRJNA480168, para estas secuencias de transcripción anotadas. El conjunto de genes preliminar se encuentra en http://eugenes.org/EvidentialGene/vertebrates/pig/pig18evigene/. El paquete de software EvidentialGene está disponible en http://eugenes.org/EvidentialGene/ y en http://sourceforge.net/projects/evidentialgene/.

Los resultados del ensamblaje de genes para cada una de las 4 fuentes de datos se resumen como pig1a 11,691,549 ensamblajes reducidos a 595,497 secuencias de codificación no redundantes (5%), pig2b 3.984.284 asambleas reducidas a 404.908 (10%), pig3c 8.251.720 ensamblajes reducidos a 564.523 (7%), y pig4e, un conjunto más pequeño de ARN solo para embriones, de 1.955.018 conjuntos a 134.156 (7%). Estos 4 ensamblajes reducidos se utilizan luego en ejecuciones secundarias de SRA2Genes, comenzando con estos como transcripciones de entrada. Se realizaron experimentos secundarios como se indica en Métodos, con evaluación de homología de referencia, para asegurar que se capturan todos los homólogos válidos. Algunos modelos de genes de fragmentos se mejoraron con éxito mediante ensamblaje adicional con rnaSPAdes (16.168 o el 5% de las transcripciones finales, incluidos 1.571 loci con la mejor homología). Supplemental Archive 4 contiene scripts generados por SRA2Genes y utilizados para ensamblar, reducir, anotar y verificar muestras pig1a en el sistema de cómputo en clúster, estos también están disponibles en el repositorio scholarworks.iu.edu mencionado anteriormente.

El conjunto de genes final se resume en la Tabla 1 por categorías de cualidades genéticas y evidencias. Aquí solo se informan los genes de secuencia codificante. El número de loci retenidos incluye todos con homología medible con cuatro conjuntos de genes de especies de vertebrados relacionados, y un conjunto de no homólogos, pero expresados ​​con intrones en la estructura del gen, dos formas de evidencia genética que proporcionan un criterio confiable. El número con homología es similar al de los genes RefSeq para cerdo. Los genes de exones múltiples expresados ​​añaden 15.000 loci, lo que puede ser informativo desde el punto de vista biológico en estudios posteriores. El conjunto de genes RefSeq de cerdo tiene 63.586 transcripciones de secuencias de codificación en 20.610 loci, de los cuales 5.177 CDS en 5.056 loci tienen excepciones a la ubicación de los cromosomas (indeles, huecos y desajuste de ARN / ADN). Los genes no codificantes no se informan en este conjunto de cerdos Evigene ya que carecen de una fuerte homología de secuencia entre especies y son más difíciles de validar.