Corona Virus , Arme biologique ou non ?

Voici une étude publiée très récemment (non encore validée) qui tendrait à prouver la modification d’un Corona Virus par les laboratoires biologiques chinois.

(texte complet et en anglais après le texte traduit / Bonne lecture )

Étonnante similitude entre les inserts uniques de la protéine de pic 2019-nCoV et les gp120 et Gag du VIH-1

Prashant Pradhan, Ashutosh Kumar Pandey, Akhilesh Mishra, Parul Gupta, Praveen Kumar Tripathi, Manoj Balakrishnan Menon, James Gomes, Perumal Vivekanandan, Bishwajit Kundu
doi : https://doi.org/10.1101/2020.01.30.927871
Cet article est une prépublication et n’a pas été certifié par un examen par les pairs

Résumé

Nous assistons actuellement à une épidémie majeure causée par le nouveau coronavirus 2019 (2019-nCoV). L’évolution du 2019-nCoV reste insaisissable. Nous avons trouvé 4 insertions dans la glycoprotéine de pointe (S) qui sont uniques au 2019-nCoV et ne sont pas présentes dans les autres coronavirus. Il est important de noter que les résidus d’acides aminés dans les 4 insertions ont une identité ou une similarité avec ceux du HIV-1 gp120 ou du HIV-1 Gag. Il est intéressant de noter que, bien que les inserts soient discontinus sur la séquence primaire d’acides aminés, la modélisation 3D du 2019-nCoV suggère qu’ils convergent pour constituer le site de liaison au récepteur. La découverte de 4 inserts uniques dans le 2019-nCoV, qui ont tous une identité/similarité avec les résidus d’acides aminés dans les protéines structurelles clés du VIH-1 est peu susceptible d’être fortuite dans la nature. Ce travail fournit des informations encore inconnues sur le 2019-nCoV et éclaire l’évolution et la pathogénicité de ce virus, avec des implications importantes pour le diagnostic de ce virus.

Introduction

Les coronavirus (CoV) sont des virus à ARN simple brin à sens positif qui infectent les animaux et les humains. Ils sont classés en 4 genres en fonction de leur spécificité d’hôte : Alphacoronavirus, Betacoronavirus, Deltacoronavirus et Gammacoronavirus (Snijder et al., 2006). Il existe sept types de CoV connus, dont 229E et NL63 (genre Alphacoronavirus), OC43, HKU1, MERS et SARS (genre Betacoronavirus). Alors que le 229E, le NL63, l’OC43 et le HKU1 infectent couramment les humains, les épidémies de SRAS et de MERS de 2002 et 2012 respectivement se sont produites lorsque le virus est passé des animaux aux humains, entraînant une mortalité importante (J. Chan et al., n.d. ; J. F. W. Chan et al., 2015). En décembre 2019, une autre flambée de coronavirus a été signalée à Wuhan, en Chine, qui a également transmis des animaux à l’homme. Ce nouveau virus a été provisoirement baptisé 2019-novel Coronavirus (2019-nCoV) par l’Organisation mondiale de la santé (OMS) (J. F.-W. Chan et al., 2020 ; Zhu et al., 2020). Bien qu’il y ait plusieurs hypothèses sur l’origine du 2019-nCoV, la source de cette épidémie en cours reste insaisissable.

 

Les modes de transmission du 2019-nCoV

sont similaires aux modes de transmission documentés lors des précédentes flambées, notamment par contact corporel ou par aérosol avec des personnes infectées par le virus. Des cas de maladies légères à graves et des décès dus à l’infection ont été signalés à Wuhan. Cette épidémie s’est propagée rapidement dans des pays lointains, dont la France, l’Australie et les États-Unis, entre autres. Le nombre de cas à l’intérieur et à l’extérieur de la Chine est en forte augmentation. Notre compréhension actuelle se limite aux séquences du génome du virus et à des données épidémiologiques et cliniques modestes. Une analyse complète des séquences du CoV 2019 disponibles pourrait fournir des indices importants qui pourraient nous aider à mieux comprendre comment gérer l’épidémie actuelle.

La glycoprotéine de pointe (S) du coronavirus est divisée en deux sous-unités (S1 et S2). La sous-unité S1 contribue à la liaison des récepteurs et la sous-unité S2 facilite la fusion des membranes (Bosch et al., 2003 ; Li, 2016). Les glycoprotéines de pointe des coronovirus sont des déterminants importants du tropisme tissulaire et de la gamme d’hôtes. En outre, les glycoprotéines de pointe sont des cibles essentielles pour le développement de vaccins (Du et al., 2013). Pour cette raison, les protéines de pointe sont les plus étudiées parmi les coronavirus. Nous avons donc cherché à étudier la glycoprotéine spike du 2019-nCoV pour comprendre son évolution, la séquence des nouvelles caractéristiques et les caractéristiques structurelles à l’aide d’outils de calcul.

Méthodologie
Récupération et alignement des séquences d’acides nucléiques et de protéines

Nous avons récupéré toutes les séquences de coronavirus disponibles (n=55) dans la base de données du génome viral du NCBI (https://www.ncbi.nlm.nih.gov/) et nous avons utilisé le GISAID (Elbe & Buckland-Merrett, 2017) [https://www.gisaid.org/] pour récupérer toutes les séquences complètes disponibles (n=28) de 2019-nCoV au 27 janvier 2020. L’alignement des séquences multiples de tous les génomes de coronavirus a été effectué à l’aide du logiciel MUSCLE (Edgar, 2004) basé sur la méthode de jonction des voisins. Sur les 55 génomes de coronavirus, 32 génomes représentatifs de toutes les catégories ont été utilisés pour le développement phylogénétique des arbres à l’aide du logiciel MEGAX (Kumar et al., 2018). Le parent le plus proche s’est avéré être le CoV du SRAS. La région glycoprotéique du CoV du SRAS et du 2019-nCoV ont été alignées et visualisées à l’aide du logiciel Multalin (Corpet, 1988). Les séquences d’acides aminés et de nucléotides identifiées ont été alignées avec la base de données du génome viral entier en utilisant BLASTp et BLASTn. La conservation des motifs de nucléotides et d’acides aminés dans 28 variantes cliniques du génome du 2019-nCoV a été présentée en effectuant un alignement multiple des séquences à l’aide du logiciel MEGAX. La structure tridimensionnelle de la glycoprotéine 2019-nCoV a été générée en utilisant le serveur en ligne SWISS-MODEL (Biasini et al., 2014) et la structure a été marquée et visualisée en utilisant PyMol (DeLano, 2002).
Résultats
Étrange similitude entre les nouveaux inserts de la protéine de pic 2019-nCoV et les gp120 et Gag du VIH-1

Notre arbre phylogénétique de coronavirus en pleine longueur suggère que le 2019-nCoV est étroitement lié au CoV du SRAS [Fig1]. En outre, d’autres études récentes ont établi un lien entre le 2019-nCoV et le CoV du SRAS. Nous avons donc comparé les séquences de glycoprotéines de pointe du 2019-nCoV à celles du CoV du SRAS (numéro d’accession NCBI : AY390556.1). Après un examen minutieux de l’alignement des séquences, nous avons constaté que la glycoprotéine de pointe du 2019-nCoV contient 4 insertions [Fig.2]. Afin de déterminer si ces insertions sont présentes dans d’autres coronavirus, nous avons procédé à un alignement multiple des séquences d’acides aminés de la glycoprotéine de pointe de tous les coronavirus disponibles (n=55) [voir tableau S.File1] dans le NCBI refseq (ncbi.nlm.nih.gov) ; cela inclut une séquence de 2019-nCoV [Fig.S1]. Nous avons constaté que ces 4 insertions [insertions 1, 2, 3 et 4] sont uniques au 2019-nCoV et ne sont pas présentes dans les autres coronavirus analysés. Un autre groupe de Chine avait documenté trois insertions en comparant moins de séquences de glycoprotéines à pics des coronavirus. Un autre groupe de Chine a documenté trois insertions comparant moins de séquences de glycoprotéines à pics des coronavirus (Zhou et al., 2020).
Fig.S1

Télécharger la figureOuvrir dans un nouvel onglet

Fig.S1

Alignement de séquences multiples de glycoprotéines de la famille des coronaviridés, représentant les quatre inserts.
Figure 1 :

Télécharger la figureOuvrir dans un nouvel onglet

Figure 1 : La généalogie du maximum de vraisemblance montre l’évolution de 2019-nCoV :

L’histoire de l’évolution

a été déduite en utilisant la méthode du maximum de vraisemblance et le modèle matriciel JTT. L’arbre ayant la plus forte probabilité de logarithme (12458,88) est montré. Le ou les arbres initiaux pour la recherche heuristique ont été obtenus automatiquement en appliquant les algorithmes Neighbor-Join et BioNJ à une matrice de distances par paires estimées à l’aide d’un modèle JTT, puis en sélectionnant la topologie ayant la valeur de logarithme de probabilité la plus élevée. Cette analyse a porté sur 5 séquences d’acides aminés. Il y avait un total de 1387 positions dans l’ensemble de données final. Des analyses évolutives ont été menées dans MEGA X.
Figure 2 :

Télécharger la figureOuvrir dans un nouvel onglet

Figure 2 : Alignement de séquences multiples entre les protéines pics de 2019-nCoV et le SRAS.

Les séquences des protéines pics du 2019-nCoV (Wuhan-HU-1, accession NC_045512) et du CoV du SRAS (GZ02, accession AY390556) ont été alignées à l’aide du logiciel MultiAlin. Les sites de différence sont mis en évidence dans des encadrés.
Figure 3.

Télécharger la figureOuvrir dans un nouvel onglet

Figure 3. Glycoprotéine homo-trimère modélisée du virus 2019-nCoV.

Les inserts de la protéine d’enveloppe du VIH sont représentés par des perles colorées, présentes au site de liaison de la protéine.

Nous avons ensuite analysé toutes les séquences complètes disponibles (n=28) du 2019-nCoV dans le GISAID (Elbe & Buckland-Merrett, 2017) au 27 janvier 2020 pour détecter la présence de ces inserts. Comme la plupart de ces séquences ne sont pas annotées, nous avons comparé les séquences nucléotidiques de la glycoprotéine de pointe de toutes les séquences 2019-nCoV disponibles en utilisant BLASTp. Il est intéressant de noter que les 4 insertions ont été conservées absolument (100%) dans toutes les séquences 2019-nCoV disponibles analysées [Fig.S2, Fig.S3].
Fig.S2 :

Télécharger la figureOuvrir dans un nouvel onglet

Fig.S2 :

Les quatre inserts sont présents dans les génomes alignés du virus Wuhan 2019-nCoV, obtenus par GISAID. L’écart dans le Bat-SARS Like CoV de la dernière ligne montre que les inserts 1 et 4 sont très spécifiques au Wuhan 2019-nCoV.
Fig.S3

Télécharger la figureOuvrir dans un nouvel onglet

Fig.S3

Arbre phylogénétique de 28 isolats cliniques du génome du 2019-nCoV dont un de chauve-souris comme hôte.

Nous avons ensuite traduit le génome aligné et constaté que ces inserts sont présents dans tous les virus Wuhan 2019-nCoV, à l’exception du virus 2019-nCoV de la chauve-souris en tant qu’hôte [Fig.S4]. Intrigués par les 4 inserts hautement conservés propres au 2019-nCoV, nous avons voulu comprendre leur origine. À cette fin, nous avons utilisé l’alignement local du 2019-nCoV avec chaque insert comme une requête sur tous les génomes de virus et avons considéré les résultats avec une couverture de séquence de 100 %. Étonnamment, chacun des quatre inserts s’est aligné sur de courts segments des protéines du virus de l’immunodéficience humaine 1 (VIH-1). Les positions des acides aminés des inserts dans 2019-nCoV et les résidus correspondants dans HIV-1 gp120 et HIV-1 Gag sont indiqués dans le tableau 1. Les 3 premiers inserts (inserts 1, 2 et 3) sont alignés sur de courts segments de résidus d’acides aminés dans la gp120 du VIH-1. L’insert 4 est aligné sur le Gag du VIH-1. L’insert 1 (6 résidus d’acides aminés) et l’insert 2 (6 résidus d’acides aminés) dans la glycoprotéine de pointe de 2019-nCoV sont identiques à 100 % aux résidus cartographiés pour la gp120 de VIH-1. L’insert 3 (12 résidus d’acides aminés) du 2019-nCoV correspond à la gp120 du VIH-1 avec des lacunes [voir tableau 1]. L’insert 4 (8 résidus d’acides aminés) correspond à la gp120 du VIH-1 avec des lacunes.
Fig. 4 supplémentaire.

Télécharger la figureOuvrir dans un nouvel onglet

Complément Fig 4.

Alignement du génome de la famille des Coronaviridae. Les séquences noires surlignées sont les inserts représentés ici.

Voir en ligneVoir popup

Tableau 1 :

Séquences alignées de la protéine 2019-nCoV et gp120 du VIH-1 avec leurs positions dans la séquence primaire de la protéine. Tous les inserts ont une densité élevée de résidus chargés positivement. Les fragments supprimés dans les inserts 3 et 4 augmentent le rapport charge positive/surface. *Veuillez consulter le tableau supplémentaire 1 pour les numéros d’accession

Bien que les 4 inserts représentent de courtes étendues discontiguës d’acides aminés dans la glycoprotéine de 2019-nCoV, le fait qu’ils partagent tous les trois une identité ou une similarité d’acides aminés avec le VIH-1 gp120 et le VIH-1 Gag (parmi toutes les protéines virales annotées) suggère que ce n’est pas une découverte fortuite aléatoire. En d’autres termes, on peut sporadiquement s’attendre à une correspondance fortuite pour une étendue de 6 à 12 résidus d’acides aminés contigus dans une protéine non apparentée. Cependant, il est peu probable que les 4 inserts de la glycoprotéine du pic de 2019-nCoV correspondent fortuitement à 2 protéines structurelles clés d’un virus non apparenté (VIH-1).

Les résidus d’acides aminés des inserts 1, 2 et 3 de la glycoprotéine 2019-nCoV spike qui ont été cartographiés pour le VIH-1 faisaient partie des domaines V4, V5 et V1 respectivement dans la gp120 [Tableau 1]. Comme les inserts 2019-nCoV ont été cartographiés pour des régions variables du VIH-1, ils n’étaient pas omniprésents dans la gp120 du VIH-1, mais étaient limités à des séquences sélectionnées du VIH-1 [voir S.File1] principalement en provenance d’Asie et d’Afrique.

La protéine Gag du VIH-1 permet l’interaction du virus avec la surface de l’hôte chargée négativement (Murakami, 2008) et une charge positive élevée sur la protéine Gag est une caractéristique clé de l’interaction hôte-virus. En analysant les valeurs pI pour chacun des 4 inserts en 2019-nCoV et les étendues correspondantes de résidus d’acides aminés des protéines du VIH-1, nous avons constaté que a) les valeurs pI étaient très similaires pour chaque paire analysée b) la plupart de ces valeurs pI étaient de 10±2 [voir tableau 1]. Il est à noter que malgré les lacunes des encarts 3 et 4, les valeurs du pI étaient comparables. Cette uniformité des valeurs de l’indice pour les quatre inserts mérite d’être étudiée plus avant.

Comme aucun de ces 4 inserts n’est présent dans aucun autre coronavirus, la région génomique codant ces inserts représente des candidats idéaux pour la conception d’amorces capables de distinguer le 2019-nCoV des autres coronavirus.
Les nouveaux inserts font partie du site de liaison du récepteur du 2019-nCoV

Pour obtenir des informations structurelles et comprendre le rôle de ces insertions dans la glycoprotéine 2019-nCoV, nous avons modélisé sa structure en nous basant sur la structure disponible de la glycoprotéine de pointe du SRAS (PDB : 6ACD.1.A). La comparaison de la structure modélisée révèle que bien que les insertions 1,2 et 3 se trouvent à des endroits non contigus dans la séquence primaire de la protéine, elles se replient pour constituer la partie du site de liaison de la glycoprotéine qui reconnaît le récepteur de l’hôte (Kirchdoerfer et al., 2016) (Figure 4). L’insert 1 correspond au NTD (domaine N-terminal) et les inserts 2 et 3 correspondent au CTD (domaine C-terminal) de la sous-unité S1 de la glycoprotéine de pointe 2019-nCoV. L’insert 4 se trouve à la jonction du SD1 (sous-domaine 1) et du SD2 (sous-domaine 2) de la sous-unité S1 (Ou et al., 2017). Nous supposons que ces insertions apportent une flexibilité supplémentaire au site de liaison de la glycoprotéine en formant une boucle hydrophile dans la structure de la protéine qui peut faciliter ou améliorer les interactions virus-hôte.

Analyse de l’évolution du 2019-nCoV

Il a été avancé que le 2019-nCoV est une variante du Coronavirus dérivée d’une source animale qui a été transmise à l’homme. Compte tenu du changement de spécificité pour l’hôte, nous avons décidé d’étudier les séquences de la glycoprotéine de pointe (protéine S) du virus. Les protéines S sont des protéines de surface qui aident le virus à reconnaître l’hôte et à s’y attacher. Ainsi, une modification de ces protéines peut se traduire par un changement de la spécificité du virus pour l’hôte. Pour connaître les altérations du gène de la protéine S du 2019-nCoV et ses conséquences dans les réarrangements structurels, nous avons effectué une analyse in-sillico du 2019-nCoV par rapport à tous les autres virus. Un alignement multiple des séquences d’acides aminés de la protéine S du 2019-nCoV, de type Bat-SARS, SARS-GZ02 et MERS a révélé que la protéine S a évolué avec une diversité significative la plus proche de celle du SARS-GZ02 (Figure 1).
Insertions dans la région de la protéine Spike du 2019-nCoV

Comme la protéine S de 2019-nCoV partage l’ascendance la plus proche avec le SRAS GZ02, les séquences codant pour les protéines de pointe de ces deux virus ont été comparées à l’aide du logiciel MultiAlin. Nous avons trouvé quatre nouvelles insertions dans la protéine du 2019-nCoV- « GTNGTKR » (IS1), « HKNNKS », « HKNKR » et « HKNKR ». (IS2), « GDSSSG » (IS3) et « QTNSPRRA » (IS4) (Figure 2). À notre grande surprise, ces insertions de séquences étaient non seulement absentes dans la protéine S du SRAS, mais n’ont été observées chez aucun autre membre de la famille des Coronaviridae (Figure supplémentaire). Ceci est surprenant car il est très peu probable qu’un virus ait acquis naturellement de telles insertions uniques en peu de temps.

Les insertions présentent des similitudes avec le VIH

On a observé que les insertions étaient présentes dans toutes les séquences génomiques du virus 2019-nCoV disponibles à partir des récents isolats cliniques (Figure supplémentaire 1). Pour connaître la source de ces insertions dans le virus 2019-nCoV, un alignement local a été effectué avec BLASTp en utilisant ces insertions comme interrogation avec tout le génome du virus. De manière inattendue, toutes les insertions ont été alignées avec le virus de l’immunodéficience humaine 1 (VIH 1). Une analyse plus approfondie a révélé que les séquences alignées du VIH-1 avec le 2019-nCoV étaient dérivées de la glycoprotéine de surface gp120 (positions de la séquence d’acides aminés : 404-409, 462-467, 136-150) et de la protéine Gag (366-384 acides aminés) (Tableau 1). La protéine Gag du VIH est impliquée dans la liaison à la membrane de l’hôte, l’emballage du virus et la formation de particules semblables au virus. Gp120 joue un rôle crucial dans la reconnaissance de la cellule hôte en se liant au récepteur primaire CD4, ce qui induit des réarrangements structurels dans GP120, créant un site de liaison de haute affinité pour un co-récepteur de chimiokine comme CXCR4 et/ou CCR5.

Discussion

L’épidémie actuelle de 2019-nCoV justifie une enquête approfondie et la compréhension de sa capacité à infecter les êtres humains. En gardant à l’esprit qu’il y a eu un changement clair dans la préférence de l’hôte par rapport aux coronavirus précédents, nous avons étudié le changement de la protéine de pic entre le 2019-nCoV et d’autres virus. Nous avons trouvé quatre nouvelles insertions dans la protéine S du 2019-nCoV par rapport à son plus proche parent, le CoV du SRAS. La séquence du génome des 28 récents isolats cliniques a montré que les séquences codant pour ces insertions sont conservées parmi tous ces isolats. Cela indique que ces insertions ont été acquises de préférence par le 2019-nCoV, ce qui lui confère un avantage supplémentaire en termes de survie et d’infectiosité. En approfondissant, nous avons constaté que ces insertions étaient similaires au VIH-1. Nos résultats mettent en évidence une relation étonnante entre la gp120 et la protéine Gag du VIH, avec la glycoprotéine 2019-nCoV spike. Ces protéines sont essentielles pour que les virus puissent s’identifier et s’accrocher à leurs cellules hôtes et pour l’assemblage viral (Beniac et al., 2006). Comme les protéines de surface sont responsables du tropisme de l’hôte, les modifications de ces protéines impliquent un changement de la spécificité du virus pour l’hôte. Selon des rapports chinois, il y a eu un gain de spécificité de l’hôte dans le cas 2019-nCoV car le virus était initialement connu pour infecter les animaux et non les humains mais après les mutations, il a également gagné en tropisme pour les humains.

La modélisation en 3D de la structure de la protéine a montré que ces insertions sont présentes au site de liaison du 2019-nCoV. En raison de la présence de motifs gp120 dans le pic de glycoprotéine du 2019-nCoV au niveau de son domaine de liaison, nous proposons que ces insertions de motifs pourraient avoir fourni une affinité accrue envers les récepteurs des cellules hôtes. En outre, ce changement structurel pourrait également avoir augmenté la gamme de cellules hôtes que le 2019-nCoV peut infecter. À notre connaissance, la fonction de ces motifs n’est pas encore claire dans le VIH et doit être étudiée. L’échange de matériel génétique entre les virus est bien connu et cet échange critique met en évidence le risque et la nécessité d’étudier les relations entre des familles de virus apparemment sans lien de parenté.

Conclusions

Notre analyse de la glycoprotéine du pic de 2019-nCoV a révélé plusieurs résultats intéressants : Premièrement, nous avons identifié 4 inserts uniques dans la glycoprotéine de pointe du 2019-nCoV qui ne sont présents dans aucun autre coronavirus signalé jusqu’à présent. À notre grande surprise, les 4 inserts du 2019-nCoV ont été cartographiés comme de courts segments d’acides aminés dans le VIH-1 gp120 et Gag parmi toutes les protéines virales annotées dans la base de données NCBI. Cette étrange similitude entre les nouveaux encarts de la protéine 2019-nCoV et les protéines gp120 et Gag du VIH-1 n’est probablement pas fortuite. En outre, la modélisation 3D suggère qu’au moins trois des inserts uniques qui ne sont pas contigus dans la séquence protéique primaire de la glycoprotéine de pointe du 2019-nCoV convergent pour constituer les composants clés du site de liaison du récepteur. Il est à noter que les 4 inserts ont tous des valeurs de pI d’environ 10 qui peuvent faciliter les interactions virus-hôte. Pris ensemble, nos résultats suggèrent une évolution non conventionnelle du 2019-nCoV qui justifie des recherches plus approfondies. Nos travaux mettent en évidence de nouveaux aspects de l’évolution du 2019-nCoV et ont des implications sur la pathogénèse et le diagnostic de ce virus.

↵$ Contribution égale

Références

↵Beniac, D. R., Andonov, A., Grudeski, E. et Booth, T. F. (2006). Architecture du pic de préfusion du coronavirus du SRAS. Nature Structural and Molecular Biology, 13(8), 751-752. https://doi.org/10.1038/nsmb1123
Google Scholar
↵Biasini, M., Bienert, S., Waterhouse, A., Arnold, K., Studer, G., Schmidt, T., Kiefer, F., Cassarino, T. G., Bertoni, M., Bordoli, L. et Schwede, T. (2014). SWISS-MODEL : Modélisation de la structure tertiaire et quaternaire des protéines à l’aide d’informations évolutives. Recherche sur les acides nucléiques. https://doi.org/10.1093/nar/gku340
Google Scholar
↵Bosch, B. J., van der Zee, R., de Haan, C. A. M., & Rottier, P. J. M. (2003). The Coronavirus Spike Protein Is a Class I Virus Fusion Protein : Structural and Functional Characterization of the Fusion Core Complex. Journal of Virology, 77(16), 8801-8811. https://doi.org/10.1128/jvi.77.16.8801-8811.2003
Résumé/texte complet gratuitGoogle Scholar
↵Chan, J. F.-W., Kok, K.-H., Zhu, Z., Chu, H., To, K. K.-W., Yuan, S., & Yuen, K.-Y. (2020). Caractérisation génomique du nouveau coronavirus pathogène humain 2019 isolé chez un patient atteint de pneumonie atypique après avoir visité Wuhan. Emerging Microbes & Infections, 9(1), 221-236. https://doi.org/10.1080/22221751.2020.1719902
Google Scholar
↵Chan, J. F. W., Lau, S. K. P., To, K. K. W., Cheng, V. C. C., Woo, P. C. Y., & Yuen, K.-Y. (2015). Coronavirus du syndrome respiratoire du Moyen-Orient : Un autre bêtacoronavirus zoonotique causant une maladie semblable au SRAS. https://doi.org/10.1128/CMR.00102-14
Google Scholar
↵Chan, J., To, K., Tse, H., Jin, D., microbiologie, K. Y.-T. in, & 2013, indéfini. (n.d.). Transmission inter-espèces et émergence de nouveaux virus : les leçons tirées de l’expérience des chauves-souris et des oiseaux. Elsevier.
Google Scholar
↵Corpet, F. (1988). Alignement de séquences multiples avec regroupement hiérarchique. Recherche sur les acides nucléiques. https://doi.org/10.1093/nar/16.22.10881
Google Scholar
↵DeLano, W. L. (2002). Le système graphique moléculaire PyMOL, version 1.1. Schr{ö}dinger LLC. https://doi.org/10.1038/hr.2014.17
Google Scholar
↵Du, L., Zhao, G., Kou, Z., Ma, C., Sun, S., Poon, V. K. M., Lu, L., Wang, L., Debnath, A. K., Zheng, B.-J., Zhou, Y. et Jiang, S. (2013). Identification d’un domaine de liaison au récepteur dans la protéine S du nouveau coronavirus humain Coronavirus du syndrome respiratoire du Moyen-Orient comme cible essentielle pour le développement d’un vaccin. Journal of Virology, 87(17), 9939-9942. https://doi.org/10.1128/jvi.01048-13
Résumé/texte complet gratuitGoogle Scholar
↵Edgar, R. C. (2004). MUSCLE : Alignement de séquences multiples avec une grande précision et un débit élevé. Recherche sur les acides nucléiques. https://doi.org/10.1093/nar/gkh340
Google Scholar
↵Elbe, S., & Buckland-Merrett, G. (2017). Données, maladies et diplomatie : La contribution innovante de GISAID à la santé mondiale. Défis mondiaux. https://doi.org/10.1002/gch2.1018
Google Scholar
↵Kirchdoerfer, R. N., Cottrell, C. A., Wang, N., Pallesen, J., Yassine, H. M., Turner, H. L., Corbett, K. S., Graham, B. S., McLellan, J. S. et Ward, A. B. (2016). Structure de pré-fusion d’une protéine de pointe de coronavirus humain. Nature. https://doi.org/10.1038/nature17200
Google Scholar
↵Kumar, S., Stecher, G., Li, M., Knyaz, C. et Tamura, K. (2018). MEGA X : Analyse de la génétique de l’évolution moléculaire sur des plateformes informatiques. Biologie et évolution moléculaires. https://doi.org/10.1093/molbev/msy096
Google Scholar
↵Li, F. (2016). Structure, fonction et évolution des protéines de pointe des coronavirus. Annual Review of Virology, 3(1), 237-261. https://doi.org/10.1146/annurev-virology-110615-042301
Google Scholar
↵Murakami, T. (2008). Rôles des interactions entre les protéines Env et Gag dans le cycle de réplication du VIH-1. Microbiologie et immunologie, 52(5), 287-295. https://doi.org/10.1111/j.1348-0421.2008.00008.x

 

Uncanny similarity of unique inserts in the 2019-nCoV spike protein to HIV-1 gp120 and Gag

Prashant Pradhan, Ashutosh Kumar Pandey, Akhilesh Mishra, Parul Gupta, Praveen Kumar Tripathi, Manoj Balakrishnan Menon, James Gomes, Perumal Vivekanandan, Bishwajit Kundu

Abstract

We are currently witnessing a major epidemic caused by the 2019 novel coronavirus (2019-nCoV). The evolution of 2019-nCoV remains elusive. We found 4 insertions in the spike glycoprotein (S) which are unique to the 2019-nCoV and are not present in other coronaviruses. Importantly, amino acid residues in all the 4 inserts have identity or similarity to those in the HIV-1 gp120 or HIV-1 Gag. Interestingly, despite the inserts being discontinuous on the primary amino acid sequence, 3D-modelling of the 2019-nCoV suggests that they converge to constitute the receptor binding site. The finding of 4 unique inserts in the 2019-nCoV, all of which have identity /similarity to amino acid residues in key structural proteins of HIV-1 is unlikely to be fortuitous in nature. This work provides yet unknown insights on 2019-nCoV and sheds light on the evolution and pathogenicity of this virus with important implications for diagnosis of this virus.

Introduction

Coronaviruses (CoV) are single-stranded positive-sense RNA viruses that infect animals and humans. These are classified into 4 genera based on their host specificity: Alphacoronavirus, Betacoronavirus, Deltacoronavirus and Gammacoronavirus (Snijder et al., 2006). There are seven known types of CoVs that includes 229E and NL63 (Genus Alphacoronavirus), OC43, HKU1, MERS and SARS (Genus Betacoronavirus). While 229E, NL63, OC43, and HKU1 commonly infect humans, the SARS and MERS outbreak in 2002 and 2012 respectively occurred when the virus crossed-over from animals to humans causing significant mortality (J. Chan et al., n.d.; J. F. W. Chan et al., 2015). In December 2019, another outbreak of coronavirus was reported from Wuhan, China that also transmitted from animals to humans. This new virus has been temporarily termed as 2019-novel Coronavirus (2019-nCoV) by the World Health Organization (WHO) (J. F.-W. Chan et al., 2020; Zhu et al., 2020). While there are several hypotheses about the origin of 2019-nCoV, the source of this ongoing outbreak remains elusive.

The transmission patterns of 2019-nCoV is similar to patterns of transmission documented in the previous outbreaks including by bodily or aerosol contact with persons infected with the virus. Cases of mild to severe illness, and death from the infection have been reported from Wuhan. This outbreak has spread rapidly distant nations including France, Australia and USA among others. The number of cases within and outside China are increasing steeply. Our current understanding is limited to the virus genome sequences and modest epidemiological and clinical data. Comprehensive analysis of the available 2019-nCoV sequences may provide important clues that may help advance our current understanding to manage the ongoing outbreak.

The spike glycoprotein (S) of cornonavirus is cleaved into two subunits (S1 and S2). The S1 subunit helps in receptor binding and the S2 subunit facilitates membrane fusion (Bosch et al., 2003; Li, 2016). The spike glycoproteins of coronoviruses are important determinants of tissue tropism and host range. In addition the spike glycoproteins are critical targets for vaccine development (Du et al., 2013). For this reason, the spike proteins represent the most extensively studied among coronaviruses. We therefore sought to investigate the spike glycoprotein of the 2019-nCoV to understand its evolution, novel features sequence and structural features using computational tools.

Methodology

Retrieval and alignment of nucleic acid and protein sequences

We retrieved all the available coronavirus sequences (n=55) from NCBI viral genome database (https://www.ncbi.nlm.nih.gov/) and we used the GISAID (Elbe & Buckland-Merrett, 2017)[https://www.gisaid.org/] to retrieve all available full-length sequences (n=28) of 2019-nCoV as on 27 Jan 2020. Multiple sequence alignment of all coronavirus genomes was performed by using MUSCLE software (Edgar, 2004) based on neighbour joining method. Out of 55 coronavirus genome 32 representative genomes of all category were used for phylogenetic tree development using MEGAX software (Kumar et al., 2018). The closest relative was found to be SARS CoV. The glycoprotein region of SARS CoV and 2019-nCoV were aligned and visualized using Multalin software (Corpet, 1988). The identified amino acid and nucleotide sequence were aligned with whole viral genome database using BLASTp and BLASTn. The conservation of the nucleotide and amino acid motifs in 28 clinical variants of 2019-nCoV genome were presented by performing multiple sequence alignment using MEGAX software. The three dimensional structure of 2019-nCoV glycoprotein was generated by using SWISS-MODEL online server (Biasini et al., 2014) and the structure was marked and visualized by using PyMol (DeLano, 2002).

Results

Uncanny similarity of novel inserts in the 2019-nCoV spike protein to HIV-1 gp120 and Gag

Our phylogentic tree of full-length coronaviruses suggests that 2019-nCoV is closely related to SARS CoV [Fig1]. In addition, other recent studies have linked the 2019-nCoV to SARS CoV. We therefore compared the spike glycoprotein sequences of the 2019-nCoV to that of the SARS CoV (NCBI Accession number: AY390556.1). On careful examination of the sequence alignment we found that the 2019-nCoV spike glycoprotein contains 4 insertions [Fig.2]. To further investigate if these inserts are present in any other corona virus, we performed a multiple sequence alignment of the spike glycoprotein amino acid sequences of all available coronaviruses (n=55) [refer Table S.File1] in NCBI refseq (ncbi.nlm.nih.gov) this includes one sequence of 2019-nCoV[Fig.S1]. We found that these 4 insertions [inserts 1, 2, 3 and 4] are unique to 2019-nCoV and are not present in other coronaviruses analyzed. Another group from China had documented three insertions comparing fewer spike glycoprotein sequences of coronaviruses. Another group from China had documented three insertions comparing fewer spike glycoprotein sequences of coronaviruses (Zhou et al., 2020).

Fig.S1

Multiple sequence alignment of glycoprotein of coronaviridae family, representing all the four inserts.

Figure 1: Maximum likelihood genealogy show the evolution of 2019-nCoV:

The evolutionary history was inferred by using the Maximum Likelihood method and JTT matrix-based model. The tree with the highest log likelihood (12458.88) is shown. Initial tree(s) for the heuristic search were obtained automatically by applying Neighbor-Join and BioNJ algorithms to a matrix of pairwise distances estimated using a JTT model, and then selecting the topology with superior log likelihood value. This analysis involved 5 amino acid sequences. There were a total of 1387 positions in the final dataset. Evolutionary analyses were conducted in MEGA X.

Figure 2: Multiple sequence alignment between spike proteins of 2019-nCoV and SARS.

The sequences of spike proteins of 2019-nCoV (Wuhan-HU-1, Accession NC_045512) and of SARS CoV (GZ02, Accession AY390556) were aligned using MultiAlin software. The sites of difference are highlighted in boxes.

Figure 3. Modelled homo-trimer spike glycoprotein of 2019-nCoV virus.

The inserts from HIV envelop protein are shown with colored beads, present at the binding site of the protein.

We then analyzed all available full-length sequences (n=28) of 2019-nCoV in GISAID (Elbe & Buckland-Merrett, 2017) as on January 27, 2020 for the presence of these inserts. As most of these sequences are not annotated, we compared the nucleotide sequences of the spike glycoprotein of all available 2019-nCoV sequences using BLASTp. Interestingly, all the 4 insertions were absolutely (100%) conserved in all the available 2019-nCoV sequences analyzed [Fig.S2, Fig.S3].

Fig.S2:

All four inserts are present in the aligned 28 Wuhan 2019-nCoV virus genomes obtained from GISAID. The gap in the Bat-SARS Like CoV in the last row shows that insert 1 and 4 is very unique to Wuhan 2019-nCoV.

Fig.S3

Phylogenetic tree of 28 clinical isolates genome of 2019-nCoV including one from bat as a host.

We then translated the aligned genome and found that these inserts are present in all Wuhan 2019-nCoV viruses except the 2019-nCoV virus of Bat as a host [Fig.S4]. Intrigued by the 4 highly conserved inserts unique to 2019-nCoV we wanted to understand their origin. For this purpose, we used the 2019-nCoV local alignment with each insert as query against all virus genomes and considered hits with 100% sequence coverage. Surprisingly, each of the four inserts aligned with short segments of the Human immunodeficiency Virus-1 (HIV-1) proteins. The amino acid positions of the inserts in 2019-nCoV and the corresponding residues in HIV-1 gp120 and HIV-1 Gag are shown in Table 1. The first 3 inserts (insert 1,2 and 3) aligned to short segments of amino acid residues in HIV-1 gp120. The insert 4 aligned to HIV-1 Gag. The insert 1 (6 amino acid residues) and insert 2 (6 amino acid residues) in the spike glycoprotein of 2019-nCoV are 100% identical to the residues mapped to HIV-1 gp120. The insert 3 (12 amino acid residues) in 2019-nCoV maps to HIV-1 gp120 with gaps [see Table 1]. The insert 4 (8 amino acid residues) maps to HIV-1 Gag with gaps.

Supplementary Fig 4.

Genome alingment of Coronaviridae family. Highlighted black sequences are the inserts represented here.

Table 1:

Aligned sequences of 2019-nCoV and gp120 protein of HIV-1 with their positions in primary sequence of protein. All the inserts have a high density of positively charged residues. The deleted fragments in insert 3 and 4 increase the positive charge to surface area ratio. *please see Supp. Table 1 for accession numbers

Although, the 4 inserts represent discontiguous short stretches of amino acids in spike glycoprotein of 2019-nCoV, the fact that all three of them share amino acid identity or similarity with HIV-1 gp120 and HIV-1 Gag (among all annotated virus proteins) suggests that this is not a random fortuitous finding. In other words, one may sporadically expect a fortuitous match for a stretch of 6-12 contiguous amino acid residues in an unrelated protein. However, it is unlikely that all 4 inserts in the 2019-nCoV spike glycoprotein fortuitously match with 2 key structural proteins of an unrelated virus (HIV-1).

The amino acid residues of inserts 1, 2 and 3 of 2019-nCoV spike glycoprotein that mapped to HIV-1 were a part of the V4, V5 and V1 domains respectively in gp120 [Table 1]. Since the 2019-nCoV inserts mapped to variable regions of HIV-1, they were not ubiquitous in HIV-1 gp120, but were limited to selected sequences of HIV-1 [refer S.File1] primarily from Asia and Africa.

The HIV-1 Gag protein enables interaction of virus with negatively charged host surface (Murakami, 2008) and a high positive charge on the Gag protein is a key feature for the host-virus interaction. On analyzing the pI values for each of the 4 inserts in 2019-nCoV and the corresponding stretches of amino acid residues from HIV-1 proteins we found that a) the pI values were very similar for each pair analyzed b) most of these pI values were 10±2 [Refer Table 1]. Of note, despite the gaps in inserts 3 and 4 the pI values were comparable. This uniformity in the pI values for all the 4 inserts merits further investigation.

As none of these 4 inserts are present in any other coronavirus, the genomic region encoding these inserts represent ideal candidates for designing primers that can distinguish 2019-nCoV from other coronaviruses.

The novel inserts are part of the receptor binding site of 2019-nCoV

To get structural insights and to understand the role of these insertions in 2019-nCoV glycoprotein, we modelled its structure based on available structure of SARS spike glycoprotein (PDB: 6ACD.1.A). The comparison of the modelled structure reveals that although inserts 1,2 and 3 are at non-contiguous locations in the protein primary sequence, they fold to constitute the part of glycoprotein binding site that recognizes the host receptor (Kirchdoerfer et al., 2016) (Figure 4). The insert 1 corresponds to the NTD (N-terminal domain) and the inserts 2 and 3 correspond to the CTD (C-terminal domain) of the S1 subunit in the 2019-nCoV spike glycoprotein. The insert 4 is at the junction of the SD1 (sub domain 1) and SD2 (sub domain 2) of the S1 subunit (Ou et al., 2017). We speculate, that these insertions provide additional flexibility to the glycoprotein binding site by forming a hydrophilic loop in the protein structure that may facilitate or enhance virus-host interactions.

Evolutionary Analysis of 2019-nCoV

It has been speculated that 2019-nCoV is a variant of Coronavirus derived from an animal source which got transmitted to humans. Considering the change of specificity for host, we decided to study the sequences of spike glycoprotein (S protein) of the virus. S proteins are surface proteins that help the virus in host recognition and attachment. Thus, a change in these proteins can be reflected as a change of host specificity of the virus. To know the alterations in S protein gene of 2019-nCoV and its consequences in structural re-arrangements we performed in-sillico analysis of 2019-nCoV with respect to all other viruses. A multiple sequence alignment between the S protein amino acid sequences of 2019-nCoV, Bat-SARS-Like, SARS-GZ02 and MERS revealed that S protein has evolved with closest significant diversity from the SARS-GZ02 (Figure 1).

Insertions in Spike protein region of 2019-nCoV

Since the S protein of 2019-nCoV shares closest ancestry with SARS GZ02, the sequence coding for spike proteins of these two viruses were compared using MultiAlin software. We found four new insertions in the protein of 2019-nCoV- “GTNGTKR” (IS1), “HKNNKS” (IS2), “GDSSSG” (IS3) and “QTNSPRRA” (IS4) (Figure 2). To our surprise, these sequence insertions were not only absent in S protein of SARS but were also not observed in any other member of the Coronaviridae family (Supplementary figure). This is startling as it is quite unlikely for a virus to have acquired such unique insertions naturally in a short duration of time.

Insertions share similarity to HIV

The insertions were observed to be present in all the genomic sequences of 2019-nCoV virus available from the recent clinical isolates (Supplementary Figure 1). To know the source of these insertions in 2019-nCoV a local alignment was done with BLASTp using these insertions as query with all virus genome. Unexpectedly, all the insertions got aligned with Human immunodeficiency Virus-1 (HIV-1). Further analysis revealed that aligned sequences of HIV-1 with 2019-nCoV were derived from surface glycoprotein gp120 (amino acid sequence positions: 404-409, 462-467, 136-150) and from Gag protein (366-384 amino acid) (Table 1). Gag protein of HIV is involved in host membrane binding, packaging of the virus and for the formation of virus-like particles. Gp120 plays crucial role in recognizing the host cell by binding to the primary receptor CD4.This binding induces structural rearrangements in GP120, creating a high affinity binding site for a chemokine co-receptor like CXCR4 and/or CCR5.

Discussion

The current outbreak of 2019-nCoV warrants a thorough investigation and understanding of its ability to infect human beings. Keeping in mind that there has been a clear change in the preference of host from previous coronaviruses to this virus, we studied the change in spike protein between 2019-nCoV and other viruses. We found four new insertions in the S protein of 2019-nCoV when compared to its nearest relative, SARS CoV. The genome sequence from the recent 28 clinical isolates showed that the sequence coding for these insertions are conserved amongst all these isolates. This indicates that these insertions have been preferably acquired by the 2019-nCoV, providing it with additional survival and infectivity advantage. Delving deeper we found that these insertions were similar to HIV-1. Our results highlight an astonishing relation between the gp120 and Gag protein of HIV, with 2019-nCoV spike glycoprotein. These proteins are critical for the viruses to identify and latch on to their host cells and for viral assembly (Beniac et al., 2006). Since surface proteins are responsible for host tropism, changes in these proteins imply a change in host specificity of the virus. According to reports from China, there has been a gain of host specificity in case 2019-nCoV as the virus was originally known to infect animals and not humans but after the mutations, it has gained tropism to humans as well.

Moving ahead, 3D modelling of the protein structure displayed that these insertions are present at the binding site of 2019-nCoV. Due to the presence of gp120 motifs in 2019-nCoV spike glycoprotein at its binding domain, we propose that these motif insertions could have provided an enhanced affinity towards host cell receptors. Further, this structural change might have also increased the range of host cells that 2019-nCoV can infect. To the best of our knowledge, the function of these motifs is still not clear in HIV and need to be explored. The exchange of genetic material among the viruses is well known and such critical exchange highlights the risk and the need to investigate the relations between seemingly unrelated virus families.

Conclusions

Our analysis of the spike glycoprotein of 2019-nCoV revealed several interesting findings: First, we identified 4 unique inserts in the 2019-nCoV spike glycoprotein that are not present in any other coronavirus reported till date. To our surprise, all the 4 inserts in the 2019-nCoV mapped to short segments of amino acids in the HIV-1 gp120 and Gag among all annotated virus proteins in the NCBI database. This uncanny similarity of novel inserts in the 2019-nCoV spike protein to HIV-1 gp120 and Gag is unlikely to be fortuitous. Further, 3D modelling suggests that atleast 3 of the unique inserts which are non-contiguous in the primary protein sequence of the 2019-nCoV spike glycoprotein converge to constitute the key components of the receptor binding site. Of note, all the 4 inserts have pI values of around 10 that may facilitate virus-host interactions. Taken together, our findings suggest unconventional evolution of 2019-nCoV that warrants further investigation. Our work highlights novel evolutionary aspects of the 2019-nCoV and has implications on the pathogenesis and diagnosis of this virus.

Footnotes

  • $ Equal contribution

References

 

Votre commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l’aide de votre compte WordPress.com. Déconnexion /  Changer )

Photo Google

Vous commentez à l’aide de votre compte Google. Déconnexion /  Changer )

Image Twitter

Vous commentez à l’aide de votre compte Twitter. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l’aide de votre compte Facebook. Déconnexion /  Changer )

Connexion à %s