معلومة

إمكانية الوصول إلى المذيبات ، طريقة القطع بنسبة 20٪

إمكانية الوصول إلى المذيبات ، طريقة القطع بنسبة 20٪


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

أنا أقرأ الأوراق المرتبطة أدناه وقد ذكر الثلاثة منهم حدًا بنسبة 20٪ للمخلفات المدفونة / المكشوفة ، من خلال حساب القيمة النسبية لإمكانية الوصول إلى المذيبات (RSA).

أفهم كيف يتم حساب RSA ، من خلال قسمة إمكانية الوصول إلى المذيبات المحسوبة مقابل إجمالي قيم إمكانية الوصول إلى المذيبات من الورقة 4 ، الجدول 2.

RSA = محسوب / إجمالي

على سبيل المثال إذا تم حساب الأرجينين على أنه يحتوي على إمكانية وصول مذيب تبلغ 55.43 وإجمالي إمكانية الوصول إلى المذيب هو 241 ، فإن RSA = 55.43 / 241 = 23٪ ، لذلك يعتبر هذا الأرجينين مكشوفًا (انظر البيان 1 أدناه).

ما يتركني في حيرة من أمري هو تعريف أو عدم وجود طريقة 20٪ لتحديد بقايا مكشوفة أو مدفونة.

أفترض أن ذلك يعني أحد الأمور التالية:

  1. إذا كان RSA من الأحماض الأمينية أقل من 20٪ فإنه مدفون وأكثر من 20٪ يتعرض. لذلك بالنسبة للحمض الأميني الذي يحتوي على RSA بنسبة 21٪ يعتبر مكشوفًا ، تبدو هذه القيمة منخفضة قليلاً بالنسبة لي. أعتقد أن العبارة 2 ستكون منطقية.

  2. إذا كان RSA من الأحماض الأمينية أقل من 20٪ فإنه مدفون وأكثر من 80٪ يتعرض.

أي عبارة ، إن وجدت ، صحيحة؟

الورقة 1 - انظر قسم الطرق ، الفقرة الأولى

ورقة 2 - انظر الشكل 5 والجدول 3

الورقة 3 - انظر الملخص ومجموعة البيانات

ورقة 4 - انظر الجدول 2 للقيم الإجمالية


1. أدناه القطع ، مدفون، فوق القطع يمكن الوصول.

الورقة 1: "تم استخدام حد 20٪ لتحديد الحالتين ، مدفونين أو مكشوفين. باستخدام هذا التعريف ، تم تقسيم مجموعة البيانات ، تقريبًا ، بالتساوي بين دولتين."

هناك حالتان فقط ممكنتان: يمكن الوصول إلى المذيب ودفنه.

الورقة 2: "تُعرَّف بقايا معينة على أنها مكشوفة (هـ) إذا كان RSA الخاص به أكبر من قيمة القطع ، وبخلاف ذلك يتم تعريفه على أنه مدفون (ب)."

الملخص للورقة 3: حد 20٪ للورقة دولتين تعريف سهولة الوصول إلى المذيبات.

إذا كان التعريف رقم 2 فسيكون تعريفًا من ثلاث حالات.

الورقة 4: "في المتوسط ​​، يمكن تصنيف 15٪ من المخلفات في البروتينات الصغيرة و 32٪ في البروتينات الأكبر حجمًا على أنها" مخلفات مدفونة "، حيث يمكن الوصول إلى المذيب بنسبة أقل من 5٪ من سطحها ..."

تستخدم هذه الورقة ، التي أعدها عميد التحليل الإنشائي سايروس شوثيا ، حد القطع بنسبة 5٪ ، وليس 20٪ ...

يمضي الملخص ليقول ... "إن إمكانيات الوصول لمعظم المخلفات الأخرى موزعة بالتساوي في النطاق من 5 إلى 50٪."

يشير هذا المقطع إلى أن SA لا ترتفع حتى 80٪. فقط ضع في اعتبارك أنك غالبًا لن تحصل على أكثر من 60٪ باستخدام هذا الحساب. أنا مجرد تخمين؛ لكن الفكرة هي أنه ما لم تكن عند نهاية البروتين ، والذي غالبًا ما يكون مضطربًا ولا يظهر في بنية بلورية ، سيكون لديك نوعان من الأحماض الأمينية المجاورة لكل بقايا - فقط المنطقة التي يمكن الوصول إليها بالمذيب التي يتم تناولها بواسطة يمكن بسهولة أن يكون الاتصال مع الجيران 20٪ من الإجمالي.


هل أنت متأكد من أن صيغة RSA صحيحة؟ لقد وجدت وصفًا مختلفًا : عادةً ما يتم اشتقاق فئات إمكانية الوصول إلى المذيبات النسبية من برنامج DSSP عن طريق تطبيعها بالقيمة القصوى لمساحة السطح المكشوفة التي يمكن الحصول عليها لكل بقايا. مكشوف) أو فئات ثلاثية (مدفون أو مكشوف جزئيًا أو مكشوف).

بولاستري ، ج ، بالدي ، ب ، فارسيلي ، ب ، وكاساديو ، ر. (2002). توقع رقم التنسيق وإمكانية الوصول إلى المذيبات النسبية في البروتينات. البروتينات: التركيب والوظيفة والمعلوماتية الحيوية ، 47 (2) ، 142-153.


التنبؤ بإمكانية الوصول إلى مذيبات البروتين باستخدام آلات ناقلات الدعم

تم تدريب نظام التعلم الآلي المتجه للدعم للتنبؤ بإمكانية الوصول إلى مذيب البروتين من الهيكل الأساسي. تم استكشاف وظائف kernel المختلفة وأحجام النوافذ المنزلقة لمعرفة كيفية تأثيرها على أداء التنبؤ. باستخدام حد قطع قدره 15٪ يقسم مجموعة البيانات بالتساوي (عدد متساوٍ من المخلفات المكشوفة والمدفونة) ، تمكنت هذه الطريقة من تحقيق دقة تنبؤ تبلغ 70.1٪ لإدخال تسلسل واحد و 73.9٪ لإدخال تسلسل المحاذاة المتعددة ، على التوالى. تم أيضًا دراسة التنبؤ بثلاث حالات أو أكثر لإمكانية الوصول إلى المذيبات ومقارنتها بالطرق الأخرى. دقة التنبؤ أفضل من تلك التي تم الحصول عليها بطرق أخرى مثل الشبكات العصبية ، وتصنيف بايزي ، والانحدار الخطي المتعدد ، ونظرية المعلومات ، أو يمكن مقارنتها. بالإضافة إلى ذلك ، تشير نتائجنا أيضًا إلى أنه يمكن دمج هذا النظام مع طرق التنبؤ الأخرى لتحقيق نتائج أكثر موثوقية ، وأن طريقة Support Vector Machine هي أداة مفيدة للغاية لتحليل التسلسل البيولوجي.


مقدمة

يشير التناظر إلى مجموعة من الأحرف في تسلسل يقرأ نفس الشيء في كلا الاتجاهين. توجد Palindromes في تسلسل الحمض النووي والبروتين. ما يقرب من 30 ٪ من البقايا في البروتين هي أعضاء في متناظرات الببتيد ، ثلاثي الببتيد وأطول [1]. Palindromes التي يتجاوز طولها 10 بقايا ليست نادرة [2]. مع انخفاض طول التسلسل المتناظر ، من المعروف أن عددًا أكبر من المتناظرات يحدث في البروتينات [3]. 26٪ متواليات بروتينية في قاعدة بيانات SwissProt تشتمل على تكرار متناوب واحد على الأقل [4]. تميل متواليات Palindrome بشكل كبير إلى تشكيل & # x003b1-helices [5]. بشكل عام ، أدوار التناظر في البروتين غير واضحة.

في هذه الدراسة ، قمنا بتحليل تسلسل معين وخصائص هيكلية مرتبطة بالبروتينات المتناظرة في البروتينات ، مثل احتمال حدوث بقايا الأحماض الأمينية في المواضع الفردية في متواليات متناظرة بطول معين ، وتشكل البنية الثانوية ، والكاره للماء ، وإمكانية الوصول إلى المذيبات ، وحي البقايا. التلامس والتفاعل مع الموقع التحفيزي أو بقايا الموقع النشط أو الترابط أو المعدن في البروتينات وتحديد عائلات البروتين التي تتكون منها المتجانسات. نناقش هذه الميزات لخماسي الببتيد والمتناظر الكبير المحدد في بروتينات تمثيلية لهيكل ثلاثي الأبعاد معروف. علاوة على ذلك ، نقوم بفحص بعض الأمثلة التوضيحية ، & # x02018environment & # x02019 من المتناظرات التي تتميز بنفس الطول والتسلسل والبنية الثانوية في البروتينات المختلفة.


نتائج

مجموعة بيانات الهياكل المقيدة وغير المنضمة

تتكون مجموعة البيانات من 126 مركبًا من بروتينات الحمض النووي الريبي التي يتوفر لها على الأقل شريك واحد متفاعل في شكل غير منضم. من بين هذه المجمعات الـ 126 ، يوجد 28 في الفئة A و 5 في الفئة B و 40 في الفئة C و 53 في الفئة D (راجع قسم المواد والطرق والجدول التكميلي S1). بناءً على توفرها في شكل غير منضم ، نجد 21 من P.يوصيو النوع ، حيث يتوفر كل من البروتين والحمض النووي الريبي في شكل غير منضم ، 95 من P.يوصب النوع ، حيث يتوفر البروتين فقط في شكل غير منضم ، و 10 من P.بصيو النوع ، حيث يتوفر الحمض النووي الريبي فقط في شكل غير منضم (الجدول 1). تكشف المحاذاة المحلية لسلاسل البولي ببتيد بين الهياكل غير المنضمة والمنضمة (U / B) أن 93 من أصل 116 لها هوية تسلسلية & gt 98٪ ، بينما الباقي لها قيم بين 90٪ و 98٪. من ناحية أخرى ، فإن هوية التسلسل لـ 20 من أصل 31 زوجًا U / B من polynucleotides لها قيم & gt 98٪ والباقي لها قيم بين 90٪ و 98٪. لقد تجاهلنا 896 (

6.7٪) نيوكليوتيدات في مجموعة البيانات بأكملها بسبب عدم تطابق المحاذاة بين أزواج U / B.

تغيير في إمكانية الوصول في واجهات البروتين RNA

التغيير العام في إمكانية الوصول عند الربط هو تأثير تراكمي للعديد من عمليات إعادة الترتيب المطابقة المحلية. تتكشف بعض المخلفات عن طريق دفن الآخرين أو العكس. تم حساب التغيير في إمكانية الوصول إلى ذرات الواجهة عند الربط من خلال مقارنة قيم SASA في حالات مرتبطة وغير مرتبطة. في المتوسط ​​، تكتسب RBPs 120.5 2 من إمكانية الوصول إلى المذيبات في الواجهة عند الارتباط بـ RNA (الجدول 1). نجد في 92 حالة من أصل 116 حالة ، تكتسب منطقة واجهة RBPs إمكانية الوصول عند الارتباط بمتوسط ​​ ( delta _

^ < mathrm> ) (راجع قسم المواد والطرق) من 172.0 Å 2. في الحالات الـ 24 المتبقية ، تغيرات إيجابية في ( delta _

^ < mathrm> ) بمتوسط ​​77.2 Å 2 ، مما يشير إلى فقدان إمكانية الوصول في الواجهة. في المتوسط ​​، تكتسب منطقة واجهة RNAs 92.5 Å 2 من إمكانية الوصول إلى المذيبات عند الارتباط بـ RBPs. الغالبية منهم 80٪ (25 من 31) تظهر سلبية ( دلتا _^ < mathrm> ) بمتوسط ​​144.1 Å 2 (الجدول 1). تُظهر التغييرات المتبقية ، 20٪ فقط ، تغييرات إيجابية بمتوسط ​​122.7 Å 2 ، مما يشير إلى فقدان إمكانية الوصول.

توزيع التغيير في إمكانية الوصول في RBPs و RNAs عند الربط. (أ) العلاقة بين | ∆Aص| و | ∆ أص| في واجهات البروتين RNA لـ 21 حالة UU. يتم عرض الفئات المختلفة للمجمعات برموز مختلفة. توزيعات δA في 116 RBPs و 31 RNAs في بروتين RNA (ب) واجهة و (ج) مناطق غير واجهة.

تغيير في إمكانية الوصول في المنطقة التي لا توجد بها واجهة

لقد قدرنا التغيير في إمكانية الوصول إلى بقايا الأحماض الأمينية والنيوكليوتيدات في المنطقة التي لا تحتوي على واجهة. هنا ، متوسط ​​التغيير في إمكانية الوصول إلى RBPs هو 3.4 2 فقط (الجدول 1) ، وهو أقل بكثير من منطقة الواجهة. في مجموعة البيانات بأكملها ، تُظهر 50٪ RBPs تغييرات سلبية بمتوسط ​​−24.6 Å 2 ، وتظهر 50٪ تغييرات إيجابية بمتوسط ​​30.4 Å 2. في المنطقة غير السطحية لـ RNA ، يبلغ متوسط ​​التغيير في إمكانية الوصول 40.3 × 2. في مجموعة البيانات بأكملها ، تفقد غالبية (71٪) من الحمض النووي الريبي إمكانية الوصول عند الارتباط بمتوسط ​​ ( دلتا _^ > < rm> < rm> < rm>> ) من 67.3 Å 2. تسعة فقط من الحمض النووي الريبي (29٪) تظهر تغيرات سلبية بمتوسط ​​25.6 2.

تم حساب توزيع δA في السلسلة الرئيسية والسلسلة الجانبية على 116 RBPs (أ)، وفي الفوسفات والسكر والقواعد محسوبة على 31 RNAs (ب). يتم تقديم القيم المتوسطة للأسطح المدفونة (Bu) والمكشوفة (Ex) في الواجهة وفي المناطق التي لا تحتوي على واجهة لفئات مختلفة من المجمعات.

تأثير التغيير التوافقي على إمكانية الوصول

يتم تقدير التغييرات المطابقة بين الأشكال غير المنضمة والملزمة من حيث أنا-rmsd ، وهو جذر متوسط ​​الانحراف التربيعي للواجهة C.α و P من الأحماض الأمينية والنيوكليوتيدات على التوالي. بناءً على درجة التغييرات التوافقية ، يمكن تصنيف ارتباط البروتين والحمض النووي الريبي إلى جسم صلب (أنا-rmsd & lt 1.5 Å) ، شبه مرنة (أنا -rmsd ضمن 1.5 Å إلى 3.0 Å) ومرن بالكامل (أنا-rmsd & GT 3.0 Å) 11،13. على الرغم من أننا وجدنا متوسط ​​التغيير في ( delta _

^ < mathrm> ) هو 96 Å 2 و 100.4 Å 2 للارتباطات الصلبة وشبه المرنة ، على التوالي ، التغيير أعلى بكثير (−248 Å 2) للربط المرن الكامل. نجد ارتباطًا متوسطًا (R = 0.6) بين ( دلتا _

^ < mathrm> ) و أنا-رمسد. إلى جانب ذلك ، نجد أيضًا أن التغيير في إمكانية الوصول إلى الواجهة يساهم بشكل كبير في توافق السلسلة الجانبية (الشكل 2 أ) ، والذي يتم تجاهله في أناحساب -rmsd. يمكن تمثيل ذلك في الشكل 3 أ ، ب ، حيث يخضع نوكلياز الحمض النووي الريبي (tRNA) للربط الداخلي لجسم صلب (أنا-rmsd هو 1.0 Å) ، ومع ذلك ، تظهر واجهته تغييرًا كبيرًا في إمكانية الوصول ( ( delta _

^ < mathrm> ) هو −410.7 Å 2) عند الارتباط بشريكه RNA. هنا السلسلة الجانبية ( ( دلتا _

^ < mathrm> ) هو −356 Å 2) يفسر التغيير الكبير في إمكانية الوصول عن سلسلته الرئيسية ( ( دلتا _

^ < mathrm> ) هو −54.6 Å 2). يتم أيضًا ملاحظة أمثلة العداد ، حيث لا يرتبط التغيير الصغير في إمكانية الوصول إلى الواجهة بالارتفاع أناقيم -rmsd. يتجلى ذلك في بروتين الريبوسوم L1 ، الذي يخضع لتغييرات توافقية كبيرة (أنا-rmsd هو 5.1 Å) عند الارتباط بشريكه RNA على الرغم من أن التغيير في إمكانية الوصول هو فقط 2.2 Å 2. المجالات N- و C- المحطة L1 مرتبطة بحلقة قصيرة وطويلة (الشكل 3C). في الشكل غير المنضم ، تكون مساحة السطح المدفونة بين هذين المجالين صغيرة جدًا. عند الارتباط بـ RNA ، تعمل الحلقة الطويلة كمفصلة وتحرك كلا المجالين بعيدًا عن بعضهما البعض لتسهيل ارتباط RNA. حركة المجال هذه تؤدي إلى أعلى أنا-rmsd دون التأثير على التغيير العام في إمكانية الوصول. وبالمثل ، يمكن أيضًا أن تُعزى التغييرات في إمكانية الوصول إلى العمود الفقري وكذلك إلى التغييرات المطابقة للسكر وقواعد الحمض النووي الريبي. على سبيل المثال، ه. القولونية يؤدي البروتين الشبيه بالرأس (ERA) ، الذي يعمل كوصيف لطي ونضج 16S rRNA ، إلى إحداث تغيير كبير في التوافقية في 12 نيوكليوتيدات طويلة 3′ نهاية من 16 S rRNA. يتبنى RNA بنية تشبه Z عند الارتباط بمجال KH لـ ERA 14 ، والمقدر ( delta _^ < mathrm> ) يساوي −311.7 Å 2. يغير U الثاني من الطرف 5′ من تسلسل 12 نيوكليوتيدات تشكيل القاعدة (مضاد للمزامنة) وتجعد السكر (C2′-endo-to-C3′-endo) ، ويساهم −96.5 Å 2 تغيير في إمكانية الوصول (الشكل ثلاثي الأبعاد).

تغيير في إمكانية الوصول على التغيير التوافقي المحلي والعالمي. (أ) تراكيب متراكبة من نوكلياز الحمض النووي الريبي (RNA) في الربط 42 (باللون البرتقالي ، معرف PDB: 2GJW) وفي مطابقة 43 غير منضمة (باللون السماوي ، معرف PDB: 1R0V) مع RNA (كما هو موضح باللون الرمادي). يتم عرض شطيرة أرج-نوكليوتيد-أرج في موقع انقسام النيوكلياز. يتم وضع علامة على كل من Arg وعرضها في العصا. يسمح التغيير في شكل R302 لـ A13 (باللون الأزرق) بالظهور في جيب نوكلياز داخلي ومكدس بواسطة Arg. (ب) منظر علوي للهيكل المذكور أعلاه في تمثيل المجال. يتم عرض كل من Arg باللون الأصفر. في البنية غير المنضمة ، لا يمكن الوصول إلى جيب نوكلياز للنيوكليوتيدات. التغيير في شكل R302 يجعل الجيب أكثر سهولة. (ج) غير مقيد 44 (معرف PDB: 1AD2) و 45 مقيد (معرف PDB: 2HW8) هياكل بروتين الريبوسوم L1 (باللون السماوي). الحلقة الموجودة في منطقة المفصلة التي تربط بين مجالين ملونة باللون الأحمر. يظهر جزيء الحمض النووي الريبي في الهيكل المرتبط بالكرتون الرمادي. (د) تراكيب متراكبة غير منضمة (معرف PDB: 1SDR ، باللون الأصفر) ومحددة (معرف PDB: 3IEV ، باللون الرمادي) أشكال من 12 نيوكليوتيدات طويلة 3′-end من 16 S rRNA مع ERA. يتم تمثيل البروتين في الرسوم المتحركة البرتقالية.

التغييرات في العناصر الهيكلية الثانوية في RBPs عند الربط

يمكن لتغييرات التشكل أن تغير الهياكل الثانوية أثناء الانتقال غير المقيد إلى المقيد مما يؤدي إلى التغيير في إمكانية الوصول. يوضح الشكل 4 أ المتوسط ​​| ΔAص| حسابات لأنواع مختلفة من الانتقالات في العناصر الهيكلية الثانوية عند الربط. نجد أن متوسط ​​التغيير في إمكانية الوصول في الواجهة هو الأعلى (| ΔAص| = 47.5 Å 2) في التحولات من الحلقة إلى الحلزون متبوعة بالانتقالات من اللولب إلى الحلقة (| ΔAص| = 41 Å 2) ومن حلقة إلى ورقة (| Aص| = 38.4 Å 2). يوضح الشكل 4 ب مثالاً للانتقال من حلقة إلى حلزون حيث يتبنى اللولب الحلزوني غير المنظم لبروتين L25 في الحالة غير المنضمة (PDB id: 1B75) التشكل الحلزوني عند الارتباط بالأخدود الرئيسي لـ 5 s rRNA (معرف PDB: 1DFU ) 15 . يفقد اللولب α1 230 2 عند الارتباط بشريكه من الحمض النووي الريبي. لم نجد أي انتقال من اللولب إلى الورقة أو العكس بالعكس في الواجهة.

التغييرات في | ΔA | بسبب انتقالات العناصر الهيكلية الثانوية في RBPs عند الارتباط بـ RNA. (أ) متوسط ​​| ΔA | محسوب لكل انتقال يتم تقديمه لكل من المناطق البينية وغير السطحية. (ب) انتقال من حلقة إلى حلزون. هنا ، الحلزون α1 لـ L25 (Lys14 إلى Ala23 ، ملون باللون الأحمر) غير منظم في الحالة غير المنضمة (PDB id: 1B75) ، والتي تتبنى تشكيلًا حلزونيًا عند الربط مع الأخدود الرئيسي لـ 5 s rRNA (معرف PDB: 1DFU ). (ج) انتقال من ورقة إلى حلزون. هنا ، Arg57 و Ala58 (كما هو موضح بالعصا الحمراء) لعامل استطالة الترجمة EF-Tu موجودان في تشكيل الورقة في الحالة غير المنضمة (PDB id: 1TUI) ، والتي تتبنى المطابقات الحلزونية عند الارتباط بـ tRNA (Cys) (معرف PDB: 1B23 ). (د) مثال آخر على الانتقال من الورقة إلى الحلزون. هنا ، Ala85 و Val86 (كما هو موضح في العصا الحمراء) لإنزيم إضافة CCA موجودان في مطابقة ورقة في الحالة غير المنضمة (PDB id: 1UET) من الإنزيم ، والتي تتبنى مطابقة α-helical عند الارتباط بـ t-RNA ( معرف PDB: 2DRB). في كل هذه الأشكال ، يظهر البروتين في الحالات المرتبطة وغير المرتبطة باللون البرتقالي والأزرق المخضر ، على التوالي ، بينما يظهر الحمض النووي الريبي باللون الرمادي.

في المنطقة التي لا تحتوي على واجهة ، لوحظ أعلى تغيير في إمكانية الوصول في التحولات من الورقة إلى الحلزون (| ΔAص| = 64.9 Å 2). لوحظ هذا التغيير في البقايا الأربعة التالية من اثنين من RBPs مختلفة. اثنين من البقايا ، Arg57 و Ala58 في عامل استطالة الترجمة EF-Tu (معرف PDB: 1TUI) ، يخضعان لانتقالات من الورقة إلى اللولب عند الارتباط بـ tRNA (Cys) (معرف PDB: 1B23) (الشكل 4C). البقايا الأخرى ، Ala85 و Val86 في الحالة غير المنضمة لأنزيم إضافة CCA (معرف PDB: 1UET) ، تخضع لانتقالات من الصفيحة إلى اللولب عند الارتباط بـ tRNA (معرف PDB: 2DRB) (الشكل 4 د). تساهم انتقالات الحلقة إلى الحلزون أيضًا بشكل كبير في التغيير في إمكانية الوصول (المتوسط ​​| ΔAص| = 34.3 Å 2) في المناطق التي لا تحتوي على واجهة ، في حين أن التحولات من اللولب إلى الحلقة أو الحلقة إلى الورقة تساهم بشكل معتدل.

تأثير روابط H بين الجزيئات على إمكانية الوصول

نقوم بتقييم تأثير روابط H بين الجزيئات على التغيير في إمكانية الوصول إلى المذيبات لبقايا الأحماض الأمينية والنيوكليوتيدات في واجهات البروتين RNA. نجد أن التغيير في إمكانية الوصول مهم بالنسبة للبقايا التي لا تشارك في أي رابطة H مع النيوكليوتيدات الشريكة عبر الواجهات مقارنة بتلك المشاركة في H-bond (الشكل 5 أ). لوحظ هذا الاتجاه في مجموعة البيانات بأكملها وكذلك بين الفئات المختلفة. المتوسط ​​| δص| هي 61.3 Å 2 للمخلفات المتضمنة في روابط H عبر الواجهة ، في حين أن تلك التي لا تشارك في روابط H لديها متوسط ​​93 2.

تم حساب توزيع δA في السلسلة الرئيسية والسلسلة الجانبية على 116 RBPs (أ)، وفي الفوسفات والسكر والقواعد محسوبة على 31 RNAs (ب). يتم تقديم القيم المتوسطة للأسطح المدفونة (Bu) والمكشوفة (Ex) لفئات مختلفة من المجمعات. يتم إعطاء القيم لكل من بقايا السندات H (HB) وغير الرابطة H (غير HB). نزعات (ج) بقايا الأحماض الأمينية و (د) النيوكليوتيدات لتكشف أو تُدفن عند الربط.

في جانب RNA ، يكون التغيير في إمكانية الوصول أعلى بكثير بالنسبة للنيوكليوتيدات التي لا تشارك في أي رابطة H مقارنة بتلك المشاركة في الرابطة H عبر الواجهة (الشكل 5 ب). لوحظت هذه الظاهرة في مجموعة البيانات بأكملها وكذلك بين الفئات المختلفة. ومن المثير للاهتمام ، لوحظ اتجاه مختلف في | δAص| بين الفوسفات والسكر والقواعد. من بين المشاركين في روابط H عبر الواجهة ، أعلى تغيير في المتوسط ​​| δAص| لوحظ في القواعد (38.3 2) ، يليه الفوسفات (32.5 Å 2) والسكر (14.4 2). على العكس من ذلك ، لا يشارك هؤلاء في أي روابط H عبر الواجهة ، وهو أعلى تغيير في المتوسط ​​| δAص| لوحظ في القواعد (183.7 Å 2) ، يليه السكر (163 2) والفوسفات (83.5 2).

إمكانية الوصول إلى المخلفات والنيوكليوتيدات عند الربط

يظهر ميل بقايا الأحماض الأمينية للدفن أو التعرض عند الارتباط في الشكل 5 ج. عند الربط ، يشير الميل الإيجابي إلى أن البقايا تفضل أن تنكشف بينما يشير الميل السلبي إلى تفضيلها للدفن. من بين البقايا الموجبة الشحنة ، يُظهر Arg القليل من التفضيل للدفن في كل من الواجهة وفي المناطق التي لا توجد بها واجهة ، بينما يُظهر Lys اتجاهًا معاكسًا في كلتا المنطقتين. من بين البقايا السالبة الشحنة ، يُظهر Asp تفضيلًا قويًا للدفن في الواجهة ، بينما يُظهر Glu تفضيلًا مشابهًا في المنطقة التي لا توجد بها واجهة ، ولكن بدرجة أقل. بين Asn و Gln ، يُظهر السابق تفضيلًا للعرض فقط على غير الواجهة ، بينما يُظهر الأخير تفضيلًا ليتم دفنه في كل من الواجهة وفي المناطق التي لا تحتوي على واجهة. من بين البقايا القطبية المحايدة ، يفضل His و Thr الكشف عنهما ، بينما يفضل Ser أن يُدفن في كل من الواجهة وفي المناطق التي لا توجد بها واجهة. من بين البقايا العطرية الثلاثة ، يفضل كل من Tyr و Phe التعرض للواجهة بحجم مختلف ، بينما يفضل Trp أن يتم دفنها في الواجهة والتعرض للواجهة بدون واجهة. يفضل كل من البقايا المحتوية على الكبريت ، Cys و Met ، أن يتم دفنها في كل من السطح البيني والمناطق غير البينية ، ومع ذلك ، مع حجم مختلف ، يكون للأول تفضيل أقوى من الأحدث. من بين المخلفات الكارهة للماء ، يفضل Leu و Val و Ala التعرض للضوء في كل من الواجهة والمناطق التي لا تحتوي على واجهة ، بينما يفضل Gly التعرض للواجهة فقط. على العكس من ذلك ، يفضل Pro أن يتم دفنه في كل من الواجهة والمناطق التي لا تحتوي على واجهة. يتصرف Ile بشكل مختلف ، فهو يفضل أن يتم دفنه في الواجهة والتعرض للمناطق غير الموجودة في الواجهة.

من بين النيوكليوتيدات الأربعة ، يفضل الأدينين والسيتوزين أن يتم دفنها في الواجهة والتعرض في المناطق غير الموجودة في الواجهة. يفضل الجوانين أن يُدفن ، بينما يفضل اليوراسيل الكشف عنه في كل من الواجهة وفي المناطق غير السطحية (الشكل 5 د).

يمكن استخدام التغيير في SASA كمعامل لتسجيل الشراك الخداعية للبروتين RNA

تؤدي التحولات المطابقة المستحثة الملزمة إلى تغيير في SASA للذرات الفردية في الوحدات الفرعية المتفاعلة. قليل من الذرات تكتسب سطحًا يمكن الوصول إليه بينما يفقد القليل منها. نجد متوسط ​​نسبة الكسب إلى الخسارة لمساحة السطح التي يمكن الوصول إليها (نسبة GL) عند الربط 1.7 و 1.0 (قيمة p = 1.6E-04 ، اختبار t وحيد الذيل) في الواجهة وفي المناطق التي لا تحتوي على واجهة ، على التوالي . في معظم الحالات ، تكون النسبة قريبة من واحدة في المنطقة التي لا توجد بها واجهة. لم يتم استخدام هذه النسبة مطلقًا في أي خوارزميات إرساء بروتينية متاحة 16 ، ويمكن استخدامها بكفاءة لتسجيل نماذج الالتحام المرنة لتحديد الحل الأصلي القريب. يوضح الشكل 6 أ و 6 ب توزيع نسبة GL في 115 RBPs و 31 RNAs ، على التوالي. تم العثور على أعلى نسبة GL (18.7) في بنية البروتين التنظيمي للحديد 1 (IRP1) في مركب مع ferritin H IRE RNA (PDB id: 3SNP). يمكن أن تُعزى هذه النسبة المرتفعة إلى التغيير المطابق الكبير في IRP1 عند الارتباط بـ RNA ، والذي يتم تسهيله من خلال إعادة ترتيب رئيسية لمجالي IRP1 17 (الشكل 6C) ، والحصول على إمكانية وصول 1279 Å 2 في الواجهة. لوحظ أدنى نسبة GL (0.5) في المركب بين بولي (A) بوليميريز وأليغو (A) RNA (معرف PDB: 2Q66). في البوليميراز ، يقع الموقع الحفاز في الجزء السفلي من الشق بين نطاقات الطرفية N و C للبوليميراز 18. في الحالة غير المقيدة ، تظل مجالات البوليميراز في شكل مفتوح وتعتمد التشكل المغلق عند الارتباط مع الحمض النووي الريبي ، وبالتالي تفقد مساحة السطح 163.6 × 2 عند الواجهة (الشكل 6 د). لوحظ أعلى نسبة GL (2.8) على سطح ربط RNA في مقطع RNA التماثلي T-arm (معرف PDB: 1EVV) في مجمع مع 5-methyluridine methyltransferase TrmA (معرف PDB: 3BT7). في الحالة غير المنضمة ، يظل U54 مدفونًا داخل الحلقة T من الحمض الريبي النووي النقال ويشكل زوجًا أساسيًا عكسيًا من Hoogsteen مع A58 19. في الحالة المقيدة ، تغير الحلقة شكلها وتقلب U54 نحو الموقع النشط للإنزيم ، وبالتالي تكتسب إمكانية الوصول إلى السطح بمقدار 310.4 Å 2 (الشكل 6E).

ربح أو خسارة في إمكانية الوصول. (أ) توزيع نسبة GL لـ RBPs في المناطق البينية وغير السطحية. (ب) توزيع نسبة GL من الحمض النووي الريبي في المناطق البينية وغير السطحية. (ج) في الحالة غير المنضمة لـ IRP1 (معرف PDB: 2B3Y) ، يكون المجال 3 و 4 في شكل مغلق ، والذي تحول إلى تشكل مفتوح عند الارتباط بـ RNA (معرف PDB: 3SNP). يتحرك كلا المجالين بعيدًا (السهم ثنائي الاتجاه) ، وبالتالي زيادة كمية كبيرة من السطح لاستيعاب الحمض النووي الريبي. تم تلوين المجال 3 و 4 باللون الأزرق والبرتقالي على التوالي ، وبقية البروتين باللون الأزرق المخضر. (د) مثال على تغيير التشكل "من الفتح إلى الإغلاق" في معقد بوليميريز بولي (أ) وأليغو (أ) (معرف PDB: 2Q66). في الحالة غير المنضمة (معرّف PDB باللون الأزرق المخضر: 2HHP) ، يظل شق الربط بين نطاقي N- و C- مفتوحًا على مصراعيه ، والذي يتحول إلى شكل مغلق عند الارتباط بـ RNA ، وبالتالي يفقد إمكانية الوصول. (هـ) مقطع RNA التناظري T-arm المربوط (في معرف PDB الرمادي: 3BT7) وفي حالات غير منضم (في معرف PDB الأصفر: 1EVV). يظل U54 (باللون الأرجواني) في الحالة غير المنضمة داخل الحلقة ، والتي تنقلب إلى الموقع النشط عند الارتباط بـ 5-methyluridine methyltransferase TrmA (كما هو موضح باللون البرتقالي).


3 نتائج

3.1 الميزات

استخدمنا سلسلة من الميزات لإعداد متنبئ قابلية الذوبان SOLart ، والذي تم وصفه أدناه.

3.1.1 الإمكانات الإحصائية

قمنا بتطبيق وتوسيع الإمكانات الإحصائية المعتمدة على الذوبان التي تم تقديمها مؤخرًا في Hou وآخرون. (2018) ، والتي أثبتت أنها تسفر عن وصف موضوعي وغني بالمعلومات للتفاعلات التي تعدل خصائص قابلية ذوبان البروتين. كانت الفكرة هي تقسيم مجموعة البيانات D E. coli إلى مجموعتين فرعيتين متساويتين في الحجم ، تسمى D E. coli insol و D E. coli sol ، التي تحتوي على بروتينات قابلة للتجميع وقابلة للذوبان ، على التوالي ، ولاشتقاق جهود المسافة من كل مجموعة من المجموعتين الفرعيتين (انظر Hou وآخرون.، 2018 للحصول على التفاصيل). بهذه الطريقة ، قمنا بتعريف اثنين من الإمكانات المتميزة يشار إليهما باسم "غير قابل للذوبان" و "قابل للذوبان".

أدى تحليل هذه الإمكانات إلى اكتشاف ميل بعض تفاعلات الأحماض الأمينية مثل جسور الملح المحتوية على Lys والتفاعلات الأليفاتية لصالح قابلية ذوبان البروتين. على النقيض من ذلك ، فإن التفاعلات البقايا التي تنطوي على عدم تحديد الموقع π-الإلكترونات مثل العطرية والكاتيون-π لقد ثبت أن التفاعلات تعزز تراكم البروتين (Hou وآخرون., 2018).

قمنا ببناء 11 إمكانات إحصائية تعتمد على الذوبان من مجموعات مختلفة من س و ج العناصر المدرجة في الجدول 2. قمنا بتسمية الإمكانات وفقًا لنوع وعدد التسلسل وواصفات الهيكل. على سبيل المثال ، يمثل "sa" الإمكانية التي يتم فيها تحديد نوع واحد من الأحماض الأمينية وإمكانية الوصول إلى المذيبات ، بينما يصف "sds" الإمكانات التي يتم فيها إعطاء نوعين من الأحماض الأمينية والمسافة بين البقايا.

قائمة بجميع الميزات التي تم اختبارها لـ SOLart

سمات . وصف . سولارت.
الإمكانات الإحصائية
sd: Δ Δ G sd 1 حمض أميني ، مسافة واحدة ✓✓
sds: Δ Δ G sds 2 من الأحماض الأمينية ، مسافة واحدة ✓✓
sa: Δ Δ G sa 1 حمض أميني ، 1 إمكانية الوصول إلى المذيبات ✓✓
saa: Δ Δ G saa 1 حمض أميني ، 2 إمكانية الوصول إلى المذيبات ✓✓
ssa: Δ Δ G ssa 2 من الأحماض الأمينية ، 1 إمكانية الوصول إلى المذيبات ✓✓
st: Δ Δ G st 1 حمض أميني ، 1 مجال زاوية الالتواء ✓✓
stt: Δ Δ G stt 1 حمض أميني ، 2 مجال زاوية الالتواء ✓✓
sst: Δ Δ G sst 2 من الأحماض الأمينية ، 1 مجال زاوية الالتواء ✓✓
حزين: Δ Δ G حزين 1 حمض أميني ، مسافة واحدة و 1 إمكانية الوصول إلى المذيبات ✓✓
الأمراض المنقولة جنسياً: Δ Δ G std 1 حمض أميني ، مسافة 1 ومجال زاوية التواء واحد ✓✓
sta: Δ Δ G sta 1 حمض أميني ، مسافة واحدة و 1 إمكانية الوصول إلى المذيبات ✓✓
حجم البروتين ومساحة السطح التي يمكن الوصول إليها بالمذيب
Λ طول البروتين ✓✓
SAcc إمكانية الوصول إلى مذيب البروتين ✓✓
SAcc / Λ إمكانية الوصول إلى مذيب البروتين مقسومًا على الطول ✓✓
محتوى الهيكل الثانوي
β جزء مدفون β بقايا ✓✓
β_ م جزء معتدل مدفون β بقايا ✓✓
β_e جزء مكشوف β بقايا
α جزء مدفون α بقايا
α_ م جزء معتدل مدفون α بقايا ✓✓
α_e جزء مكشوف α بقايا ✓✓
γ جزء من بقايا الملف المدفون
γ_ م جزء من بقايا الملف المدفونة بشكل معتدل
γ_e جزء من بقايا الملف المكشوف
تكوين الأحماض الأمينية
ج ط (أنا = 1..20) جزء من كل نوع من أنواع الأحماض الأمينية العشرين
ك + ر جزء من المخلفات موجبة الشحنة
K − R جزء من K ناقص جزء من R. ✓✓
د + ه جزء من المخلفات سالبة الشحنة ✓✓
د − هـ جزء من D ناقص جزء من E.
K + R + D + E جزء من المخلفات المشحونة ✓✓
K + R-D-E جزء من البقايا موجبة الشحنة ناقصًا سالبة الشحنة ✓✓
F + W + Y جزء من المخلفات العطرية ✓✓
_b ، م ، هـ مثله مع التمييز بين المخلفات المدفونة والمدفونة بشكل معتدل والمكشوفة
سمات . وصف . سولارت.
الإمكانات الإحصائية
sd: Δ Δ G sd 1 حمض أميني ، مسافة واحدة ✓✓
sds: Δ Δ G sds 2 من الأحماض الأمينية ، مسافة واحدة ✓✓
sa: Δ Δ G sa 1 حمض أميني ، 1 إمكانية الوصول إلى المذيبات ✓✓
saa: Δ Δ G saa 1 حمض أميني ، 2 إمكانية الوصول إلى المذيبات ✓✓
ssa: Δ Δ G ssa 2 من الأحماض الأمينية ، 1 إمكانية الوصول إلى المذيبات ✓✓
st: Δ Δ G st 1 حمض أميني ، 1 مجال زاوية الالتواء ✓✓
stt: Δ Δ G stt 1 حمض أميني ، 2 مجال زاوية الالتواء ✓✓
sst: Δ Δ G sst 2 من الأحماض الأمينية ، 1 مجال زاوية الالتواء ✓✓
حزين: Δ Δ G حزين 1 حمض أميني ، مسافة واحدة و 1 إمكانية الوصول إلى المذيبات ✓✓
الأمراض المنقولة جنسياً: Δ Δ G std 1 حمض أميني ، مسافة 1 ومجال زاوية التواء واحد ✓✓
sta: Δ Δ G sta 1 حمض أميني ، مسافة واحدة و 1 إمكانية الوصول إلى المذيبات ✓✓
حجم البروتين ومساحة السطح التي يمكن الوصول إليها بالمذيب
Λ طول البروتين ✓✓
SAcc إمكانية الوصول إلى مذيب البروتين ✓✓
SAcc / Λ إمكانية الوصول إلى مذيب البروتين مقسومًا على الطول ✓✓
محتوى الهيكل الثانوي
β جزء مدفون β بقايا ✓✓
β_ م جزء معتدل مدفون β بقايا ✓✓
β_e جزء مكشوف β بقايا
α جزء مدفون α بقايا
α_ م جزء معتدل مدفون α بقايا ✓✓
α_e جزء مكشوف α بقايا ✓✓
γ جزء من بقايا الملف المدفون
γ_ م جزء من بقايا الملف المدفونة بشكل معتدل
γ_e جزء من بقايا الملف المكشوف
تكوين الأحماض الأمينية
ج ط (أنا = 1..20) جزء من كل نوع من أنواع الأحماض الأمينية العشرين
ك + ر جزء من المخلفات موجبة الشحنة
K − R جزء من K ناقص جزء من R. ✓✓
د + ه جزء من المخلفات سالبة الشحنة ✓✓
د − هـ جزء من D ناقص جزء من E.
K + R + D + E جزء من المخلفات المشحونة ✓✓
K + R-D-E جزء من البقايا موجبة الشحنة ناقصًا سالبة الشحنة ✓✓
F + W + Y جزء من المخلفات العطرية ✓✓
_b ، م ، هـ مثله مع التمييز بين المخلفات المدفونة والمدفونة بشكل معتدل والمكشوفة

ملحوظة: يتم تمييز تلك المستخدمة في الإصدار النهائي بعلامة ✓✓ يتم تمييز المجموعات التي يتم استخدام مجموعة فرعية لها بعلامة .

قائمة بجميع الميزات التي تم اختبارها لـ SOLart

سمات . وصف . سولارت.
الإمكانات الإحصائية
sd: Δ Δ G sd 1 حمض أميني ، مسافة واحدة ✓✓
sds: Δ Δ G sds 2 من الأحماض الأمينية ، مسافة واحدة ✓✓
sa: Δ Δ G sa 1 حمض أميني ، 1 إمكانية الوصول إلى المذيبات ✓✓
saa: Δ Δ G saa 1 حمض أميني ، 2 إمكانية الوصول إلى المذيبات ✓✓
ssa: Δ Δ G ssa 2 من الأحماض الأمينية ، 1 إمكانية الوصول إلى المذيبات ✓✓
st: Δ Δ G st 1 حمض أميني ، 1 مجال زاوية الالتواء ✓✓
stt: Δ Δ G stt 1 حمض أميني ، 2 مجال زاوية الالتواء ✓✓
sst: Δ Δ G sst 2 من الأحماض الأمينية ، 1 مجال زاوية الالتواء ✓✓
حزين: Δ Δ G حزين 1 حمض أميني ، مسافة واحدة و 1 إمكانية الوصول إلى المذيبات ✓✓
الأمراض المنقولة جنسياً: Δ Δ G std 1 حمض أميني ، مسافة 1 ومجال زاوية التواء واحد ✓✓
sta: Δ Δ G sta 1 حمض أميني ، مسافة واحدة و 1 إمكانية الوصول إلى المذيبات ✓✓
حجم البروتين ومساحة السطح التي يمكن الوصول إليها بالمذيبات
Λ طول البروتين ✓✓
SAcc إمكانية الوصول إلى مذيب البروتين ✓✓
SAcc / Λ إمكانية الوصول إلى مذيب البروتين مقسومًا على الطول ✓✓
محتوى الهيكل الثانوي
β جزء مدفون β بقايا ✓✓
β_ م جزء معتدل مدفون β بقايا ✓✓
β_e جزء مكشوف β بقايا
α جزء مدفون α بقايا
α_ م جزء معتدل مدفون α بقايا ✓✓
α_e جزء مكشوف α بقايا ✓✓
γ جزء من بقايا الملف المدفون
γ_ م جزء من بقايا الملف المدفونة بشكل معتدل
γ_e جزء من بقايا الملف المكشوف
تكوين الأحماض الأمينية
ج ط (أنا = 1..20) جزء من كل نوع من أنواع الأحماض الأمينية العشرين
ك + ر جزء من المخلفات موجبة الشحنة
K − R جزء من K ناقص جزء من R. ✓✓
د + ه جزء من المخلفات سالبة الشحنة ✓✓
د − هـ جزء من D ناقص جزء من E.
K + R + D + E جزء من المخلفات المشحونة ✓✓
K + R-D-E جزء من البقايا موجبة الشحنة ناقصًا سالبة الشحنة ✓✓
F + W + Y جزء من المخلفات العطرية ✓✓
_b ، م ، هـ مثله مع التمييز بين البقايا المدفونة والمدفونة بشكل معتدل والمكشوفة
سمات . وصف . سولارت.
الإمكانات الإحصائية
sd: Δ Δ G sd 1 حمض أميني ، مسافة واحدة ✓✓
sds: Δ Δ G sds 2 من الأحماض الأمينية ، مسافة واحدة ✓✓
sa: Δ Δ G sa 1 حمض أميني ، 1 إمكانية الوصول إلى المذيبات ✓✓
saa: Δ Δ G saa 1 حمض أميني ، 2 إمكانية الوصول إلى المذيبات ✓✓
ssa: Δ Δ G ssa 2 من الأحماض الأمينية ، 1 إمكانية الوصول إلى المذيبات ✓✓
st: Δ Δ G st 1 حمض أميني ، 1 مجال زاوية الالتواء ✓✓
stt: Δ Δ G stt 1 حمض أميني ، 2 مجال زاوية الالتواء ✓✓
sst: Δ Δ G sst 2 من الأحماض الأمينية ، 1 مجال زاوية الالتواء ✓✓
حزين: Δ Δ G حزين 1 حمض أميني ، مسافة واحدة و 1 إمكانية الوصول إلى المذيبات ✓✓
الأمراض المنقولة جنسياً: Δ Δ G std 1 حمض أميني ، مسافة 1 ومجال زاوية التواء واحد ✓✓
sta: Δ Δ G sta 1 حمض أميني ، مسافة واحدة و 1 إمكانية الوصول إلى المذيبات ✓✓
حجم البروتين ومساحة السطح التي يمكن الوصول إليها بالمذيب
Λ طول البروتين ✓✓
SAcc إمكانية الوصول إلى مذيب البروتين ✓✓
SAcc / Λ إمكانية الوصول إلى مذيب البروتين مقسومًا على الطول ✓✓
محتوى الهيكل الثانوي
β جزء مدفون β بقايا ✓✓
β_ م جزء معتدل مدفون β بقايا ✓✓
β_e جزء مكشوف β بقايا
α جزء مدفون α بقايا
α_ م جزء معتدل مدفون α بقايا ✓✓
α_e جزء مكشوف α بقايا ✓✓
γ جزء من بقايا الملف المدفون
γ_ م جزء من بقايا الملف المدفونة بشكل معتدل
γ_e جزء من بقايا الملف المكشوف
تكوين الأحماض الأمينية
ج ط (أنا = 1..20) جزء من كل نوع من أنواع الأحماض الأمينية العشرين
ك + ر جزء من المخلفات موجبة الشحنة
K − R جزء من K ناقص جزء من R. ✓✓
د + ه جزء من المخلفات سالبة الشحنة ✓✓
د − هـ جزء من D ناقص جزء من E.
K + R + D + E جزء من المخلفات المشحونة ✓✓
K + R-D-E جزء من البقايا موجبة الشحنة ناقصًا سالبة الشحنة ✓✓
F + W + Y جزء من المخلفات العطرية ✓✓
_b ، م ، هـ مثله مع التمييز بين المخلفات المدفونة والمدفونة بشكل معتدل والمكشوفة

ملحوظة: يتم تمييز تلك المستخدمة في الإصدار النهائي بعلامة ✓✓ يتم تمييز المجموعات التي يتم استخدام مجموعة فرعية لها بعلامة .

3.1.2 حجم البروتين ومساحة السطح التي يمكن الوصول إليها

لقد درسنا ثلاث خصائص عالمية للبروتينات ، وهي طول البروتين (Λ) ، ومساحة السطح التي يمكن الوصول إليها من المذيبات (SAcc) المقدرة ببرنامج داخلي (Dalkas وآخرون.، 2014) ، ومساحة السطح التي يمكن الوصول إليها من المذيب مقسومة على طول البروتين (SAcc / Λ) في الحالة الأخيرة ، استخدمنا طول التسلسل الذي تم تحديد هيكله. لاحظ أن الميزة الأولى تعتمد على التسلسل ، وأن السمتين الأخيرين تتطلب معرفة بالهيكل ثلاثي الأبعاد.

3.1.3 محتوى الهيكل الثانوي

تمت إضافة سلسلة أخرى من الميزات القائمة على الهيكل ، وهي جزء من بقايا البروتين الموجودة فيها α-حلزوني، β- حبلا أو ملف (يسمى هنا γ) التشكل. تميزنا بين α, β و γ المخلفات المدفونة في لب البروتين (إمكانية الوصول إلى المذيب 20٪ ⁠) ، مدفونة بشكل معتدل (بين 20٪ و 50٪) ، ومذيب مكشوف (⁠ ≥ 50٪ ⁠). برنامجنا الداخلي (Dalkas وآخرون.، 2014) لتعيين الهيكل الثانوي وإمكانية الوصول إلى المذيبات.

3.1.4 تكوين الأحماض الأمينية

لقد قمنا بدمج 20 ميزة قائمة على التسلسل البحت ، تتوافق مع جزء كل من 20 حمض أميني موجود في البروتين. نظرنا أيضًا في جزء مجموعات الأحماض الأمينية ، أي البقايا المشحونة إيجابياً (K + R) ، المخلفات سالبة الشحنة (D + E) ، البقايا المشحونة (K + R + D + E) البقايا العطرية (F + W + Y) ، وكذلك الفرق بين كسور K و R (K − R) و D و E (D − E) و K + R و D + E (K + R − D − E). قمنا بدمج هذه الميزات مع إمكانية الوصول إلى المذيبات وحددنا ثلاث فئات لكل حمض أميني أو مجموعة الأحماض الأمينية ، وفقًا لما إذا كانت البقايا مكشوفة أو مدفونة بشكل معتدل أو مدفونة. أسفر هذا عن 81 ميزة إضافية قائمة على الهيكل.

3.2 اختيار الميزة

تمثلت الخطوة التالية في اختيار ، من بين 28 ميزة قائمة على التسلسل البحت و 103 ميزات قائمة على الهيكل المحددة أعلاه ، المجموعة الفرعية من الميزات الأكثر إفادة عن قابلية ذوبان البروتين. استخدمنا لهذا الغرض D E. مجموعة تدريب coli ، والتي تحتوي على 406 من هياكل الأشعة السينية عالية الدقة غير الزائدة عن الحاجة E.القولونية بروتينات ذات هوية تسلسل زوجي منخفضة وقابلية للذوبان المقاسة تجريبياً (انظر القسم 2.2). تم اختيار الميزة باستخدام خوارزمية بوروتا (كورسا وآخرون. ، 2010) في حزمة Caret لـ R (Kuhn وآخرون.، 2008) ، غلاف مبني حول خوارزمية تصنيف الغابات العشوائية (Liaw وآخرون.، 2002) ، الذي يقارن أهمية السمات الحقيقية بتلك الخاصة بالميزات العشوائية (الظل) باستخدام الاختبار الإحصائي. يتم الحصول على النتائج كمتوسط ​​على مدى عدة أشواط (هنا 1000) من الغابة العشوائية.

قمنا بتصفية الميزات التي يكون متوسط ​​أهميتها المقاسة بواسطة خوارزمية Boruta أقل من 1. أدى ذلك إلى الاحتفاظ بإجمالي 52 ميزة ، والتي تظهر في الشكل 1 والشكل التكميلي S2. من بين هؤلاء ، 37 تتطلب معرفة الهيكل.

أهم 30 ميزة تم تحديدها من خلال اختيار الميزة ، من اليسار إلى اليمين. تشير الأسماء المكتوبة بأحرف صغيرة إلى اختلافات طاقة حرة قابلة للطي ، على سبيل المثال sst تعني Δ Δ G sst

أهم 30 ميزة تم تحديدها من خلال اختيار الميزة ، من اليسار إلى اليمين. تشير الأسماء المكتوبة بأحرف صغيرة إلى اختلافات طاقة حرة قابلة للطي ، على سبيل المثال sst تعني Δ Δ G sst

اللافت للنظر ، أن الميزات الأربع الأعلى مرتبة هي اختلافات طاقة حرة قابلة للطي Δ G محسوبة من إمكاناتنا المعتمدة على الذوبان: زاوية الالتواء الأساسية sst ، إمكانية الوصول إلى المذيبات ssa وإمكانيات المسافة sd و sds (انظر الجدول 2). الميزة التالية الأكثر أهمية هي طول البروتين ، متبوعًا بإمكانية الوصول إلى المذيب وكسور بعض أنواع الأحماض الأمينية. لا تظهر الميزات المبنية على الهيكل الثانوي بين أفضل 30 ميزة ، ولكن بعضها يظهر في قائمة 52 ميزة محددة.

3.3 إعداد SOLart

تم الجمع بين الميزات الـ 52 المحددة لإنشاء متنبئ SOLart لقابلية ذوبان البروتينات المستهدفة على أساس هياكلها ثلاثية الأبعاد. استخدمنا لهذا الغرض د هـ. coli كمجموعة تدريب ، وخوارزمية الانحدار العشوائي للغابات (Liaw وآخرون.، 2002) في حزمة الإقحام لبناء النموذج. هذه الخوارزمية عبارة عن نظام قائم على الأشجار ويتألف من عدة أشجار انحدار تم تعيين عدد الأشجار هنا على 500. تبدأ عملية التدريب بمجموعة فرعية محددة عشوائيًا من مجموعة البيانات الأصلية التي يتم منها إنشاء شجرة الانحدار من خلال التقسيم التكراري للبيانات الفضاء إلى مجموعات فرعية أصغر. في كل عقدة من الشجرة ، يتم استخدام الميزات التي تم أخذ عينات منها بشكل عشوائي ، حيث يعتمد عدد الميزات على المعلمة العالمية "mtry" المأخوذة هنا بين 1 و 52 ، العدد الإجمالي للميزات. يتم الحصول على قيمة mtry المثلى من خلال إجراء بحث في الشبكة. يوضح الشكل التكميلي S5 تأثيره على أداء التنبؤ. يتم الحصول على الانحدار للبروتين المستهدف من خلال حساب متوسط ​​التنبؤات على جميع الأشجار.

3.4 أداء SOLart

نظرًا لأن نموذج التنبؤ مبني على أساس الميزات المحددة ولكنه يعتمد أيضًا على قيمة معلمة mtry ، فقد أجرينا تحققًا متداخلًا من 10 أضعاف لتقييم أداء SOLart على D E. coli ، مع حلقة تحقق من الصحة الخارجية وحلقة تحقق متقاطعة داخلية متداخلة في الحلقة الخارجية ، كما هو موضح في القسم التكميلي S4. تم إجراء ما مجموعه 30 مكررًا للتحقق من صحة الحلقة الخارجية ، مع تقسيمات عشوائية مختلفة إلى طيات ، وتم حساب الأداء كمتوسطات على التكرارات.

يصل نموذجنا الحسابي إلى معامل ارتباط خطي جيد قدره ص = 0.66 بين تنبؤات قابلية الذوبان SOLart والقيم التجريبية ، وجذر متوسط ​​الخطأ التربيعي ، RMSE = 25٪ (الجدول 3).

عروض SOLart في التحقق المتبادل على مجموعة التعلم D E. coli ⁠ وعلى ثلاث مجموعات اختبار مستقلة: D S. cerevisiae التي تحتوي على هياكل الأشعة السينية و M E. القولونية و M S. cerevisiae التي تحتوي على هياكل نموذجية

. د هـ. القولونية. أنا . القولونية. د س. الخباز. السيدة . الخباز.
ص0.66 0.51 (0.67) 0.67 (0.78) 0.63 (0.70)
RMSE 25% 28% (23%) 23% (19%) 24% (20%)
. د هـ. القولونية. أنا . القولونية. د س. الخباز. السيدة . الخباز.
ص0.66 0.51 (0.67) 0.67 (0.78) 0.63 (0.70)
RMSE 25% 28% (23%) 23% (19%) 24% (20%)

ملحوظة: تتوافق القيم الموجودة بين قوسين مع الأداء مع إزالة القيم المتطرفة بنسبة 10٪.

عروض SOLart في التحقق المتبادل على مجموعة التعلم D E. coli ⁠ وعلى ثلاث مجموعات اختبار مستقلة: D S. cerevisiae التي تحتوي على هياكل الأشعة السينية و M E. القولونية و M S. cerevisiae التي تحتوي على هياكل نموذجية

. د هـ. القولونية. أنا . القولونية. د س. الخباز. السيدة . الخباز.
ص0.66 0.51 (0.67) 0.67 (0.78) 0.63 (0.70)
RMSE 25% 28% (23%) 23% (19%) 24% (20%)
. د هـ. القولونية. أنا . القولونية. د س. الخباز. السيدة . الخباز.
ص0.66 0.51 (0.67) 0.67 (0.78) 0.63 (0.70)
RMSE 25% 28% (23%) 23% (19%) 24% (20%)

ملحوظة: تتوافق القيم الموجودة بين قوسين مع الأداء مع إزالة القيم المتطرفة بنسبة 10٪.

قمنا أيضًا باختبار SOLart على مجموعة اختبار مستقلة تحتوي على س.الخباز بروتينات ذات بنية جيدة للأشعة السينية ، مجمعة في D S. مجموعة cerevisiae (انظر القسم 2.2). يتم تقييم أداء SOLart على هذه المجموعة بواسطة معامل الارتباط الخطي ص = 0.67 و RMSE = 23٪ ⁠. عند إزالة 10٪ من القيم المتطرفة ، تزداد النتيجة حتى ص = 0.78 و RMSE = 19٪ (الجدول 3). وبالتالي ، فإن النتائج في هذه المجموعة المستقلة أفضل قليلاً من تلك التي تم الحصول عليها في التحقق المتبادل من مجموعة التدريب D E. القولونية ⁠.

لمزيد من تحليل هذه النتيجة ، قدرنا أهمية كل ميزة في تنبؤ SOLart باستخدام الدالة المستندة إلى مخطط التقليب varImp (Kuhn وآخرون.، 2008). يتم المضي قدمًا عن طريق التبديل العشوائي لكل ميزة على حدة من أجل كسر ارتباطها بالاستجابة ، ثم استخدامها مع الميزات المتبقية غير المخفية للتنبؤ. يعد انخفاض دقة التنبؤ مقياسًا لأهمية الميزة المخترقة. يقدّر هذا المقياس وزن كل ميزة فردية في المتنبئ ، بينما تقيس خوارزمية اختيار الميزة المطبقة في القسم 3.2 ملاءمة الميزة بشكل مستقل عن نموذج التنبؤ. وبالتالي فإنها تسفر عن تصنيفات مختلفة قليلاً.

تظهر أهم 20 ميزة لنموذج التنبؤ الخاص بنا في الشكل 2 (انظر أيضًا الشكل التكميلي S3). ومن المثير للاهتمام ، أن جميع الميزات التي تتوافق مع اختلافات الطاقة الحرة القابلة للطي (⁠ Δ Δ G ⁠) موجودة في هذه القائمة (9 من 11) ، والميزات الست العلوية هي Δ Δ G s المحسوبة من الإمكانات ssa ، sst ، sd و sds و saa و sa (الجدول 2). أفضل اثنين تقريبا السابقين æquo، هي Δ Δ G ssa و Δ Δ G sst ⁠ ، والتي احتلت أيضًا المرتبة الأولى في اختيار الميزة (الشكل 1). يتم حسابها من نزوع أزواج الأحماض الأمينية إلى الارتباط بنطاق وصول مذيب معين أ أو مجال زاوية التواء العمود الفقري معين ر من بقايا. تختلف هذه النزعات بين البروتينات القابلة للذوبان والمعرضة للتجمع ، وهذا الاختلاف هو الذي يقاس من خلال ميزات Δ Δ G. الميزات التالية الأفضل مرتبة هي Δ Δ G sd و Δ Δ G sds ⁠ ، محسوبة من نزعات أزواج المخلفات ليتم فصلها بمسافة مكانية معينة ، متبوعة باثنين من إمكانات الوصول الأخرى Δ Δ G saa و Δ Δ G sa ⁠.

أهم 20 ميزة في SOLart ، من اليمين إلى اليسار. تشير الأسماء المكتوبة بأحرف صغيرة إلى اختلافات طاقة حرة قابلة للطي ، على سبيل المثال sst تعني Δ Δ G ssa

أهم 20 ميزة في SOLart ، من اليمين إلى اليسار. تشير الأسماء المكتوبة بأحرف صغيرة إلى اختلافات طاقة حرة قابلة للطي ، على سبيل المثال sst تعني Δ Δ G ssa

تتطلب ميزات الطاقة الحرة القابلة للطي هذه بنية البروتين كمدخلات. في الواقع ، أكثر من نصف أفضل 20 ميزة قائمة على الهيكل ، مما يؤكد أهمية المعلومات الهيكلية لتحديد خصائص قابلية الذوبان في البروتين. تحتل الميزة الأولى القائمة على التسلسل المرتبة السابعة. إنه طول التسلسل Λ: بشكل عام ، كلما كان التسلسل أصغر ، كان البروتين الأكثر قابلية للذوبان (Kramer وآخرون.، 2012). السمتان المرتبطتان ، أي مساحة السطح التي يمكن الوصول إليها بواسطة المذيب SAcc مقسومة أو غير مقسومة على الطول ، هي أيضًا من بين أفضل 20 ميزة.

الميزات المتبقية في أعلى 20 قائمة على التسلسل: الفرق بين تركيبة Lys و Arg (K-R) التي ترتبط ارتباطًا إيجابيًا بقابلية الذوبان (Hou وآخرون.، 2018 وارويكر وآخرون.، 2014) ، النسبة المئوية للمخلفات العطرية (F + Y + W) التي تفضل التجميع (Hou وآخرون.، 2018 نيوا وآخرون.، 2009) ، والجزء الإجمالي للمخلفات سالبة الشحنة (D + E) التي ثبت أيضًا أنها تعزز الذوبان (Hou وآخرون.، 2018 نيوا وآخرون.، 2009). الميزات التالية هي التركيبة في R و Q ، والتي لا تفضل الذوبان ، والتكوين في E و K ، والذي يعزز الذوبان بدلاً من ذلك ، والفرق بين جزء البقايا المشحونة سالبة وإيجابية (K + R − D − E) ، والتي يزيد من عدم الذوبان.

لاحظ أن كل هذه الميزات المستندة إلى التسلسل قد تم توظيفها أيضًا بواسطة متنبئات القابلية للذوبان المتوفرة في الأدبيات. ومع ذلك ، بالإضافة إلى هذه الميزات شائعة الاستخدام ، استخدمنا سلسلة من الميزات القائمة على الهيكل والتي من بينها يتم الحصول على أهمها من الإمكانات الإحصائية التي تعتمد على الذوبان المطورة حديثًا. هذه تلتقط خصائص الذوبان بطريقة أكثر دقة وتمثل الأداة الرئيسية لنهجنا.

لمزيد من التحقق من أهمية النظر في البنية ثلاثية الأبعاد ، قمنا بتدريب نموذج تنبؤ على ميزات التسلسل 28 التي تم النظر فيها هنا. كما هو مبين في الجدول التكميلي S2 ، فإن هذا النموذج لديه درجة ص = 0.59 في التحقق المتداخل المتداخل على D E. coli ، وهي أقل بنحو 12٪ من درجة SOLart لـ ص = 0.66.

3.5 الأداء على هياكل البروتين النموذجية

لقد ثبت أن SOLart دقيق عندما تكون البنية ثلاثية الأبعاد للبروتين المستهدف معروفة. لتوسيع قابليتها للتطبيق ، اختبرناها على هياكل منخفضة الدقة تم الحصول عليها من خلال نمذجة التماثل. قمنا بتطبيقه أولاً على M E. coli تحتوي على 550 بروتينًا من E.القولونية (انظر القسم 2.2). حصلنا على ارتباط ص = 0.51 و RMSE بنسبة 28٪ ، وهو أمر جيد نسبيًا ولكنه أقل من الأداء على D E. القولونية (الجدول 3). هذا الانخفاض متوقع لأننا يجب أن نأخذ في الاعتبار عدم الدقة المحتملة في الهياكل النموذجية التي يجب إضافتها إلى خطأ طريقتنا الحسابية. بعد إزالة القيم المتطرفة بنسبة 10٪ ، يرتفع الأداء إلى ص = 0.67 و RMSE = 23٪ ⁠ ، وبذلك تصل إلى نفس أداء الهياكل ذات الدقة الجيدة.

كمجموعة اختبار أخيرة ، استخدمنا M S. cerevisiae الذي يحتوي على س.الخباز البروتينات ذات الهياكل النموذجية. يتم إعطاء أداء SOLart على هذه المجموعة بواسطة ص = 0.63 و RMSE = 24٪ ⁠ ، ويزيد حتى ص = 0.70 و RMSE = 20٪ بدون 10٪ قيم شاذة. وبالتالي فإن الدرجات أعلى بكثير في مجموعة الاختبار هذه منها في E.القولونية مجموعة الاختبار ، والتي تشير إلى أن بعض نماذج البروتين الهيكلي أو قيم الذوبان التجريبية قد تكون أقل دقة في E.القولونية مجموعة من على س.الخباز يضع.

لاحظ أن هذه الاختبارات صارمة للغاية ، نظرًا لوجود تشابه منخفض في التسلسل (25٪) بين مجموعات الاختبار هذه ومجموعة التدريب. وبالتالي نستنتج أنه يمكن استخدام SOLart بشكل موثوق للتنبؤ بقابلية الذوبان ليس فقط للهياكل التجريبية عالية الدقة ولكن أيضًا للهياكل النموذجية أو غيرها من الهياكل منخفضة الدقة.

3.6 مقارنة مع طرق التنبؤ بالقابلية للذوبان الأخرى

تمت مقارنة أداء SOLart بأداء طرق التنبؤ بالذوبان الأخرى على توليفة من D S. cerevisiae و M S. cerevisiae ، التي تجمع الأشعة السينية والهياكل النموذجية من س.الخباز البروتينات ، حيث إنها مجموعات اختبار مستقلة لا يتم تضمينها في مجموعات التدريب لأي من المتنبئين. بتعبير أدق ، اختبرنا طرق Protein-SOL (Hebditch وآخرون.، 2017) ، ccSOL (Agostini وآخرون.، 2014) ، CamSol (Sormanni وآخرون.، 2015) ، PROSO (Smialowski وآخرون.، 2007) ، PROSO II (Smialowski وآخرون.، 2012) ، Aggrescan3D 2.0 (Kuriata وآخرون.، 2019) ، DeepSol (Khurana وآخرون.، 2018)، PaRSnIP (راوي وآخرون.، 2018) و SOLpro (Magnan وآخرون.، 2009) ، من خلال تقديم جميع البروتينات من مجموعات بيانات الاختبار الخاصة بنا إلى خوادم الويب الخاصة بهم أو عن طريق تثبيت برامجهم محليًا. لاحظ أن جميع هذه الطرق تعتمد على التسلسل باستثناء Aggrescan3D 2.0.

معامل الارتباط الخطي ص بين تنبؤات الذوبان والقيم التجريبية لجميع هذه المتنبئات موضحة في الجدول 4. طريقتنا تتفوق بوضوح على المنافسين (ص = 0.65 مقابل ص = 0.55 لثاني أفضل طريقة). هذا يوضح أهمية استخدام المعلومات الهيكلية.

مقارنة أداء المتنبئين المختلفين على توليفة من D S. cerevisiae و M S. مجموعات اختبار cerevisiae ، على أساس معامل ارتباط بيرسون بين قيم الذوبان المتوقعة والتجريبية

المتنبئ. ص .
سولارت 0.65
ccSOL 0.55
بروتين سول 0.53
كامسول 0.40
Aggrescan3D 2.0.2 تحديث 0.36
DeepSol 0.30
بروسو 0.28
SOLpro 0.18
PROSO II 0.12
الجزر الأبيض 0.09
المتنبئ. ص .
سولارت 0.65
ccSOL 0.55
بروتين سول 0.53
كامسول 0.40
Aggrescan3D 2.0.2 تحديث 0.36
DeepSol 0.30
بروسو 0.28
SOLpro 0.18
PROSO II 0.12
الجزر الأبيض 0.09

مقارنة أداء المتنبئين المختلفين على توليفة من D S. cerevisiae و M S. مجموعات اختبار cerevisiae ، على أساس معامل ارتباط بيرسون بين قيم الذوبان المتوقعة والتجريبية

المتنبئ. ص .
سولارت 0.65
ccSOL 0.55
بروتين سول 0.53
كامسول 0.40
Aggrescan3D 2.0.2 تحديث 0.36
DeepSol 0.30
بروسو 0.28
SOLpro 0.18
PROSO II 0.12
الجزر الأبيض 0.09
المتنبئ. ص .
سولارت 0.65
ccSOL 0.55
بروتين سول 0.53
كامسول 0.40
Aggrescan3D 2.0.2 تحديث 0.36
DeepSol 0.30
بروسو 0.28
SOLpro 0.18
PROSO II 0.12
الجزر الأبيض 0.09

3.7 خادم الويب

قدمنا ​​واجهة خادم ويب متاحة مجانًا لطريقة التنبؤ الخاصة بنا ، والتي تستهدف المستخدمين غير الخبراء (http://babylone.ulb.ac.be/SOLART/index.php) (الشكل 3). يتكون الإدخال من بنية ثلاثية الأبعاد للبروتين المستهدف بتنسيق PDB. يمكن تحميلها مباشرة من قبل المستخدم أو استيرادها من PDB (Berman وآخرون.، 2000) عن طريق كتابة الرمز المكون من أربعة أحرف. يقدم خادم الويب بعد ذلك ملخصًا موجزًا ​​لبعض خصائص البروتين ويسمح للمستخدم باختيار إحدى سلاسل البروتين. يبدأ الحساب بعد إرسال الاستعلام. يتم أولاً حساب كل الطاقة الحرة القائمة على الهيكل والبنية الثانوية وميزات إمكانية الوصول إلى المذيبات ثم دمجها مع الميزات الأخرى القائمة على التسلسل.

واجهة خادم الويب الخاصة بـ SOLart

واجهة خادم الويب الخاصة بـ SOLart

في صفحة الإخراج ، التي يتم الوصول إليها باتباع الرابط المقدم ، يتم إعطاء قيمة الذوبان المتدرج S. إذا كانت الدرجة قريبة من الصفر ، يُتوقع أن يكون البروتين المستهدف عرضة للتجمع ، وعندما يقترب من 130 ، يكون قابلاً للذوبان. علاوة على ذلك ، للحصول على إشارة إلى مساهمة كل ميزة مفردة في التنبؤ بقابلية الذوبان للبروتين المستهدف ، نعرض أيضًا رقمًا بقابلية الذوبان المتوقعة من كل ميزة مأخوذة بشكل فردي ومع SOLart. يتم حساب التنبؤ بكل ميزة مفردة من نموذج غابة عشوائي تم تدريبه على قيم قابلية الذوبان التجريبية لـ D E. مجموعة القولونية. يمكن استخدام هذا الرقم كمصدر للإلهام لاقتراح الخصائص التي يجب تعديلها في ضوء تعديل القابلية للذوبان. يتم عرض مثال في الشكل 4 عن أسيل ترانسفيراز من E.القولونية.

قابلية الذوبان المتوقعة لبروتين مثال (كود PDB 2qia ، كود Uniprot P0A722) مع جميع الميزات المستخدمة في SOLart (الخط الأفقي) أو مع كل ميزة مفردة فقط (أشرطة المدرج التكراري)

قابلية الذوبان المتوقعة لبروتين مثال (كود PDB 2qia ، كود Uniprot P0A722) مع جميع الميزات المستخدمة في SOLart (الخط الأفقي) أو مع كل ميزة مفردة فقط (أشرطة المدرج التكراري)

نظرًا لبساطته في الاستخدام ، نتوقع أن يكون خادم الويب هذا محل اهتمام الباحثين في الأوساط الأكاديمية والصناعية المهتمين بتعديل قابلية ذوبان البروتين دون الحاجة إلى أي معرفة معلوماتية حيوية سابقة.


UCLA MBI & mdash SERp Server: مقدمة

الهدف من هذه الأداة هو اقتراح مرشحين للطفرة من المحتمل أن تعزز قابلية تبلور البروتين من خلال توليد ملامسات بلورية من خلال نهج تقليل الانتروبيا السطحية (SER) الذي وصفه Derewenda (2004).

يجادل ديريويندا بأن قابلية التبلور مرتبطة بالخصائص السطحية للبروتينات وأن البروتينات الكروية المقاومة للتبلور تحتوي على سطحها "درع إنتروبي" ، يتكون من سلاسل جانبية قطبية طويلة ومرنة تعيق قدرة البروتين على تكوين اتصالات بين الجزيئات وبالتالي تجميعها في شعرية بلورية. يحدث التبلور من خلال تغيير الطاقة الحرة من محلول مفرط التشبع للبروتين إلى بلورات بروتينية في المذيب.بالنظر إلى أن قيم المحتوى الحراري للتفاعلات بين الجزيئات في الشبكة البلورية تكون عادةً صغيرة ، فإن التبلور حساس جدًا لتغيرات الانتروبيا التي تتضمن كلًا من المذيب والبروتين. إن دمج جزيئات البروتين في الشبكة يحمل مصطلح إنتروبيا سالب ، وهذه تكلفة ديناميكية حرارية لا مفر منها. علاوة على ذلك ، يؤدي تثبيت السلاسل الجانبية والمذيب عند نقطة التلامس البلوري إلى فقدان إضافي للإنتروبيا.

يتضمن نهج الحد من الانتروبيا السطحية استبدال الأحماض الأمينية عالية الانتروبيا المكشوفة بالسطح ببقايا لها سلاسل جانبية صغيرة ومنخفضة الإنتروبيا مثل الألانين. تعتبر اللايسينات والغلوتامات ذات أهمية خاصة ، حيث تظهر التحليلات الإحصائية أن كلا النوعين من المخلفات يتم توطينها في الغالب على السطح (Baud and Karlin ، 1999) وغير مفضلة في واجهات البروتين والبروتين (Conte et al. ، 1999).

تقديم الوظيفة

  • الحمض الأميني أو تسلسل الحمض النووي لتحليلها
  • معرّف اسم تسلسل قصير (بشكل أساسي لراحة المستخدم)
  • عنوان بريد إلكتروني لتسليم النتائج

تستغرق المعالجة الأولية عادةً بضع دقائق. سيتم إخطار المستخدم عن طريق البريد الإلكتروني عند الانتهاء من الوظيفة الحالية وتظهر حالة قائمة الانتظار على صفحة الويب. تستغرق مراجعات معاملات الوظيفة اللاحقة بضع ثوانٍ فقط للمعالجة وتتم معالجتها عند الطلب.

ملخص العملية

التسلسل المقدم يخضع للتحليلات الأولية الثلاثة التالية. يخصص كل تحليل إما درجة إيجابية أو مرتبة لكل بقايا في التسلسل. تُحدد هذه التحليلات مجتمعة المخلفات الأكثر ملاءمة للطفرة. لا يلزم تقديم مساهمة إيجابية من كل نموذج ، على الرغم من أن الدرجات الإيجابية الأعلى تشير إلى مرشحين أفضل.

    التنبؤ بالهيكل الثانوي
    يتم توقع الهيكل الثانوي باستخدام PSIPRED الذي يشتمل على شبكتين عصبيتين للتغذية الأمامية تقومان بإجراء تحليل على المخرجات التي تم الحصول عليها من PSI-BLAST. يتم وضع علامة على مناطق الملف المتنبأ بها على أنها مواقع مواتية للطفرة لأنها تميل إلى أن تكون معرضة للسطح وأثبتت حتى الآن أنها فعالة للغاية ، حيث وجد أن مفهوم الحد من الانتروبيا يكون أقل فعالية إذا كانت الرقعة المستهدفة تقع على وجه اللولب المعرض للمذيب.
    تتناسب مساهمة النتيجة من تحليل الهيكل الثانوي بشكل مباشر مع الثقة في أن تكون البقايا في منطقة ملف. يتم توفير رسم بياني يوضح الثقة بالهيكل الثانوي في علامة تبويب الرسوم البيانية.

  • تفضل المخلفات التي حصلت على درجات إيجابية في التحليلات الأولية.
  • تعظيم طول طفرة ما بعد تصحيح الانتروبيا المنخفضة.
  • تصغير الفجوات في رقعة الانتروبيا المنخفضة.
  • تقليل عدد الطفرات المطلوبة.
  • تعظيم الحد من إنتروبيا السلسلة الجانبية.

يجب إدخال جميع الطفرات المقترحة داخل الكتلة بشكل متزامن لضمان الإزالة الكافية لـ "درع الانتروبيا". بشكل افتراضي لن تحتوي الكتلة على أكثر من ثلاث طفرات للحد من تقليل قابلية ذوبان البروتين المستهدف. عادةً ما يتم إدخال طفرات من مجموعة واحدة فقط في هدف البروتين في كل مرة ، على الرغم من أن البروتينات الأكبر (& gt80 كيلو دالتون) قد تتطلب طفرة متزامنة في عدة مجموعات. غالبًا ما يتم العثور على هدف البروتين في التبلور في مجموعات فضائية جديدة ، مع وجود بقع متحولة تشارك بشكل مباشر في ملامسات بلورية جديدة.

أخيرًا ، يتم إجراء بحث ميتا على التسلسل المقدم. يحاول هذا البحث اكتشاف أوضاع فشل التبلور المحتملة الأخرى مثل متطلبات أيونات المعادن أو الجزيئات الصغيرة الأخرى ، أو شركاء البروتين المتفاعلين.

نتائج

يتم عرض النتائج بشكل تفاعلي على موقع الويب مع روابط داخلية لتفاصيل التحليل بالإضافة إلى روابط لمصادر خارجية. يمكن أيضًا تسليم نسخة مختصرة من النتائج عبر البريد الإلكتروني.

علامة تبويب الملخص. تحتوي علامة التبويب "الملخص" على ملخص موجز جدًا للطفرات المقترحة. يتم اقتراح الطفرات في مجموعات أو مجموعات ويجب تقديم جميع الطفرات المقترحة داخل الكتلة معًا. بشكل افتراضي ، يتم فرز المجموعات حسب ثقة التنبؤ ، وبالتالي من المتوقع أن تكون المجموعة المرتجعة الأولى هي الأكثر نجاحًا في تحسين التبلور و / أو جودة الانعراج للتسلسل المقدم. يتم عرض درجة الثقة بالنجاح وكذلك قد يكون لمجموعتين درجات ثقة مماثلة وبالتالي يجب متابعة أي من كلا الاقتراحين بشكل مستقل.
يمكن العثور على تفاصيل التحليل في علامة التبويب تفاصيل النتيجة. يوجد تمثيل رسومي لمواقع الطفرات المقترحة والتنبؤ بالهيكل الثانوي وملفات تعريف الانتروبيا في علامة تبويب الرسوم البيانية. توجد التسلسلات المحاذية في علامة التبويب Blast.

علامة تبويب تفاصيل النتيجة. يمكن العثور على مساهمات النتيجة التي تشكل النتيجة الإجمالية في كل موضع بقايا في علامة التبويب هذه. عادة ما يكون حجم الكتلة أقل من 10 أحماض أمينية ويحتوي على بعض الأحماض الأمينية غير المتغيرة أو غير عالية الإنتروبيا. يتم تظليل قطعة من البقايا داخل مجموعة يُتوقع أن تكون أكثر الطفرات المقترحة البارزة نجاحًا باللون الأخضر ، وتكون البقايا المستهدفة مظللة باللون الأصفر.

    ثقة ملف SS: الثقة في نطاق 0-1.0 لبقايا لتكون في منطقة ملف ، كما تنبأ PSIPRED.

علامة تبويب الرسوم البيانية. يتم توفير الرسوم البيانية التالية للمساعدة في تصور مواقع الطفرات المقترحة ، وللمساعدة في فهم مساهمة كل تحليل. مجتمعة ، تحدد جميع التحليلات المواقع الأكثر ملاءمة للطفرة.

المجموع النهائي: يمثل هذا الرسم البياني المكدس مساهمة النتيجة من كل تحليل في النتيجة الإجمالية في كل موضع بقايا. الرجوع إلى وسيلة الإيضاح وفي علامة التبويب الرسوم البيانية. تشير القمم إلى المناطق التي من المتوقع أن تحتوي على أفضل الطفرات المرشحة لتحسين التبلور و / أو جودة الانعراج.
يتم تمييز المجموعات المقترحة ويتم عرض ترتيب المجموعة والنتيجة. البقايا المقترحة للطفرة مظللة باللون الأخضر.

يظهر تمثيل رسومي لمخلفات هدف الانتروبيا العالية والمتغيرة والمنخفضة في الجزء السفلي من هذا الرسم البياني قبل الطفرة وبعدها ، على التوالي.

    نتائج الانفجار: عدد التسلسلات التي تم العثور عليها بواسطة بحث PSI-BLAST التي تحتوي على نفس البقايا مثل التسلسل المقدم (البقايا المحفوظة) وبقايا الهدف (المتحولة) ، على التوالي.

علامة تبويب الانفجار. تم إرجاع نتائج المحاذاة بواسطة PSI-BLAST. يتم عرض أفضل 50 محاذاة (أو أقل) بترتيب BLAST الافتراضي عن طريق تقليل الهوية. يتم عرض قيمة التوقع ودرجة البت ونسبة هوية التسلسل للتسلسل المقدم لكل محاذاة. يتم توفير شرح تسلسل موجز ورابط خارجي.

لكل مجموعة مقترحة ، يتم عرض البقايا في التسلسلات المتوافقة. تشير الفترة إلى عدم وجود تغيير عن التسلسل المقدم. تظهر فجوة في التسلسل المحاذي كـ "-". لا يتم عرض الإدخال في التسلسل المحاذي. للراحة ، تظهر الأحماض الأمينية عالية الإنتروبيا باللون الأحمر ، وتستهدف الأحماض الأمينية باللون الأخضر.

يتم عرض المحاذاة الكاملة والمراجع الإضافية (إن وجدت) بالنقر فوق ارتباط التوسيع [+].

علامة تبويب Meta Search. يتم عرض نتائج التفاصيل من عمليات البحث الوصفية التي تم إجراؤها في علامة التبويب هذه.
يتم فحص كل تسلسل محاذي لـ BLAST بحثًا عن الروابط الوظيفية المحتملة. لكل تسلسل محاذي ، يتم عرض التطابقات المحتملة. انقر على رابط التوسيع [+] لمشاهدة جميع الروابط وطريقة الكشف والثقة لكل منها. يمكن فحص كل ارتباط بشكل أكبر على خادم ProLinks باستخدام الارتباط المقدم.


إمكانية الوصول إلى المذيبات ، طريقة القطع بنسبة 20٪ - علم الأحياء

خصائص المذيبات العضوية

تم استخلاص القيم الواردة في الجدول أدناه باستثناء ما هو مذكور من مجموعات متصلة بالإنترنت ومحددة. تم استخلاص قيم القطبية النسبية ، وقوة الفصيلة ، وحدود العتبة وضغط البخار من: كريستيان ريتشاردت ، المذيبات وتأثيرات المذيبات في الكيمياء العضوية، Wiley- VCH Publishers، 3rd ed.، 2003 . بالنسبة إلى Spectra of Solvents ، انتقل إلى الجزء السفلي من هذا العمر http://murov.info/webercises.htm. ل دليل الكيمياء العضوية، ارى: http://murov.info/orgchem.htm .
ل دليل الكيمياء، ارى: http://murov.info/webercises.htm
لمزيد من المعلومات الكاملة حول الخصائص الفيزيائية وسلامة المذيبات ، يرجى الانتقال إلى:
http://www.knovel.com/web/portal/browse/display؟_EXT_KNOVEL_DISPLAY_bookid=761
http://chem.sis.nlm.nih.gov/chemidplus/chemidlite.jsp
تم نشر الجداول أدناه (10/23/98) ومراجعتها (07/28/09) وتحديثها (10/10/10) بواسطة ستيف موروف ، الأستاذ الفخري في الكيمياء.

مذيب معادلة نقطة الغليان (درجة مئوية) ذوبان p oint (o C) كثافة
(جم / مل)
الذوبان في H.2O 1 (جم / 100 جم) نسبيا
قطبية 2
قوة eluant 3 حدود العتبة 4 (جزء في المليون) ضغط البخار 20 درجة مئوية (hPa)
حمض الاسيتيك ج2ح4ا2 118 16.6 1.049 م 0.648 & GT1 10 15.3
الأسيتون ج3ح6ا 56.2 -94.3 0.786 م 0.355 0.56 500 240
الاسيتونتريل ج2ح3ن 81.6 -46 0.786 م 0.460 0.65 20 97
أسيتيل أسيتون ج5ح8ا2 140.4 -23 0.975 16 0.571
2 - أمينو إيثانول ج2ح7لا 170.9 10.5 1.018 م 0.651 3 0.53
الأنيلين ج6ح7ن 184.4 -6.0 1.022 3.4 0.420 2 0.4
أنيسول ج 7 ح8ا 153.7 -37.5 0.996 0.10 0.1 98
البنزين ج6ح6 80.1 5.5 0.879 0.18 0.111 0.32 0.5 101
البنزونيتريل ج7ح5ن 205 -13 0.996 0.2 0.333 10 12
كحول بنزيل ج 7 ح 8 ا 205.4 -15.3 1.042 3.5 0.608
1-بيوتانول ج4ح10ا 117.6 -89.5 0.81 7.7 0. 586 20 6.3
2-البوتانول ج4ح10ا 99.5 - 114.7 0.808 18.1 0 .506 100
أنا- البوتانول ج4ح10ا 107.9 -108.2 0.803 8.5 0 .552
2-بوتانون ج4ح8ا 79.6 -86.3 0.805 25.6 0.327 0.51 200 105
ر- كحول بيوتيل ج4ح10ا 82.2 25.5 0.786 م 0.389 100 41
ثاني كبريتيد الكربون CS2 46.3 -111.6 1 .263 0.2 0.065 0.15 10 400
رابع كلوريد الكربون CCl4 76.7 -22.4 1.594 0.08 0.052 0.18 5 120
كلوروبنزين ج6ح5Cl 132 -45.6 1.106 0.05 0.188 0.30 10 12
الكلوروفورم CHCl3 61.2 -63.5 1.498 0.8 0.259 10 2 10
سيكلوهكسان ج6ح12 80.7 6.6 0.779 0.005 0.006 0.04 100 104
سيكلوهكسانول ج 6 ح 12 ا 161.1 25.2 0.962 4.2 0.509 50 1.2
سيكلوهكسانون ج6ح10ا 155.6 -16.4 0.948 2.3 0.281 25 5
دي إن بوتيل فثالات ج16ح22ا4 340 -35 1.049 0.0011 0.272
1،1-ثنائي كلورو الإيثان ج2ح4Cl2 57.3 -97.0 1.176 0.5 0.269 100 240
ثنائي اثيلين غلايغول ج4ح10ا3 245 -10 1.118 م 0.713 0.027
diglyme ج6ح14ا3 162 -64 0.945 م 0.244
ديميثوكسيثين (غليم) ج4ح10ا2 85 -58 0.868 م 0.231
N ، N- ثنائي ميثيلانيلين ج8ح11ن 194.2 2.4 0.956 0.14 0.179
ثنائي ميثيل فورماميد (DMF) ج3ح7لا 153 -61 0.944 م 0. 386 10 3.5
ثنائي ميثيل فثالات ج10ح10ا4 283.8 1 1.190 0.43 0.309
ثنائي ميثيل سلفوكسيد (DMSO) ج2ح6نظام التشغيل 189 18.4 1.092 م 0.444 0.75
ديوكسان ج4ح8ا2 101.1 11.8 1.033 م 0.164 0.56 20 41
الإيثانول ج2ح6ا 78.5 -114.1 0.789 م 0.654 0.88 100 59
الأثير ج4ح10ا 34.6 -116.3 0.713 7.5 0.117 0.38 400 587
إيثيل الأسيتات ج4ح8ا2 77 -83.6 0.894 8.7 0.228 0.58 400 97
إيثيل أسيتو أسيتات ج6ح10ا3 180.4 -80 1.028 2.9 0.577
بنزوات الإيثيل ج9ح10ا2 213 -34.6 1.047 0.07 0.228
أثلين كلايكول ج2ح6ا2 197 -13 1.115 م 0.790 1.11
جلسيرين ج3ح8ا3 290 17.8 1.261 م 0.812
هيبتان ج7ح16 98 -90.6 0.684 0.0003 0.012 400 48
1-هيبتانول ج 7 ح 16 ا 176.4 -35 0.819 0.17 0.549
الهكسان ج6ح14 69 -95 0.655 0.0014 0.009 0.01 50 160
1-هكسانول ج 6 ح 14 ا 158 -46.7 0.814 0.59 0.559
الميثانول CH4ا 64.6 -98 0.791 م 0.762 0.95 200 128
أسيتات الميثيل ج 3 ح 6 ا2 56.9 -98.1 0.933 24.4 0.253 200 220
الميثيل ر-بوتيل الأثير (MTBE) ج5ح12ا 55.2 -109 0.741 4.8 0.1 24 0.20
كلوريد الميثيلين CH2Cl2 39.8 -96.7 1.326 1.32 0.309 0.42 50 475
1-أوكتانول ج 8 ح 18 ا 194.4 -15 0.827 0.096 0.537
البنتان ج5ح12 36.1 -129.7 0.626 0.004 0.009 0.00 600 573
1-بنتانول ج 5 ح 12 ا 138.0 -78.2 0.814 2.2 0.568
2-بنتانول ج 5 ح 12 ا 119.0 -50 0.810 4.5 0.4 8 8
3-بنتانول ج 5 ح 12 ا 115.3 -8 0.821 5.1 0.463
2-بنتانون ج 5 ح 10 ا 102.3 -76.9 0.809 4.3 0.321
3-بنتانون ج5ح12ا 101.7 -39.8 0.814 3.4 0.265 200
1-بروبانول ج3ح8ا 97 -126 0.803 م 0.617 0.82
2-بروبانول ج3ح8ا 82.4 -88.5 0.785 م 0.546 0.82 400 44
بيريدين ج5ح5ن 115.5 -42 0.982 م 0.302 0.71 5 20
تتراهيدروفوران (THF) ج4ح8ا 66 -108.4 0.886 30 0.207 0.57 200 200
التولوين ج7ح8 110.6 -93 0.867 0.05 0.099 0.29 50 29
ماء ح2ا 100.00 0.00 0.998 م 1.000 & GT & GT1
ماء ثقيل د2ا 101.3 4 1.107 م 0.991
صزيلين ج8ح10 138.3 13.3 0.861 0.02 0.074 0.26 100 15

1 م = الامتزاج.
2 تم تطبيع قيم القطبية النسبية من قياسات تحولات المذيبات لأطياف الامتصاص وكانت كذلك
مستخرج من كريستيان ريتشارت ، المذيبات وتأثيرات المذيبات في الكيمياء العضوية، Wiley- VCH Publishers، 3rd ed.، 2003.
3 معامل شطف سنايدر التجريبي لقوة الألومينا. مقتبس من Reichardt ، صفحة 495.
4 حدود العتبة للتعرض. مقتبس من Reichardt الصفحات 501-502.

الجدول 2


نتائج

عدد الإيجابيات الكاذبة التي انفجرت في منطقة الشفق

على النقيض من عام 1990 ، عندما قام Sander and Schneider (1991) بتجميع بياناتهما ، تم الآن اكتشاف أزواج بروتينية ذات بنية غير متشابهة فوق الحد الأقصى البالغ 30٪ (الشكل 2 أ). ولم تكن هذه استثناءات: عند مستوى 32٪ (منحنى HSSP + 7٪ ، أي. ن = 7 في eqn 1) ، عدد الإيجابيات الخاطئة يساوي بالفعل عدد المتماثلات. بالنسبة لمنحنى HSSP الأصلي ، كان عدد الإيجابيات الخاطئة أعلى بمقدار 20 ضعفًا من عدد الأزواج الحقيقية. كان الانتقال من 20 إلى 30 ٪ من هوية التسلسل غير خطية إلى حد كبير بالنسبة للإيجابيات الحقيقية والخاطئة (المقاييس اللوغاريتمية في الشكل 2): ارتفع عدد الأزواج الحقيقية بمعامل 5 ، والأزواج الخاطئة بمعامل 200 ( الشكل 2 ب). وهكذا ، تحت منطقة هوية التسلسل الزوجي الهامة (& gt34 ٪) ، انفجر عدد الإيجابيات الكاذبة. ومع ذلك ، فإن الغالبية العظمى من المتماثلات لديهم أقل من 30 ٪ من هوية التسلسل.

الشكل الوظيفي لمنحنى HSSP الأصلي ملائم

ثبت أن الشكل الوظيفي لمنحنى HSSP الأصلي صحيح بشكل أساسي (الشكل 3 ، الخط الرمادي مع المثلثات). ومع ذلك ، كشفت مجموعة البيانات الأكبر التي تم تحليلها هنا عدة مشاكل بالتفصيل (الشكل 3 ب). (ط) لم يكن حد 25٪ معقولاً لطول المحاذاة أقل من 150-200 وحدة بنائية. (2) فوق طول محاذاة يبلغ حوالي 100 وحدة بنائية ، يجب أن يكون مشتق المنحنى الذي يفصل بين الإيجابيات الحقيقية والخطأ أقل من أطوال أقل من 80. لقد حاولت حل هذه المشكلات من خلال تحديد منحنى جديد لفصل الإيجابيات الصادقة والخطأ (eqn) 2 الشكل 3 ، خط رمادي مع دوائر منقطة). يضمن الشكل الوظيفي المعين تشبعًا تقريبيًا للمحاذاة الطويلة. بالنسبة للمحاذاة الأقصر من 11 وحدة بنائية ، أنتج eqn 2 قيمًا أعلى من 100٪. ومع ذلك ، كان هذا مقبولًا باعتباره هوية 100٪ لشظايا من 10-11 وحدة بنائية ليس تشير إلى التشابه الهيكلي (Cerpa وآخرون.، 1996 Minor and Kim، 1996 Muñoz and Serrano، 1996). المنحنى الجديد مشبع بحوالي 20٪ للمحاذاة على أكثر من 250 من البقايا.

تحديد منحنى للتشابه في تسلسل الازدواج

تتجاهل هوية تسلسل التجميع الطبيعة الفيزيائية والكيميائية للأحماض الأمينية. توضح أي محاذاة متعددة التسلسل أنه ، على سبيل المثال ، يتم الحفاظ على خاصية مقاومة الماء أكثر من نوع البقايا. بالنسبة لملايين زوج البروتين التي تم فحصها هنا ، فقد انعكس ذلك في تحول مخطط التشتت نحو النسب المئوية المنخفضة (الشكل 4). على وجه الخصوص ، بالنسبة للمحاذاة الأطول ، تنخفض الإيجابيات الكاذبة إلى أقل من 15٪ من تشابه التسلسل الزوجي. دفع هذا إلى إدخال عتبة خاصة لتشابه التسلسل (eqn 3 في طرق الشكل 4 ، خط رمادي مع دوائر منقطة). تجاوز المنحنى 100٪ للمحاذاة الأقصر من 12 من البقايا والمشبعة عند حوالي 10٪ للمحاذاة على أكثر من 500 من البقايا.

الكشف الأفضل عن المتماثلات في منطقة الشفق بمنحنيات جديدة

أدت المنحنيات الجديدة للقطع المعتمد على الطول في هوية التسلسل (eqn 2) والتشابه (eqn 3) إلى معدلات إيجابية كاذبة أقل بوضوح (دقة أعلى) من منحنى HSSP الأصلي (الشكل 5B و C). تم دفع ثمن ذلك من خلال عدد أقل من الإيجابيات الحقيقية التي تم الكشف عنها (تغطية أقل ، الشكل 5 أ). في ال ن = 0 (eqn 1-3) ، أعطى المنحنى القديم حوالي ضعف الإيجابيات الحقيقية ، ولكن أكثر من 20 ضعفًا أكثر من الإيجابيات الكاذبة مقارنة بالمنحنيات الجديدة للهوية والتشابه. علاوة على ذلك ، في أي مستوى من الإيجابيات الحقيقية التي تم اكتشافها ، كان عدد الإيجابيات الخاطئة أصغر بالنسبة للمنحنيات الجديدة (مكافئ 2-3) من منحنى HSSP الأصلي (eqn 1 الشكل 7). عند تطبيق قطع وفقًا لمجرد هوية التسلسل (تجاهل طول المحاذاة) ، انخفضت الدقة إلى أقل من 10٪ عند مستويات 30٪ من هوية التسلسل (الشكل 5 ج). وبالتالي ، ارتفعت دقة الكشف بمقدار 10 أضعاف تقريبًا بواسطة المنحنيات الجديدة.

تحسين دقة الكشف عن طريق قاعدة الخبراء

غالبًا ما يطبق الخبراء القواعد العامة للتمييز البصري بين الإيجابيات الصادقة والخطأ. ومع ذلك ، يبدو أن العديد من هذه القواعد البسيطة غير صالحة للتنفيذ التلقائي. على وجه الخصوص ، لم تختلف توزيعات عدد وطول الإدخالات ، في المتوسط ​​، بين الإيجابيات الخاطئة والصحيحة (البيانات غير معروضة). تحسنت دقة الكشف بشكل هامشي من خلال تطبيق القواعد التالية: (1) تجميع المسافة لدرجة التشابه ن S (eqn 3) ، ودرجة الهوية ن أنا (eqn 2) ، متوسط ​​فوق كليهما ([ن S + ن I] / 2) ، وأقبل الأزواج عندما يكون هذا المتوسط ​​أعلى من بعض العتبة ن (2) تأخذ أزواج كلما تجاوزت الهوية أو التشابه العتبة المعنية (إما ن S Ú ن أنا & GT ن) (3) أخذ أزواج إذا كانت كلتا القيمتين أعلى حدًا معينًا (ن S Ù ن أنا & GT ن). في المقابل ، زادت دقة الكشف بشكل كبير عن طريق تطبيق قاعدة "أكثر تشابهًا من متطابقة": لا تقبل النتائج الموجودة في بحث قاعدة البيانات إلا إذا كانت نسبة التشابه أكبر من النسبة المئوية للهوية. أدى هذا القيد إلى & gt 98٪ دقة الكشف في ن = 0 مستويات القطع (مكافئ 2-3) ، بينما تم العثور على إيجابيات حقيقية أقل بمقدار 2-4 أضعاف في هذا المستوى (الشكل 5 أ و ج). ومن ثم ، فإن هذه القاعدة ، المطبقة كقطع متحفظ في عمليات البحث التلقائية في قاعدة البيانات ، أثبتت فعاليتها إلى حد ما.

تحسين دقة الكشف عن طريق التنقل بين مسافات التسلسل

أثبت التنقل في مساحة التسلسل نجاحه في التخلص من الإيجابيات الكاذبة. بالفعل ، كان الحد الأدنى من القيد لقبول زوج إذا كان هناك بروتين واحد على الأقل شائعًا بين عائلتين متسلسلتين أسفرت عن مستويات دقة تبلغ حوالي 80 ٪ حتى وصولاً إلى مستويات القطع المقابلة لـ 20 ٪ من هوية التسلسل (الشكل 6 أ ، مقارنةً بدقة 20 ٪ لـ الشكل 5C العتبات العادية). زادت الدقة أكثر عندما كانت هناك حاجة إلى المزيد من البروتينات لتكون مشتركة بين العائلتين (الشكل 6 أ). ومع ذلك ، كان التنقل في مساحة التسلسل ممكنًا لعدد قليل نسبيًا من أزواج البروتين (الشكل 6 ب). علاوة على ذلك ، كان التحسن في الدقة أقل وضوحًا باستخدام التنقل بين مسافات التسلسل مقارنة بتطبيق قاعدة "أكثر تشابهًا من متطابقة" (الشكل 5).

الدقة مقابل التغطية لـ BLAST والبرمجة الديناميكية الكاملة

يتيح التوازن بين الدقة (النسبة المئوية للأزواج الحقيقية) والتغطية (النسبة المئوية لجميع الأزواج الحقيقية) اختيار الحدود التلقائية وفقًا لغرض معين من البحث في قاعدة البيانات. كما يسمح بمقارنة الطرق المختلفة (كلما زادت القيم ، كان ذلك أفضل). (1) كما هو متوقع ، أثبت المستوى البسيط الشائع الاستخدام لهوية التسلسل (بغض النظر عن طول المحاذاة) ، مرة أخرى ، أنه اختيار سيء للغاية. (2) والمثير للدهشة أن طريقة البحث السريع في قاعدة البيانات BLAST حققت أداءً جيدًا نسبيًا مقارنة بالبرمجة الديناميكية الكاملة (الشكل 7 أ). (3) كان كل من الإصدار 2 من BLASTP و PSI-BLAST جيدًا تقريبًا مثل البرمجة الديناميكية الكاملة مع عتبة HSSP المحددة مسبقًا (Sander and Schneider ، 1991). (4) تم تحقيق أفضل أداء من خلال العتبة الجديدة للتشابه (eqn 3). (5) ومع ذلك ، فإن نتيجة المحاذاة الأولية كانت تعمل بشكل جيد تقريبًا. (السادس) BLASTP (Altschul وآخرون.، 1990) بشكل مشابه إلى حد ما لأداء PSI-BLAST الأكثر تفصيلاً والأكثر حداثة (Altschul وآخرون.، 1997) (وللدقة "العالية" الأفضل قليلاً ، الشكل 7 أ: ملاحظة ملحقة: بالنظر إلى اختيار المعلمات القياسية ، لم يكن ذلك مفاجئًا). تم إعطاء العتبات المقابلة في الشكل 5 ب للبرمجة الديناميكية ، وفي الشكل 7 ب لاحتمالات PSI-BLAST.

العديد من السلبيات الكاذبة بقيم حدية معقولة

غالبًا ما يكون عدد السلبيات الخاطئة موضع اهتمام ، أي عدد البروتينات التي تنتمي إلى عائلة بنية ولكن لم يتم اكتشافها فوق حد معين. بالنسبة لمجموعات البيانات المستخدمة هنا ، كانت النسبة المئوية التراكمية للسلبيات الكاذبة عالية للغاية لجميع مستويات القطع المعقولة (الشكل 5 د).الغالبية العظمى من جميع أزواج البروتينات ذات البنية المماثلة تملأ منطقة منتصف الليل التي تقل عن 10 ٪ من هوية التسلسل (روست ، 1997). وهكذا ، أثبتت المعدلات السلبية الخاطئة العالية للغاية أن الطرق التي تحاذي بروتينين بناءً على المستويات الزوجية لتماثل التسلسل تفشل بوضوح في العثور على منجم الذهب لعمليات البحث في قاعدة البيانات (وأن التحليلات القديمة التي فشلت في وصف هذا التأثير كانت مبنية على مجموعات بيانات متحيزة ).

عتبات للاستخدام العملي

للتبسيط ، تم توفير الوظائف (eqn 1-3) بشكل صريح في الجداول (Rost ، 1998). على مستويات ن = 0 (eqn 1-3) كان العدد التراكمي للإيجابيات الحقيقية (الشكل 5): منحنى HSSP (eqn 1) ، منحنى هوية جديد 12٪ (eqn 2) ، 56٪ منحنى تشابه جديد (eqn 3) ، 73٪. من أجل تحقيق مستويات 99٪ من الضربات الصحيحة م يجب إضافة نقاط مئوية إلى المنحنيات ، حيث م كان منحنى HSSP ، م = 8 منحنى هوية جديد ، م = 5 منحنى تشابه جديد ، م = 12. للمقارنة ، أدى تطبيق قاعدة "التشابه أكثر من التطابق" إلى مستويات أعلى من 99٪ وصولاً إلى م = –1.


الحواشي

تم تحرير هذه المقالة من قبل الجمعية الملكية للكيمياء ، بما في ذلك التكليف ، وعملية مراجعة الأقران والجوانب التحريرية حتى نقطة القبول.

تم النشر بواسطة الجمعية الملكية بموجب شروط رخصة المشاع الإبداعي http://creativecommons.org/licenses/by/4.0/ ، والتي تسمح بالاستخدام غير المقيد ، بشرط ذكر المؤلف والمصدر الأصليين.

مراجع

. 1963 تخليق المرحلة الصلبة من الببتيد. I. توليف رباعي الببتيد. جيه. تشيم. شركة 85، ٢١٤٩-٢١٥٤. (دوى: 10.1021 / ja00897a025) كروسريف ، الباحث العلمي من Google

. 1999 استراتيجيات الربط المتعامد للببتيد والبروتين. البوليمرات الحيوية 51، ٣١١ - ٣٣٢. (دوى: 10.1002 / (SICI) 1097-0282 (1999) 51: 5 & lt311 :: AID-BIP2 & gt3.0.CO2-A) Crossref و PubMed و Google Scholar

. 2000 تخليق البروتينات الأصلية عن طريق الربط الكيميائي. Annu. القس Biochem. 69، ٩٢٣-٩٦٠. (دوى: 10.1146 / annurev.biochem.69.1.923) كروسريف ، PubMed ، الباحث العلمي من Google

. 2009 التركيب الكيميائي الكلي للبروتينات. تشيم. شركة القس. 38، 338–351. (دوى: 10.1039 / B700141J) كروسريف ، PubMed ، الباحث العلمي من Google

. 2010 تطورات في استراتيجيات الربط الكيميائي لتخليق الببتيدات السكرية والبروتينات السكرية. تشيم. كومون. 46، 21-43. (دوى: 10.1039 / B913845E) كروسريف ، PubMed ، الباحث العلمي من Google

. 2014 التقدم في تقنيات الربط لتخليق الببتيد والبروتين. الأحماض الأمينية. البروتينات 39، 1-20. (دوى: 10.1039 / 9781849739962-00001) كروسريف ، الباحث العلمي من Google

. 2017 تقدم في التخليق الكيميائي للببتيدات والبروتينات. عبر. جامعة تيانجين. 23، 401-419. (دوى: 10.1007 / s12209-017-0068-8) كروسريف ، الباحث العلمي من Google

Qi YK ، Tang S ، Huang YC ، Pan M ، Zheng JS ، Liu L

. 2016 Hmb إيقاف / تشغيل كمجموعة حماية ثيول قابلة للتحويل للربط الكيميائي الأصلي. منظمة. بيومول. تشيم. 14، 4194-4198. (دوى: 10.1039 / C6OB00450D) كروسريف ، PubMed ، الباحث العلمي من Google

. 1998 ربط البروتين المعبر ، طريقة جديدة لدراسة تفاعلات البروتين البروتين في النسخ. J. بيول. تشيم. 273، 16205-16209. (دوى: 10.1074 / jbc.273.26.16205) كروسريف ، الباحث العلمي من Google

. 1998 ربط البروتين المعبر عنه: طريقة عامة لهندسة البروتين. بروك. ناتل أكاد. Sci.USA 95، ٦٧٠٥-٦٧١٠. (دوى: 10.1073 / pnas.95.12.6705) كروسريف ، PubMed ، الباحث العلمي من Google

بيكر سي ، هانتر سي إف ، سيدل آر ، كنت إس بي إتش ، جودي آر إس ، إنجلهارد إم

. 2003 التوليف الكيميائي الكلي لزوج بروتين متفاعل وظيفي: الجين البروتوني H-Ras ومجال ربط Ras لمؤثره c-Raf1. بروك. ناتل أكاد. علوم. الولايات المتحدة الأمريكية 100، 5075-5080. (دوى: 10.1073 / pnas.0831227100) كروسريف ، PubMed ، الباحث العلمي من Google

. 2004 توليف كامل لوعاء واحد من Crambin. انجيو. تشيم. 43، ٢٥٣٤-٢٥٣٨. (دوى: 10.1002 / anie.200353540) كروسريف ، PubMed ، الباحث العلمي من Google

Li JB، Li YY، He QQ، Li YM، Li HT، Liu L

. 2014 الربط الكيميائي الأصلي بوعاء واحد لهيدرازيدات الببتيد يتيح التوليف الكامل للهستونات المعدلة. منظمة. بيومول. تشيم. 12، 5435-5441. (دوى: 10.1039 / C4OB00715H) كروسريف ، PubMed ، الباحث العلمي من Google

أوليفير إن ، فيكون جيه ، فالين أ ، دروبيك ح ، ديزميت آر ، مهدي كيو ، لوكليرك ب ، جوورماشتيغ ، فافور الخامس ، ميلنيك أو

. 2012 استراتيجية ربط ثلاثية الأجزاء مكونة من وعاء واحد لتخليق البروتين الكيميائي. انجيو. تشيم. كثافة العمليات إد. 51، 209-213. (دوى: 10.1002 / anie.201105837) كروسريف ، PubMed ، الباحث العلمي من Google

Aihara K ، Yamaoka K ، Naruse N ، Inokuma T ، Shigenaga A ، Otaka A

. 2016 ربط كيميائي أصلي واحد / متسلسل باستخدام تشفير ضوئي. منظمة. بادئة رسالة. 18، 596-599. (دوى: 10.1021 / acs.orglett.5b03661) كروسريف ، PubMed ، الباحث العلمي من Google

Otaka A ، Sato K ، Ding H ، Shigenaga A

. 2012 ربط كيميائي أصلي واحد / متسلسل باستخدام ببتيد N-sulfanylethylanilide. تشيم. Rec. 12، 479-490. (دوى: 10.1002 / tcr.201200007) كروسريف ، PubMed ، الباحث العلمي من Google

Asahina Y، Kawakamia T، Hojo H

. 2017 ربط كيميائي أصلي بوعاء واحد عن طريق مزيج من سلائف ثيوستر متعامدة. تشيم. كومون. 53، 2114-2117. (دوى: 10.1039 / C6CC10243C) كروسريف ، PubMed ، الباحث العلمي من Google

بانج د ، بنتلوت بل ، كينت س ب

. 2006 الربط المتحكم فيه حركيًا من أجل التوليف الكيميائي المتقارب للبروتينات. انجيو. تشيم. كثافة العمليات إد. إنجل. 45، 3985 - 3988. (دوى: 10.1002 / anie.200600702) كروسريف ، PubMed ، الباحث العلمي من Google

. 2007 ربط الببتيد المتسلسل باستخدام وحدة التنشيط التلقائي لسيستينيل برولايل استر (CPE). رباعي الوجوه ليت. 48، 1903–1905. (دوى: 10.1016 / j.tetlet.2007.01.086) كروسريف ، الباحث العلمي من Google

Zheng JS ، Cui HK ، Fang GM ، Xi WX ، Liu L.

. 2010 تخليق البروتين الكيميائي عن طريق الربط المتحكم فيه حركيًا لببتيد O- استرات. تشيمبيوتشيم 11، 511-515. (دوى: 10.1002 / cbic.200900789) كروسريف ، PubMed ، الباحث العلمي من Google

إرليش لوس أنجلوس ، كومار كانساس ، الحاج يحيى م ، داوسون بي ، بريك أ

. 2010 N-methylcysteine ​​التخليق الكيميائي الكلي للثيوستر يوبيكويتين. منظمة. بيومول. تشيم. 8، 2392 - 2396. (دوى: 10.1039 / c000332h) كروسريف ، PubMed ، الباحث العلمي من Google

فانغ جي إم ، لي واي إم ، شين إف ، هوانغ واي سي ، لي جي بي ، لين واي ، كوي هونج كونج ، ليو إل

. 2011 التركيب الكيميائي للبروتين عن طريق ربط هيدرازيدات الببتيد. انجيو. تشيم. كثافة العمليات إد. إنجل. 50، 7645–7649. (دوى: 10.1002 / anie.201100996) كروسريف ، PubMed ، الباحث العلمي من Google

يانغ آر ، هوو دبليو ، تشانغ إكس ، ليو سي إف

. 2012 N-to-C الربط المتسلسل باستخدام كتل بناء أميد الببتيدل N ، N-bis (2-مركابتوإيثيل). منظمة. بادئة رسالة. 14، 374 - 377. (دوى: 10.1021 / ol2031284) كروسريف ، PubMed ، الباحث العلمي من Google

بيلو سي ، وانغ إس ، ومنغ إل ، وموريمين كو ، وبيكر سي

. 2015 A المساعد الضوئي PEGylated photocleavable يتوسط الارتباط بالجليكوزيل الإنزيمي المتسلسل والربط الكيميائي الأصلي للببتيدات. انجيو. تشيم. كثافة العمليات إد. 54، 7711 - 7715. (دوى: 10.1002 / anie.201501517) كروسريف ، PubMed ، الباحث العلمي من Google

Schwagerus S ، Reimann O ، Despres C ، Smet-Nocca C ، Hackenberger C

. 2016 التركيب شبه التوليفي لبروتين تاو O-GlcNAcylated الخالي من العلامات عن طريق الربط الانتقائي الكيميائي المتسلسل. J. بيبت. علوم. 22، 327 - 333. (دوى: 10.1002 / psc.2870) كروسريف ، PubMed ، الباحث العلمي من Google

Takenouchi T ، Katayama H ، Nakahara Y ، Nakahara Y ، Hojo H

. 2014 جهاز جديد للأسترة بعد الربط يتيح ربط الببتيد في اتجاه N إلى C: دراسة تركيبية للجليكوديلين البشري. J. بيبت. علوم. 20، 55-61. (دوى: 10.1002 / psc.2592) كروسريف ، PubMed ، الباحث العلمي من Google

لي سي إل ، ليو إتش ، وونغ سي تي تي ، تشاو هاي ، لي إكس سي

. 2016 تمكين ربط N-to-C Ser / Thr لتخليق البروتين المتقارب من خلال الجمع بين أساليب الربط الكيميائي. جيه. تشيم. شركة 138، 10477-10 484. (دوى: 10.1021 / jacs.6b04238) كروسريف ، الباحث العلمي من Google

هوو دبليو ، تشانغ إكس ، لي إف بي ، ليو سي ، ببتيدل إن

. 2011 N-bis (2-mercaptoethyl) -amides كسلائف thioester للربط الكيميائي الأصلي. منظمة. بادئة رسالة. 13، 386-389. (دوى: 10.1021 / ol102735k) كروسريف ، PubMed ، الباحث العلمي من Google

أوليفير إن ، ديور جي ، ميديا ​​آر ، بلانبين إيه ، ميلنيك أو

. 2010 Bis (2-sulfanylethyl) ربط ببتيد أميني أصلي. منظمة. بادئة رسالة. 12، 5238-5241. (دوى: 10.1021 / ol102273u) كروسريف ، PubMed ، الباحث العلمي من Google

. 1996 أسيل ثنائي كبريتيد الأسيل داخل الجزيء للاقتران المتعامد بين مقاطع الببتيد غير المحمية. الآلية والتطبيق. رباعي الوجوه ليت. 37، ٩٣٣-٩٣٦. (دوى: 10.1016 / 0040-4039 (95) 02394-1) كروسريف ، الباحث العلمي من Google

داوسون بي ، موير تو ، كلارك لويس الأول ، كنت سب

. 1994 تركيب البروتينات عن طريق الربط الكيميائي الأصلي. علم 266، ٧٧٦-٧٧٩. (دوى: 10.1126 / العلوم.7973629) كروسريف ، PubMed ، الباحث العلمي من Google

. 1972 تنقية المونيلين ، مبدأ الحلو ديوسكوروفيلوم الكمون . بيوكيم. بيوفيز. اكتا 261، 114-122. (دوى: 10.1016 / 0304-4165 (72) 90320-0) كروسريف ، PubMed ، الباحث العلمي من Google

. 1973 بروتين التحفيز الكيميائي: نوع جديد من محفزات التذوق. علم 181، 32 - 35. (دوى: 10.1126 / العلوم .181.4094.32) كروسريف ، PubMed ، الباحث العلمي من Google

Tancredi T ، Iijima H ، Saviano G ، Amodeo P ، Temussi PA

. 1992 التحديد الهيكلي للموقع النشط للبروتين الحلو: تحقيق 1 H NMR من pMNEI. FEBS ليت. 310، 27-30. (دوى: 10.1016 / 0014-5793 (92) 81138-C) كروسريف ، PubMed ، الباحث العلمي من Google

. 2008 تخليق المرحلة الصلبة للثيو أحماض الببتيدية من خلال التحلل المائي لثايستر الببتيد المرتبط بالراتنج. رباعي الوجوه ليت. 49، 6122-6125. (دوى: 10.1016 / j.tetlet.2008.08.018) كروسريف ، الباحث العلمي من Google

كايزر إي ، كوليسكوت آر إل ، بوسينجر سي دي ، كوك بي

. 1970 اختبار اللون للكشف عن المجموعات الأمينية الطرفية الحرة في تخليق الببتيدات في المرحلة الصلبة. شرجي. بيوتشيم. 34، 595-598. (دوى: 10.1016 / 0003-2697 (70) 90146-6) كروسريف ، PubMed ، الباحث العلمي من Google

Kim SH، Kang CH، Kim R، Cho JM، Lee YB، Lee TK

. 1989 إعادة تصميم البروتين الحلو: زيادة الاستقرار وقابلية إعادة التشبع. هندسة البروتين. 2، 571-575. (دوى: 10.1093 / بروتين / 2.8.571) كروسريف ، PubMed ، الباحث العلمي من Google


المواد والأساليب

مجموعة هياكل البروتين غير الزائدة عن الحاجة

تمت تصفية التكرار في قاعدة بيانات PDB (يونيو 2005) إلى قائمة تمثيلية بحيث تفشل محاذاة MAMMOTH [27] من أي سلسلتين في القائمة على الأقل في واحدة من القطع الأربعة التالية: حد أدنى من هوية التسلسل 90٪ حد أدنى 90٪ من ذرات Cα محاذاة ضمن 4 Å بحد أقصى 1 Cα متوسط ​​الانحراف التربيعي وبحد أقصى 50 فرقًا في الطول. تمثل كل سلسلة غير زائدة عن الحاجة جميع سلاسل PDB الأخرى في القائمة الأولية التي تمرر الحدود المقطوعة المذكورة أعلاه لجميع المقارنات الزوجية داخل المجموعة حيثما أمكن ذلك ، تم اختيار الممثل من خلال تعظيم الدقة. بالإضافة إلى ذلك ، تمت إزالة إدخالات PDB القديمة وكذلك الإدخالات ذات الذرات المفقودة من المجموعة الأولية ، مما أدى إلى قائمة نهائية من 22.732 سلسلة بروتين. لتقييم تأثير تكرار PDB على دقة EvPs في تقييم النموذج ، تم تجميع المجموعة التمثيلية النهائية من السلاسل من خلال تغيير هوية التسلسل وانقطاعات تشابه الهيكل (الجدول S1 في ملف البيانات الإضافية 1).

محاذاة تسلسل متعددة

تم بناء MSA لكل من 22.732 سلسلة PDB غير زائدة باستخدام PSI-BLAST (الإصدار 2.2.10) [28] للبحث في NCBI لا قاعدة البيانات (يونيو 2005). تم إجراء البحث دون تصفية المقاطع المنحازة من الناحية التركيبية ، والتي تعمل لما يصل إلى 5 تكرارات ، بما في ذلك ما يصل إلى 100000 زيارة متسلسلة بقيمة إلكترونية أصغر من 5 × 10 -4. تم تعيين جميع معلمات PSI-BLAST الأخرى على قيمها الافتراضية. أدت إزالة سلاسل البروتين التي تتماشى مع أقل من 20٪ أو 40٪ أو 60٪ من هوية التسلسل لبروتين الاستعلام إلى تصفية MSAs. أخيرًا ، تم استخدام جميع MSAs التي تمت تصفيتها مع 50 تسلسلًا أو أكثر لاشتقاق EvPs (الجدول S1 في ملف بيانات إضافي 1).

ترجيح التسلسل

تم استخدام ترجيح التسلسل المستند إلى الموضع الذي يخصص أوزانًا منخفضة للتسلسلات ذات التمثيل الزائد والأوزان العالية للتسلسلات الفريدة للتعويض عن التوزيع غير المنتظم لتسلسلات البروتين المتماثل في MSA [29]. أوزان التسلسل دبليو يتم حسابها على النحو التالي:

أين ص أناهو عدد أنواع المخلفات المختلفة في الموضع أنا، و نأنا,يهو تكرار حدوث نوع البقايا في الموضع أنا والتسلسل ي فيما يتعلق بجميع المخلفات في الموضع أنا.

اشتقاق الإمكانات المعرفية

تم اشتقاق نوعين مختلفين من الإمكانات القائمة على المعرفة في هذا العمل: إمكانات تمثيلية تعتمد على المسافة (REP) ، تُستخدم كخط أساس لقياس تأثير نهجنا الجديد ، وسلسلة من إمكانات الهيكل المحددة المعتمدة على المسافة هنا تسمى EvPs . كان الاختلاف الفريد بين إمكانات REP و EvP هو المساحة الهيكلية للإدخال المختارة لاشتقاقها بالإضافة إلى استخدام معلومات التسلسل. من ناحية ، تم حساب إمكانات REP من مجموعة مكونة من 22732 بنية بروتينية غير زائدة عن الحاجة (الشكل 4 أ) باتباع النهج الشائع استخدامه لاشتقاق إمكانات تعتمد على المسافة [7 ، 19 ، 30-35]. من ناحية أخرى ، بالنسبة لـ 20،008 من 22،732 بنية بروتينية غير زائدة عن الحاجة (أي الهياكل التي تحتوي على أكثر من 50 تسلسلًا متماثلًا في MSA) ، تم حساب EvP باستخدام تباين التسلسل في مجموعة من المتواليات المتماثلة للبنية المحددة ( الشكل 4 ب). تم اشتقاق كل EvP من خلال ربط جميع التسلسلات المتماثلة في MSA تقريبًا بالبنية المحددة ، والتي تم استخدامها كدليل لاستبدال نوع الأحماض الأمينية في كل موضع. وبالتالي ، يمكن للمرء أن يقول أن 20،008 EvPs يشفر تباين التسلسل الذي لوحظ في MSA لكل من الهياكل غير الزائدة عن الحاجة. باختصار ، اتبع نهج الخيوط المطبق لاشتقاق EvPs ثلاث خطوات: أولاً ، قم بجمع كل المحاذاة الزوجية بين الهيكل المحدد وتسلسله المتماثل في MSA الثاني ، باستخدام كل محاذاة زوجية كدليل ، واستبدل نوع الأحماض الأمينية في الهيكل المحدد من خلال واحد في التسلسل المتماثل والثالث ، بالنسبة لموضع فجوة ، احتفظ بالبقايا الأصلية في الهيكل المحدد. تم أيضًا اختبار شكلين مختلفين من هذا البروتوكول ، بما في ذلك إزالة المخلفات في الهيكل المحاذي للفجوة وإعادة ترقيم بقايا القالب (أي ، التأثير على قيمة فصل التسلسل للإمكانات الإحصائية). أظهرت البروتوكولات المختبرة عدم وجود فروق ذات دلالة إحصائية بين EvPs الناتجة (الجدول S6 في ملف البيانات الإضافية 1). كان حساب تفاعلات البقايا والمخلفات لاشتقاق EvP متناسبًا مع وزن التسلسل الذي يمثل التكرار داخل MSA.

بروتوكولات اشتقاق EvP و REP. (أ) تم بناء إمكانات REP في عملية من ثلاث خطوات من أجل: الخطوة 1 ، إنشاء مجموعة غير زائدة من هياكل البروتين من قاعدة بيانات PDB الخطوة 2 ، وحساب جميع ترددات مسافة البقايا المتبقية داخل كل من السلاسل التمثيلية من الخطوة 1 والخطوة في الشكل 3 ، اشتق إمكانات قائمة على المعرفة باستخدام قانون Boltzmann المعكوس لتحويل الترددات الخام إلى مصطلحات طاقة زائفة. (ب) تم إنشاء EvPs في عملية من ست خطوات من أجل: الخطوة 1 ، إنشاء مجموعة غير زائدة من هياكل البروتين من قاعدة بيانات PDB الخطوة 2 ، حدد كل من السلاسل التمثيلية كهياكل الاستعلام الخطوة 3 ، وحساب MSA باستخدام PSI- برنامج بلاست الخطوة 4 ، قم بربط جميع التسلسلات المتماثلة في بنية الاستعلام باستخدام المحاذاة القائمة على التسلسل من الخطوة السابقة 5 ، وحساب جميع ترددات مسافة البقايا المتبقية والخطوة 6 ، واشتق إمكانات قائمة على المعرفة باستخدام قانون بولتزمان المعكوس للتحويل الترددات الخام في شروط الطاقة الزائفة.

على النقيض من REP ، حيث شكلت مجموعة الهياكل البروتينية غير الزائدة عن الحاجة مجموعة التدريب الخاصة بها ، لم تكن هناك مجموعة تدريب واحدة وفريدة من نوعها لاشتقاق EvP. كانت مجموعات التدريب المستخدمة في EvPs هي محاذاة التسلسل المتعددة الفعلية المحددة لكل هيكل محدد.

بالإضافة إلى REP و EvPs ، تم اشتقاق إمكانية إجماع واحدة (CON) باستخدام مجموع ترددات التفاعل المرصودة من كل من 20،008 EvPs الفردية. وبالتالي ، فإن احتمال CON يشفر الفضاء الهيكلي الذي يشمله مجموعة الهياكل غير الزائدة عن الحاجة بالإضافة إلى مساحة التسلسل التي تشغلها متوالياتها المتجانسة.

تم حساب جميع الإمكانات المشتقة في هذا العمل باستخدام معلماتنا المُحسَّنة مسبقًا لتقييم النموذج [7]. باختصار ، استخدمت الإمكانات ذرات Cα و Cβ كمراكز تفاعل ، وتمييزها بين جميع أنواع المخلفات القياسية العشرين ، وكان لها نطاق مسافة قصوى يبلغ 15 موزعة في 30 حاوية من 0.5 Å لكل منها ، وتم حساب الفصل المتسلسل لأزواج الذرة المتفاعلة. تم النظر في التفاعلات المحلية بشكل مستقل باستخدام فصل تسلسلي لـ 2 و 3 و 4 و 5 و 6 و 7 و 8 من المخلفات والتفاعلات غير المحلية تم أخذها في الاعتبار من خلال تجميع التفاعلات مع فواصل التسلسل أكبر من أو تساوي 9 وحدات بنائية في مصطلح واحد.

عشرات Z

تم حساب درجات الطاقة Z بناءً على طاقة نموذج البروتين والمتوسط ​​والانحراف المعياري للطاقة الكامنة القائمة على المعرفة لـ 1000 تسلسل عشوائي مع نفس تكوين الأحماض الأمينية وهيكل نموذج البروتين ، كما هو موضح سابقًا [7].

بروتوكول تقييم النموذج

تم حساب قيمة EvP لكل سلسلة من السلاسل غير الزائدة في PDB وتمثل مجموعة معينة من الهياكل المماثلة. وبالتالي ، فإن اختيار EvP لتقييم دقة نموذج معين يمكن أن يكون له تأثير على الدقة النهائية لطريقتنا. تم تنفيذ واختبار عدة بروتوكولات لتقييم مثل هذا التأثير.

اختيار على أساس القالب

تم الحصول على بنية القالب المستخدمة لبناء النموذج من محاذاة بنية التسلسل المقابلة المستخدمة أثناء النمذجة. بعد ذلك ، تم استخدام EvP الذي يمثل الكتلة الهيكلية للقالب لتقييم دقة النموذج.

اختيار بدون قالب

من أجل تقييم تأثير اختيار EvP للنماذج الخالية من القوالب ، تم استخدام خوارزميات PSI-BLAST و BLAST مع القيم الافتراضية لاكتشاف أقرب تطابق بين تسلسل النموذج وقاعدة بيانات EvPs الخاصة بنا.

اختيار عشوائي

تم حساب ما يسمى بالإمكانات العشوائية (RND) عن طريق اختيار عشوائي واحد من 20،008 EvPs لتقييم دقة نموذج معين.

لتجنب النتائج المتحيزة ، تمت إزالة EvP المشتق للهيكل المستهدف قبل اختيار EVP في جميع البروتوكولات الثلاثة. ومع ذلك ، من المهم ملاحظة أنه ليس من المؤكد ، حتى من الناحية المفاهيمية ، أن الاختبار الصارم لطريقة ما لا ينبغي أن يعتمد على هياكل مماثلة أو مطابقة لتلك التي اشتُقّت منها الإمكانات. في الممارسة العملية ، يجب استخدام الإمكانات الإحصائية في تقييم النماذج للنماذج المقارنة التي تشبه ، من خلال البناء ، هياكل البروتين المعروفة.لذلك ، تعد جميع هياكل البروتين المعروفة مصادر مشروعة لاشتقاق أي من الإمكانات الإحصائية المستخدمة في تقييم النموذج العملي ، بما في ذلك الهياكل المعروفة التي تكون مرتبطة بالنموذج المقيَّم.

مجموعة اختبار من النماذج المقارنة

استند تقييم EvPs لتقييم النموذج على مجموعة أولية من 9645 نموذجًا هيكليًا مقسمة إلى 3375 نموذجًا صحيحًا و 6270 نموذجًا غير صحيح [7 ، 22]. تم تعريف النموذج الصحيح على أنه نموذج يتم تركيب ما لا يقل عن 30٪ من ذرات Cα فيه ضمن 3.5 Å مع ذرات الهيكل الحقيقي ، وبالتالي يعتمد على تخصيص الطي المناسب وتسلسل / هيكل دقيق نسبيًا. تم بناء النماذج غير الصحيحة (أي تراكب أقل من 15٪ من ذرات Cα ضمن 3.5 Å) باستخدام طية خاطئة أو استنادًا إلى الطية الصحيحة ، ولكنها تحتوي على جزء كبير من حالات عدم المحاذاة. وهكذا ، فإن مجموعة الاختبار لنماذج بنية البروتين ، والتي كانت نتيجة للنمذجة المقارنة واسعة النطاق لـ PDB الكامل [22] ، مثلت الفضاء الهيكلي المعروف للبروتين. تم استخدام هذه المجموعة من النماذج المقارنة سابقًا وعلى نطاق واسع لقياس طرق تقييم النموذج [7 ، 17 ، 22 ، 36 ، 37].

لتكون قادرًا على مقارنة جميع الإمكانات إلى حد ما ، تم تقليل مجموعة الاختبار الأولية إلى 1،877 نموذجًا صحيحًا و 2567 نموذجًا غير صحيح ، والتي تتوافق مع تلك التي يمكن اشتقاق EvP من أجلها لجميع عمليات قطع المجموعات (الجدول S1 في ملف البيانات الإضافية 1). نظرًا لأنه لا يمكن اشتقاق EvP بشكل موثوق به للهياكل التمثيلية التي تحتوي على أقل من 50 تسلسلًا متماثلًا [7] ، فإن جزءًا كبيرًا من النماذج لا يحتوي على EvP مشتق لهياكل القوالب المقابلة في مجموعة CLS-90-90_MSA-60. ومع ذلك ، يمكن حساب EvP في CLS-90-90 و MSA-20 ، والذي يتوافق مع الإمكانات الأكثر دقة القائمة على المعرفة (النتائج) ، لـ 96.4٪ (3،253) و 94.8٪ (5،942) من النماذج الصحيحة وغير الصحيحة في مجموعة الاختبار ، على التوالي.

جميع الدرجات المحتملة ، ونماذج مجموعتي البيانات المستخدمة في هذا العمل بالإضافة إلى EvPs متاحة للتنزيل في [38].

معايير المقارنة المعيارية

تم تقييم دقة الإمكانات القائمة على المعرفة عن طريق الدقة القصوى (ACC) و AUC ، والتي تم حسابها من منحنى خاصية تشغيل المستقبِل (ROC) [39] باستخدام النماذج الصحيحة كحالات إيجابية ونماذج غير صحيحة كحالات سلبية . يتم الحصول على منحنى ROC من خلال رسم FPR (أي جزء من النماذج غير الصحيحة التي تم تقييمها على أنها صحيحة) مقابل TPR المقابل (أي جزء من النماذج الصحيحة التي تم تقييمها على أنها صحيحة) لجميع عمليات القطع الممكنة على درجة Z للطاقة. يعتبر AUC ، وهو مقياس مستقل عن العتبة ، مؤشرًا قويًا لجودة المصنف نظرًا لاستقلاليته عن العتبة المحددة وارتباطها باحتمالية خطأ المصنف [39]. يتم أيضًا الإبلاغ عن عتبة التصنيف المثلى التي تؤدي إلى الحد الأقصى لـ ACC لكل احتمال تم اختباره.

طرق قياس أخرى

تم أيضًا تقييم اثنين من الإمكانات القائمة على المعرفة المستخدمة على نطاق واسع لاكتشاف الأخطاء في نماذج بنية البروتين لتوفير إطار مرجعي إضافي وموضوعي لتقييم دقة EvPs. أولاً ، برنامج Prosa II [4 ، 20 ، 21] ، المشتق من مجموعة من الهياكل غير الزائدة عن الحاجة ، يحسب درجة الطاقة ودرجة Z لنموذج الإدخال. ثانيًا ، يحسب برنامج DFIRE [19] ، المشتق باستخدام الغاز المثالي المحدود المحدود المسافة كحالة مرجعية ، درجة الطاقة لنموذج. تم حساب درجات DFIRE Z النهائية باستخدام الإجراء الموضح أعلاه. تم تشغيل كلا البرنامجين ، Prosa II و DFIRE ، محليًا باستخدام المعلمات الافتراضية الخاصة بهما.

الدلالة الإحصائية للاختلافات بين الإمكانات المقيمة

تم تقييم الأهمية الإحصائية للاختلافات الملحوظة بين اثنين من الإمكانات المستخدمة كمصنفات ثنائية من خلال اختبار غير حدودي يفسر ارتباط منحنيات ROC [40]. يستفيد هذا الاختبار من المساواة بين إحصاء Mann-Whitney U و AUC عند حسابه بواسطة قاعدة شبه منحرف لمقارنة توزيعين. إحصاء مربع كاي يحسب الأهمية (ص-value) للفرق بين AUC المقاسة للمصنفين. يتم الإبلاغ عن النتائج المقابلة للمقارنات الإحصائية في ملف البيانات الإضافية 1 (الجداول S1 و S3-S5).


شاهد الفيديو: أضف إلى حدود 4 جيغا من الرام لهاتفك دون فتحه واجعله سريعا! (شهر فبراير 2023).