معلومة

2: محاذاة التسلسل والبرمجة الديناميكية - علم الأحياء

2: محاذاة التسلسل والبرمجة الديناميكية - علم الأحياء


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

2: محاذاة التسلسل والبرمجة الديناميكية

2: محاذاة التسلسل والبرمجة الديناميكية - علم الأحياء

اكتب برنامجًا لحساب محاذاة التسلسل الأمثل لسلسلتين من الحمض النووي. سيعرفك هذا البرنامج على المجال الناشئ لـ علم الأحياء الحسابي التي تستخدم فيها أجهزة الكمبيوتر لإجراء البحوث على النظم البيولوجية. علاوة على ذلك ، سيتم تقديمك إلى نموذج تصميم خوارزمي قوي معروف باسم البرمجة الديناميكية.

مراجعة علم الأحياء. أ التسلسل الجيني عبارة عن سلسلة مكونة من أبجدية مكونة من أربعة أحرف من الجزيئات البيولوجية يشار إليها معًا باسم قواعد الحمض النووي. أ الجين هو تسلسل جيني يحتوي على المعلومات اللازمة لبناء بروتين. يشار إلى جميع جيناتك مجتمعة باسم الجينوم البشري ، وهو مخطط للأجزاء اللازمة لبناء البروتينات التي تشكل خلاياك. تتلقى كل خلية جديدة ينتجها جسمك نسخة من الجينوم. تقدم عملية النسخ هذه ، بالإضافة إلى التآكل الطبيعي ، عددًا صغيرًا من التغييرات في تسلسل العديد من الجينات. من بين التغييرات الأكثر شيوعًا استبدال قاعدة بأخرى وحذف سلسلة فرعية من القواعد ، يشار إلى هذه التغييرات عمومًا باسم الطفرات النقطية. نتيجة لهذه الطفرات النقطية ، فإن نفس الجين المتسلسل من الكائنات الحية وثيقة الصلة سيكون له اختلافات طفيفة.

المشكلة. من خلال بحثك ، وجدت التسلسل التالي للجين في كائن حي لم يتم دراسته سابقًا.

ما هي وظيفة البروتين الذي يشفره هذا الجين؟ يمكنك أن تبدأ سلسلة من التجارب غير الواعية في المختبر لتحديد الدور الذي يلعبه هذا الجين. ومع ذلك ، هناك فرصة جيدة لكونه نوعًا مختلفًا من جين معروف في كائن حي تمت دراسته مسبقًا. نظرًا لأن علماء الأحياء وعلماء الكمبيوتر قد حددوا (ونشروا) التسلسل الجيني للعديد من الكائنات الحية (بما في ذلك البشر) ، فإنك ترغب في الاستفادة من هذه المعلومات لصالحك. سنقارن التسلسل الجيني أعلاه بالتسلسل الذي تم تسلسله بالفعل والذي تم فهم وظيفته جيدًا.

تعديل المسافة. في هذه المهمة ، سنقيس تشابه تسلسلين جينيين من خلالهما تعديل المسافة، وهو مفهوم تم تقديمه لأول مرة في سياق نظرية الترميز ، ولكنه يستخدم الآن على نطاق واسع في التدقيق الإملائي والتعرف على الكلام واكتشاف الانتحال ومراجعة الملفات واللغويات الحسابية. نقوم بمحاذاة التسلسلين ، لكن يُسمح لنا بذلك أدخل الفجوات في أي من التسلسل (على سبيل المثال ، لجعلها لها نفس الطول). نحن ندفع غرامة لكل فجوة نقوم بإدخالها وأيضًا لكل زوج من الأحرف غير متطابقة في المحاذاة النهائية. بشكل بديهي ، تشكل هذه العقوبات النموذج النسبي للطفرات النقطية الناشئة عن الحذف / الإدراج والاستبدال. ننتج درجة عددية وفقًا للقاعدة البسيطة التالية ، والتي تُستخدم على نطاق واسع في التطبيقات البيولوجية:

ضربة جزاء كلفة
لكل فجوة 2
لكل عدم تطابق 1
لكل مباراة 0

على سبيل المثال ، اثنين من المحاذاة المحتملة AACAGTTACC و تاغتكا نكون:

المحاذاة الأولى لديها درجة 8 ، في حين أن الثانية لديها درجة 7. تعديل المسافة هي درجة أفضل محاذاة ممكنة بين التسلسل الجيني على جميع المحاذاة الممكنة. في هذا المثال ، المحاذاة الثانية هي في الواقع الأمثل ، لذا فإن مسافة التحرير بين السلسلتين هي 7. حساب مسافة التحرير مشكلة حسابية غير بديهية لأننا يجب أن نجد أفضل محاذاة بين العديد من الاحتمالات الأسية. على سبيل المثال ، إذا كان طول كلتا السلسلتين 100 حرف ، فهناك أكثر من 10 ^ 75 محاذاة محتملة.

سنشرح الحل التكراري وهو نهج أنيق. ومع ذلك ، فهي غير فعالة للغاية لأنها تعيد حساب كل مشكلة فرعية مرارًا وتكرارًا. بمجرد تحديد التعريف التكراري ، يمكننا إعادة تعريف الحل باستخدام نهج البرمجة الديناميكي الذي يحسب كل مشكلة فرعية مرة واحدة.

حل متكرر. سنحسب مسافة التحرير بين السلسلتين الأصليتين x و ذ من خلال حل العديد من مشكلات تعديل المسافات على اللواحق من الخيطين. نحن نستخدم الترميز x [i] للإشارة إلى الشخصية أنا من السلسلة. نحن أيضا نستخدم الترميز x [i..M] للإشارة إلى لاحقة x تتكون من الشخصيات x [i], x [i + 1], . x [M-1]. أخيرًا ، نستخدم الترميز اختيار [i] [j] للدلالة على مسافة التعديل x [i..M] و y [j..N]. على سبيل المثال ، ضع في اعتبارك السلسلتين x = "AACAGTTACC" و y = "تاغتكا" من الطول M = 10 و N = 8 على التوالي. ثم، x [2] يكون "ج", x [2..M] يكون "CAGTTACC"، و ص [8..N] هي السلسلة الفارغة. مسافة التعديل البالغة x و ذ يكون اختيار [0] [0].

الآن نصف مخطط تعاودي لحساب مسافة التحرير x [i..M] و y [j..N]. ضع في اعتبارك أول زوج من الأحرف في محاذاة مثالية لـ x [i..M] مع y [j..N]. هناك ثلاثة احتمالات:

نهج البرمجة الديناميكي. سيعمل التنفيذ المباشر للمخطط العودي أعلاه ، لكنه غير فعال بشكل مذهل. إذا كانت كلتا سلسلتي الإدخال تحتويان على حرف N ، فسيتجاوز عدد المكالمات المتكررة 2 ^ N. للتغلب على هذا الخطأ في الأداء ، نستخدم البرمجة الديناميكية. (اقرأ القسم الأول من القسم 9.6 للحصول على مقدمة لهذه التقنية.) البرمجة الديناميكية هي نموذج حسابي قوي ، قدمه بيلمان لأول مرة في سياق أبحاث العمليات ، ثم طبق على محاذاة التسلسلات البيولوجية بواسطة Needleman و Wunsch. تلعب البرمجة الديناميكية الآن دورًا رائدًا في العديد من المشكلات الحسابية ، بما في ذلك نظرية التحكم والهندسة المالية والمعلوماتية الحيوية ، بما في ذلك BLAST (برنامج محاذاة التسلسل الذي يستخدمه عالم الأحياء الجزيئي عالميًا تقريبًا في عملهم التجريبي). الفكرة الرئيسية للبرمجة الديناميكية هي تقسيم مشكلة حسابية كبيرة إلى مشكلات فرعية أصغر ، متجر الإجابات على تلك المشكلات الفرعية الأصغر ، وفي النهاية ، استخدم الإجابات المخزنة لحل المشكلة الأصلية. هذا يتجنب إعادة حساب نفس الكمية مرارًا وتكرارًا. بدلاً من استخدام العودية ، استخدم حلقة متداخلة تحسب اختيار [i] [j] في ال حق أجل ذلك اختيار [i + 1] [j + 1], اختيار [i + 1] [j]، و اختيار [i] [j + 1] كلها محسوبة قبل أن نحاول الحساب اختيار [i] [j].

استعادة المحاذاة نفسها. يصف الإجراء أعلاه كيفية حساب مسافة التحرير بين سلسلتين. نحن الآن نحدد كيفية استعادة المحاذاة المثلى نفسها. الفكرة الأساسية هي إعادة تتبع خطوات خوارزمية البرمجة الديناميكية إلى الوراء ، وإعادة اكتشاف مسار الخيارات (المظلل باللون الأحمر في الجدول أعلاه) من اختيار [0] [0] إلى اختيار [M] [N]. لتحديد الاختيار الذي أدى إلى اختيار [i] [j]، نحن نعتبر الاحتمالات الثلاثة:

برنامجك. اكتب برنامجًا EditDistance.java التي تقرأ ، من الإدخال القياسي ، سلسلتين من الأحرف التي تمثل التسلسلات الجينية. سيحسب ويطبع مسافة التحرير بين السلسلتين. سيقوم أيضًا باستعادة المحاذاة المثالية وطباعتها (إما أفقيًا أو رأسيًا) جنبًا إلى جنب مع العقوبات الفردية. فيما يلي نماذج تشغيل لنمطي الإخراج المختلفين.

الدليل الفرعي تسلسل من موقع COS126 بروتوكول نقل الملفات يحتوي على ملفات بيانات الاختبار القصيرة وملفات البيانات الجينومية الفعلية.

التحليلات. بعد أن تختبر برنامجك ليس فقط باستخدام المثال المذكور أعلاه ، ولكن أيضًا باستخدام العديد من ملفات بيانات الاختبار القصيرة في ملف تسلسل الدليل الفرعي ، حان الوقت لتحليل وقت التشغيل واستخدام الذاكرة. استخدام مجموعات البيانات الجينومية المشار إليها في readme.txt ملف ، استخدم فرضية مضاعفة لتقدير وقت تشغيل البرنامج (بالثواني) كدالة لأطوال سلسلتي الإدخال م و ن. من أجل البساطة ، افترض م = ن في تحليلك. قم أيضًا بتحليل استخدام الذاكرة (بالبايت). تأكد من إدخال هذه النتائج في الملف التمهيدي الخاص بك والإجابة على جميع الأسئلة.

استسلام. قم بإرسال الملفات: EditDistance.java و readme.txt. تطبيق واحد وعينة من مجموعة البيانات مخصصة للتدقيق الإملائي. هل الرصيد الإضافي مثير للاهتمام بدرجة كافية؟

رصيد إضافي. واحدة من أقوى الأدوات المتاحة اليوم هي قواعد البيانات التي تسمح للمستخدم بتقديم تسلسل وراثي واستعلام عن تسلسل مماثل موجود في جينوم كائن حي آخر. يحتوي المركز الوطني لمعلومات التكنولوجيا الحيوية على العديد من الأمثلة القوية لقاعدة البيانات وبرامج المحاذاة. للحصول على رصيد إضافي ، استخدم رمز المحاذاة الذي كتبته أعلاه لتنفيذ برنامج يأخذ كمدخل سلسلة مصدر واحد ، متبوعًا بقائمة من السلاسل المستهدفة (واحدة لكل سطر) ، وإخراج السلسلة (الجمل) المستهدفة الأكثر تشابهًا مع سلسلة المصدر. ->

تم إنشاء هذه المهمة من قبل توماس كلارك وروبرت سيدجويك وسكوت فافاي وكيفن واين. حقوق النشر والنسخ 2002.


3.1 خوارزميات المحاذاة والبرمجة الديناميكية

نفذ فلاديمير ليفنشتاين إحدى المحاولات الأولى لمحاذاة تسلسلين في عام 1965 ، وتسمى "مسافة التعديل" ، ويُطلق عليها الآن اسم Levenshtein Distance. يتم تعريف مسافة التحرير على أنها عدد عمليات التحرير اللازمة لحرف واحد "لتغيير كلمة إلى أخرى. في البداية ، وصف النصوص والكلمات المكتوبة ، ولكن تم تطبيق هذه الطريقة لاحقًا على التسلسلات البيولوجية. واحدة من الخوارزميات الأكثر استخدامًا لحساب مسافة التحرير هي خوارزمية Wagner-Fischer ، وهي خوارزمية البرمجة الديناميكية.

تعبر البرمجة الديناميكية عن المشكلة الكاملة على النحو الأمثل باعتبارها الحل الأمثل للقطع الأصغر (المشكلات الفرعية). يمكن بعد ذلك التعبير عن المشكلة الإجمالية على أنها مجموعة من المشاكل الفرعية. بالإضافة إلى خوارزمية Wagner-Fischer ، تم تطوير العديد من خوارزميات البرمجة الديناميكية الأخرى لمحاذاة التسلسلات البيولوجية بما في ذلك Needleman-Wunsch [22] وخوارزميات Smith-Waterman [23].


2: محاذاة التسلسل والبرمجة الديناميكية - علم الأحياء

اكتب برنامجًا لحساب محاذاة التسلسل الأمثل لسلسلتين من الحمض النووي. سيعرفك هذا البرنامج على المجال الناشئ لـ علم الأحياء الحسابي التي تستخدم فيها أجهزة الكمبيوتر لإجراء البحوث على النظم البيولوجية. علاوة على ذلك ، سيتم تقديمك إلى نموذج تصميم خوارزمي قوي معروف باسم البرمجة الديناميكية.

مراجعة علم الأحياء. أ التسلسل الجيني عبارة عن سلسلة مكونة من أبجدية مكونة من أربعة أحرف من الجزيئات البيولوجية يشار إليها معًا باسم قواعد الحمض النووي. أ الجين هو تسلسل جيني يحتوي على المعلومات اللازمة لبناء بروتين. يشار إلى جميع جيناتك مجتمعة باسم الجينوم البشري ، وهو مخطط للأجزاء اللازمة لبناء البروتينات التي تشكل خلاياك ، وبالتالي ، جسمك. تتلقى كل خلية جديدة ينتجها جسمك نسخة من الجينوم. تقدم عملية النسخ هذه ، بالإضافة إلى التآكل الطبيعي ، عددًا صغيرًا من التغييرات في تسلسل العديد من الجينات. من بين التغييرات الأكثر شيوعًا استبدال قاعدة بأخرى وحذف سلسلة فرعية من القواعد ، يشار إلى هذه التغييرات عمومًا باسم الطفرات النقطية. نتيجة لهذه الطفرات النقطية ، فإن نفس الجين المتسلسل من الكائنات الحية وثيقة الصلة سيكون له اختلافات طفيفة.

المشكلة. من خلال بحثك ، وجدت التسلسل التالي للجين في كائن حي لم يتم دراسته سابقًا.

ما هي وظيفة البروتين الذي يشفره هذا الجين؟ يمكنك أن تبدأ على الفور سلسلة من التجارب غير الواعية في المختبر لتحديد الدور الذي يلعبه هذا الجين. ومع ذلك ، هناك فرصة جيدة لكونه نوعًا مختلفًا من جين معروف في كائن حي تمت دراسته مسبقًا. نظرًا لأن علماء الأحياء وعلماء الكمبيوتر قد حددوا (ونشروا) التسلسل الجيني للعديد من الكائنات الحية (بما في ذلك البشر) ، فإنك ترغب في الاستفادة من هذه المعلومات لصالحك. سنقارن التسلسل الجيني أعلاه مع التسلسل الجيني بالفعل والذي تم فهم وظيفته جيدًا.

تعديل المسافة. نقيس تشابه تسلسلين وراثيين باستخدام طريقة شائعة جدًا تُعرف باسم مسافة التحرير ، وهو مفهوم يستخدم أيضًا على نطاق واسع في التدقيق الإملائي والتعرف على الكلام واكتشاف الانتحال ومراجعة الملفات واللغويات الحسابية. نقوم بمحاذاة التسلسلين ، لكن يُسمح لنا بذلك أدخل الفجوات في أي من التسلسل (على سبيل المثال ، لجعلها لها نفس الطول). نحن ندفع غرامة لكل فجوة نقوم بإدخالها وأيضًا لكل زوج من الأحرف غير متطابقة في المحاذاة النهائية. بشكل بديهي ، تشكل هذه العقوبات النموذج النسبي للطفرات النقطية الناشئة عن الحذف / الإدراج والاستبدال. ننتج درجة عددية وفقًا للقاعدة البسيطة التالية ، والتي تستخدم على نطاق واسع في التطبيقات البيولوجية:

على سبيل المثال ، اثنين من المحاذاة المحتملة من aacagttacc و تاقتكا نكون:

المحاذاة الأولى لديها درجة 8 ، في حين أن الثانية لديها درجة 7. تعديل المسافة هي درجة أفضل محاذاة ممكنة بين التسلسل الجيني على جميع المحاذاة الممكنة. في هذا المثال ، المحاذاة الثانية هي في الواقع الأمثل ، لذا فإن مسافة التحرير بين السلسلتين هي 7. حساب مسافة التحرير مشكلة حسابية غير بديهية لأننا يجب أن نجد أفضل محاذاة بين العديد من الاحتمالات أضعافا مضاعفة. على سبيل المثال ، إذا كان طول كلتا السلسلتين 100 حرف ، فهناك أكثر من 10 ^ 75 محاذاة محتملة.

حل. مهمتك هي كتابة برنامج لحساب مسافة التحرير والمحاذاة المثلى لتسلسلين وراثيين. سنحسب مسافة التحرير عن طريق تفكيك مشكلة محاذاة التسلسل على السلسلتين الأصليتين x و ذ في العديد من مشاكل المحاذاة على اللواحق من الخيطين. نحن نستخدم الترميز x [i] للإشارة إلى الحرف الأول من السلسلة. نحن أيضا نستخدم الترميز x [i..M] للإشارة إلى لاحقة x تتكون من الشخصيات x [i], x [i + 1], . x [M-1]. أخيرًا ، نستخدم الترميز اختيار [i] [j] للدلالة على مسافة التعديل x [i..M] و y [j..N]. على سبيل المثال ، ضع في اعتبارك السلسلتين x = "AACAGTTACC" و y = "تاغتكا" من الطول M = 10 و N = 8 على التوالي. ثم، x [2] يكون "ج", x [2..M] يكون "CAGTTACC"، و ص [8..N] هي السلسلة الفارغة. مسافة التعديل البالغة x و ذ يكون اختيار [0] [0].

ضع في اعتبارك أول زوج من الأحرف في محاذاة مثالية لـ x [i..M] مع y [j..N]. هناك ثلاثة احتمالات:

نهج البرمجة الديناميكي. سيعمل التنفيذ المباشر للمخطط العودي أعلاه ، لكنه غير فعال بشكل مذهل. إذا كانت كلتا سلسلتي الإدخال تحتويان على حرف N ، فسيتجاوز عدد المكالمات المتكررة 2 ^ N. للتغلب على هذا الخطأ في الأداء ، نستخدم البرمجة الديناميكية. (اقرأ Sedgewick 5.3 للحصول على مقدمة لهذه التقنية.) تعد البرمجة الديناميكية نموذجًا خوارزميًا قويًا يشكل المحرك الحسابي الأساسي للعديد من البرامج ، بما في ذلك BLAST (برنامج محاذاة التسلسل المستخدم عالميًا تقريبًا بواسطة عالم الأحياء الجزيئية في عملهم التجريبي). الفكرة الرئيسية للبرمجة الديناميكية هي تقسيم مشكلة حسابية كبيرة إلى مشكلات فرعية أصغر ، متجر الإجابات على تلك المشكلات الفرعية الأصغر ، وفي النهاية ، استخدم الإجابات المخزنة لحل المشكلة الأصلية. هذا يتجنب إعادة حساب نفس الكمية مرارًا وتكرارًا. بدلاً من استخدام العودية ، استخدم حلقة متداخلة تحسب اختيار [i] [j] في ال حق أجل ذلك اختيار [i + 1] [j + 1], اختيار [i] [j + 1]، و اختيار [i + 1] [j + 1] كلها محسوبة قبل أن نحاول الحساب اختيار [i] [j].

العثور على المحاذاة نفسها. يشير الإجراء أعلاه أعلاه إلى كيفية حساب القيمة من المحاذاة الأمثل. نصف الآن كيفية العثور على المحاذاة المثلى نفسها. من أجل إعادة بناء المحاذاة المثلى ، حافظ على مصفوفة الأحرف ، على سبيل المثال سول [i] [ي]، لتتبع مكان الحد الأدنى لقيمة المحاذاة x [i..M] مع y [j..N] جاء من. على سبيل المثال ، إذا جاء الحد الأدنى من المحاذاة x [i] مع y [j]، ثم يمكننا تسجيل هذه الحقيقة برسم سهم من (اي جاي) إلى (ط + 1 ، ي + 1). يمكننا الحصول على صورة ASCII خام لمثل هذا السهم من خلال تخزين أحد الأحرف الثلاثة '', '-'، أو '|' إلى سول [i] [ي]. نفسر الرموز الثلاثة على أنها أسهم تنبثق من (i، j) وتنتهي عند (i + 1، j + 1) و (i، j + 1) و (i + 1، j) على التوالي. في المثال أعلاه ، نحصل على مصفوفة الحل التالية:

تنظيم البرنامج. يخترع تحرير المسافة ADT مع الواجهة التالية:

main (String [] args) العامة الثابتة الفارغة يحتوي المركز الوطني لمعلومات التكنولوجيا الحيوية على العديد من الأمثلة القوية لقاعدة البيانات وبرامج المحاذاة هذه. للحصول على رصيد إضافي ، استخدم رمز المحاذاة الذي كتبته أعلاه لتنفيذ برنامج يأخذ كمدخل سلسلة مصدر واحدة ، متبوعة بقائمة من السلاسل المستهدفة (واحد لكل سطر) ، وإخراج السلسلة (سلاسل) الهدف الأكثر تشابهًا مع السلسلة المصدر. ->

تم إنشاء هذه المهمة من قبل توماس كلارك وروبرت سيدجويك وسكوت فافاي وكيفن واين. حقوق النشر والنسخ 2002 Robert Sedgewick


WOOF - دالة موضوعية موجهة للكلمات للتحقق من محاذاة التسلسل

:: وصف

WOOF (دالة موضوعية موجهة بالكلمات) هي طريقة مصممة لتطبيق مبدأ التحقق من صحة المحاذاة المرئية بصرامة. لا يُجري WOOF بالفعل تغييرات على محاذاة تسلسل متعدد ، ولكن الغرض منه هو اختيار أفضل محاذاة لمجموعة من البروتينات من مجموعة من هذه المحاذاة التي تم إنشاؤها باستخدام خوارزميات مختلفة وإعدادات المعلمات. المحاذاة الفائزة هي الأفضل لمحاذاة مجموعة من الأنماط المحفوظة المستخرجة باستخدام نهج إيجاد الأنماط مثل TEIRESIAS. يتم ترجيح الأنماط بناءً على أهميتها الإحصائية وموضعها بالنسبة إلى الأنماط الأخرى.

:: لقطات الشاشة

:: المتطلبات

:: معلومات اكثر


الاختلافات في محاذاة التسلسل.

تعظيم الخير (التطابقات) لا يعادل التقليل من التغييرات السيئة.


. . . التنسيقات ، وهي ملاحظة لا يتغير ترتيب ترتيب المحاذاة (min ، +) عن طريق: ضرب التكاليف ، من خلال a + ve ثابت مضيفًا ثابتًا ، لكل حرف ، لكل تكلفة (ملاحظة indel

باستخدام هذه الحقيقة ، يمكن استرداد احتمالات indel- والتغيير المكافئة من الدرجات أو


. . . المحاذاة المحاذاة الأكثر احتمالا f = max g = & times c (x، x) = pr (x، x)، c (x، y) = pr (x، y)، c ('-'، x) = pr (' - '، x)، c (x،' - ') = pr (x،' - ') أو f = min g = + c (x، x) = - log pr (x، x)، c (x، y) = - log pr (x، y)، c ('-'، x) = - log pr ('-'، x)، c (x، '-') = - log pr (x، '-' ). . . مجموع عدد اللحظات f = + g = & times c (x، x) = pr (x، x)، c (x، y) = pr (x، x)، c ('-'، x) = pr (' - '، x)، c (x،' - ') = pr (x،' - ') أو f = logPlus g = + c (x، x) = - log pr (x، x)، c (x، y) = - log pr (x، x)، c ('-'، x) = - log pr ('-'، x)، c (x، '-') = - log pr (x، '-' ). . . ، على سبيل المثال ، مخطط كثافة احتمالية المحاذاة
. . . احتمالية المحاذاة تقديرات العلاقات العامة (=) ، العلاقات العامة (& ني) ، العلاقات العامة (إدراج) ، العلاقات (الحذف) من المحاذاة المثلى متحيزة ، لكن التقديرات من مجموع المحاذاة ليست [YA93] (والأخيرة تعمل مع v. المتسلسلات ذات الصلة البعيدة.).
تفسير نظرية المعلومات الآن ، - السجل 2 (1/4) = 2 ، لذلك فإن قاعدة الحمض النووي تساوي حوالي 2 بت ، عادةً. نوعان من تسلسل الحمض النووي غير المرتبطين. يأخذ

2 بت / قاعدة ، سلسلتان مرتبطتان. خذ 1 إلى 2 بت / قاعدة ، وأمبير سلسلتين متطابقتين. يأخذ

1 بت / قاعدة للتشفير معًا. هذا يعطي اختبار فرضية [AWY92]. في المتصورة المنجلية العلاقات العامة (A) = العلاقات العامة (T) = 0.4 ، - السجل 2 (0.4) = 1+ بت ، العلاقات العامة (C) = العلاقات العامة (G) = 0.1 ، - السجل 2 (0.1) = 3+ بت. (ملاحظة ، بالنسبة للبروتين ، - سجل 2 (1/20)

4.3 بت). . . المعلومات المحاذاة هي فرضية حول كيفية تتابع 2. ذات صلة ، إذا كانت مرتبطة. يجيب على السؤال ، "كيف تطورت التسلسلات ، إذا كانت مرتبطة؟" هذا أكثر تفصيلاً من Q. ، مجموع احتمالات جميع المحاذاة يجيب على الأخير. ملحوظة. في "المنطقة الرمادية" ، 2 تسلسل بعيد. قد تكون ذات صلة حتى لو لم يكن هناك توافق واحد هو فرضية مقبولة.
. . . المعلومات والمحاذاة المحلية s1 = & alpha & beta & gamma s2 = & delta & beta '& epsilon & & alpha & gamma & delta & epsilon حول 2 بت / قاعدة (DNA) وبيتا

s1 '، s1 + s1' حوالي 1 بت / قاعدة إذا كان v. . . . المعلومات والتداخلات s1 = & alpha & beta s2 = & gamma & alpha '، & beta & gamma حول 2bits / base (DNA) و alpha

  1. هيكل البروتين الثلاثي كمجموعة من الوقت O (| s | 4) ، على الرغم من أنه يمكن أن يتقلص إلى O (| s | 3) مع بعض فقدان المعلومات. ، يتكيف التجزئة الهندسية لمجموعات من النقاط.
  2. بنية البروتين الثالثية كتسلسل DPA ، تحتاج إلى ac (s1 [i] ، s2 [j]) = (i) & sum m = -n ، + nf (| s1 [i] -s1 [i + m] | ، | s2 [j] -s2 [j + m] |) ، يأخذ O (| s1 |. | s2 | .n)-time ، (ii) DPA i '، j' (f (| s1 [i] -s1 [i '] |، | s2 [j] -s2 [j'] |)) -! يستغرق التنفيذ المباشر الوقت O (| s1 | 2. | s2 | 2).

والتكاليف الخطية بالقطعة

طول كلمة،
2 تسلسل ، تعديل المسافة ، سريع [Ukk82]. . . 2 تسلسل ، ملاحظة سريعة ، ملامح في D [،] لا تتقاطع. يعطي U [،] مواضع من الكنتورات في D [،]. التمثيلان ، U [،] و D [،] متكافئان يمكن استخدام أحدهما أو الآخر ، لذلك لا تحتاج إلى D [،]. يعتمد على تكاليف عدد صحيح صغير ، هنا <0 ، 1>. المنطقة المحتلة من U [،] هي

د 2 ،. . . 2 seqs ، حالة أساسية سريعة: U [0، 0] = 0 حالة عامة: U [dg، c] = max (U [dg + 1، c-1]، U [dg، c-1] + 1، U [dg-1، c-1] + 1) بينما S1 [U [dg، c]] = S2 [U [dg، c] - dg] do U [dg، c] ++ end_ while التكرار داخل التكرار عبر NB . | دج | & لو ج. احترس من شروط الحدود. تحرير المسافة = دقيقة ج مثل ذلك. . . 2 seqs ، سريع O (| s | & timesd) - الوقت الأسوأ ، لكن O (| s | + d 2) - الوقت في المتوسط! سريع إذا كانت التسلسلات متشابهة ، d & lt & lt | s |. O (d) - مسافة إذا احتجت فقط إلى d ، O (d 2) إذا احتجت إلى المحاذاة ، ولكن. يمكن أيضًا استخدام أسلوب الفحص الخاص بـ [PAD99] لتقليل المحاذاة والحصول على المحاذاة.
مشكلة السلسلة الفرعية مع wild-card ، تسترجع [FP74] الضرب الطويل لـ "المدرسة" ، على سبيل المثال ، O (n 2)-time to & n-digit number. في الواقع يمكن عمل عدد صحيح & مرات في أفكار مماثلة ، ولكن استبدال (& times ، +) بـ (= ، +) ، حل مشكلة السلسلة الفرعية في
المحاذاة المتعددة لمتواليات k ، k & ge3. كل الأزواج: المحاذاة يتم تلخيصها على أساس كل النجوم: المحاذاة يتم تلخيصها من الافتراض المركزي "السلف" إلى الشجرة القائمة: المحاذاة يتم تلخيصها على حواف التسلسلات المعطاة هي أوراق الشجرة. العقد الداخلية

أسلاف افتراضية. (يتم جمع الاحتمالات على جميع القيم الممكنة في العقد الداخلية). . . O (| s | k. حالات 2) - الوقت بشكل عام.

ملحوظة. k = 3 هي حالة خاصة مفيدة - كل عقدة داخلية في شجرة النشوء والتطور لها 3 جيران.

. . . متعددة ، تعقيد ، | s | ك = 1،000،000،000 ، على سبيل المثال ،

ك

32,000
1,000
180
32

تعد خوارزمية القوة الغاشمة غير عملية إلا إذا كانت المحاذاة ثنائية الاتجاه قد تحد نوعًا ما من مساحة البعد k المراد البحث عنها [AL89] ولكن يلزم إجراء أساليب الاستدلال و / أو الاستوكاستك بسرعة كبيرة. . . . المحاذاة المتعددة القائمة على الأشجار تستند إلى التطور ، والتسلسلات الداخلية غير معروفة ، وافتراضية ، ولكن يمكن تقدير العلاقات العامة (الرموز) ، على سبيل المثال ، الشكل 4 [AW94]
مؤكد
[معلمات الحافة]
الشخصيات الافتراضية المحتملة.

  1. محاذاة التسلسلات والحصول على التكلفة أو النتيجة ،
  2. كرر: خلط عشوائي ، محاذاة ، الحصول على تكلفة أو درجة ،
  3. إذا كان # 1
  1. ترتيب ترتيب || s قد يتغير ،
  2. اختبار فرضية مدمج ،
  3. عدد أقل من الخطأ + ves وأقل
  1. المباريات العالمية والمحلية ،
  2. المحاذاة المثلى ومجموع الاحتمالات ،
  3. تكاليف الفجوة الخطية (نموذج طفرة 3 حالات) ،
  4. نماذج سكانية مختلفة ، (العلاقات العامة [i] | s [1..i-1]) ، بما في ذلك نماذج ماركوف ذات الترتيب المنخفض
  1. البيانات الاصطناعية و
  2. بيانات حقيقية من [P.falciparum].

خلط عشوائي (أسفل اليمين "جيد")

أخضر: PRSS p-value (أزرق: درجة S-W الأولية)
أحمر: (ملخص) M- محاذاة (ماركوف = 1). فرقعة عشوائية موحدة (2 بت / قاعدة):
يجب أن تعمل جميع الطرق بشكل جيد ، وتعمل بشكل جيد.

خلط عشوائي (أسفل اليمين "جيد")

أخضر: PRSS p-value (أزرق: درجة S-W الأولية)
أحمر: (ملخص) M- محاذاة (ماركوف = 1).

بيانات 0 ترتيب ، تكوين متحيز:
PRSS جيد ، M- محاذاة أفضل.

أخضر: PRSS p-value (أزرق: درجة S-W الأولية)
أحمر: (ملخص) M- محاذاة (ماركوف = 1). فرقعة مختلطة ، إنتروبيا عالية من 0 ترتيب ، إنتروبيا منخفضة من 0 ترتيب متتالية. أخضر: PRSS p-value (أزرق: درجة S-W الأولية)
أحمر: (ملخص) M- محاذاة (ماركوف = 1)
أرجواني: M- محاذاة (نموذج التسلسل الممزوج). عدد من المتسلسلات المختلطة: مرتفع (2 بت / أساسي) & أمبير
مناطق الدرجة الأولى منخفضة الإنتروبيا.

المراجع [All93] L. أليسون ، تطبيع تكاليف الفجوة الترابطية المستخدمة في محاذاة التسلسل الأمثل. J. Theor. بيول ، 161 (2) ، ص 263-269 ، مارس 1993 ، دوى: 10.1006 / jtbi.1993.1054 ، [المزيد]. استعادة الاحتمالات المكافئة للطفرات ، ، من التكاليف أو النتائج المخصصة.
[AD 86] L. أليسون ، T. I. Dix ، خوارزمية سلسلة بت أطول سلسلة متتالية. المشاة. بروك. Lett.، 23، pp.305-310، 1986، doi: 10.1016 / 0020-0190 (86) 90091-8، [html] & amp [C-code]. يستخدم تقنيات bit-vector للحصول على تسريع يتناسب مع طول كلمة الكمبيوتر ،
[APD99] L. Allison، D. Powell، TI Dix، Compression and التقريبي المطابقة، Computer Journal، 42 (1)، pp.1-10، 1999، doi: 10.1093 / comjnl / 42.1.1 [المزيد] قدمت فكرة عن محاذاة النمذجة (هنا لآلة تحرير ذات حالة واحدة) انظر أيضًا [PAD04] الذي عمم الفكرة.
[AW94] L. Allison، C. S. Wallace ، التوزيع الاحتمالي الخلفي للمحاذاة وتطبيقها لتقدير المعلمات للأشجار التطورية ولتحسين المحاذاة المتعددة. J. موليك. Evol.، 39 (4)، pp.418-430، 1994، doi: 10.1007 / BF00160274، [كود]. عينات محاذاة من التوزيع الاحتمالي الخلفي. يتم تطبيقه أولاً على تقدير حواف شجرة تطورية معينة عبر عدة متواليات. ثانيًا ، يستخدم جنبًا إلى جنب مع التلدين المحاكي ، فإنه يعطي طريقة بحث عشوائية لمحاذاة متعددة مثالية.
[AWY92] L. أليسون ، سي إس والاس ، سي إن إن يي ، نماذج الحالة المحدودة في محاذاة الجزيئات الكبيرة. جيه مول. Evol.، 35 (1)، pp.77-89، 1992، doi: 10.1007 / BF00160262، [.ps]. احتمالات مجموع جميع عمليات المحاذاة لـ FSAs (HMMs) من 1 و 3 و 5 حالات كثافة محاذاة مخططات تكاليف المعلمات بواسطة MML تمنع overfitting.
[AL89] S. F. Altschul ، D.J Lipman ، الأشجار والنجوم ومحاذاة التسلسل البيولوجي المتعدد. تطبيق SIAM J. رياضيات ، 49 (1) ، ص 197-209 ، فبراير 1989. يستخدم المحاذاة الزوجية لوضع حد أعلى لإسقاطات المحاذاة المتعددة المثلى على كل زوج وبالتالي تقييد الحجم في الشبكة ذات الأبعاد k التي تحتاج إلى البحث عن محاذاة k-way الأمثل.
أكثر . . .
. . . المراجع [Bel57] R. E. Bellman ، البرمجة الديناميكية. مطبعة جامعة برينستون ، 1957. م. بشكل عام ، ليس من أجل المعلوماتية الحيوية ، على سبيل المثال ، تم استخدام نموذج DP لأقصر المسارات والحد الأدنى من مشاكل الشجرة الممتدة في الرسوم البيانية ، وتجزئة السلاسل الزمنية ، وتركيب المضلع ، وتخطيط النص الأمثل.
[BT86] M. J. Bishop ، E. A. Thompson ، أقصى احتمال محاذاة لتسلسل الحمض النووي. جيه مول. بيول ، 190 ، ص 159-165 ، 1986. على أساس الاحتمالية ، دولة واحدة.
[Dek83] J. Deken ، السلوك الاحتمالي للطول الأطول-المشترك-التالي. في Time Warps ، String Edits and Macromolecules ، أديسون ويسلي ، ص 359-362 ، 1983. التأثير المحلل لحجم الأبجدية على تطابق رمز الصدفة بين تسلسلين.
[Epp92] د. إيبستين ، ز. جليل ، ر. جيانكارلو ، ج. إف إيتاليانو. البرمجة الديناميكية المتفرقة 1: دوال التكلفة الخطية. Jrnl ACM، 39 (3)، pp 519-545، July 1992، doi: 10.1145 / 146637.146650. يتضمن محاذاة حيث r & le | s1 |. | s2 | تم العثور على شظايا (وسجل دائمًا + ve). سريع إذا كان r صغيرًا.
الجزء الثاني أيضًا: دالات التكلفة المحدبة والمقعرة ، الصفحات 546-567. [FP74] M. J. Fischer، M. S. Paterson، String Match and other products. معهد ماساتشوستس للتكنولوجيا ، التقرير الفني MAC TM 41 ، 1974 ، pdf @ mit. مطابقة السلسلة الفرعية مع رمز لا يهم (بدل) ، O (log (| alphabet |) .n.log (n) 2 .log (log (n))) - time ، مرتبط بضرب عدد صحيح سريع.
[Got82] O. Gotoh ، خوارزمية محسنة لمطابقة التسلسلات البيولوجية. جيه مول. بيول ، 162 ، ص 705-708 ، 1982. "تكاليف الفجوة" الخطية.
[Hir75] D. S. Hirschberg ، خوارزمية فضاء خطي لحساب التكرارات المشتركة القصوى. بالاتصالات ACM، 18 (6)، pp.341-343، 1975، doi: 10.1145 / 360825.360861 يقلل المسافة إلى خطي بطول تسلسل واحد مؤطر لـ LCS ولكن يمكن تطبيقه لتحرير المسافة.
[Hir77] D. S. Hirschberg ، الخوارزميات لأطول مشكلة متتالية شائعة. جرنل إيه سي إم ، 24 (4) ، ص 664-675 ، 1977 ، دوى: 10.1145 / 322033.322044. خوارزميات سريعة لبعض المواقف:
أكثر . . .
. . . المراجع [HS77] J. Hunt ، T. Szymanski ، خوارزمية سريعة لحساب أطول التكرارات الشائعة اللاحقة. بالاتصالات ACM ، 20 (5) ، الصفحات 350-353 ، 1977 ، دوى: 10.1145 / 359581.359603. O ((r + | s |) log | s |) - الوقت من s1 & amp s2 ، سريع إذا r & lt & lt | s i | ، أبجدية كبيرة.
[Lev66] V. I. Levenshtein ، رموز ثنائية قادرة على تصحيح عمليات الحذف والإدخال والانعكاس. الفيزياء السوفيتية Doklady. 10 (8) ، الصفحات 707-710 ، فبراير 1966. مسافة التحرير الأصلية.
[MP83] دبليو جي ماسيك ، إم إس باترسون ، كيفية حساب مسافات تحرير الأوتار بسرعة. في Time Warps ، String Edits and Macromolecules ، أديسون ويسلي ، ص 337-349 ، 1983. بالنسبة للأبجدية المحدودة ، O (n * n / log (n)) - الوقت alg. ، يدق O (n 2) إذا كان n & gt200،000. ذات أهمية نظرية فقط.
[NW91] R. Nussinow ، H. J. Wolfson ، الاكتشاف الفعال للزخارف الهيكلية ثلاثية الأبعاد في الجزيئات الكبيرة البيولوجية عن طريق تقنيات الرؤية الحاسوبية. بروك. ناتل. أكاد. علوم. الولايات المتحدة الأمريكية ، 88 ، ص 10495-10499 ، ديسمبر 1991. فيما يتعلق بالتجزئة الهندسية: أي مجموعة من 3 مخلفات تحدد نظام إحداثيات (CS). لكل تسلسل مرشح ، لكل CS ، تجزئة (دلو) كل بقايا. عد التجزئة "أصوات".
[PAD99] D. R. Powell ، L. Allison ، T. I. Dix ، تقنية فرق وقهر متعددة الاستخدامات للإنفلونزا المثلى. بروك. Lett.، 70 (3)، pp.127-139، 1999، doi: 10.1016 / S0020-0190 (99) 00053-8، [المزيد]. يقلل من تعقيد المساحة إلى خطي في طول السلسلة لمتسلسلتين ، تربيعي لـ 3 متواليات ، وما إلى ذلك ، سهل الاستخدام مع تكاليف indel / الفجوة المعقدة. يمكن استخدامها أيضًا مع خوارزميات نمط [Ukk82] السريعة.
[PAD00] D. R. Powell ، L. Allison ، T. I. Dix ، محاذاة سريعة ومثالية لثلاثة متواليات باستخدام J. Theor. بيول ، 207 (3) ، ص 325-336 ، ديسمبر 2000 ، دوى: 10.1006 / jtbi.2000.2177 ، [كود]. O (n.d 2) - أسوأ حالة في الوقت ، O (n + d 3) في المتوسط. يمكن استخدام الخوارزمية المتكررة - لمحاذاة متعددة على أساس الشجرة لأكثر من 3 متواليات. أكثر . . .
. . . المراجع [PAD04] D. R. Powell ، L. Allison ، T. I. Dix ، محاذاة النمذجة للتسلسلات غير العشوائية. سبرينغر ، ص 203 - 214 ، 2004 ، [pdf @ Springer] ، [كود]. يحاذي التسلسلات غير العشوائية ، ويبني التسلسل. نموذج إلى DPA ، المحاذاة العالمية والمحلية ، الأمثل ومجموع الاحتمالات ، المؤتمر الوطني العراقي. تكاليف الفجوة الخطية. (انظر أيضًا [APD99].)
[TO89] دبليو آر تايلور ، سي إيه أورينجو ، محاذاة بنية البروتين. جيه مول. السيرة الذاتية ، 208 (1) ، الصفحات من 1 إلى 22 ، يوليو 1989 ، دوى: 10.1016 / 0022-2836 (89) 90084-3. يقارن تراكيب البروتين بناءً على مخططات المسافات.
[Ukk83] E. Ukkonen ، عند مطابقة السلسلة التقريبية. بروك. كثافة العمليات أسيوط. في أسس نظرية الحساب ، ص 487-495 ، أغسطس 1983 ، دوى: 10.1007 / 3-540-12689-9_129. تحرير التوزيع ، سريع ، O (d & timesn) - أسوأ حالة في الوقت ، O (n + d 2) في المتوسط.
[WL83] دبليو جي ويلبر ، دي جي ليبمان ، عمليات بحث سريعة عن التشابه بين الأحماض النووية وبنوك البروتين. بروك. ناتل ، أكاد. علوم. الولايات المتحدة الأمريكية ، 80 ، ص 726-730 ، فبراير 1983 ،pnas يجعل k-tuples الذي يزيد من حجم الأبجدية الفعالة بقوة k. هذا يعطي عددًا صغيرًا من التطابقات المتقاطعة ، لذا فإن خوارزمية أسرع (

Hirschberg؟). تم استخدام Tupling ، المعروف أيضًا باسم "word" و "k-mers" وما إلى ذلك ، لاحقًا في BLAST وبرامج أخرى من هذا القبيل.
[YA93] C.N Yee، L. Allison، إعادة بناء السلاسل الماضية. J. Bioinformatics (كان Comp. Appl. BioSci، CABIOS) ، 9 (1) ، الصفحات 1-7 ، فبراير 1993 ، [المزيد]. يعطي استخدام المحاذاة المثلى الفردي تقديرات متحيزة "للمسافة" التطورية بين سلسلتين ، لكن نظرية r ، المتوسط ​​على جميع المحاذاة ، تستعيد تقديرات دقيقة على مدى واسع جدًا من التشابه.
& نسخ كلية لويد أليسون لتكنولوجيا المعلومات (كلايتون) ، تم الإنشاء باستخدام & quotvi (Linux & amp Solaris) & quot ، charset = iso-8859-1


المنهج وملاحظات المحاضرات والقراءات

  • مقدمة في المعلوماتية الحيوية (5/29)
    • نظرة عامة على DNA و RNA والبروتينات والعقيدة المركزية وأنواع بيانات الجينوم المتاحة.
    • القراءة: L. Hunter. الحياة وجزيئاتها: مقدمة موجزة. مجلة منظمة العفو الدولية 25(1):9-22, 2004.
    • البرمجة الديناميكية لمحاذاة التسلسل العالمي والمحلي ، ووظائف الجزاء الخطية والفجوة ، وإحصاءات المحاذاة ، ومصفوفات الاستبدال.
    • يُنصح بالقراءة: الفصل 2 ، Durbin et al. (انظر الموارد أدناه).
    • نظرية الاحتمالات الأساسية ، نماذج سلسلة ماركوف ، HMMs ، خوارزميات Forward & amp Viterbi ، تطبيقات للمشاكل البيولوجية وتعدين النص الطبي الحيوي.
    • القراءات الموصى بها: الفصول 2.1 و 9 ، مانينغ وأمبير شوتز الفصل 3 ، دوربين وآخرون. (انظر الموارد أدناه).
    • تقنيات عالية الإنتاجية ، التعبير التفاضلي ، خوارزميات التجميع ، خوارزميات التصنيف ، دراسات الارتباط على مستوى الجينوم.
    • Reading: M. Molla, M. Waddell, D. Page and J. Shavlik. Using Machine Learning to Design and Interpret Gene-Expression MicroarraysAI Magazine, 25(1):23-44, 2004.
    • Interesting: DNA Microarray Methodology Animation
    • Recommended reading: Chapter 14, Manning & Schutze (see resources below).
    • Secondary structure prediction, threading, the ROSETTA method, docking

    Lecture notes and some reading materials can be downloaded here in Adobe PDF format. Lectures are based on the notes of Mark Craven, Michael Molla, Burr Settles, and Ameet Soni.


    New Approaches to Prokaryotic Systematics

    Xiaoying Rong , Ying Huang , in Methods in Microbiology , 2014

    2.4.1.1 Sequence alignments

    Sequences alignments combined with both prior and subsequent quality checking of the (raw) data for each locus are pre-requisites for MLSA. The Clustal series of programs are the ones most widely used for multiple sequence alignment . The accuracy and speed of multiple alignments can be improved by the use of other programs, including MAFFT, Muscle and T-Coffee, which tend to consider requirements for scalability and accuracy of increasingly large-scale sequence data, influence of functional non-coding RNAs and extract biological knowledge for multiple sequence alignments ( Blackburne & Whelan, 2013 ). MaxAlign software ( Gouveia-Oliveira, Sackett, & Pedersen, 2007 ) can be used to delete unusual sequences from multiple sequence alignments in order to maximize the size of alignment areas, and Gblocks software ( Talavera & Castresana, 2007 ) to select conserved blocks from poorly aligned positions and to saturate multiple substitutions for multiple alignments for MLSA-based phylogenetic analyses.


    Scoring matrices:

    In optimal alignment procedures, mostly Needleman-Wunsch and Smith-Waterman algorithms use scoring system. For nucleotide sequence alignment, the scoring matrices used are relatively simpler since the frequency of mutation for all the bases are equal. Positive or higher value is assigned for a match and a negative or a lower value is assigned for mismatch. These assumption based scores can be used for scoring the matrices. There are other scoring matrices which are predefined mostly, used in the case of amino acid substitutions.

    Mainly used predefined matrices are PAM and BLOSUM.

    PAM Matrices: Margaret Dayhoff was the first one to develop the PAM matrix, PAM stands for Point Accepted Mutations. PAM matrices are calculated by observing the differences in closely related proteins. One PAM unit (PAM1) specifies one accepted point mutation per 100 amino acid residues, i.e. 1% change and 99% remains as such.

    BLOSUM: BLOcks SUbstitution Matrix, developed by Henikoff and Henikoff in 1992, used conserved regions. These matrices are actual percentage identity values. Simply to say, they depend on similarity. Blosum 62 means there is 62 % similarity.

    Gap score or gap penalty: Dynamic programming algorithms use gap penalties to maximize the biological meaning. Gap penalty is subtracted for each gap that has been introduced. There are different gap penalties such as gap open and gap extension. The gap score defines a penalty given to alignment when we have insertion or deletion. During the evolution, there may be a case where we can see continuous gaps all along the sequence, so the linear gap penalty would not be appropriate for the alignment. Thus gap open and gap extension has been introduced when there are continuous gaps (five or more). The open penalty is always applied at the start of the gap, and then the other gaps following it is given with a gap extension penalty which will be less compared to the open penalty. Typical values are –12 for gap opening, and –4 for gap extension.

    Assumed scoring schemas: If the residues (nucleotide or amino acids) are same in both the sequences the match score is assumed (Si,j) as +5 which is added to the diagonally positioned cell of the current cell (i, j position). If the residues are not same, the mismatch score is assumed as -3. This score should be added to the diagonally positioned cell of the current cell. The gap penalty score is assumed as -4 which is added to left and above positioned cells of the current cell. These scores are not unique, they can be user defined also, but the mismatch and gap penalty should be the negative values.


    Multiple sequence alignment using enhanced bird swarm align algorithm

    Affiliations: [ a ] Department of Computer Science, NationalUniversity of Computer and Emerging Science Lahore, Pakistan | [ b ] University of Management & Technology, Lahore, Pakistan | [ c ] Fordham University, New York, USA

    Correspondence: [*] Corresponding author. Hafiz Asadul Rehman, Department of Computer Science, National University of Computer and Emerging Science Lahore, Pakistan. E-mail: [email protected] .

    Abstract: Discovering structural, functional and evolutionary information in biological sequences have been considered as a core research area in Bioinformatics. Multiple Sequence Alignment (MSA) tries to align all sequences in a given query set to provide us ease in annotation of new sequences. Traditional methods to find the optimal alignment are computationally expensive in real time. This research presents an enhanced version of Bird Swarm Algorithm (BSA), based on bio inspired optimization. Enhanced Bird Swarm Align Algorithm (EBSAA) is proposed for multiple sequence alignment problem to determine the optimal alignment among different sequences. Twenty-one different datasets have been used in order to compare performance of EBSAA with Genetic Algorithm (GA) and Particle Swarm Align Algorithm (PSAA). The proposed technique results in better alignment as compared to GA and PSAA in most of the cases.

    Keywords: Multiple sequence alignment, Particle swarm optimization, Bioinformatics, Genetic algorithm, swarm intelligence, bird swarm algorithm


    شاهد الفيديو: تطبيق انا محترف الخط. لتصميم مخطوطة جميلة باسمك (شهر فبراير 2023).