نحن بحاجة إلى مهندس بدوام كامل يركز على - استخدام واجهات برمجة تطبيقات الذكاء الاصطناعي الحالية لوضع العلامات/زيادة البيانات - إنشاء خط أنابيب للتحقق من جودة البيانات - ضبط SLMs باستخدام البيانات الموسومة التي تم التحقق من صحتها (LLM -> تقطير SLM) - اختبار أداء النماذج - تعبئة النماذج (Docker + Python) - التوثيق
المؤهلات المطلوبة
نحن نبحث عن مهندس البرمجة اللغوية العصبية/تعلم الآلة لامتلاك دورة الحياة الكاملة لخط أنابيب نموذج اللغة الصغيرة (SLM) الخاص بنا - بدءًا من تصنيف البيانات وزيادتها باستخدام واجهات برمجة تطبيقات الذكاء الاصطناعي الحالية، وحتى التحقق من الجودة والضبط الدقيق، وصولاً إلى نماذج التعبئة والتغليف للإنتاج وتوثيق كل شيء بوضوح. DoModel & Data Pipeline Work استخدم واجهات برمجة تطبيقات الذكاء الاصطناعي الحالية (OpenAI وGoogle وما إلى ذلك) لوضع العلامات وزيادة البيانات. تصميم وتنفيذ خطوط أنابيب التحقق من جودة البيانات لضمان أن البيانات المُصنفة متسقة وجديرة بالثقة. ضبط نماذج اللغات الصغيرة (SLMs) باستخدام البيانات المُصنفة التي تم التحقق من صحتها، بما في ذلك سير عمل LLM → SLM للتقطير. إنشاء اختبارات أداء النموذج وتشغيلها وأتمتتها (الدقة والمتانة ووقت الاستجابة والتكلفة، وما إلى ذلك) على نماذج البرمجة اللغوية العصبية الخاصة بنا. نماذج وخطوط الإنتاج وحزمة الأدوات باستخدام Python + Docker لسهولة النشر. اكتب كود Python النظيف والمعياري على مستوى الإنتاج (مع الاختبارات عند الاقتضاء). احتفظ بوثائق واضحة لمجموعات البيانات وخطوط التدريب والنماذج وواجهات برمجة التطبيقات حتى يتمكن الآخرون من العمل مع مخرجاتك. المهارات والخبرة الأساسية والأدوات البيئية والراحة اليومية في دفاتر Google Colab أو Jupyter. ملفات التعريف والبيئات الافتراضية).مكتبات بايثون (إلزامية)محولات الوجه المعانقةscikit-learn (sklearn)PyTorch (torch)google-geneativeaiOpenAI Python SDKSLM / NLP Frameworksتجربة عملية في الضبط أو الاستخدام: النماذج المستندة إلى BERT (BERT وDistilBERT وDeBERTa وما إلى ذلك)T5 (جهاز التشفير/وحدة فك التشفير) أو ما شابه ذلك بنيات تسلسل إلى تسلسل، البيانات والتنسيقات، الطلاقة في JSON وتنسيقات تبادل البيانات الشائعة (CSV، Parquet، إلخ.). تصميم مريح والعمل مع المخطط للمطالبات والتسميات والبيانات الوصفية ومخرجات التقييم. التواصل باللغة الإنجليزية القوية (تحدثًا وكتابة) - ستقرأ الأوراق، وتناقش الهندسة المعمارية، وتوثق باللغة الإنجليزية. من الجيد أن يكون لديك خبرة في خدمات AWS مثل Lambda، وECS، وEC2، S3.خبرة عملية مع Docker (إنشاء الصور، والدفع إلى السجلات، وأفضل الممارسات الأساسية). معرفة عملية بـ SQL (كتابة الاستعلامات، والتحسين الأساسي، ودمج خطوط أنابيب ML مع قواعد البيانات). كيف يبدو النجاح في هذا الدور خلال أول 3 إلى 6 أشهر، سيكون لديك: تصميم وشحن خط أنابيب واحد على الأقل من طرف إلى طرف: من وضع العلامات / التعزيز عبر واجهات برمجة تطبيقات الذكاء الاصطناعي → التحقق من الصحة → ضبط SLM الدقيق → التقييم. قوالب قابلة لإعادة الاستخدام للتجارب وتتبع المقاييس ومقارنة النماذج. تم تقديم نماذج Dockerized مع وثائق واضحة يمكن للمهندسين الآخرين نشرها بدونك.