Reproducibility Là Gì

     

Bình luận Reproducibility Là Gì – Nghĩa Của từ bỏ Reproducibility là ý tưởng phát minh trong nội dung hiện tại của blog Tiên Kiếm. Tham khảo nội dung để biết chi tiết nhé.

Bạn đang xem: Reproducibility là gì


Chú thích: Nguyên bản nội dung bài viết này bàn về “reproducible research”, ngơi nghỉ đây cửa hàng chúng tôi tạm dịch là “nghiên cứu vớt khả lặp”, khái niệm tóm lược về “nghiên cứu khả lặp” là loại phân tích khoa học không chỉ có báo cáo kết quả nghiên cứu mà còn bao gồm đầy đủ các bước thực hiện, đồng thời ra mắt các thông tin quan trọng (dữ liệu, thuật toán sử dụng,…) để người khác hoàn toàn có thể tiến hành lại nghiên cứu và phân tích nhằm xác nhận tính đúng đắn và mở rộng nghiên cứu dựa bên trên nền tảng phân tích cũ. Ở phía trên “reproducible” hay “reproducibility” mang nghĩa có tác dụng lặp lại, có chức năng thực hiện nay lại phân tích đã được công bố.

Bạn vẫn xem: Reproducibility là gì

Khoa học bây giờ được cho là đang lâm vào cảnh cuộc khủng hoảng rủi ro về năng lực tái lặp. Năng lực tái lặp có vẻ được hoan nghênh cùng thường là nhân tố bắt buộc so với các nghiên cứu và phân tích mang tính cộng đồng (chẳng hạn trên những tạp chí như nature xuất xắc science). Vấn đề chung cho xu thế này là việc các nghiên cứu có tác dụng được tiến hành lại một cách chủ quyền thì sẽ sở hữu tính tin cẩn cao hơn những nghiên cứu và phân tích không thể thực hiện lại một cách độc lập. Cũng cần xem xét rằng nghiên cứu khả lặp không chỉ mang chân thành và ý nghĩa xác minh, hơn thế nữa nữa nó sẽ mang lại tác dụng thiết thực cho bài toán mở rộng nghiên cứu và phân tích hay xuất bản các nghiên cứu và phân tích tương tự. Khó có thể tìm thấy những chủ ý phản bác các vấn đề trên, nhưng nên xét tới thực tiễn rằng với mỗi nhóm phân tích cũng cần đầu tư một mối cung cấp lực khăng khăng trong việc khiến cho các nghiên cứu và phân tích của họ phát triển thành khả lặp so với các nhà phân tích độc lập. Chẳng hạn việc lặp lại cục bộ những thí điểm trong phòng thí nghiệm. Mặc dù cũng có rất nhiều biến thể đơn giản dễ dàng hơn, chẳng hạn như năng lực lặp lại so với dựa trên các bộ dữ liệu đã biết.

Các loại nghiên cứu khoa học khác nhau sẽ khác nhau về khả năng tái lặp. Một lấy ví dụ như là phân tích toán học, trong không ít trường đúng theo các nghiên cứu và phân tích này cho phép việc khả lặp dựa vào những phương trình trong phiên bản thảo. Một ví dụ không giống là các phân tích hiện trường, thường xuyên thì hiệu quả phụ thuộc vào những yếu tố không kiểm soát được. Chẳng hạn việc tái lập toàn thể một nghiên cứu về ảnh hưởng của một cơn sốt ngay trước và sau thời điểm nó xảy ra bên cạnh đó là điều không thể, ít nhất xét về tính hiệu quả của nó.

Phạm vi bây giờ về kĩ năng tái lập đang ở đâu đó giữa hai lấy ví dụ mà chúng tôi chỉ ra ngơi nghỉ trên, cùng phạm vi này thu hạn hẹp hay mở rộng nhờ vào vào những bộ nguyên lý sẵn có cho những nhà nghiên cứu. Phần mềm nguồn mở, điện toán đám mây, lưu trữ dữ liệu và vô vàn những công cầm điện toán sẵn bao gồm đã mở rộng phạm vi này vào việc cho phép các phân tích khả lặp hoàn toàn có thể được triển khai trên những loại nghiên cứu hơn nhị ví dụ nghỉ ngơi trên. Mặc dù nhiên, lối chơi chữ về một cuộc rủi ro của phân tích khả lặp cho biết thêm rằng các bộ phép tắc hiện tại, tuy vậy rất quan liêu trọng, mà lại chưa xử lý được vụ việc một bí quyết triệt để.

Hiện tại công ty chúng tôi đang thao tác làm việc trong một dự án công trình về một phân tích bao gồm mức độ phức hợp vừa nên với một lượng tài liệu cũng vừa nên (49061 dòng) và shop chúng tôi đang xem sét xem để biến chuyển nó thành một nghiên cứu khả lặp trọn vẹn thì rất cần phải làm hầu hết gì. (Nghiên cứu này vấn đáp cho một câu hỏi rất 1-1 giản: loại thân gỗ chỉ chiếm tỉ lệ bao nhiêu trong giới thực vật?). Tay nghề của shop chúng tôi trong việc cố gắng biến nghiên cứu và phân tích này phát triển thành khả lặp rất có thể hữu ích cho những luận bàn tiếp sau về cách làm nạm nào để những nhà khoa học đề xuất ít thời hạn và không nhiều yếu tố kĩ thuật hơn chúng tôi để tiến hành các phân tích khả lặp của riêng họ. Nói phương pháp khác, bài toán làm này cho thấy thêm chúng tôi hữu ích đến cả nào vào việc mở rộng phạm vi khả lặp cho nhiều loại nghiên cứu và phân tích hơn và bằng phương pháp đó, khiến cho khoa học tập ngày càng an toàn và tin cậy hơn.

Cuối cùng, đối chiếu và báo cáo của công ty chúng tôi đã được tái lặp một cách hòa bình và tương đối dễ dàng cho phần đông ai ý muốn tái lặp nghiên cứu và phân tích này, nhưng lại để tiến hành được việc tái lặp ở mức độ này không hẳn là không cần bỏ công sức. Cho hầu hết ai quan liêu tâm, tổng thể mã lệnh cùng tài liệu của công ty chúng tôi có sẵn tại địa chỉ cửa hàng này.

Có 2 phần trong việc biến một dự án trở nên khả lặp: tài liệu và các phân tích đã tiến hành. Cửa hàng chúng tôi cũng lưu ý rằng thực tiễn dự án này là khả thi vì chưng những vạc triển vừa mới đây trong việc tàng trữ dữ liệu. Các bước viết một mã lệnh để tải tài liệu chính trường đoản cú Dryad và chuẩn bị cho vấn đề phân tích nó khá là đối chọi giản. Tuy nhiên, vấn đề này chỉ chứng tỏ một bắt đầu cho thách thức: bước phân tích dữ liệu giờ đây trở thành bước khó khăn nhất. Phần đông điều ngay tiếp theo sau là danh sách ngắn những bài học kinh nghiệm rút ra trường đoản cú thực tiễn thao tác của bọn chúng tôi. Mỗi bài xích học cho thấy một demo thách công ty chúng tôi phải quá qua trong quy trình thực hiện nghiên cứu và phân tích khả lặp và công cụ chúng tôi chọn để đối đầu và cạnh tranh với thách thức đó.

Những thách thức và dụng cụ cho việc tái lặp

Sử dụng nguồn dữ liệu tiêu chuẩn

Chúng tôi tải dữ liệu về từ các nguồn chuẩn chỉnh (Dryad cùng The Plant List) và chỉ sửa đổi chúng sử dụng những câu lệnh nhằm bảo đảm những biến đổi bảo toàn được nguyên vẹn đặc thù của dữ liệu ban đầu. Tác dụng của các dữ liệu mở sẽ chỉ được nhận ra nếu họ tôn trọng tính định danh của tài liệu và không tạo nên hàng trăm bản sửa thay đổi chỉ khác biệt chút ít. Điều này cũng giúp cho việc ghi công của những người đóng góp dữ liệu. Mặc dù các vấn đề như những tiêu chuẩn phân một số loại chưa thống duy nhất vẫn đang là 1 trong những vật cản lớn so với các dữ liệu về sinh thái học.

Kết hợp quan tâm đến và mã lệnh

Chúng tôi sử dụng gói knitr mang đến R nhằm thực thi các phân tích theo kiểu lập trình tất cả giải thích. Toàn thể các phân tích, bao gồm những biện giải cho những hàm cốt lõi có thể tìm thấy tại đây. Tuy nhiên, làm việc với các nhóm mã lệnh dài hay cần thời gian đáng kể để chạy vẫn đang là một trong những vấn đề nhức đầu.

Xem thêm: Từ Điển Tiếng Việt " Bản Thể Luận Là Gì, Khái Niệm Và Định Nghĩa)

Kết xuất các thông số kỹ thuật động

Toàn bộ việc xử lí tài liệu của shop chúng tôi được thực hiện bởi các mã lệnh, và cửa hàng chúng tôi có thể xóa không còn các thông số kỹ thuật đầu ra và chế tạo ra lại chúng một giải pháp dễ dàng.

Tự hễ lưu trữ những thành tố phụ thuộc

Chúng tôi thực hiện GNU make để làm chủ các thành tố phụ thuộc trong dự án, chỉ đổi khác những phần buộc phải sửa lại. điều khoản này cũng giúp cho quá trình cách tân và phát triển dự án trở thành một quy trình tự đóng góp gói.

Quản lý phiên bản

Toàn bộ mã lệnh của shop chúng tôi được quản lý phiên phiên bản sử dụng git từ dịp bắt đầu, điều này có thể chấp nhận được chúng tôi kiểm soát điều hành các phiên bạn dạng cũ một cách thuận lợi. Đây cũng chính là trung tâm dữ liệu của đông đảo thứ chúng tôi làm. Xem bài viết này giúp xem vai trò to mập của cai quản phiên phiên bản tới quá trình nghiên cứu.

Tự động bình chọn các thay đổi để bảo đảm an toàn không gây ra vấn đề

Chúng tôi áp dụng môi trường khối hệ thống tích hợp liên tiếp (continuous integration) Travis CI nhằm giám sát biến đổi trong phân tích để ngăn ngừa lỗi. Từng khi shop chúng tôi tạo ra một nạm đổi, khối hệ thống này tải mã mối cung cấp của shop chúng tôi xuống đồng thời với những dữ liệu liên quan và chạy phân tích, và sẽ gởi cho công ty chúng tôi một thư điện tử nếu bởi vì lý do gì đấy phân tích bị lỗi. Hệ thống này thậm chí còn download lên những phiên phiên bản đã biên dịch của phân tích với ghi chú mỗi một khi chạy.

Đóng gói các thành tố phụ thuộc

Chúng tôi thực hiện gói packrat mang lại R để cai quản và lưu lại trữ những gói R nhờ vào để chắc chắn khả năng khả lặp trong tương lai. Về khía cạnh lý thuyết, điều này nghĩa là giả dụ phiên bạn dạng của gói phần mềm đó biến hóa nhiều mang lại mức gây ra lỗi vào mã lệnh của chúng tôi thì shop chúng tôi đã có sẵn một bản lưu trữ có thể sử dụng được. Đây là 1 trong công chũm mới, công ty chúng tôi chưa xác nhận được nó có hoạt động hay không.

Những thách thức còn bỏ ngỏ

Chúng tôi nhận ra rằng việc đổi khác những phân tích đang hoạt động từ laptop của bạn này (với số đông tùy chỉnh cá nhân cho máy vi tính của họ) sang fan khác là 1 trong những việc khó khăn khăn. Lấy ví dụ như sự việc này. Thật khó để tham dự đoán được mọi tại sao dẫn tới không đúng sót: trong quy trình tái lặp nghiên cứu và phân tích này vì Carl Boettiger một vụ việc đã tạo nên do vấn đề chưa hoàn thiện tài liệu về những phiên bạn dạng gói cung ứng R bắt buộc thiết.Gói mã lệnh xúc tiến các công việc trên là tương đương về kích cỡ khi triển khai phân tích vào thực tế; đây là một thách thức thật sự cho các nhà nghiên cứu. Việc áp dụng nhiều ngữ điệu và framework khác nhau làm gia tăng yêu cầu về những mảng con kiến thức mang ý nghĩa kĩ thuật hơn, cũng giống như khả năng xảy ra các vấn đề đã tăng lên. Càng auto hóa quá trình này thì các phân tích khả lặp đã càng trở bắt buộc phổ biến.

Phương pháp tiếp cận sử dụng hệ thống tích hợp tiếp tục có tiềm năng lớn giúp cho việc thống trị các dự án nghiên cứu dựa trên công nghệ điện toán trở nên dễ dàng hơn. Mặc dù nhiên, mặc dù phân tích của shop chúng tôi mang tính nguyên tắc nhiều hơn thế nữa là áp dụng thực tế, nó sẽ bị giới hạn ở những mặt: đòi hỏi dự án phải là mối cung cấp mở, phân tích đề xuất chạy kha khá nhanh (dưới 1 giờ). Những giới hạn này là phù hợp lý so với các thương mại dịch vụ miễn chi phí nhưng nó sẽ không thể đáp ứng nhu cầu được những dự án nghiên cứu sử dụng những thông tin “nhạy cảm” và những tính toán hoàn toàn có thể kéo dài những giờ hay các ngày.

Chúng tôi nhấn thấy phương châm khả lặp cho dự án đã trở thành một lấy ví dụ hữu ích, cùng nó đang trở thành nền tảng cho những dự án tiếp sau. Mặc dù nhiên, quá trình này đã trở buộc phải thức tạp hơn nhiều, khiến cho việc phía dẫn cho những người khác phương pháp để làm cho dự án của chúng ta trở nên tái lặp không dễ dàng và đơn giản chỉ qua lời nói.Chúng ta cần phải cách tân và phát triển những công cụ, ít nhất phải dễ dùng như thống trị phiên phiên bản trước khi chúng ta mong đợi bài toán tái lặp dự án trở thành một xu thế chung.Chúng tôi ko phản bác ý kiến của Titus Brown về vấn đề tái lặp 1 phần thì tốt hơn là không tái lặp gì cả (50% số tín đồ làm cho quá trình của họ có công dụng tái lặp một nửa có vẻ xuất sắc hơn 5% số người tạo nên côgn việc của họ có tác dụng tái lặp 100%!). Tuy nhiên, cửa hàng chúng tôi không đống ý với cách nhìn của Titus nhận định rằng những công cụ bắt đầu là không đề nghị thiết. đều công cụ lúc này là siêu thô sơ và không ít tới mức khó ao ước chờ các nhà khoa học vận dụng trên diện rộng xu hướng tái lặp vì kim chỉ nam chính của họ chưa hẳn để tái lặp. Nếu nhận định rằng việc tái lặp là không hấp dẫn, bọn họ không thể trông chờ người khác bỏ thời gian và sức lực lao động của chúng ta ra để góp phần cho cộng đồng những thứ tốt đẹp.

Những cố gắng khác đến mục tiêu đơn giản là thực hiện lại nghiên cứu ở một máy tính khác cũng ko khả thi hơn nỗ lực của cửa hàng chúng tôi là bao. Một nghiên cứu của nhóm UBC Reproducibility cho thấy thêm họ cần thiết tái lặp công dụng của 30% đa số phân tích được chào làng sử dụng gói hỗ trợ phổ trở nên STRUCTURE, với cùng dữ liệu được cung cấp bởi tác giả. Một trường vừa lòng đáng bi đát hơn, một nhóm nghiên cứu tại đại học Arizona cho thấy thêm họ chỉ có thể build được khoảng 1/2 số ứng dụng nguồn mở nhưng họ rất có thể tải xuống mà không xét tới bài toán kiểm tra kỹ năng của ứng dụng (lưu ý rằng nghiên cứu và phân tích này hiện tại đã được tái lặp!).

Xem thêm: Cổng Aux In Là Gì ? Cổng Kết Nối Aux Trên Loa Bluetooth Là Gì

Quá trình làm cho nghiên cứu của công ty chúng tôi trở phải khả lặp cho thấy chúng ta chỉ đang tiến được những bước nhỏ tuổi trong việc làm cho nghiên cứu khả lặp trở buộc phải phổ biến đối với các nhà công nghệ trong thực tế.